"computer-use-2025-01-24"(modèles Claude 4 et Claude Sonnet 3.7 (obsolète))
Aperçu
L’utilisation d’ordinateur est une fonctionnalité bêta qui permet à Claude d’interagir avec les environnements de bureau. Cet outil fournit :- Capture d’écran : Voir ce qui s’affiche actuellement à l’écran
- Contrôle de la souris : Cliquer, faire glisser et déplacer le curseur
- Entrée clavier : Taper du texte et utiliser les raccourcis clavier
- Automatisation du bureau : Interagir avec n’importe quelle application ou interface
Compatibilité des modèles
L’utilisation d’ordinateur est disponible pour les modèles Claude suivants :| Modèle | Version de l’outil | Indicateur bêta |
|---|---|---|
| Modèles Claude 4 | computer_20250124 | computer-use-2025-01-24 |
| Claude Sonnet 3.7 (obsolète) | computer_20250124 | computer-use-2025-01-24 |
Considérations de sécurité
- Utilisez une machine virtuelle ou un conteneur dédié avec des privilèges minimaux pour prévenir les attaques système directes ou les accidents.
- Évitez de donner au modèle accès à des données sensibles, telles que les informations de connexion de compte, pour prévenir le vol d’informations.
- Limitez l’accès à Internet à une liste blanche de domaines pour réduire l’exposition au contenu malveillant.
- Demandez à un humain de confirmer les décisions qui pourraient avoir des conséquences réelles significatives ainsi que toute tâche nécessitant un consentement affirmatif, comme accepter les cookies, exécuter des transactions financières ou accepter les conditions de service.
Implémentation de référence de l'utilisation d'ordinateur
Démarrage rapide
Voici comment commencer avec l’utilisation d’ordinateur :Comment fonctionne l’utilisation d’ordinateur
1. Fournir à Claude l'outil d'utilisation d'ordinateur et une invite utilisateur
- Ajoutez l’outil d’utilisation d’ordinateur (et éventuellement d’autres outils) à votre demande API.
- Incluez une invite utilisateur qui nécessite une interaction de bureau, par exemple « Enregistrez une image d’un chat sur mon bureau ».
2. Claude décide d'utiliser l'outil d'utilisation d'ordinateur
- Claude évalue si l’outil d’utilisation d’ordinateur peut aider à la requête de l’utilisateur.
- Si oui, Claude construit une demande d’utilisation d’outil correctement formatée.
- La réponse API a un
stop_reasondetool_use, signalant l’intention de Claude.
3. Extraire l'entrée de l'outil, évaluer l'outil sur un ordinateur et retourner les résultats
- De votre côté, extrayez le nom de l’outil et l’entrée de la demande de Claude.
- Utilisez l’outil sur un conteneur ou une machine virtuelle.
- Continuez la conversation avec un nouveau message
usercontenant un bloc de contenutool_result.
4. Claude continue à appeler les outils d'utilisation d'ordinateur jusqu'à ce qu'il ait terminé la tâche
- Claude analyse les résultats de l’outil pour déterminer si plus d’utilisation d’outil est nécessaire ou si la tâche a été complétée.
- Si Claude décide qu’il a besoin d’un autre outil, il répond avec un autre
stop_reasondetool_useet vous devriez revenir à l’étape 3. - Sinon, il élabore une réponse textuelle à l’utilisateur.
L’environnement informatique
L’utilisation d’ordinateur nécessite un environnement informatique en bac à sable où Claude peut interagir en toute sécurité avec les applications et le Web. Cet environnement inclut :- Affichage virtuel : Un serveur d’affichage X11 virtuel (utilisant Xvfb) qui rend l’interface de bureau que Claude verra via des captures d’écran et contrôlera avec des actions souris/clavier.
- Environnement de bureau : Une interface utilisateur légère avec gestionnaire de fenêtres (Mutter) et panneau (Tint2) s’exécutant sur Linux, qui fournit une interface graphique cohérente pour que Claude interagisse.
- Applications : Des applications Linux pré-installées comme Firefox, LibreOffice, des éditeurs de texte et des gestionnaires de fichiers que Claude peut utiliser pour accomplir les tâches.
- Implémentations d’outils : Code d’intégration qui traduit les demandes d’outils abstraits de Claude (comme « déplacer la souris » ou « prendre une capture d’écran ») en opérations réelles dans l’environnement virtuel.
- Boucle d’agent : Un programme qui gère la communication entre Claude et l’environnement, envoyant les actions de Claude à l’environnement et retournant les résultats (captures d’écran, sorties de commande) à Claude.
- Reçoit les demandes d’utilisation d’outil de Claude
- Les traduit en actions dans votre environnement informatique
- Capture les résultats (captures d’écran, sorties de commande, etc.)
- Retourne ces résultats à Claude
Comment implémenter l’utilisation d’ordinateur
Commencez par notre implémentation de référence
Nous avons construit une implémentation de référence qui inclut tout ce dont vous avez besoin pour commencer rapidement avec l’utilisation d’ordinateur :- Un environnement conteneurisé adapté à l’utilisation d’ordinateur avec Claude
- Des implémentations des outils d’utilisation d’ordinateur
- Une boucle d’agent qui interagit avec l’API Claude et exécute les outils d’utilisation d’ordinateur
- Une interface Web pour interagir avec le conteneur, la boucle d’agent et les outils.
Comprendre la boucle multi-agent
Le cœur de l’utilisation d’ordinateur est la « boucle d’agent » - un cycle où Claude demande des actions d’outil, votre application les exécute et retourne les résultats à Claude. Voici un exemple simplifié :Modèles Claude 4
Modèles Claude 4
computer_20250124, incluez cet indicateur bêta :Claude Sonnet 3.7
Claude Sonnet 3.7
computer_20250124, incluez cet indicateur bêta :Optimiser les performances du modèle avec les invites
Voici quelques conseils sur comment obtenir les meilleures sorties de qualité :- Spécifiez des tâches simples et bien définies et fournissez des instructions explicites pour chaque étape.
- Claude suppose parfois les résultats de ses actions sans vérifier explicitement leurs résultats. Pour éviter cela, vous pouvez inviter Claude avec
Après chaque étape, prenez une capture d'écran et évaluez attentivement si vous avez atteint le résultat souhaité. Montrez explicitement votre réflexion : « J'ai évalué l'étape X... » Si ce n'est pas correct, réessayez. Ce n'est que lorsque vous confirmez qu'une étape a été exécutée correctement que vous devriez passer à la suivante. - Certains éléments d’interface utilisateur (comme les listes déroulantes et les barres de défilement) peuvent être délicats pour Claude à manipuler en utilisant les mouvements de souris. Si vous rencontrez cela, essayez d’inviter le modèle à utiliser les raccourcis clavier.
- Pour les tâches répétables ou les interactions d’interface utilisateur, incluez des captures d’écran d’exemple et des appels d’outils de résultats réussis dans votre invite.
- Si vous avez besoin que le modèle se connecte, fournissez-lui le nom d’utilisateur et le mot de passe dans votre invite à l’intérieur de balises xml comme
<robot_credentials>. L’utilisation de l’utilisation d’ordinateur dans les applications qui nécessitent une connexion augmente le risque de mauvais résultats en raison de l’injection de prompt. Veuillez consulter notre guide sur l’atténuation des injections de prompt avant de fournir au modèle les identifiants de connexion.
Invites système
Lorsqu’un des outils définis par Anthropic est demandé via l’API Claude, une invite système spécifique à l’utilisation d’ordinateur est générée. Elle est similaire à l’invite système d’utilisation d’outil mais commence par :Vous avez accès à un ensemble de fonctions que vous pouvez utiliser pour répondre à la question de l’utilisateur. Cela inclut l’accès à un environnement informatique en bac à sable. Vous n’avez actuellement pas la capacité d’inspecter les fichiers ou d’interagir avec les ressources externes, sauf en invoquant les fonctions ci-dessous.Comme pour l’utilisation d’outil régulière, le champ
system_prompt fourni par l’utilisateur est toujours respecté et utilisé dans la construction de l’invite système combinée.
Actions disponibles
L’outil d’utilisation d’ordinateur prend en charge ces actions : Actions de base (toutes les versions)- screenshot - Capturer l’affichage actuel
- left_click - Cliquer aux coordonnées
[x, y] - type - Taper une chaîne de texte
- key - Appuyer sur une touche ou une combinaison de touches (par exemple, « ctrl+s »)
- mouse_move - Déplacer le curseur aux coordonnées
computer_20250124)
Disponible dans les modèles Claude 4 et Claude Sonnet 3.7 :
- scroll - Faire défiler dans n’importe quelle direction avec contrôle du montant
- left_click_drag - Cliquer et faire glisser entre les coordonnées
- right_click, middle_click - Boutons de souris supplémentaires
- double_click, triple_click - Clics multiples
- left_mouse_down, left_mouse_up - Contrôle fin des clics
- hold_key - Maintenir une touche tout en effectuant d’autres actions
- wait - Pause entre les actions
Exemples d'actions
Exemples d'actions
Paramètres de l’outil
| Paramètre | Requis | Description |
|---|---|---|
type | Oui | Version de l’outil (computer_20250124 ou computer_20241022) |
name | Oui | Doit être « computer » |
display_width_px | Oui | Largeur d’affichage en pixels |
display_height_px | Oui | Hauteur d’affichage en pixels |
display_number | Non | Numéro d’affichage pour les environnements X11 |
Activer la capacité de réflexion dans les modèles Claude 4 et Claude Sonnet 3.7
Claude Sonnet 3.7 a introduit une nouvelle capacité de « réflexion » qui vous permet de voir le processus de raisonnement du modèle alors qu’il travaille sur des tâches complexes. Cette fonctionnalité vous aide à comprendre comment Claude aborde un problème et peut être particulièrement précieuse à des fins de débogage ou éducatives. Pour activer la réflexion, ajoutez un paramètrethinking à votre demande API :
budget_tokens spécifie combien de jetons Claude peut utiliser pour la réflexion. Ceci est soustrait de votre budget global max_tokens.
Lorsque la réflexion est activée, Claude retournera son processus de raisonnement dans le cadre de la réponse, ce qui peut vous aider à :
- Comprendre le processus de prise de décision du modèle
- Identifier les problèmes ou les idées fausses potentiels
- Apprendre de l’approche de Claude à la résolution de problèmes
- Obtenir plus de visibilité sur les opérations complexes multi-étapes
Augmenter l’utilisation d’ordinateur avec d’autres outils
L’outil d’utilisation d’ordinateur peut être combiné avec d’autres outils pour créer des flux de travail d’automatisation plus puissants. Ceci est particulièrement utile lorsque vous avez besoin de :- Exécuter des commandes système (outil bash)
- Éditer des fichiers de configuration ou des scripts (outil d’éditeur de texte)
- Intégrer avec des API personnalisées ou des services (outils personnalisés)
Construire un environnement d’utilisation d’ordinateur personnalisé
L’implémentation de référence est destinée à vous aider à commencer avec l’utilisation d’ordinateur. Elle inclut tous les composants nécessaires pour que Claude utilise un ordinateur. Cependant, vous pouvez construire votre propre environnement pour l’utilisation d’ordinateur pour répondre à vos besoins. Vous aurez besoin de :- Un environnement virtualisé ou conteneurisé adapté à l’utilisation d’ordinateur avec Claude
- Une implémentation d’au moins un des outils d’utilisation d’ordinateur définis par Anthropic
- Une boucle d’agent qui interagit avec l’API Claude et exécute les résultats
tool_useen utilisant vos implémentations d’outils - Une API ou une interface utilisateur qui permet l’entrée utilisateur pour démarrer la boucle d’agent
Implémenter l’outil d’utilisation d’ordinateur
L’outil d’utilisation d’ordinateur est implémenté comme un outil sans schéma. Lors de l’utilisation de cet outil, vous n’avez pas besoin de fournir un schéma d’entrée comme avec d’autres outils ; le schéma est intégré au modèle et ne peut pas être modifié.Configurer votre environnement informatique
Implémenter les gestionnaires d'actions
Traiter les appels d'outils de Claude
Implémenter la boucle d'agent
Gérer les erreurs
Lors de l’implémentation de l’outil d’utilisation d’ordinateur, diverses erreurs peuvent survenir. Voici comment les gérer :Échec de la capture d'écran
Échec de la capture d'écran
Coordonnées invalides
Coordonnées invalides
Échec de l'exécution de l'action
Échec de l'exécution de l'action
Suivre les meilleures pratiques de mise en œuvre
Utiliser une résolution d'affichage appropriée
Utiliser une résolution d'affichage appropriée
- Pour les tâches générales de bureau : 1024x768 ou 1280x720
- Pour les applications Web : 1280x800 ou 1366x768
- Évitez les résolutions au-dessus de 1920x1080 pour prévenir les problèmes de performance
Implémenter la gestion appropriée des captures d'écran
Implémenter la gestion appropriée des captures d'écran
- Encodez les captures d’écran en PNG ou JPEG base64
- Envisagez de compresser les grandes captures d’écran pour améliorer les performances
- Incluez les métadonnées pertinentes comme l’horodatage ou l’état d’affichage
Ajouter des délais d'action
Ajouter des délais d'action
Valider les actions avant l'exécution
Valider les actions avant l'exécution
Enregistrer les actions pour le débogage
Enregistrer les actions pour le débogage
Comprendre les limitations de l’utilisation d’ordinateur
La fonctionnalité d’utilisation d’ordinateur est en bêta. Bien que les capacités de Claude soient à la pointe de la technologie, les développeurs doivent être conscients de ses limitations :- Latence : la latence actuelle de l’utilisation d’ordinateur pour les interactions humain-IA peut être trop lente par rapport aux actions informatiques régulières dirigées par l’humain. Nous recommandons de se concentrer sur les cas d’utilisation où la vitesse n’est pas critique (par exemple, la collecte d’informations en arrière-plan, les tests logiciels automatisés) dans des environnements de confiance.
- Précision et fiabilité de la vision par ordinateur : Claude peut faire des erreurs ou halluciner lors de la sortie de coordonnées spécifiques lors de la génération d’actions. Claude Sonnet 3.7 introduit la capacité de réflexion qui peut vous aider à comprendre le raisonnement du modèle et à identifier les problèmes potentiels.
- Précision et fiabilité de la sélection d’outils : Claude peut faire des erreurs ou halluciner lors de la sélection d’outils lors de la génération d’actions ou prendre des actions inattendues pour résoudre les problèmes. De plus, la fiabilité peut être inférieure lors de l’interaction avec des applications de niche ou plusieurs applications à la fois. Nous recommandons aux utilisateurs d’inviter le modèle avec soin lors de la demande de tâches complexes.
- Fiabilité du défilement : Claude Sonnet 3.7 a introduit des actions de défilement dédiées avec contrôle de direction qui améliore la fiabilité. Le modèle peut maintenant faire défiler explicitement dans n’importe quelle direction (haut/bas/gauche/droite) d’une quantité spécifiée.
- Interaction avec les feuilles de calcul : Les clics de souris pour l’interaction avec les feuilles de calcul se sont améliorés dans Claude Sonnet 3.7 avec l’ajout d’actions de contrôle de souris plus précises comme
left_mouse_down,left_mouse_upet le nouveau support des touches de modification. La sélection de cellules peut être plus fiable en utilisant ces contrôles fins et en combinant les touches de modification avec les clics. - Création de compte et génération de contenu sur les plateformes sociales et de communication : Bien que Claude visitera les sites Web, nous limitons sa capacité à créer des comptes ou à générer et partager du contenu ou à autrement s’engager dans l’usurpation d’identité humaine sur les sites Web et les plateformes de médias sociaux. Nous pouvons mettre à jour cette capacité à l’avenir.
- Vulnérabilités : Les vulnérabilités comme le jailbreaking ou l’injection de prompt peuvent persister dans les systèmes d’IA de pointe, y compris l’API d’utilisation d’ordinateur bêta. Dans certaines circonstances, Claude suivra les commandes trouvées dans le contenu, parfois même en conflit avec les instructions de l’utilisateur. Par exemple, les instructions Claude sur les pages Web ou contenues dans les images peuvent remplacer les instructions ou amener Claude à faire des erreurs. Nous recommandons : a. Limiter l’utilisation d’ordinateur aux environnements de confiance tels que les machines virtuelles ou les conteneurs avec des privilèges minimaux b. Éviter de donner à l’utilisation d’ordinateur l’accès aux comptes sensibles ou aux données sans surveillance stricte c. Informer les utilisateurs finaux des risques pertinents et obtenir leur consentement avant d’activer ou de demander les autorisations nécessaires pour les fonctionnalités d’utilisation d’ordinateur dans vos applications
- Actions inappropriées ou illégales : Conformément aux conditions de service d’Anthropic, vous ne devez pas utiliser l’utilisation d’ordinateur pour violer les lois ou notre politique d’utilisation acceptable.
Tarification
Computer use follows the standard tool use pricing. When using the computer use tool: System prompt overhead: The computer use beta adds 466-499 tokens to the system prompt Computer use tool token usage:| Model | Input tokens per tool definition |
|---|---|
| Claude 4.x models | 735 tokens |
| Claude Sonnet 3.7 (deprecated) | 735 tokens |
- Screenshot images (see Vision pricing)
- Tool execution results returned to Claude