"computer-use-2025-01-24"(modelos Claude 4 e Claude Sonnet 3.7)"computer-use-2024-10-22"(Claude Sonnet 3.5 (descontinuado))
Visão geral
O uso do computador é uma funcionalidade beta que permite ao Claude interagir com ambientes de desktop. Esta ferramenta fornece:- Captura de tela: Ver o que está atualmente exibido na tela
- Controle do mouse: Clicar, arrastar e mover o cursor
- Entrada de teclado: Digitar texto e usar atalhos de teclado
- Automação de desktop: Interagir com qualquer aplicação ou interface
Compatibilidade de modelo
O uso do computador está disponível para os seguintes modelos Claude:| Modelo | Versão da Ferramenta | Flag Beta |
|---|---|---|
| Modelos Claude 4 | computer_20250124 | computer-use-2025-01-24 |
| Claude Sonnet 3.7 | computer_20250124 | computer-use-2025-01-24 |
| Claude Sonnet 3.5 v2 (descontinuado) | computer_20241022 | computer-use-2024-10-22 |
Considerações de segurança
- Use uma máquina virtual dedicada ou container com privilégios mínimos para prevenir ataques diretos ao sistema ou acidentes.
- Evite dar ao modelo acesso a dados sensíveis, como informações de login de conta, para prevenir roubo de informações.
- Limite o acesso à internet a uma lista de domínios permitidos para reduzir a exposição a conteúdo malicioso.
- Peça a um humano para confirmar decisões que podem resultar em consequências significativas no mundo real, bem como qualquer tarefa que requeira consentimento afirmativo, como aceitar cookies, executar transações financeiras ou concordar com termos de serviço.
Implementação de referência do uso do computador
Início rápido
Aqui está como começar com o uso do computador:- Modelos Claude 4 e Claude Sonnet 3.7: Cabeçalho beta necessário apenas para a ferramenta de uso do computador
- Claude Sonnet 3.5 (descontinuado): Cabeçalho beta necessário para ferramentas de computador, bash e editor de texto
Como funciona o uso do computador
1. Forneça ao Claude a ferramenta de uso do computador e um prompt do usuário
- Adicione a ferramenta de uso do computador (e opcionalmente outras ferramentas) à sua solicitação da API.
- Inclua um prompt do usuário que requer interação com desktop, por exemplo, “Salve uma imagem de um gato na minha área de trabalho.”
2. Claude decide usar a ferramenta de uso do computador
- Claude avalia se a ferramenta de uso do computador pode ajudar com a consulta do usuário.
- Se sim, Claude constrói uma solicitação de uso de ferramenta formatada adequadamente.
- A resposta da API tem um
stop_reasondetool_use, sinalizando a intenção do Claude.
3. Extraia a entrada da ferramenta, avalie a ferramenta em um computador e retorne os resultados
- Do seu lado, extraia o nome da ferramenta e a entrada da solicitação do Claude.
- Use a ferramenta em um container ou Máquina Virtual.
- Continue a conversa com uma nova mensagem
usercontendo um bloco de conteúdotool_result.
4. Claude continua chamando ferramentas de uso do computador até completar a tarefa
- Claude analisa os resultados da ferramenta para determinar se mais uso de ferramenta é necessário ou se a tarefa foi completada.
- Se Claude decidir que precisa de outra ferramenta, ele responde com outro
stop_reasondetool_usee você deve retornar ao passo 3. - Caso contrário, ele elabora uma resposta de texto para o usuário.
O ambiente de computação
O uso do computador requer um ambiente de computação isolado onde Claude pode interagir com segurança com aplicações e a web. Este ambiente inclui:- Display virtual: Um servidor de display virtual X11 (usando Xvfb) que renderiza a interface do desktop que Claude verá através de capturas de tela e controlará com ações de mouse/teclado.
- Ambiente de desktop: Uma UI leve com gerenciador de janelas (Mutter) e painel (Tint2) rodando no Linux, que fornece uma interface gráfica consistente para Claude interagir.
- Aplicações: Aplicações Linux pré-instaladas como Firefox, LibreOffice, editores de texto e gerenciadores de arquivo que Claude pode usar para completar tarefas.
- Implementações de ferramentas: Código de integração que traduz solicitações abstratas de ferramentas do Claude (como “mover mouse” ou “tirar captura de tela”) em operações reais no ambiente virtual.
- Loop do agente: Um programa que lida com comunicação entre Claude e o ambiente, enviando ações do Claude para o ambiente e retornando os resultados (capturas de tela, saídas de comando) de volta para Claude.
- Recebe solicitações de uso de ferramenta do Claude
- As traduz em ações em seu ambiente de computação
- Captura os resultados (capturas de tela, saídas de comando, etc.)
- Retorna esses resultados para Claude
Como implementar o uso do computador
Comece com nossa implementação de referência
Construímos uma implementação de referência que inclui tudo que você precisa para começar rapidamente com o uso do computador:- Um ambiente containerizado adequado para uso do computador com Claude
- Implementações das ferramentas de uso do computador
- Um loop do agente que interage com a API Claude e executa as ferramentas de uso do computador
- Uma interface web para interagir com o container, loop do agente e ferramentas.
Entendendo o loop multi-agente
O núcleo do uso do computador é o “loop do agente” - um ciclo onde Claude solicita ações de ferramentas, sua aplicação as executa e retorna resultados para Claude. Aqui está um exemplo simplificado:Modelos Claude 4
Modelos Claude 4
computer_20250124, inclua esta flag beta:Claude Sonnet 3.7
Claude Sonnet 3.7
computer_20250124, inclua esta flag beta:Claude Sonnet 3.5 v2 (descontinuado)
Claude Sonnet 3.5 v2 (descontinuado)
computer_20241022, inclua esta flag beta:Otimize o desempenho do modelo com prompting
Aqui estão algumas dicas sobre como obter as melhores saídas de qualidade:- Especifique tarefas simples e bem definidas e forneça instruções explícitas para cada passo.
- Claude às vezes assume resultados de suas ações sem verificar explicitamente seus resultados. Para prevenir isso, você pode fazer prompt para Claude com
Após cada passo, tire uma captura de tela e avalie cuidadosamente se você alcançou o resultado correto. Mostre explicitamente seu pensamento: "Eu avaliei o passo X..." Se não estiver correto, tente novamente. Apenas quando você confirmar que um passo foi executado corretamente deve prosseguir para o próximo. - Alguns elementos da UI (como dropdowns e barras de rolagem) podem ser complicados para Claude manipular usando movimentos do mouse. Se você experimentar isso, tente fazer prompt para o modelo usar atalhos de teclado.
- Para tarefas repetíveis ou interações de UI, inclua capturas de tela de exemplo e chamadas de ferramentas de resultados bem-sucedidos em seu prompt.
- Se você precisar que o modelo faça login, forneça a ele o nome de usuário e senha em seu prompt dentro de tags xml como
<robot_credentials>. Usar o uso do computador dentro de aplicações que requerem login aumenta o risco de resultados ruins como resultado de injeção de prompt. Por favor revise nosso guia sobre mitigar injeções de prompt antes de fornecer ao modelo credenciais de login.
Prompts do sistema
Quando uma das ferramentas definidas pela Anthropic é solicitada via API Claude, um prompt do sistema específico para uso do computador é gerado. É similar ao prompt do sistema de uso de ferramenta mas começa com:Você tem acesso a um conjunto de funções que pode usar para responder à pergunta do usuário. Isso inclui acesso a um ambiente de computação isolado. Você NÃO tem atualmente a capacidade de inspecionar arquivos ou interagir com recursos externos, exceto invocando as funções abaixo.Como com o uso regular de ferramentas, o campo
system_prompt fornecido pelo usuário ainda é respeitado e usado na construção do prompt do sistema combinado.
Ações disponíveis
A ferramenta de uso do computador suporta essas ações: Ações básicas (todas as versões)- screenshot - Capturar o display atual
- left_click - Clicar nas coordenadas
[x, y] - type - Digitar string de texto
- key - Pressionar tecla ou combinação de teclas (por exemplo, “ctrl+s”)
- mouse_move - Mover cursor para coordenadas
computer_20250124)
Disponível nos modelos Claude 4 e Claude Sonnet 3.7:
- scroll - Rolar em qualquer direção com controle de quantidade
- left_click_drag - Clicar e arrastar entre coordenadas
- right_click, middle_click - Botões adicionais do mouse
- double_click, triple_click - Múltiplos cliques
- left_mouse_down, left_mouse_up - Controle de clique de granularidade fina
- hold_key - Segurar uma tecla enquanto executa outras ações
- wait - Pausar entre ações
Ações de exemplo
Ações de exemplo
Parâmetros da ferramenta
| Parâmetro | Obrigatório | Descrição |
|---|---|---|
type | Sim | Versão da ferramenta (computer_20250124 ou computer_20241022) |
name | Sim | Deve ser “computer” |
display_width_px | Sim | Largura do display em pixels |
display_height_px | Sim | Altura do display em pixels |
display_number | Não | Número do display para ambientes X11 |
Habilite a capacidade de pensamento nos modelos Claude 4 e Claude Sonnet 3.7
Claude Sonnet 3.7 introduziu uma nova capacidade de “pensamento” que permite que você veja o processo de raciocínio do modelo enquanto ele trabalha através de tarefas complexas. Esta funcionalidade ajuda você a entender como Claude está abordando um problema e pode ser particularmente valiosa para depuração ou propósitos educacionais. Para habilitar o pensamento, adicione um parâmetrothinking à sua solicitação da API:
budget_tokens especifica quantos tokens Claude pode usar para pensar. Isso é subtraído do seu orçamento geral de max_tokens.
Quando o pensamento está habilitado, Claude retornará seu processo de raciocínio como parte da resposta, o que pode ajudá-lo a:
- Entender o processo de tomada de decisão do modelo
- Identificar possíveis problemas ou equívocos
- Aprender com a abordagem do Claude para resolução de problemas
- Obter mais visibilidade em operações complexas de múltiplos passos
Aumentando o uso do computador com outras ferramentas
A ferramenta de uso do computador pode ser combinada com outras ferramentas para criar fluxos de trabalho de automação mais poderosos. Isso é particularmente útil quando você precisa:- Executar comandos do sistema (ferramenta bash)
- Editar arquivos de configuração ou scripts (ferramenta editor de texto)
- Integrar com APIs ou serviços personalizados (ferramentas personalizadas)
Construa um ambiente personalizado de uso do computador
A implementação de referência é destinada a ajudá-lo a começar com o uso do computador. Ela inclui todos os componentes necessários para ter Claude usando um computador. No entanto, você pode construir seu próprio ambiente para uso do computador para atender às suas necessidades. Você precisará:- Um ambiente virtualizado ou containerizado adequado para uso do computador com Claude
- Uma implementação de pelo menos uma das ferramentas de uso do computador definidas pela Anthropic
- Um loop de agente que interage com a API Claude e executa os resultados
tool_useusando suas implementações de ferramentas - Uma API ou UI que permite entrada do usuário para iniciar o loop do agente
Implemente a ferramenta de uso do computador
A ferramenta de uso do computador é implementada como uma ferramenta sem esquema. Ao usar esta ferramenta, você não precisa fornecer um esquema de entrada como com outras ferramentas; o esquema está incorporado no modelo do Claude e não pode ser modificado.Configure seu ambiente de computação
Implemente manipuladores de ação
Processe as chamadas de ferramenta do Claude
Implemente o loop do agente
Lidar com erros
Ao implementar a ferramenta de uso do computador, vários erros podem ocorrer. Aqui está como lidar com eles:Falha na captura de tela
Falha na captura de tela
Coordenadas inválidas
Coordenadas inválidas
Falha na execução da ação
Falha na execução da ação
Siga as melhores práticas de implementação
Use resolução de display apropriada
Use resolução de display apropriada
- Para tarefas gerais de desktop: 1024x768 ou 1280x720
- Para aplicações web: 1280x800 ou 1366x768
- Evite resoluções acima de 1920x1080 para prevenir problemas de desempenho
Implemente manuseio adequado de captura de tela
Implemente manuseio adequado de captura de tela
- Codifique capturas de tela como PNG ou JPEG base64
- Considere comprimir capturas de tela grandes para melhorar desempenho
- Inclua metadados relevantes como timestamp ou estado do display
Adicione atrasos de ação
Adicione atrasos de ação
Valide ações antes da execução
Valide ações antes da execução
Registre ações para depuração
Registre ações para depuração
Entenda as limitações do uso do computador
A funcionalidade de uso do computador está em beta. Embora as capacidades do Claude sejam de ponta, os desenvolvedores devem estar cientes de suas limitações:- Latência: a latência atual do uso do computador para interações humano-IA pode ser muito lenta comparada a ações regulares de computador dirigidas por humanos. Recomendamos focar em casos de uso onde velocidade não é crítica (por exemplo, coleta de informações em segundo plano, testes automatizados de software) em ambientes confiáveis.
- Precisão e confiabilidade da visão computacional: Claude pode cometer erros ou alucinar ao produzir coordenadas específicas enquanto gera ações. Claude Sonnet 3.7 introduz a capacidade de pensamento que pode ajudá-lo a entender o raciocínio do modelo e identificar possíveis problemas.
- Precisão e confiabilidade da seleção de ferramentas: Claude pode cometer erros ou alucinar ao selecionar ferramentas enquanto gera ações ou tomar ações inesperadas para resolver problemas. Adicionalmente, a confiabilidade pode ser menor ao interagir com aplicações de nicho ou múltiplas aplicações ao mesmo tempo. Recomendamos que os usuários façam prompt para o modelo cuidadosamente ao solicitar tarefas complexas.
- Confiabilidade de rolagem: Enquanto Claude Sonnet 3.5 v2 (descontinuado) tinha limitações com rolagem, Claude Sonnet 3.7 introduz ações de rolagem dedicadas com controle de direção que melhora a confiabilidade. O modelo agora pode explicitamente rolar em qualquer direção (cima/baixo/esquerda/direita) por uma quantidade especificada.
- Interação com planilhas: Cliques do mouse para interação com planilhas melhoraram no Claude Sonnet 3.7 com a adição de ações de controle de mouse mais precisas como
left_mouse_down,left_mouse_upe novo suporte a teclas modificadoras. A seleção de células pode ser mais confiável usando esses controles de granularidade fina e combinando teclas modificadoras com cliques. - Criação de contas e geração de conteúdo em plataformas sociais e de comunicação: Embora Claude visite websites, estamos limitando sua capacidade de criar contas ou gerar e compartilhar conteúdo ou de outra forma se envolver em personificação humana através de websites e plataformas de mídia social. Podemos atualizar essa capacidade no futuro.
- Vulnerabilidades: Vulnerabilidades como jailbreaking ou injeção de prompt podem persistir através de sistemas de IA de fronteira, incluindo a API beta de uso do computador. Em algumas circunstâncias, Claude seguirá comandos encontrados no conteúdo, às vezes mesmo em conflito com as instruções do usuário. Por exemplo, instruções do Claude em páginas web ou contidas em imagens podem sobrescrever instruções ou causar erros no Claude. Recomendamos: a. Limitar o uso do computador a ambientes confiáveis como máquinas virtuais ou containers com privilégios mínimos b. Evitar dar acesso ao uso do computador a contas ou dados sensíveis sem supervisão rigorosa c. Informar usuários finais sobre riscos relevantes e obter seu consentimento antes de habilitar ou solicitar permissões necessárias para funcionalidades de uso do computador em suas aplicações
- Ações inapropriadas ou ilegais: De acordo com os termos de serviço da Anthropic, você não deve empregar o uso do computador para violar quaisquer leis ou nossa Política de Uso Aceitável.
Preços
Computer use follows the standard tool use pricing. When using the computer use tool: System prompt overhead: The computer use beta adds 466-499 tokens to the system prompt Computer use tool token usage:| Model | Input tokens per tool definition |
|---|---|
| Claude 4.x models | 735 tokens |
| Claude Sonnet 3.7 | 735 tokens |
- Screenshot images (see Vision pricing)
- Tool execution results returned to Claude