Ferramenta de uso do computador

Claude pode interagir com ambientes de computador através da ferramenta de uso do computador, que fornece capacidades de captura de tela e controle de mouse/teclado para interação autônoma com desktop.

O uso do computador está atualmente em beta e requer um cabeçalho beta:

"computer-use-2025-01-24" (modelos Claude 4 e Claude Sonnet 3.7)
"computer-use-2024-10-22" (Claude Sonnet 3.5 (descontinuado))

Visão geral

O uso do computador é uma funcionalidade beta que permite ao Claude interagir com ambientes de desktop. Esta ferramenta fornece:

Captura de tela: Ver o que está atualmente exibido na tela
Controle do mouse: Clicar, arrastar e mover o cursor
Entrada de teclado: Digitar texto e usar atalhos de teclado
Automação de desktop: Interagir com qualquer aplicação ou interface

Embora o uso do computador possa ser aumentado com outras ferramentas como bash e editor de texto para fluxos de trabalho de automação mais abrangentes, o uso do computador refere-se especificamente à capacidade da ferramenta de uso do computador de ver e controlar ambientes de desktop.

Compatibilidade de modelo

O uso do computador está disponível para os seguintes modelos Claude:

Modelo	Versão da Ferramenta	Flag Beta
Modelos Claude 4	`computer_20250124`	`computer-use-2025-01-24`
Claude Sonnet 3.7	`computer_20250124`	`computer-use-2025-01-24`
Claude Sonnet 3.5 v2 (descontinuado)	`computer_20241022`	`computer-use-2024-10-22`

Os modelos Claude 4 usam versões de ferramentas atualizadas otimizadas para a nova arquitetura. Claude Sonnet 3.7 introduz capacidades adicionais incluindo a funcionalidade de pensamento para mais insights sobre o processo de raciocínio do modelo.

Versões mais antigas de ferramentas não são garantidas de serem compatíveis com versões anteriores com modelos mais novos. Sempre use a versão da ferramenta que corresponde à sua versão do modelo.

Considerações de segurança

O uso do computador é uma funcionalidade beta com riscos únicos distintos das funcionalidades padrão da API. Estes riscos são aumentados ao interagir com a internet. Para minimizar riscos, considere tomar precauções como:

Use uma máquina virtual dedicada ou container com privilégios mínimos para prevenir ataques diretos ao sistema ou acidentes.
Evite dar ao modelo acesso a dados sensíveis, como informações de login de conta, para prevenir roubo de informações.
Limite o acesso à internet a uma lista de domínios permitidos para reduzir a exposição a conteúdo malicioso.
Peça a um humano para confirmar decisões que podem resultar em consequências significativas no mundo real, bem como qualquer tarefa que requeira consentimento afirmativo, como aceitar cookies, executar transações financeiras ou concordar com termos de serviço.

Em algumas circunstâncias, Claude seguirá comandos encontrados no conteúdo mesmo se isso conflitar com as instruções do usuário. Por exemplo, instruções do Claude em páginas web ou contidas em imagens podem sobrescrever instruções ou causar erros no Claude. Sugerimos tomar precauções para isolar Claude de dados e ações sensíveis para evitar riscos relacionados à injeção de prompt.Treinamos o modelo para resistir a essas injeções de prompt e adicionamos uma camada extra de defesa. Se você usar nossas ferramentas de uso do computador, executaremos automaticamente classificadores em seus prompts para sinalizar possíveis instâncias de injeções de prompt. Quando esses classificadores identificam possíveis injeções de prompt em capturas de tela, eles direcionarão automaticamente o modelo para pedir confirmação do usuário antes de prosseguir com a próxima ação. Reconhecemos que essa proteção extra não será ideal para todos os casos de uso (por exemplo, casos de uso sem um humano no loop), então se você quiser optar por não participar e desligá-la, por favor entre em contato conosco.Ainda sugerimos tomar precauções para isolar Claude de dados e ações sensíveis para evitar riscos relacionados à injeção de prompt.Finalmente, por favor informe os usuários finais sobre riscos relevantes e obtenha seu consentimento antes de habilitar o uso do computador em seus próprios produtos.

Implementação de referência do uso do computador

Comece rapidamente com nossa implementação de referência do uso do computador que inclui uma interface web, container Docker, implementações de ferramentas de exemplo e um loop de agente.Nota: A implementação foi atualizada para incluir novas ferramentas tanto para modelos Claude 4 quanto para Claude Sonnet 3.7. Certifique-se de puxar a versão mais recente do repositório para acessar essas novas funcionalidades.

Por favor use este formulário para fornecer feedback sobre a qualidade das respostas do modelo, a própria API, ou a qualidade da documentação - não podemos esperar para ouvir de você!

Início rápido

Aqui está como começar com o uso do computador:

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-5",  # ou outro modelo compatível
    max_tokens=1024,
    tools=[
        {
          "type": "computer_20250124",
          "name": "computer",
          "display_width_px": 1024,
          "display_height_px": 768,
          "display_number": 1,
        },
        {
          "type": "text_editor_20250124",
          "name": "str_replace_editor"
        },
        {
          "type": "bash_20250124",
          "name": "bash"
        }
    ],
    messages=[{"role": "user", "content": "Salve uma imagem de um gato na minha área de trabalho."}],
    betas=["computer-use-2025-01-24"]
)
print(response)

Requisitos de cabeçalho beta:

Modelos Claude 4 e Claude Sonnet 3.7: Cabeçalho beta necessário apenas para a ferramenta de uso do computador
Claude Sonnet 3.5 (descontinuado): Cabeçalho beta necessário para ferramentas de computador, bash e editor de texto

O exemplo acima mostra todas as três ferramentas sendo usadas juntas, o que requer o cabeçalho beta para qualquer modelo Claude, já que inclui a ferramenta de uso do computador.

Como funciona o uso do computador

1. Forneça ao Claude a ferramenta de uso do computador e um prompt do usuário

Adicione a ferramenta de uso do computador (e opcionalmente outras ferramentas) à sua solicitação da API.
Inclua um prompt do usuário que requer interação com desktop, por exemplo, “Salve uma imagem de um gato na minha área de trabalho.”

2. Claude decide usar a ferramenta de uso do computador

Claude avalia se a ferramenta de uso do computador pode ajudar com a consulta do usuário.
Se sim, Claude constrói uma solicitação de uso de ferramenta formatada adequadamente.
A resposta da API tem um stop_reason de tool_use, sinalizando a intenção do Claude.

3. Extraia a entrada da ferramenta, avalie a ferramenta em um computador e retorne os resultados

Do seu lado, extraia o nome da ferramenta e a entrada da solicitação do Claude.
Use a ferramenta em um container ou Máquina Virtual.
Continue a conversa com uma nova mensagem user contendo um bloco de conteúdo tool_result.

4. Claude continua chamando ferramentas de uso do computador até completar a tarefa

Claude analisa os resultados da ferramenta para determinar se mais uso de ferramenta é necessário ou se a tarefa foi completada.
Se Claude decidir que precisa de outra ferramenta, ele responde com outro stop_reason de tool_use e você deve retornar ao passo 3.
Caso contrário, ele elabora uma resposta de texto para o usuário.

Referimo-nos à repetição dos passos 3 e 4 sem entrada do usuário como o “loop do agente” - ou seja, Claude respondendo com uma solicitação de uso de ferramenta e sua aplicação respondendo ao Claude com os resultados da avaliação dessa solicitação.

O ambiente de computação

O uso do computador requer um ambiente de computação isolado onde Claude pode interagir com segurança com aplicações e a web. Este ambiente inclui:

Display virtual: Um servidor de display virtual X11 (usando Xvfb) que renderiza a interface do desktop que Claude verá através de capturas de tela e controlará com ações de mouse/teclado.
Ambiente de desktop: Uma UI leve com gerenciador de janelas (Mutter) e painel (Tint2) rodando no Linux, que fornece uma interface gráfica consistente para Claude interagir.
Aplicações: Aplicações Linux pré-instaladas como Firefox, LibreOffice, editores de texto e gerenciadores de arquivo que Claude pode usar para completar tarefas.
Implementações de ferramentas: Código de integração que traduz solicitações abstratas de ferramentas do Claude (como “mover mouse” ou “tirar captura de tela”) em operações reais no ambiente virtual.
Loop do agente: Um programa que lida com comunicação entre Claude e o ambiente, enviando ações do Claude para o ambiente e retornando os resultados (capturas de tela, saídas de comando) de volta para Claude.

Quando você usa o uso do computador, Claude não se conecta diretamente a este ambiente. Em vez disso, sua aplicação:

Recebe solicitações de uso de ferramenta do Claude
As traduz em ações em seu ambiente de computação
Captura os resultados (capturas de tela, saídas de comando, etc.)
Retorna esses resultados para Claude

Para segurança e isolamento, a implementação de referência executa tudo isso dentro de um container Docker com mapeamentos de porta apropriados para visualizar e interagir com o ambiente.

Como implementar o uso do computador

Comece com nossa implementação de referência

Construímos uma implementação de referência que inclui tudo que você precisa para começar rapidamente com o uso do computador:

Um ambiente containerizado adequado para uso do computador com Claude
Implementações das ferramentas de uso do computador
Um loop do agente que interage com a API Claude e executa as ferramentas de uso do computador
Uma interface web para interagir com o container, loop do agente e ferramentas.

Entendendo o loop multi-agente

O núcleo do uso do computador é o “loop do agente” - um ciclo onde Claude solicita ações de ferramentas, sua aplicação as executa e retorna resultados para Claude. Aqui está um exemplo simplificado:

async def sampling_loop(
    *,
    model: str,
    messages: list[dict],
    api_key: str,
    max_tokens: int = 4096,
    tool_version: str,
    thinking_budget: int | None = None,
    max_iterations: int = 10,  # Adicionar limite de iteração para prevenir loops infinitos
):
    """
    Um loop de agente simples para interações de uso do computador Claude.

    Esta função lida com o vai-e-vem entre:
    1. Enviar mensagens do usuário para Claude
    2. Claude solicitar usar ferramentas
    3. Sua aplicação executar essas ferramentas
    4. Enviar resultados das ferramentas de volta para Claude
    """
    # Configurar ferramentas e parâmetros da API
    client = Anthropic(api_key=api_key)
    beta_flag = "computer-use-2025-01-24" if "20250124" in tool_version else "computer-use-2024-10-22"

    # Configurar ferramentas - você já deve ter essas inicializadas em outro lugar
    tools = [
        {"type": f"computer_{tool_version}", "name": "computer", "display_width_px": 1024, "display_height_px": 768},
        {"type": f"text_editor_{tool_version}", "name": "str_replace_editor"},
        {"type": f"bash_{tool_version}", "name": "bash"}
    ]

    # Loop principal do agente (com limite de iteração para prevenir custos descontrolados da API)
    iterations = 0
    while True and iterations < max_iterations:
        iterations += 1
        # Configurar parâmetro de pensamento opcional (para Claude Sonnet 3.7)
        thinking = None
        if thinking_budget:
            thinking = {"type": "enabled", "budget_tokens": thinking_budget}

        # Chamar a API Claude
        response = client.beta.messages.create(
            model=model,
            max_tokens=max_tokens,
            messages=messages,
            tools=tools,
            betas=[beta_flag],
            thinking=thinking
        )

        # Adicionar resposta do Claude ao histórico da conversa
        response_content = response.content
        messages.append({"role": "assistant", "content": response_content})

        # Verificar se Claude usou alguma ferramenta
        tool_results = []
        for block in response_content:
            if block.type == "tool_use":
                # Em uma aplicação real, você executaria a ferramenta aqui
                # Por exemplo: result = run_tool(block.name, block.input)
                result = {"result": "Ferramenta executada com sucesso"}

                # Formatar o resultado para Claude
                tool_results.append({
                    "type": "tool_result",
                    "tool_use_id": block.id,
                    "content": result
                })

        # Se nenhuma ferramenta foi usada, Claude terminou - retornar as mensagens finais
        if not tool_results:
            return messages

        # Adicionar resultados das ferramentas às mensagens para a próxima iteração com Claude
        messages.append({"role": "user", "content": tool_results})

O loop continua até que Claude responda sem solicitar nenhuma ferramenta (conclusão da tarefa) ou o limite máximo de iteração seja atingido. Esta salvaguarda previne possíveis loops infinitos que poderiam resultar em custos inesperados da API.

Ao usar a ferramenta de uso do computador, você deve incluir a flag beta apropriada para sua versão do modelo:

Modelos Claude 4

Ao usar computer_20250124, inclua esta flag beta:

"betas": ["computer-use-2025-01-24"]

Claude Sonnet 3.7

Ao usar computer_20250124, inclua esta flag beta:

"betas": ["computer-use-2025-01-24"]

Claude Sonnet 3.5 v2 (descontinuado)

Ao usar computer_20241022, inclua esta flag beta:

"betas": ["computer-use-2024-10-22"]

Nota: Para modelos Claude 4 e Claude Sonnet 3.7, a flag beta é necessária apenas para a ferramenta de uso do computador. Para Claude Sonnet 3.5 (descontinuado), a flag beta é necessária para ferramentas de computador, bash e editor de texto.

Recomendamos experimentar a implementação de referência antes de ler o resto desta documentação.

Otimize o desempenho do modelo com prompting

Aqui estão algumas dicas sobre como obter as melhores saídas de qualidade:

Especifique tarefas simples e bem definidas e forneça instruções explícitas para cada passo.
Claude às vezes assume resultados de suas ações sem verificar explicitamente seus resultados. Para prevenir isso, você pode fazer prompt para Claude com Após cada passo, tire uma captura de tela e avalie cuidadosamente se você alcançou o resultado correto. Mostre explicitamente seu pensamento: "Eu avaliei o passo X..." Se não estiver correto, tente novamente. Apenas quando você confirmar que um passo foi executado corretamente deve prosseguir para o próximo.
Alguns elementos da UI (como dropdowns e barras de rolagem) podem ser complicados para Claude manipular usando movimentos do mouse. Se você experimentar isso, tente fazer prompt para o modelo usar atalhos de teclado.
Para tarefas repetíveis ou interações de UI, inclua capturas de tela de exemplo e chamadas de ferramentas de resultados bem-sucedidos em seu prompt.
Se você precisar que o modelo faça login, forneça a ele o nome de usuário e senha em seu prompt dentro de tags xml como <robot_credentials>. Usar o uso do computador dentro de aplicações que requerem login aumenta o risco de resultados ruins como resultado de injeção de prompt. Por favor revise nosso guia sobre mitigar injeções de prompt antes de fornecer ao modelo credenciais de login.

Se você encontrar repetidamente um conjunto claro de problemas ou souber antecipadamente as tarefas que Claude precisará completar, use o prompt do sistema para fornecer ao Claude dicas ou instruções explícitas sobre como fazer as tarefas com sucesso.

Prompts do sistema

Quando uma das ferramentas definidas pela Anthropic é solicitada via API Claude, um prompt do sistema específico para uso do computador é gerado. É similar ao prompt do sistema de uso de ferramenta mas começa com:

Você tem acesso a um conjunto de funções que pode usar para responder à pergunta do usuário. Isso inclui acesso a um ambiente de computação isolado. Você NÃO tem atualmente a capacidade de inspecionar arquivos ou interagir com recursos externos, exceto invocando as funções abaixo.

Como com o uso regular de ferramentas, o campo system_prompt fornecido pelo usuário ainda é respeitado e usado na construção do prompt do sistema combinado.

Ações disponíveis

A ferramenta de uso do computador suporta essas ações: Ações básicas (todas as versões)

screenshot - Capturar o display atual
left_click - Clicar nas coordenadas [x, y]
type - Digitar string de texto
key - Pressionar tecla ou combinação de teclas (por exemplo, “ctrl+s”)
mouse_move - Mover cursor para coordenadas

Ações aprimoradas (computer_20250124) Disponível nos modelos Claude 4 e Claude Sonnet 3.7:

scroll - Rolar em qualquer direção com controle de quantidade
left_click_drag - Clicar e arrastar entre coordenadas
right_click, middle_click - Botões adicionais do mouse
double_click, triple_click - Múltiplos cliques
left_mouse_down, left_mouse_up - Controle de clique de granularidade fina
hold_key - Segurar uma tecla enquanto executa outras ações
wait - Pausar entre ações

Ações de exemplo

// Tirar uma captura de tela
{
  "action": "screenshot"
}

// Clicar na posição
{
  "action": "left_click",
  "coordinate": [500, 300]
}

// Digitar texto
{
  "action": "type",
  "text": "Olá, mundo!"
}

// Rolar para baixo (Claude 4/3.7)
{
  "action": "scroll",
  "coordinate": [500, 400],
  "scroll_direction": "down",
  "scroll_amount": 3
}

Parâmetros da ferramenta

Parâmetro	Obrigatório	Descrição
`type`	Sim	Versão da ferramenta (`computer_20250124` ou `computer_20241022`)
`name`	Sim	Deve ser “computer”
`display_width_px`	Sim	Largura do display em pixels
`display_height_px`	Sim	Altura do display em pixels
`display_number`	Não	Número do display para ambientes X11

Mantenha a resolução do display em ou abaixo de 1280x800 (WXGA) para melhor desempenho. Resoluções mais altas podem causar problemas de precisão devido ao redimensionamento de imagem.

Importante: A ferramenta de uso do computador deve ser explicitamente executada por sua aplicação - Claude não pode executá-la diretamente. Você é responsável por implementar a captura de tela, movimentos do mouse, entradas de teclado e outras ações baseadas nas solicitações do Claude.

Habilite a capacidade de pensamento nos modelos Claude 4 e Claude Sonnet 3.7

Claude Sonnet 3.7 introduziu uma nova capacidade de “pensamento” que permite que você veja o processo de raciocínio do modelo enquanto ele trabalha através de tarefas complexas. Esta funcionalidade ajuda você a entender como Claude está abordando um problema e pode ser particularmente valiosa para depuração ou propósitos educacionais. Para habilitar o pensamento, adicione um parâmetro thinking à sua solicitação da API:

"thinking": {
  "type": "enabled",
  "budget_tokens": 1024
}

O parâmetro budget_tokens especifica quantos tokens Claude pode usar para pensar. Isso é subtraído do seu orçamento geral de max_tokens. Quando o pensamento está habilitado, Claude retornará seu processo de raciocínio como parte da resposta, o que pode ajudá-lo a:

Entender o processo de tomada de decisão do modelo
Identificar possíveis problemas ou equívocos
Aprender com a abordagem do Claude para resolução de problemas
Obter mais visibilidade em operações complexas de múltiplos passos

Aqui está um exemplo de como a saída de pensamento pode parecer:

[Pensando]
Preciso salvar uma imagem de um gato na área de trabalho. Deixe-me dividir isso em passos:

1. Primeiro, vou tirar uma captura de tela para ver o que está na área de trabalho
2. Então vou procurar por um navegador web para pesquisar imagens de gato
3. Depois de encontrar uma imagem adequada, vou precisar salvá-la na área de trabalho

Deixe-me começar tirando uma captura de tela para ver o que está disponível...

Aumentando o uso do computador com outras ferramentas

A ferramenta de uso do computador pode ser combinada com outras ferramentas para criar fluxos de trabalho de automação mais poderosos. Isso é particularmente útil quando você precisa:

Executar comandos do sistema (ferramenta bash)
Editar arquivos de configuração ou scripts (ferramenta editor de texto)
Integrar com APIs ou serviços personalizados (ferramentas personalizadas)

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 2000,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250124",
        "name": "str_replace_editor"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      },
      {
        "name": "get_weather",
        "description": "Obter o clima atual em um local específico",
        "input_schema": {
          "type": "object",
          "properties": {
            "location": {
              "type": "string",
              "description": "A cidade e estado, por exemplo São Francisco, CA"
            },
            "unit": {
              "type": "string",
              "enum": ["celsius", "fahrenheit"],
              "description": "A unidade de temperatura, seja 'celsius' ou 'fahrenheit'"
            }
          },
          "required": ["location"]
        }
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Encontre voos de São Francisco para um lugar com clima mais quente."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

Construa um ambiente personalizado de uso do computador

A implementação de referência é destinada a ajudá-lo a começar com o uso do computador. Ela inclui todos os componentes necessários para ter Claude usando um computador. No entanto, você pode construir seu próprio ambiente para uso do computador para atender às suas necessidades. Você precisará:

Um ambiente virtualizado ou containerizado adequado para uso do computador com Claude
Uma implementação de pelo menos uma das ferramentas de uso do computador definidas pela Anthropic
Um loop de agente que interage com a API Claude e executa os resultados tool_use usando suas implementações de ferramentas
Uma API ou UI que permite entrada do usuário para iniciar o loop do agente

Implemente a ferramenta de uso do computador

A ferramenta de uso do computador é implementada como uma ferramenta sem esquema. Ao usar esta ferramenta, você não precisa fornecer um esquema de entrada como com outras ferramentas; o esquema está incorporado no modelo do Claude e não pode ser modificado.

Configure seu ambiente de computação

Crie um display virtual ou conecte-se a um display existente com o qual Claude irá interagir. Isso tipicamente envolve configurar Xvfb (X Virtual Framebuffer) ou tecnologia similar.

Implemente manipuladores de ação

Crie funções para lidar com cada tipo de ação que Claude pode solicitar:

def handle_computer_action(action_type, params):
    if action_type == "screenshot":
        return capture_screenshot()
    elif action_type == "left_click":
        x, y = params["coordinate"]
        return click_at(x, y)
    elif action_type == "type":
        return type_text(params["text"])
    # ... lidar com outras ações

Processe as chamadas de ferramenta do Claude

Extraia e execute chamadas de ferramenta das respostas do Claude:

for content in response.content:
    if content.type == "tool_use":
        action = content.input["action"]
        result = handle_computer_action(action, content.input)
        
        # Retornar resultado para Claude
        tool_result = {
            "type": "tool_result",
            "tool_use_id": content.id,
            "content": result
        }

Implemente o loop do agente

Crie um loop que continua até Claude completar a tarefa:

while True:
    response = client.beta.messages.create(...)
    
    # Verificar se Claude usou alguma ferramenta
    tool_results = process_tool_calls(response)
    
    if not tool_results:
        # Não há mais uso de ferramenta, tarefa completa
        break
        
    # Continuar conversa com resultados das ferramentas
    messages.append({"role": "user", "content": tool_results})

Lidar com erros

Ao implementar a ferramenta de uso do computador, vários erros podem ocorrer. Aqui está como lidar com eles:

Falha na captura de tela

Se a captura de tela falhar, retorne uma mensagem de erro apropriada:

{
  "role": "user",
  "content": [
    {
      "type": "tool_result",
      "tool_use_id": "toolu_01A09q90qw90lq917835lq9",
      "content": "Erro: Falha ao capturar tela. Display pode estar bloqueado ou indisponível.",
      "is_error": true
    }
  ]
}

Coordenadas inválidas

Se Claude fornecer coordenadas fora dos limites do display:

{
  "role": "user",
  "content": [
    {
      "type": "tool_result",
      "tool_use_id": "toolu_01A09q90qw90lq917835lq9",
      "content": "Erro: Coordenadas (1200, 900) estão fora dos limites do display (1024x768).",
      "is_error": true
    }
  ]
}

Falha na execução da ação

Se uma ação falhar ao executar:

{
  "role": "user",
  "content": [
    {
      "type": "tool_result",
      "tool_use_id": "toolu_01A09q90qw90lq917835lq9",
      "content": "Erro: Falha ao executar ação de clique. A aplicação pode não estar respondendo.",
      "is_error": true
    }
  ]
}

Siga as melhores práticas de implementação

Use resolução de display apropriada

Configure dimensões de display que correspondam ao seu caso de uso enquanto permanece dentro dos limites recomendados:

Para tarefas gerais de desktop: 1024x768 ou 1280x720
Para aplicações web: 1280x800 ou 1366x768
Evite resoluções acima de 1920x1080 para prevenir problemas de desempenho

Implemente manuseio adequado de captura de tela

Ao retornar capturas de tela para Claude:

Codifique capturas de tela como PNG ou JPEG base64
Considere comprimir capturas de tela grandes para melhorar desempenho
Inclua metadados relevantes como timestamp ou estado do display

Adicione atrasos de ação

Algumas aplicações precisam de tempo para responder a ações:

def click_and_wait(x, y, wait_time=0.5):
    click_at(x, y)
    time.sleep(wait_time)  # Permitir que a UI atualize

Valide ações antes da execução

Verifique se as ações solicitadas são seguras e válidas:

def validate_action(action_type, params):
    if action_type == "left_click":
        x, y = params.get("coordinate", (0, 0))
        if not (0 <= x < display_width and 0 <= y < display_height):
            return False, "Coordenadas fora dos limites"
    return True, None

Registre ações para depuração

Mantenha um log de todas as ações para solução de problemas:

import logging

def log_action(action_type, params, result):
    logging.info(f"Ação: {action_type}, Parâmetros: {params}, Resultado: {result}")

Entenda as limitações do uso do computador

A funcionalidade de uso do computador está em beta. Embora as capacidades do Claude sejam de ponta, os desenvolvedores devem estar cientes de suas limitações:

Latência: a latência atual do uso do computador para interações humano-IA pode ser muito lenta comparada a ações regulares de computador dirigidas por humanos. Recomendamos focar em casos de uso onde velocidade não é crítica (por exemplo, coleta de informações em segundo plano, testes automatizados de software) em ambientes confiáveis.
Precisão e confiabilidade da visão computacional: Claude pode cometer erros ou alucinar ao produzir coordenadas específicas enquanto gera ações. Claude Sonnet 3.7 introduz a capacidade de pensamento que pode ajudá-lo a entender o raciocínio do modelo e identificar possíveis problemas.
Precisão e confiabilidade da seleção de ferramentas: Claude pode cometer erros ou alucinar ao selecionar ferramentas enquanto gera ações ou tomar ações inesperadas para resolver problemas. Adicionalmente, a confiabilidade pode ser menor ao interagir com aplicações de nicho ou múltiplas aplicações ao mesmo tempo. Recomendamos que os usuários façam prompt para o modelo cuidadosamente ao solicitar tarefas complexas.
Confiabilidade de rolagem: Enquanto Claude Sonnet 3.5 v2 (descontinuado) tinha limitações com rolagem, Claude Sonnet 3.7 introduz ações de rolagem dedicadas com controle de direção que melhora a confiabilidade. O modelo agora pode explicitamente rolar em qualquer direção (cima/baixo/esquerda/direita) por uma quantidade especificada.
Interação com planilhas: Cliques do mouse para interação com planilhas melhoraram no Claude Sonnet 3.7 com a adição de ações de controle de mouse mais precisas como left_mouse_down, left_mouse_up e novo suporte a teclas modificadoras. A seleção de células pode ser mais confiável usando esses controles de granularidade fina e combinando teclas modificadoras com cliques.
Criação de contas e geração de conteúdo em plataformas sociais e de comunicação: Embora Claude visite websites, estamos limitando sua capacidade de criar contas ou gerar e compartilhar conteúdo ou de outra forma se envolver em personificação humana através de websites e plataformas de mídia social. Podemos atualizar essa capacidade no futuro.
Vulnerabilidades: Vulnerabilidades como jailbreaking ou injeção de prompt podem persistir através de sistemas de IA de fronteira, incluindo a API beta de uso do computador. Em algumas circunstâncias, Claude seguirá comandos encontrados no conteúdo, às vezes mesmo em conflito com as instruções do usuário. Por exemplo, instruções do Claude em páginas web ou contidas em imagens podem sobrescrever instruções ou causar erros no Claude. Recomendamos: a. Limitar o uso do computador a ambientes confiáveis como máquinas virtuais ou containers com privilégios mínimos b. Evitar dar acesso ao uso do computador a contas ou dados sensíveis sem supervisão rigorosa c. Informar usuários finais sobre riscos relevantes e obter seu consentimento antes de habilitar ou solicitar permissões necessárias para funcionalidades de uso do computador em suas aplicações
Ações inapropriadas ou ilegais: De acordo com os termos de serviço da Anthropic, você não deve empregar o uso do computador para violar quaisquer leis ou nossa Política de Uso Aceitável.

Sempre revise e verifique cuidadosamente as ações e logs de uso do computador do Claude. Não use Claude para tarefas que requerem precisão perfeita ou informações sensíveis do usuário sem supervisão humana.

Preços

Computer use follows the standard tool use pricing. When using the computer use tool: System prompt overhead: The computer use beta adds 466-499 tokens to the system prompt Computer use tool token usage:

Model	Input tokens per tool definition
Claude 4.x models	735 tokens
Claude Sonnet 3.7	735 tokens

Additional token consumption:

Screenshot images (see Vision pricing)
Tool execution results returned to Claude

If you’re also using bash or text editor tools alongside computer use, those tools have their own token costs as documented in their respective pages.

Primeiros passos

Modelos e preços

Capacidades

Ferramentas

Habilidades do Agente

SDK do Agente

MCP na API

Claude em plataformas de terceiros

Engenharia de prompts

Testar e avaliar

Reforçar proteções

Ferramenta de uso do computador

Visão geral

Compatibilidade de modelo

Considerações de segurança

Implementação de referência do uso do computador

Início rápido

Como funciona o uso do computador

O ambiente de computação

Como implementar o uso do computador

Comece com nossa implementação de referência

Entendendo o loop multi-agente

Otimize o desempenho do modelo com prompting

Prompts do sistema

Ações disponíveis

Parâmetros da ferramenta

Habilite a capacidade de pensamento nos modelos Claude 4 e Claude Sonnet 3.7

Aumentando o uso do computador com outras ferramentas

Construa um ambiente personalizado de uso do computador

Implemente a ferramenta de uso do computador

Lidar com erros

Siga as melhores práticas de implementação

Entenda as limitações do uso do computador

Preços

Próximos passos

Implementação de referência

Documentação de ferramentas

Primeiros passos

Modelos e preços

Capacidades

Ferramentas

Habilidades do Agente

SDK do Agente

MCP na API

Claude em plataformas de terceiros

Engenharia de prompts

Testar e avaliar

Reforçar proteções

​Visão geral

​Compatibilidade de modelo

​Considerações de segurança

Implementação de referência do uso do computador

​Início rápido

​Como funciona o uso do computador

​O ambiente de computação

​Como implementar o uso do computador

​Comece com nossa implementação de referência

​Entendendo o loop multi-agente

​Otimize o desempenho do modelo com prompting

​Prompts do sistema

​Ações disponíveis

​Parâmetros da ferramenta

​Habilite a capacidade de pensamento nos modelos Claude 4 e Claude Sonnet 3.7

​Aumentando o uso do computador com outras ferramentas

​Construa um ambiente personalizado de uso do computador

​Implemente a ferramenta de uso do computador

​Lidar com erros

​Siga as melhores práticas de implementação

​Entenda as limitações do uso do computador

​Preços

​Próximos passos

Implementação de referência

Documentação de ferramentas

Visão geral

Compatibilidade de modelo

Considerações de segurança

Início rápido

Como funciona o uso do computador

O ambiente de computação

Como implementar o uso do computador

Comece com nossa implementação de referência

Entendendo o loop multi-agente

Otimize o desempenho do modelo com prompting

Prompts do sistema

Ações disponíveis

Parâmetros da ferramenta

Habilite a capacidade de pensamento nos modelos Claude 4 e Claude Sonnet 3.7

Aumentando o uso do computador com outras ferramentas

Construa um ambiente personalizado de uso do computador

Implemente a ferramenta de uso do computador

Lidar com erros

Siga as melhores práticas de implementação

Entenda as limitações do uso do computador

Preços

Próximos passos