Инструмент компьютерного управления

Claude может взаимодействовать с компьютерными средами через инструмент компьютерного управления, который обеспечивает возможность захвата скриншотов и управления мышью/клавиатурой для автономного взаимодействия с рабочим столом.

Компьютерное управление в настоящее время находится в бета-версии и требует бета-заголовка:

"computer-use-2025-01-24" (модели Claude 4 и Claude Sonnet 3.7 (устарело))

Обзор

Компьютерное управление — это бета-функция, которая позволяет Claude взаимодействовать с окружением рабочего стола. Этот инструмент предоставляет:

Захват скриншотов: Просмотр того, что в настоящее время отображается на экране
Управление мышью: Клики, перетаскивание и перемещение курсора
Ввод с клавиатуры: Ввод текста и использование сочетаний клавиш
Автоматизация рабочего стола: Взаимодействие с любым приложением или интерфейсом

Хотя компьютерное управление можно дополнить другими инструментами, такими как bash и текстовый редактор для более комплексных рабочих процессов автоматизации, компьютерное управление конкретно относится к возможности инструмента компьютерного управления видеть и управлять окружением рабочего стола.

Совместимость моделей

Компьютерное управление доступно для следующих моделей Claude:

Модель	Версия инструмента	Бета-флаг
Модели Claude 4	`computer_20250124`	`computer-use-2025-01-24`
Claude Sonnet 3.7 (устарело)	`computer_20250124`	`computer-use-2025-01-24`

Модели Claude 4 используют обновленные версии инструментов, оптимизированные для новой архитектуры. Claude Sonnet 3.7 (устарело) вводит дополнительные возможности, включая функцию мышления для лучшего понимания процесса рассуждения модели.

Старые версии инструментов не гарантируют обратную совместимость с более новыми моделями. Всегда используйте версию инструмента, которая соответствует вашей версии модели.

Соображения безопасности

Компьютерное управление — это бета-функция с уникальными рисками, отличными от стандартных функций API. Эти риски возрастают при взаимодействии с интернетом. Чтобы минимизировать риски, рассмотрите возможность принятия мер предосторожности, таких как:

Используйте выделенную виртуальную машину или контейнер с минимальными привилегиями, чтобы предотвратить прямые атаки на систему или случайные ошибки.
Избегайте предоставления модели доступа к конфиденциальным данным, таким как информация для входа в учетную запись, чтобы предотвратить кражу информации.
Ограничьте доступ в интернет списком разрешенных доменов, чтобы снизить воздействие вредоносного контента.
Попросите человека подтвердить решения, которые могут привести к значительным реальным последствиям, а также любые задачи, требующие явного согласия, такие как принятие файлов cookie, выполнение финансовых транзакций или согласие с условиями обслуживания.

В некоторых случаях Claude будет следовать командам, найденным в содержимом, даже если это противоречит инструкциям пользователя. Например, инструкции Claude на веб-страницах или содержащиеся в изображениях могут переопределить инструкции или привести к ошибкам Claude. Мы рекомендуем принять меры предосторожности, чтобы изолировать Claude от конфиденциальных данных и действий, чтобы избежать рисков, связанных с внедрением подсказок.Мы обучили модель сопротивляться этим внедрениям подсказок и добавили дополнительный уровень защиты. Если вы используете наши инструменты компьютерного управления, мы автоматически запустим классификаторы на ваших подсказках, чтобы выявить потенциальные случаи внедрения подсказок. Когда эти классификаторы выявляют потенциальные внедрения подсказок на скриншотах, они автоматически направляют модель на запрос подтверждения пользователя перед выполнением следующего действия. Мы понимаем, что эта дополнительная защита не будет идеальной для каждого варианта использования (например, для вариантов использования без участия человека), поэтому, если вы хотите отказаться и отключить это, пожалуйста, свяжитесь с нами.Мы по-прежнему рекомендуем принять меры предосторожности, чтобы изолировать Claude от конфиденциальных данных и действий, чтобы избежать рисков, связанных с внедрением подсказок.Наконец, пожалуйста, информируйте конечных пользователей о соответствующих рисках и получайте их согласие перед включением компьютерного управления в ваших собственных продуктах.

Эталонная реализация компьютерного управления

Начните быстро с нашей эталонной реализацией компьютерного управления, которая включает веб-интерфейс, контейнер Docker, примеры реализации инструментов и цикл агента.Примечание: Реализация была обновлена, чтобы включить новые инструменты как для моделей Claude 4, так и для Claude Sonnet 3.7. Убедитесь, что вы получили последнюю версию репозитория, чтобы получить доступ к этим новым функциям.

Пожалуйста, используйте эту форму для предоставления отзывов о качестве ответов модели, самом API или качестве документации - мы не можем дождаться, чтобы услышать от вас!

Быстрый старт

Вот как начать работу с компьютерным управлением:

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-5",  # или другая совместимая модель
    max_tokens=1024,
    tools=[
        {
          "type": "computer_20250124",
          "name": "computer",
          "display_width_px": 1024,
          "display_height_px": 768,
          "display_number": 1,
        },
        {
          "type": "text_editor_20250124",
          "name": "str_replace_editor"
        },
        {
          "type": "bash_20250124",
          "name": "bash"
        }
    ],
    messages=[{"role": "user", "content": "Сохраните изображение кошки на мой рабочий стол."}],
    betas=["computer-use-2025-01-24"]
)
print(response)

Бета-заголовок требуется только для инструмента компьютерного управления.Приведенный выше пример показывает все три инструмента, используемые вместе, что требует бета-заголовка, поскольку он включает инструмент компьютерного управления.

Как работает компьютерное управление

1. Предоставьте Claude инструмент компьютерного управления и подсказку пользователя

Добавьте инструмент компьютерного управления (и опционально другие инструменты) в ваш запрос API.
Включите подсказку пользователя, которая требует взаимодействия с рабочим столом, например, “Сохраните изображение кошки на мой рабочий стол.”

2. Claude решает использовать инструмент компьютерного управления

Claude оценивает, может ли инструмент компьютерного управления помочь с запросом пользователя.
Если да, Claude создает правильно отформатированный запрос на использование инструмента.
Ответ API имеет stop_reason значение tool_use, сигнализирующее о намерении Claude.

3. Извлеките входные данные инструмента, оцените инструмент на компьютере и верните результаты

С вашей стороны извлеките имя инструмента и входные данные из запроса Claude.
Используйте инструмент в контейнере или виртуальной машине.
Продолжите разговор с новым сообщением user содержащим блок содержимого tool_result.

4. Claude продолжает вызывать инструменты компьютерного управления до завершения задачи

Claude анализирует результаты инструмента, чтобы определить, требуется ли дополнительное использование инструмента или задача завершена.
Если Claude решит, что ему нужен другой инструмент, он ответит с другим stop_reason значением tool_use и вы должны вернуться к шагу 3.
В противном случае он создает текстовый ответ пользователю.

Мы называем повторение шагов 3 и 4 без ввода пользователя “циклом агента” - то есть Claude отвечает запросом на использование инструмента, а ваше приложение отвечает Claude результатами оценки этого запроса.

Вычислительная среда

Компьютерное управление требует изолированной вычислительной среды, где Claude может безопасно взаимодействовать с приложениями и веб-сайтами. Эта среда включает:

Виртуальный дисплей: Виртуальный сервер дисплея X11 (использующий Xvfb), который отображает интерфейс рабочего стола, который Claude будет видеть через скриншоты и управлять с помощью действий мыши/клавиатуры.
Окружение рабочего стола: Легкий пользовательский интерфейс с менеджером окон (Mutter) и панелью (Tint2), работающий на Linux, который обеспечивает согласованный графический интерфейс для взаимодействия Claude.
Приложения: Предустановленные приложения Linux, такие как Firefox, LibreOffice, текстовые редакторы и менеджеры файлов, которые Claude может использовать для выполнения задач.
Реализации инструментов: Код интеграции, который переводит абстрактные запросы инструментов Claude (такие как “переместить мышь” или “сделать скриншот”) в фактические операции в виртуальной среде.
Цикл агента: Программа, которая обрабатывает связь между Claude и окружением, отправляя действия Claude в окружение и возвращая результаты (скриншоты, выходные данные команд) обратно Claude.

Когда вы используете компьютерное управление, Claude не подключается напрямую к этой среде. Вместо этого ваше приложение:

Получает запросы на использование инструмента от Claude
Переводит их в действия в вашей вычислительной среде
Захватывает результаты (скриншоты, выходные данные команд и т. д.)
Возвращает эти результаты Claude

Для безопасности и изоляции эталонная реализация запускает все это внутри контейнера Docker с соответствующими сопоставлениями портов для просмотра и взаимодействия с окружением.

Как реализовать компьютерное управление

Начните с нашей эталонной реализацией

Мы создали эталонную реализацию, которая включает все необходимое для быстрого начала работы с компьютерным управлением:

Контейнеризованная среда, подходящая для компьютерного управления с Claude
Реализации инструментов компьютерного управления
Цикл агента, который взаимодействует с API Claude и выполняет результаты tool_use
Веб-интерфейс для взаимодействия с контейнером, циклом агента и инструментами.

Понимание цикла мультиагента

Основой компьютерного управления является “цикл агента” - цикл, в котором Claude запрашивает действия инструмента, ваше приложение их выполняет и возвращает результаты Claude. Вот упрощенный пример:

async def sampling_loop(
    *,
    model: str,
    messages: list[dict],
    api_key: str,
    max_tokens: int = 4096,
    tool_version: str,
    thinking_budget: int | None = None,
    max_iterations: int = 10,  # Добавьте ограничение итераций, чтобы предотвратить бесконечные циклы
):
    """
    Простой цикл агента для взаимодействия Claude с компьютерным управлением.

    Эта функция обрабатывает взаимодействие между:
    1. Отправкой сообщений пользователя Claude
    2. Claude запрашивает использование инструментов
    3. Ваше приложение выполняет эти инструменты
    4. Отправкой результатов инструментов обратно Claude
    """
    # Настройка инструментов и параметров API
    client = Anthropic(api_key=api_key)
    beta_flag = "computer-use-2025-01-24" if "20250124" in tool_version else "computer-use-2024-10-22"

    # Настройка инструментов - вы должны уже иметь их инициализированными где-то еще
    tools = [
        {"type": f"computer_{tool_version}", "name": "computer", "display_width_px": 1024, "display_height_px": 768},
        {"type": f"text_editor_{tool_version}", "name": "str_replace_editor"},
        {"type": f"bash_{tool_version}", "name": "bash"}
    ]

    # Основной цикл агента (с ограничением итераций, чтобы предотвратить неконтролируемые затраты на API)
    iterations = 0
    while True and iterations < max_iterations:
        iterations += 1
        # Настройка необязательного параметра мышления (для Claude Sonnet 3.7)
        thinking = None
        if thinking_budget:
            thinking = {"type": "enabled", "budget_tokens": thinking_budget}

        # Вызов API Claude
        response = client.beta.messages.create(
            model=model,
            max_tokens=max_tokens,
            messages=messages,
            tools=tools,
            betas=[beta_flag],
            thinking=thinking
        )

        # Добавьте ответ Claude в историю разговора
        response_content = response.content
        messages.append({"role": "assistant", "content": response_content})

        # Проверьте, использовал ли Claude какие-либо инструменты
        tool_results = []
        for block in response_content:
            if block.type == "tool_use":
                # В реальном приложении вы бы выполнили инструмент здесь
                # Например: result = run_tool(block.name, block.input)
                result = {"result": "Tool executed successfully"}

                # Отформатируйте результат для Claude
                tool_results.append({
                    "type": "tool_result",
                    "tool_use_id": block.id,
                    "content": result
                })

        # Если инструменты не использовались, Claude готов - верните финальные сообщения
        if not tool_results:
            return messages

        # Добавьте результаты инструментов в сообщения для следующей итерации с Claude
        messages.append({"role": "user", "content": tool_results})

Цикл продолжается до тех пор, пока Claude не ответит без запроса каких-либо инструментов (завершение задачи) или не будет достигнут максимальный предел итераций. Эта защита предотвращает потенциальные бесконечные циклы, которые могут привести к неожиданным затратам на API.

При использовании инструмента компьютерного управления вы должны включить соответствующий бета-флаг для вашей версии модели:

Модели Claude 4

При использовании computer_20250124 включите этот бета-флаг:

"betas": ["computer-use-2025-01-24"]

Claude Sonnet 3.7

При использовании computer_20250124 включите этот бета-флаг:

"betas": ["computer-use-2025-01-24"]

Мы рекомендуем попробовать эталонную реализацию перед чтением остальной части этой документации.

Оптимизируйте производительность модели с помощью подсказок

Вот несколько советов о том, как получить лучшее качество результатов:

Укажите простые, четко определенные задачи и предоставьте явные инструкции для каждого шага.
Claude иногда предполагает результаты своих действий без явной проверки их результатов. Чтобы предотвратить это, вы можете подсказать Claude с помощью После каждого шага сделайте скриншот и тщательно оцените, достигли ли вы правильного результата. Явно покажите свое мышление: "Я оценил шаг X..." Если это неправильно, попробуйте снова. Только когда вы подтвердите, что шаг был выполнен правильно, переходите к следующему.
Некоторые элементы пользовательского интерфейса (такие как раскрывающиеся списки и полосы прокрутки) могут быть сложными для Claude при манипулировании с помощью движений мыши. Если вы столкнетесь с этим, попробуйте подсказать модели использовать сочетания клавиш.
Для повторяемых задач или взаимодействий пользовательского интерфейса включите примеры скриншотов и вызовов инструментов успешных результатов в вашу подсказку.
Если вам нужно, чтобы модель вошла в систему, предоставьте ей имя пользователя и пароль в вашей подсказке внутри тегов xml, таких как <robot_credentials>. Использование компьютерного управления в приложениях, требующих входа, увеличивает риск плохих результатов из-за внедрения подсказок. Пожалуйста, ознакомьтесь с нашим руководством по смягчению внедрения подсказок перед предоставлением модели учетных данных для входа.

Если вы неоднократно сталкиваетесь с четким набором проблем или заранее знаете задачи, которые Claude должен будет выполнить, используйте системную подсказку, чтобы предоставить Claude явные советы или инструкции о том, как успешно выполнить задачи.

Системные подсказки

Когда один из инструментов, определенных Anthropic, запрашивается через API Claude, генерируется системная подсказка, специфичная для компьютерного управления. Она похожа на системную подсказку использования инструмента, но начинается с:

У вас есть доступ к набору функций, которые вы можете использовать для ответа на вопрос пользователя. Это включает доступ к изолированной вычислительной среде. В настоящее время у вас нет возможности проверять файлы или взаимодействовать с внешними ресурсами, кроме как путем вызова приведенных ниже функций.

Как и при обычном использовании инструмента, поле system_prompt, предоставленное пользователем, по-прежнему соблюдается и используется при построении объединенной системной подсказки.

Доступные действия

Инструмент компьютерного управления поддерживает эти действия: Базовые действия (все версии)

screenshot - Захватить текущий дисплей
left_click - Щелкнуть по координатам [x, y]
type - Ввести текстовую строку
key - Нажать клавишу или комбинацию клавиш (например, “ctrl+s”)
mouse_move - Переместить курсор на координаты

Расширенные действия (computer_20250124) Доступны в моделях Claude 4 и Claude Sonnet 3.7:

scroll - Прокрутить в любом направлении с контролем количества
left_click_drag - Щелкнуть и перетащить между координатами
right_click, middle_click - Дополнительные кнопки мыши
double_click, triple_click - Множественные клики
left_mouse_down, left_mouse_up - Точное управление кликом
hold_key - Удерживать клавишу при выполнении других действий
wait - Пауза между действиями

Примеры действий

// Сделать скриншот
{
  "action": "screenshot"
}

// Щелкнуть по позиции
{
  "action": "left_click",
  "coordinate": [500, 300]
}

// Ввести текст
{
  "action": "type",
  "text": "Hello, world!"
}

// Прокрутить вниз (Claude 4/3.7)
{
  "action": "scroll",
  "coordinate": [500, 400],
  "scroll_direction": "down",
  "scroll_amount": 3
}

Параметры инструмента

Параметр	Обязательный	Описание
`type`	Да	Версия инструмента (`computer_20250124` или `computer_20241022`)
`name`	Да	Должно быть “computer”
`display_width_px`	Да	Ширина дисплея в пикселях
`display_height_px`	Да	Высота дисплея в пикселях
`display_number`	Нет	Номер дисплея для окружений X11

Держите разрешение дисплея на уровне 1280x800 (WXGA) или ниже для лучшей производительности. Более высокие разрешения могут вызвать проблемы с точностью из-за изменения размера изображения.

Важно: Инструмент компьютерного управления должен быть явно выполнен вашим приложением - Claude не может выполнить его напрямую. Вы несете ответственность за реализацию захвата скриншотов, движений мыши, вводов с клавиатуры и других действий на основе запросов Claude.

Включите возможность мышления в моделях Claude 4 и Claude Sonnet 3.7

Claude Sonnet 3.7 представил новую возможность “мышления”, которая позволяет вам видеть процесс рассуждения модели при работе над сложными задачами. Эта функция помогает вам понять, как Claude подходит к проблеме, и может быть особенно ценна для отладки или образовательных целей. Чтобы включить мышление, добавьте параметр thinking в ваш запрос API:

"thinking": {
  "type": "enabled",
  "budget_tokens": 1024
}

Параметр budget_tokens указывает, сколько токенов Claude может использовать для мышления. Это вычитается из вашего общего бюджета max_tokens. Когда мышление включено, Claude вернет свой процесс рассуждения как часть ответа, что может помочь вам:

Понять процесс принятия решений модели
Выявить потенциальные проблемы или неправильные представления
Учиться на подходе Claude к решению проблем
Получить больше видимости в сложные многошаговые операции

Вот пример того, как может выглядеть вывод мышления:

[Мышление]
Мне нужно сохранить изображение кошки на рабочий стол. Давайте разберем это на шаги:

1. Сначала я сделаю скриншот, чтобы увидеть, что находится на рабочем столе
2. Затем я буду искать веб-браузер для поиска изображений кошек
3. После нахождения подходящего изображения мне нужно будет сохранить его на рабочий стол

Давайте начнем со скриншота, чтобы увидеть, что доступно...

Дополнение компьютерного управления другими инструментами

Инструмент компьютерного управления можно комбинировать с другими инструментами для создания более мощных рабочих процессов автоматизации. Это особенно полезно, когда вам нужно:

Выполнять системные команды (инструмент bash)
Редактировать файлы конфигурации или скрипты (инструмент текстового редактора)
Интегрироваться с пользовательскими API или сервисами (пользовательские инструменты)

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 2000,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250124",
        "name": "str_replace_editor"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      },
      {
        "name": "get_weather",
        "description": "Get the current weather in a given location",
        "input_schema": {
          "type": "object",
          "properties": {
            "location": {
              "type": "string",
              "description": "The city and state, e.g. San Francisco, CA"
            },
            "unit": {
              "type": "string",
              "enum": ["celsius", "fahrenheit"],
              "description": "The unit of temperature, either 'celsius' or 'fahrenheit'"
            }
          },
          "required": ["location"]
        }
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Find flights from San Francisco to a place with warmer weather."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

Создайте пользовательскую среду компьютерного управления

Эталонная реализация предназначена для помощи вам в начале работы с компьютерным управлением. Она включает все компоненты, необходимые для использования Claude на компьютере. Однако вы можете создать свою собственную среду для компьютерного управления в соответствии с вашими потребностями. Вам понадобится:

Виртуализированная или контейнеризованная среда, подходящая для компьютерного управления с Claude
Реализация по крайней мере одного из инструментов компьютерного управления, определенных Anthropic
Цикл агента, который взаимодействует с API Claude и выполняет результаты tool_use с использованием реализаций вашего инструмента
API или пользовательский интерфейс, который позволяет вводить данные пользователем для запуска цикла агента

Реализуйте инструмент компьютерного управления

Инструмент компьютерного управления реализован как инструмент без схемы. При использовании этого инструмента вам не нужно предоставлять схему ввода, как с другими инструментами; схема встроена в модель Claude и не может быть изменена.

Настройте вашу вычислительную среду

Создайте виртуальный дисплей или подключитесь к существующему дисплею, с которым Claude будет взаимодействовать. Это обычно включает настройку Xvfb (X Virtual Framebuffer) или аналогичной технологии.

Реализуйте обработчики действий

Создайте функции для обработки каждого типа действия, которое Claude может запросить:

def handle_computer_action(action_type, params):
    if action_type == "screenshot":
        return capture_screenshot()
    elif action_type == "left_click":
        x, y = params["coordinate"]
        return click_at(x, y)
    elif action_type == "type":
        return type_text(params["text"])
    # ... обработайте другие действия

Обработайте вызовы инструментов Claude

Извлеките и выполните вызовы инструментов из ответов Claude:

for content in response.content:
    if content.type == "tool_use":
        action = content.input["action"]
        result = handle_computer_action(action, content.input)
        
        # Верните результат Claude
        tool_result = {
            "type": "tool_result",
            "tool_use_id": content.id,
            "content": result
        }

Реализуйте цикл агента

Создайте цикл, который продолжается до завершения задачи Claude:

while True:
    response = client.beta.messages.create(...)
    
    # Проверьте, использовал ли Claude какие-либо инструменты
    tool_results = process_tool_calls(response)
    
    if not tool_results:
        # Больше нет использования инструментов, задача завершена
        break
        
    # Продолжите разговор с результатами инструментов
    messages.append({"role": "user", "content": tool_results})

Обработайте ошибки

При реализации инструмента компьютерного управления могут возникнуть различные ошибки. Вот как их обработать:

Ошибка захвата скриншота

Если захват скриншота не удается, верните соответствующее сообщение об ошибке:

{
  "role": "user",
  "content": [
    {
      "type": "tool_result",
      "tool_use_id": "toolu_01A09q90qw90lq917835lq9",
      "content": "Error: Failed to capture screenshot. Display may be locked or unavailable.",
      "is_error": true
    }
  ]
}

Неверные координаты

Если Claude предоставляет координаты за пределами границ дисплея:

{
  "role": "user",
  "content": [
    {
      "type": "tool_result",
      "tool_use_id": "toolu_01A09q90qw90lq917835lq9",
      "content": "Error: Coordinates (1200, 900) are outside display bounds (1024x768).",
      "is_error": true
    }
  ]
}

Ошибка выполнения действия

Если действие не удается выполнить:

{
  "role": "user",
  "content": [
    {
      "type": "tool_result",
      "tool_use_id": "toolu_01A09q90qw90lq917835lq9",
      "content": "Error: Failed to perform click action. The application may be unresponsive.",
      "is_error": true
    }
  ]
}

Следуйте лучшим практикам реализации

Используйте подходящее разрешение дисплея

Установите размеры дисплея, которые соответствуют вашему варианту использования, оставаясь в рекомендуемых пределах:

Для общих задач рабочего стола: 1024x768 или 1280x720
Для веб-приложений: 1280x800 или 1366x768
Избегайте разрешений выше 1920x1080, чтобы предотвратить проблемы с производительностью

Реализуйте правильную обработку скриншотов

При возврате скриншотов Claude:

Кодируйте скриншоты как base64 PNG или JPEG
Рассмотрите возможность сжатия больших скриншотов для улучшения производительности
Включите соответствующие метаданные, такие как временная метка или состояние дисплея

Добавьте задержки действий

Некоторые приложения нуждаются во времени для ответа на действия:

def click_and_wait(x, y, wait_time=0.5):
    click_at(x, y)
    time.sleep(wait_time)  # Позвольте пользовательскому интерфейсу обновиться

Проверьте действия перед выполнением

Проверьте, что запрашиваемые действия безопасны и действительны:

def validate_action(action_type, params):
    if action_type == "left_click":
        x, y = params.get("coordinate", (0, 0))
        if not (0 <= x < display_width and 0 <= y < display_height):
            return False, "Coordinates out of bounds"
    return True, None

Регистрируйте действия для отладки

Ведите журнал всех действий для устранения неполадок:

import logging

def log_action(action_type, params, result):
    logging.info(f"Action: {action_type}, Params: {params}, Result: {result}")

Понимание ограничений компьютерного управления

Функциональность компьютерного управления находится в бета-версии. Хотя возможности Claude передовые, разработчики должны знать об его ограничениях:

Задержка: текущая задержка компьютерного управления для взаимодействия человека и ИИ может быть слишком медленной по сравнению с обычными действиями, направляемыми человеком на компьютере. Мы рекомендуем сосредоточиться на вариантах использования, где скорость не критична (например, сбор справочной информации, автоматизированное тестирование программного обеспечения) в доверенных средах.
Точность и надежность компьютерного зрения: Claude может допускать ошибки или галлюцинировать при выводе конкретных координат при создании действий. Claude Sonnet 3.7 вводит возможность мышления, которая может помочь вам понять рассуждение модели и выявить потенциальные проблемы.
Точность и надежность выбора инструмента: Claude может допускать ошибки или галлюцинировать при выборе инструментов при создании действий или предпринимать неожиданные действия для решения проблем. Кроме того, надежность может быть ниже при взаимодействии с нишевыми приложениями или несколькими приложениями одновременно. Мы рекомендуем пользователям тщательно подсказывать модель при запросе сложных задач.
Надежность прокрутки: Claude Sonnet 3.7 представил выделенные действия прокрутки с управлением направлением, которое улучшает надежность. Модель теперь может явно прокручивать в любом направлении (вверх/вниз/влево/вправо) на указанное количество.
Взаимодействие с электронными таблицами: Клики мыши для взаимодействия с электронными таблицами улучшены в Claude Sonnet 3.7 с добавлением более точных действий управления мышью, таких как left_mouse_down, left_mouse_up и новая поддержка клавиш-модификаторов. Выбор ячеек может быть более надежным при использовании этих точных элементов управления и комбинировании клавиш-модификаторов с кликами.
Создание учетной записи и создание контента на социальных и коммуникационных платформах: Хотя Claude будет посещать веб-сайты, мы ограничиваем его способность создавать учетные записи или создавать и делиться контентом или иным образом участвовать в выдаче себя за человека на веб-сайтах и платформах социальных сетей. Мы можем обновить эту возможность в будущем.
Уязвимости: Уязвимости, такие как взлом или внедрение подсказок, могут сохраняться в системах передовых ИИ, включая бета-API компьютерного управления. В некоторых случаях Claude будет следовать командам, найденным в содержимом, иногда даже в конфликте с инструкциями пользователя. Например, инструкции Claude на веб-страницах или содержащиеся в изображениях могут переопределить инструкции или привести к ошибкам Claude. Мы рекомендуем: a. Ограничить компьютерное управление доверенными средами, такими как виртуальные машины или контейнеры с минимальными привилегиями b. Избегать предоставления доступа компьютерного управления к конфиденциальным учетным записям или данным без строгого надзора c. Информировать конечных пользователей о соответствующих рисках и получать их согласие перед включением или запросом разрешений, необходимых для функций компьютерного управления в ваших приложениях
Неправомерные или незаконные действия: В соответствии с условиями обслуживания Anthropic вы не должны использовать компьютерное управление для нарушения каких-либо законов или нашей Политики приемлемого использования.

Всегда тщательно проверяйте и верифицируйте действия компьютерного управления Claude и журналы. Не используйте Claude для задач, требующих идеальной точности или конфиденциальной информации пользователя без надзора человека.

Цены

Computer use follows the standard tool use pricing. When using the computer use tool: System prompt overhead: The computer use beta adds 466-499 tokens to the system prompt Computer use tool token usage:

Model	Input tokens per tool definition
Claude 4.x models	735 tokens
Claude Sonnet 3.7 (deprecated)	735 tokens

Additional token consumption:

Screenshot images (see Vision pricing)
Tool execution results returned to Claude

If you’re also using bash or text editor tools alongside computer use, those tools have their own token costs as documented in their respective pages.

Следующие шаги

Эталонная реализация

Начните быстро с нашей полной реализацией на основе Docker

Документация инструмента

Узнайте больше об использовании инструментов и создании пользовательских инструментов

Первые шаги

Модели и цены

Создавайте с Claude

Возможности

Инструменты

Навыки агента

Agent SDK

MCP в API

Claude на сторонних платформах

Инженерия подсказок

Тестирование и оценка

Усилить защиту

Инструмент компьютерного управления

Обзор

Совместимость моделей

Соображения безопасности

Эталонная реализация компьютерного управления

Быстрый старт

Как работает компьютерное управление

Вычислительная среда

Как реализовать компьютерное управление

Начните с нашей эталонной реализацией

Понимание цикла мультиагента

Оптимизируйте производительность модели с помощью подсказок

Системные подсказки

Доступные действия

Параметры инструмента

Включите возможность мышления в моделях Claude 4 и Claude Sonnet 3.7

Дополнение компьютерного управления другими инструментами

Создайте пользовательскую среду компьютерного управления

Реализуйте инструмент компьютерного управления

Обработайте ошибки

Следуйте лучшим практикам реализации

Понимание ограничений компьютерного управления

Цены

Следующие шаги

Эталонная реализация

Документация инструмента

Первые шаги

Модели и цены

Создавайте с Claude

Возможности

Инструменты

Навыки агента

Agent SDK

MCP в API

Claude на сторонних платформах

Инженерия подсказок

Тестирование и оценка

Усилить защиту

​Обзор

​Совместимость моделей

​Соображения безопасности

Эталонная реализация компьютерного управления

​Быстрый старт

​Как работает компьютерное управление

​Вычислительная среда

​Как реализовать компьютерное управление

​Начните с нашей эталонной реализацией

​Понимание цикла мультиагента

​Оптимизируйте производительность модели с помощью подсказок

​Системные подсказки

​Доступные действия

​Параметры инструмента

​Включите возможность мышления в моделях Claude 4 и Claude Sonnet 3.7

​Дополнение компьютерного управления другими инструментами

​Создайте пользовательскую среду компьютерного управления

​Реализуйте инструмент компьютерного управления

​Обработайте ошибки

​Следуйте лучшим практикам реализации

​Понимание ограничений компьютерного управления

​Цены

​Следующие шаги

Эталонная реализация

Документация инструмента

Обзор

Совместимость моделей

Соображения безопасности

Быстрый старт

Как работает компьютерное управление

Вычислительная среда

Как реализовать компьютерное управление

Начните с нашей эталонной реализацией

Понимание цикла мультиагента

Оптимизируйте производительность модели с помощью подсказок

Системные подсказки

Доступные действия

Параметры инструмента

Включите возможность мышления в моделях Claude 4 и Claude Sonnet 3.7

Дополнение компьютерного управления другими инструментами

Создайте пользовательскую среду компьютерного управления

Реализуйте инструмент компьютерного управления

Обработайте ошибки

Следуйте лучшим практикам реализации

Понимание ограничений компьютерного управления

Цены

Следующие шаги