コンピューター使用ツール

Claudeは、スクリーンショット機能とマウス/キーボード制御を提供し、自律的なデスクトップ操作を可能にするコンピューター使用ツールを通じて、コンピューター環境と相互作用できます。

コンピューター使用は現在ベータ版であり、ベータヘッダーが必要です：

"computer-use-2025-01-24" (Claude 4モデルとClaude Sonnet 3.7)
"computer-use-2024-10-22" (Claude Sonnet 3.5 (非推奨))

概要

コンピューター使用は、Claudeがデスクトップ環境と相互作用できるベータ機能です。このツールは以下を提供します：

スクリーンショット取得: 現在画面に表示されている内容を確認
マウス制御: クリック、ドラッグ、カーソル移動
キーボード入力: テキスト入力とキーボードショートカット
デスクトップ自動化: あらゆるアプリケーションやインターフェースとの相互作用

コンピューター使用は、より包括的な自動化ワークフローのためにbashやテキストエディターなどの他のツールと組み合わせることができますが、コンピューター使用は特にコンピューター使用ツールのデスクトップ環境を見て制御する機能を指します。

モデル互換性

コンピューター使用は以下のClaudeモデルで利用可能です：

モデル	ツールバージョン	ベータフラグ
Claude 4モデル	`computer_20250124`	`computer-use-2025-01-24`
Claude Sonnet 3.7	`computer_20250124`	`computer-use-2025-01-24`
Claude Sonnet 3.5 v2 (非推奨)	`computer_20241022`	`computer-use-2024-10-22`

Claude 4モデルは、新しいアーキテクチャに最適化された更新されたツールバージョンを使用します。Claude Sonnet 3.7は、モデルの推論プロセスをより深く理解できる思考機能を含む追加機能を導入しています。

古いツールバージョンは、新しいモデルとの後方互換性が保証されていません。常にモデルバージョンに対応するツールバージョンを使用してください。

セキュリティに関する考慮事項

コンピューター使用は、標準的なAPI機能とは異なる固有のリスクを持つベータ機能です。これらのリスクは、インターネットと相互作用する際に高まります。リスクを最小限に抑えるため、以下のような予防措置を検討してください：

直接的なシステム攻撃や事故を防ぐため、最小限の権限を持つ専用の仮想マシンまたはコンテナを使用する。
情報盗難を防ぐため、アカウントログイン情報などの機密データへのモデルアクセスを避ける。
悪意のあるコンテンツへの露出を減らすため、インターネットアクセスをドメインの許可リストに制限する。
現実世界で意味のある結果をもたらす可能性のある決定や、クッキーの受け入れ、金融取引の実行、利用規約への同意など、肯定的な同意を必要とするタスクについて、人間に確認を求める。

一部の状況では、Claudeはユーザーの指示と矛盾していても、コンテンツ内で見つかったコマンドに従います。例えば、ウェブページ上のClaude指示や画像に含まれる指示が、指示を上書きしたり、Claudeにミスを犯させたりする可能性があります。プロンプトインジェクションに関連するリスクを回避するため、Claudeを機密データや行動から隔離する予防措置を講じることをお勧めします。私たちはモデルをこれらのプロンプトインジェクションに抵抗するように訓練し、追加の防御層を追加しました。コンピューター使用ツールを使用する場合、プロンプトインジェクションの潜在的なインスタンスにフラグを立てるため、プロンプトに対して分類器を自動的に実行します。これらの分類器がスクリーンショット内でプロンプトインジェクションの可能性を特定すると、次のアクションに進む前にユーザーの確認を求めるようにモデルを自動的に誘導します。この追加の保護がすべてのユースケース（例えば、人間がループに含まれていないユースケース）に理想的ではないことを認識しているため、オプトアウトして無効にしたい場合は、お問い合わせください。プロンプトインジェクションに関連するリスクを回避するため、Claudeを機密データや行動から隔離する予防措置を講じることをお勧めします。最後に、自社製品でコンピューター使用を有効にする前に、エンドユーザーに関連するリスクを通知し、同意を得てください。

コンピューター使用リファレンス実装

ウェブインターフェース、Dockerコンテナ、ツール実装例、エージェントループを含むコンピューター使用リファレンス実装で素早く開始できます。注意: 実装は、Claude 4モデルとClaude Sonnet 3.7の両方に対応する新しいツールを含むように更新されています。これらの新機能にアクセスするため、リポジトリの最新バージョンを必ずプルしてください。

モデル応答の品質、API自体、またはドキュメントの品質についてフィードバックを提供するには、このフォームをご利用ください - 皆様からのご意見をお待ちしております！

クイックスタート

コンピューター使用を開始する方法は以下の通りです：

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-5",  # または他の互換モデル
    max_tokens=1024,
    tools=[
        {
          "type": "computer_20250124",
          "name": "computer",
          "display_width_px": 1024,
          "display_height_px": 768,
          "display_number": 1,
        },
        {
          "type": "text_editor_20250124",
          "name": "str_replace_editor"
        },
        {
          "type": "bash_20250124",
          "name": "bash"
        }
    ],
    messages=[{"role": "user", "content": "猫の写真をデスクトップに保存してください。"}],
    betas=["computer-use-2025-01-24"]
)
print(response)

ベータヘッダー要件:

Claude 4モデルとClaude Sonnet 3.7: コンピューター使用ツールにのみベータヘッダーが必要
Claude Sonnet 3.5 (非推奨): computer、bash、text editorツールにベータヘッダーが必要

上記の例では3つのツールすべてを一緒に使用しており、コンピューター使用ツールが含まれているため、どのClaudeモデルでもベータヘッダーが必要です。

コンピューター使用の仕組み

1. Claudeにコンピューター使用ツールとユーザープロンプトを提供

API リクエストにコンピューター使用ツール（および必要に応じて他のツール）を追加します。
デスクトップ操作が必要なユーザープロンプトを含めます。例：「猫の写真をデスクトップに保存してください。」

2. Claudeがコンピューター使用ツールの使用を決定

Claudeは、コンピューター使用ツールがユーザーのクエリに役立つかどうかを評価します。
役立つ場合、Claudeは適切にフォーマットされたツール使用リクエストを構築します。
API応答のstop_reasonがtool_useになり、Claudeの意図を示します。

3. ツール入力を抽出し、コンピューター上でツールを評価し、結果を返す

あなたの側で、Claudeのリクエストからツール名と入力を抽出します。
コンテナまたは仮想マシン上でツールを使用します。
tool_resultコンテンツブロックを含む新しいuserメッセージで会話を続けます。

4. Claudeはタスクが完了するまでコンピューター使用ツールの呼び出しを続ける

Claudeはツール結果を分析して、さらなるツール使用が必要か、タスクが完了したかを判断します。
Claudeが別のツールが必要だと判断した場合、別のtool_use stop_reasonで応答し、ステップ3に戻る必要があります。
そうでなければ、ユーザーへのテキスト応答を作成します。

ユーザー入力なしでのステップ3と4の繰り返しを「エージェントループ」と呼びます - つまり、Claudeがツール使用リクエストで応答し、アプリケーションがそのリクエストを評価した結果でClaudeに応答することです。

コンピューティング環境

コンピューター使用には、Claudeがアプリケーションやウェブと安全に相互作用できるサンドボックス化されたコンピューティング環境が必要です。この環境には以下が含まれます：

仮想ディスプレイ: Claudeがスクリーンショットを通じて見て、マウス/キーボードアクションで制御するデスクトップインターフェースをレンダリングする仮想X11ディスプレイサーバー（Xvfbを使用）。
デスクトップ環境: Linux上で動作するウィンドウマネージャー（Mutter）とパネル（Tint2）を備えた軽量UI。Claudeが相互作用するための一貫したグラフィカルインターフェースを提供します。
アプリケーション: Firefox、LibreOffice、テキストエディター、ファイルマネージャーなど、Claudeがタスクを完了するために使用できる事前インストールされたLinuxアプリケーション。
ツール実装: Claudeの抽象的なツールリクエスト（「マウス移動」や「スクリーンショット取得」など）を仮想環境での実際の操作に変換する統合コード。
エージェントループ: ClaudeとClaude環境間の通信を処理し、Claudeのアクションを環境に送信し、結果（スクリーンショット、コマンド出力など）をClaudeに返すプログラム。

コンピューター使用を使用する際、Claudeはこの環境に直接接続しません。代わりに、アプリケーションが：

Claudeのツール使用リクエストを受信
それらをコンピューティング環境でのアクションに変換
結果（スクリーンショット、コマンド出力など）を取得
これらの結果をClaudeに返す

セキュリティと隔離のため、リファレンス実装は、環境の表示と相互作用のための適切なポートマッピングを持つDockerコンテナ内ですべてを実行します。

コンピューター使用の実装方法

リファレンス実装から始める

コンピューター使用を素早く開始するために必要なすべてを含むリファレンス実装を構築しました：

Claudeでのコンピューター使用に適したコンテナ化された環境
コンピューター使用ツールの実装
Claude APIと相互作用し、コンピューター使用ツールを実行するエージェントループ
コンテナ、エージェントループ、ツールと相互作用するウェブインターフェース。

マルチエージェントループの理解

コンピューター使用の核心は「エージェントループ」です - Claudeがツールアクションをリクエストし、アプリケーションがそれらを実行し、結果をClaudeに返すサイクルです。以下は簡略化された例です：

async def sampling_loop(
    *,
    model: str,
    messages: list[dict],
    api_key: str,
    max_tokens: int = 4096,
    tool_version: str,
    thinking_budget: int | None = None,
    max_iterations: int = 10,  # 無限ループを防ぐための反復制限を追加
):
    """
    Claude コンピューター使用相互作用のためのシンプルなエージェントループ。

    この関数は以下の間のやり取りを処理します：
    1. ユーザーメッセージをClaudeに送信
    2. Claudeがツールの使用をリクエスト
    3. アプリがそれらのツールを実行
    4. ツール結果をClaudeに送信
    """
    # ツールとAPIパラメータを設定
    client = Anthropic(api_key=api_key)
    beta_flag = "computer-use-2025-01-24" if "20250124" in tool_version else "computer-use-2024-10-22"

    # ツールを設定 - これらは他の場所で既に初期化されているはずです
    tools = [
        {"type": f"computer_{tool_version}", "name": "computer", "display_width_px": 1024, "display_height_px": 768},
        {"type": f"text_editor_{tool_version}", "name": "str_replace_editor"},
        {"type": f"bash_{tool_version}", "name": "bash"}
    ]

    # メインエージェントループ（暴走APIコストを防ぐための反復制限付き）
    iterations = 0
    while True and iterations < max_iterations:
        iterations += 1
        # オプションの思考パラメータを設定（Claude Sonnet 3.7用）
        thinking = None
        if thinking_budget:
            thinking = {"type": "enabled", "budget_tokens": thinking_budget}

        # Claude APIを呼び出し
        response = client.beta.messages.create(
            model=model,
            max_tokens=max_tokens,
            messages=messages,
            tools=tools,
            betas=[beta_flag],
            thinking=thinking
        )

        # Claudeの応答を会話履歴に追加
        response_content = response.content
        messages.append({"role": "assistant", "content": response_content})

        # Claudeがツールを使用したかチェック
        tool_results = []
        for block in response_content:
            if block.type == "tool_use":
                # 実際のアプリでは、ここでツールを実行します
                # 例：result = run_tool(block.name, block.input)
                result = {"result": "ツールが正常に実行されました"}

                # Claude用に結果をフォーマット
                tool_results.append({
                    "type": "tool_result",
                    "tool_use_id": block.id,
                    "content": result
                })

        # ツールが使用されなかった場合、Claudeは完了 - 最終メッセージを返す
        if not tool_results:
            return messages

        # Claudeとの次の反復のためにツール結果をメッセージに追加
        messages.append({"role": "user", "content": tool_results})

ループは、Claudeがツールをリクエストせずに応答する（タスク完了）か、最大反復制限に達するまで続きます。この安全装置は、予期しないAPIコストを招く可能性のある無限ループを防ぎます。

コンピューター使用ツールを使用する際は、モデルバージョンに適切なベータフラグを含める必要があります：

Claude 4モデル

computer_20250124を使用する際は、このベータフラグを含めてください：

"betas": ["computer-use-2025-01-24"]

Claude Sonnet 3.7

computer_20250124を使用する際は、このベータフラグを含めてください：

"betas": ["computer-use-2025-01-24"]

Claude Sonnet 3.5 v2 (非推奨)

computer_20241022を使用する際は、このベータフラグを含めてください：

"betas": ["computer-use-2024-10-22"]

注意：Claude 4モデルとClaude Sonnet 3.7では、ベータフラグはコンピューター使用ツールにのみ必要です。Claude Sonnet 3.5 (非推奨)では、computer、bash、text editorツールにベータフラグが必要です。

このドキュメントの残りを読む前に、リファレン実装を試してみることをお勧めします。

プロンプトでモデルパフォーマンスを最適化

最高品質の出力を得るためのヒントをいくつか紹介します：

シンプルで明確に定義されたタスクを指定し、各ステップに明示的な指示を提供する。
Claudeは時々、結果を明示的にチェックせずにアクションの結果を仮定することがあります。これを防ぐために、各ステップの後、スクリーンショットを撮り、正しい結果を達成したかどうかを慎重に評価してください。あなたの思考を明示的に示してください：「ステップXを評価しました...」正しくない場合は、再試行してください。ステップが正しく実行されたことを確認した場合のみ、次のステップに進んでください。とClaudeにプロンプトできます。
一部のUI要素（ドロップダウンやスクロールバーなど）は、マウス移動を使用してClaudeが操作するのが難しい場合があります。これを経験した場合は、キーボードショートカットを使用するようにモデルにプロンプトしてみてください。
繰り返し可能なタスクやUI相互作用の場合、プロンプトに成功した結果の例のスクリーンショットとツール呼び出しを含めてください。
モデルにログインが必要な場合は、<robot_credentials>のようなxmlタグ内でプロンプトにユーザー名とパスワードを提供してください。ログインが必要なアプリケーション内でコンピューター使用を使用すると、プロンプトインジェクションの結果として悪い結果のリスクが高まります。モデルにログイン認証情報を提供する前に、プロンプトインジェクションの軽減に関するガイドを確認してください。

明確な問題のセットに繰り返し遭遇したり、Claudeが完了する必要があるタスクを事前に知っている場合は、システムプロンプトを使用して、タスクを成功させる方法についてClaudeに明示的なヒントや指示を提供してください。

システムプロンプト

Anthropic定義のツールの1つがClaude APIを介してリクエストされると、コンピューター使用固有のシステムプロンプトが生成されます。これはツール使用システムプロンプトに似ていますが、以下で始まります：

あなたは、ユーザーの質問に答えるために使用できる一連の関数にアクセスできます。これには、サンドボックス化されたコンピューティング環境へのアクセスが含まれます。現在、以下の関数を呼び出す以外に、ファイルを検査したり外部リソースと相互作用したりする能力はありません。

通常のツール使用と同様に、ユーザー提供のsystem_promptフィールドは引き続き尊重され、結合されたシステムプロンプトの構築に使用されます。

利用可能なアクション

コンピューター使用ツールは以下のアクションをサポートします： 基本アクション（すべてのバージョン）

screenshot - 現在のディスプレイをキャプチャ
left_click - 座標[x, y]でクリック
type - テキスト文字列を入力
key - キーまたはキーの組み合わせを押す（例：“ctrl+s”）
mouse_move - カーソルを座標に移動

拡張アクション（computer_20250124） Claude 4モデルとClaude Sonnet 3.7で利用可能：

scroll - 量制御で任意の方向にスクロール
left_click_drag - 座標間でクリックしてドラッグ
right_click、middle_click - 追加のマウスボタン
double_click、triple_click - 複数クリック
left_mouse_down、left_mouse_up - 細かいクリック制御
hold_key - 他のアクションを実行しながらキーを保持
wait - アクション間で一時停止

アクション例

// スクリーンショットを撮る
{
  "action": "screenshot"
}

// 位置でクリック
{
  "action": "left_click",
  "coordinate": [500, 300]
}

// テキストを入力
{
  "action": "type",
  "text": "Hello, world!"
}

// 下にスクロール（Claude 4/3.7）
{
  "action": "scroll",
  "coordinate": [500, 400],
  "scroll_direction": "down",
  "scroll_amount": 3
}

ツールパラメータ

パラメータ	必須	説明
`type`	はい	ツールバージョン（`computer_20250124`または`computer_20241022`）
`name`	はい	”computer”である必要があります
`display_width_px`	はい	ピクセル単位のディスプレイ幅
`display_height_px`	はい	ピクセル単位のディスプレイ高さ
`display_number`	いいえ	X11環境のディスプレイ番号

最高のパフォーマンスを得るため、ディスプレイ解像度を1280x800（WXGA）以下に保ってください。高い解像度は画像リサイズにより精度の問題を引き起こす可能性があります。

重要: コンピューター使用ツールはアプリケーションによって明示的に実行される必要があります - Claudeは直接実行できません。Claudeのリクエストに基づいて、スクリーンショットキャプチャ、マウス移動、キーボード入力、その他のアクションを実装する責任があります。

Claude 4モデルとClaude Sonnet 3.7で思考機能を有効にする

Claude Sonnet 3.7は、複雑なタスクに取り組む際のモデルの推論プロセスを見ることができる新しい「思考」機能を導入しました。この機能は、Claudeがどのように問題にアプローチしているかを理解するのに役立ち、デバッグや教育目的に特に価値があります。思考を有効にするには、APIリクエストにthinkingパラメータを追加します：

"thinking": {
  "type": "enabled",
  "budget_tokens": 1024
}

budget_tokensパラメータは、Claudeが思考に使用できるトークン数を指定します。これは全体のmax_tokens予算から差し引かれます。思考が有効になると、Claudeは応答の一部として推論プロセスを返し、以下に役立ちます：

モデルの意思決定プロセスを理解
潜在的な問題や誤解を特定
Claudeの問題解決アプローチから学習
複雑な多段階操作により多くの可視性を得る

思考出力の例は以下のようになります：

[思考]
猫の写真をデスクトップに保存する必要があります。これを段階に分けてみましょう：

1. まず、スクリーンショットを撮ってデスクトップに何があるかを確認します
2. 次に、猫の画像を検索するためのウェブブラウザを探します
3. 適切な画像を見つけた後、デスクトップに保存する必要があります

利用可能なものを確認するためにスクリーンショットを撮ることから始めましょう...

他のツールでコンピューター使用を拡張

コンピューター使用ツールは他のツールと組み合わせて、より強力な自動化ワークフローを作成できます。これは以下が必要な場合に特に有用です：

システムコマンドの実行（bashツール）
設定ファイルやスクリプトの編集（テキストエディターツール）
カスタムAPIやサービスとの統合（カスタムツール）

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 2000,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250124",
        "name": "str_replace_editor"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      },
      {
        "name": "get_weather",
        "description": "指定された場所の現在の天気を取得",
        "input_schema": {
          "type": "object",
          "properties": {
            "location": {
              "type": "string",
              "description": "都市と州、例：San Francisco, CA"
            },
            "unit": {
              "type": "string",
              "enum": ["celsius", "fahrenheit"],
              "description": "温度の単位、'celsius'または'fahrenheit'"
            }
          },
          "required": ["location"]
        }
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "サンフランシスコからより暖かい天気の場所への航空券を探してください。"
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

カスタムコンピューター使用環境の構築

リファレンス実装は、コンピューター使用を開始するのに役立つように作られています。Claudeがコンピューターを使用するために必要なすべてのコンポーネントが含まれています。ただし、ニーズに合わせて独自のコンピューター使用環境を構築できます。必要なものは：

Claudeでのコンピューター使用に適した仮想化またはコンテナ化された環境
Anthropic定義のコンピューター使用ツールの少なくとも1つの実装
Claude APIと相互作用し、ツール実装を使用してtool_use結果を実行するエージェントループ
エージェントループを開始するためのユーザー入力を可能にするAPIまたはUI

コンピューター使用ツールの実装

コンピューター使用ツールは、スキーマレスツールとして実装されます。このツールを使用する際、他のツールのように入力スキーマを提供する必要はありません。スキーマはClaudeのモデルに組み込まれており、変更できません。

コンピューティング環境の設定

Claudeが相互作用する仮想ディスプレイを作成するか、既存のディスプレイに接続します。これは通常、Xvfb（X Virtual Framebuffer）または類似の技術の設定を含みます。

アクションハンドラーの実装

Claudeがリクエストする可能性のある各アクションタイプを処理する関数を作成します：

def handle_computer_action(action_type, params):
    if action_type == "screenshot":
        return capture_screenshot()
    elif action_type == "left_click":
        x, y = params["coordinate"]
        return click_at(x, y)
    elif action_type == "type":
        return type_text(params["text"])
    # ... 他のアクションを処理

Claudeのツール呼び出しの処理

Claudeの応答からツール呼び出しを抽出して実行します：

for content in response.content:
    if content.type == "tool_use":
        action = content.input["action"]
        result = handle_computer_action(action, content.input)
        
        # 結果をClaudeに返す
        tool_result = {
            "type": "tool_result",
            "tool_use_id": content.id,
            "content": result
        }

エージェントループの実装

Claudeがタスクを完了するまで続くループを作成します：

while True:
    response = client.beta.messages.create(...)
    
    # Claudeがツールを使用したかチェック
    tool_results = process_tool_calls(response)
    
    if not tool_results:
        # ツール使用なし、タスク完了
        break
        
    # ツール結果で会話を続ける
    messages.append({"role": "user", "content": tool_results})

エラーの処理

コンピューター使用ツールを実装する際、様々なエラーが発生する可能性があります。以下はそれらの処理方法です：

スクリーンショットキャプチャの失敗

スクリーンショットキャプチャが失敗した場合、適切なエラーメッセージを返します：

{
  "role": "user",
  "content": [
    {
      "type": "tool_result",
      "tool_use_id": "toolu_01A09q90qw90lq917835lq9",
      "content": "エラー：スクリーンショットのキャプチャに失敗しました。ディスプレイがロックされているか利用できない可能性があります。",
      "is_error": true
    }
  ]
}

無効な座標

Claudeがディスプレイ境界外の座標を提供した場合：

{
  "role": "user",
  "content": [
    {
      "type": "tool_result",
      "tool_use_id": "toolu_01A09q90qw90lq917835lq9",
      "content": "エラー：座標(1200, 900)はディスプレイ境界(1024x768)外です。",
      "is_error": true
    }
  ]
}

アクション実行の失敗

アクションの実行が失敗した場合：

{
  "role": "user",
  "content": [
    {
      "type": "tool_result",
      "tool_use_id": "toolu_01A09q90qw90lq917835lq9",
      "content": "エラー：クリックアクションの実行に失敗しました。アプリケーションが応答していない可能性があります。",
      "is_error": true
    }
  ]
}

実装のベストプラクティスに従う

適切なディスプレイ解像度の使用

推奨制限内でユースケースに合ったディスプレイ寸法を設定します：

一般的なデスクトップタスク：1024x768または1280x720
ウェブアプリケーション：1280x800または1366x768
パフォーマンスの問題を防ぐため、1920x1080を超える解像度は避ける

適切なスクリーンショット処理の実装

Claudeにスクリーンショットを返す際：

スクリーンショットをbase64 PNGまたはJPEGとしてエンコード
パフォーマンスを向上させるため、大きなスクリーンショットの圧縮を検討
タイムスタンプやディスプレイ状態などの関連メタデータを含める

アクション遅延の追加

一部のアプリケーションはアクションに応答する時間が必要です：

def click_and_wait(x, y, wait_time=0.5):
    click_at(x, y)
    time.sleep(wait_time)  # UIの更新を待つ

実行前のアクション検証

リクエストされたアクションが安全で有効であることを確認します：

def validate_action(action_type, params):
    if action_type == "left_click":
        x, y = params.get("coordinate", (0, 0))
        if not (0 <= x < display_width and 0 <= y < display_height):
            return False, "座標が境界外です"
    return True, None

デバッグ用のアクションログ

トラブルシューティングのためにすべてのアクションのログを保持します：

import logging

def log_action(action_type, params, result):
    logging.info(f"アクション：{action_type}、パラメータ：{params}、結果：{result}")

コンピューター使用の制限事項を理解する

コンピューター使用機能はベータ版です。Claudeの機能は最先端ですが、開発者はその制限事項を認識する必要があります：

レイテンシ: 現在のコンピューター使用レイテンシは、人間とAIの相互作用において、通常の人間主導のコンピューターアクションと比較して遅すぎる可能性があります。速度が重要でないユースケース（例：バックグラウンド情報収集、信頼できる環境での自動化されたソフトウェアテスト）に焦点を当てることをお勧めします。
コンピュータービジョンの精度と信頼性: Claudeはアクションを生成する際に特定の座標を出力する際にミスをしたり幻覚を起こしたりする可能性があります。Claude Sonnet 3.7は、モデルの推論を理解し、潜在的な問題を特定するのに役立つ思考機能を導入しています。
ツール選択の精度と信頼性: Claudeはアクションを生成する際にツールを選択する際にミスをしたり幻覚を起こしたり、問題を解決するために予期しないアクションを取ったりする可能性があります。さらに、ニッチなアプリケーションや複数のアプリケーションを同時に操作する際に信頼性が低下する可能性があります。複雑なタスクをリクエストする際は、ユーザーがモデルを慎重にプロンプトすることをお勧めします。
スクロールの信頼性: Claude Sonnet 3.5 v2 (非推奨)にはスクロールの制限がありましたが、Claude Sonnet 3.7は方向制御付きの専用スクロールアクションを導入し、信頼性を向上させています。モデルは指定された量だけ任意の方向（上/下/左/右）に明示的にスクロールできるようになりました。
スプレッドシート操作: スプレッドシート操作のマウスクリックは、left_mouse_down、left_mouse_up、新しい修飾キーサポートなど、より精密なマウス制御アクションの追加により、Claude Sonnet 3.7で改善されました。これらの細かい制御を使用し、修飾キーとクリックを組み合わせることで、セル選択がより信頼できるようになります。
ソーシャルおよびコミュニケーションプラットフォームでのアカウント作成とコンテンツ生成: Claudeはウェブサイトを訪問しますが、ソーシャルメディアウェブサイトやプラットフォーム全体でアカウントを作成したり、コンテンツを生成・共有したり、人間のなりすましに従事したりする能力を制限しています。将来この機能を更新する可能性があります。
脆弱性: ジェイルブレイクやプロンプトインジェクションなどの脆弱性は、ベータコンピューター使用APIを含むフロンティアAIシステム全体で持続する可能性があります。一部の状況では、Claudeはユーザーの指示と矛盾していても、コンテンツ内で見つかったコマンドに従います。例えば、ウェブページ上のClaude指示や画像に含まれる指示が、指示を上書きしたり、Claudeにミスを犯させたりする可能性があります。以下をお勧めします： a. 最小限の権限を持つ仮想マシンやコンテナなどの信頼できる環境にコンピューター使用を制限する b. 厳格な監視なしに機密アカウントやデータへのコンピューター使用アクセスを与えることを避ける c. アプリケーションでコンピューター使用機能を有効にしたり、必要な権限をリクエストしたりする前に、エンドユーザーに関連するリスクを通知し、同意を得る
不適切または違法な行為: Anthropicの利用規約に従い、法律や当社の利用規約に違反するためにコンピューター使用を使用してはいけません。

Claudeのコンピューター使用アクションとログを常に慎重に確認・検証してください。人間の監視なしに完璧な精度や機密ユーザー情報を必要とするタスクにClaudeを使用しないでください。

価格

Computer use follows the standard tool use pricing. When using the computer use tool: System prompt overhead: The computer use beta adds 466-499 tokens to the system prompt Computer use tool token usage:

Model	Input tokens per tool definition
Claude 4.x models	735 tokens
Claude Sonnet 3.7	735 tokens

Additional token consumption:

Screenshot images (see Vision pricing)
Tool execution results returned to Claude

If you’re also using bash or text editor tools alongside computer use, those tools have their own token costs as documented in their respective pages.

はじめの一歩

モデルと料金

機能

ツール

エージェントスキル

Agent SDK

API内のMCP

Claude on 3rd-party platforms

プロンプトエンジニアリング

テストと評価

ガードレールを強化

コンピューター使用ツール

概要

モデル互換性

セキュリティに関する考慮事項

コンピューター使用リファレンス実装

クイックスタート

コンピューター使用の仕組み

コンピューティング環境

コンピューター使用の実装方法

リファレンス実装から始める

マルチエージェントループの理解

プロンプトでモデルパフォーマンスを最適化

システムプロンプト

利用可能なアクション

ツールパラメータ

Claude 4モデルとClaude Sonnet 3.7で思考機能を有効にする

他のツールでコンピューター使用を拡張

カスタムコンピューター使用環境の構築

コンピューター使用ツールの実装

エラーの処理

実装のベストプラクティスに従う

コンピューター使用の制限事項を理解する

価格

次のステップ

リファレンス実装

ツールドキュメント

はじめの一歩

モデルと料金

機能

ツール

エージェントスキル

Agent SDK

API内のMCP

Claude on 3rd-party platforms

プロンプトエンジニアリング

テストと評価

ガードレールを強化

​概要

​モデル互換性

​セキュリティに関する考慮事項

コンピューター使用リファレンス実装

​クイックスタート

​コンピューター使用の仕組み

​コンピューティング環境

​コンピューター使用の実装方法

​リファレンス実装から始める

​マルチエージェントループの理解

​プロンプトでモデルパフォーマンスを最適化

​システムプロンプト

​利用可能なアクション

​ツールパラメータ

​Claude 4モデルとClaude Sonnet 3.7で思考機能を有効にする

​他のツールでコンピューター使用を拡張

​カスタムコンピューター使用環境の構築

​コンピューター使用ツールの実装

​エラーの処理

​実装のベストプラクティスに従う

​コンピューター使用の制限事項を理解する

​価格

​次のステップ

リファレンス実装

ツールドキュメント

概要

モデル互換性

セキュリティに関する考慮事項

クイックスタート

コンピューター使用の仕組み

コンピューティング環境

コンピューター使用の実装方法

リファレンス実装から始める

マルチエージェントループの理解

プロンプトでモデルパフォーマンスを最適化

システムプロンプト

利用可能なアクション

ツールパラメータ

Claude 4モデルとClaude Sonnet 3.7で思考機能を有効にする

他のツールでコンピューター使用を拡張

カスタムコンピューター使用環境の構築

コンピューター使用ツールの実装

エラーの処理

実装のベストプラクティスに従う

コンピューター使用の制限事項を理解する

価格

次のステップ