Dimulai dengan Claude Sonnet 3.7, Claude mampu memanggil tool dengan cara yang efisien token. Permintaan menghemat rata-rata 14% token output, hingga 70%, yang juga mengurangi latensi. Pengurangan token yang tepat dan peningkatan latensi bergantung pada bentuk dan ukuran respons secara keseluruhan.
Penggunaan tool yang efisien token adalah fitur beta di Claude 3.7. Untuk menggunakan fitur beta ini, cukup tambahkan header beta token-efficient-tools-2025-02-19 ke permintaan penggunaan tool.Semua model Claude 4 mendukung penggunaan tool yang efisien token secara default. Tidak diperlukan header beta, tetapi header token-efficient-tools-2025-02-19 tidak akan merusak permintaan API.
Penggunaan tool yang efisien token saat ini tidak bekerja dengan disable_parallel_tool_use.
Berikut adalah contoh cara menggunakan tool yang efisien token dengan API di Claude Sonnet 3.7:
curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: token-efficient-tools-2025-02-19" \
  -d '{
    "model": "claude-3-7-sonnet-20250219",
    "max_tokens": 1024,
    "tools": [
      {
        "name": "get_weather",
        "description": "Get the current weather in a given location",
        "input_schema": {
          "type": "object",
          "properties": {
            "location": {
              "type": "string",
              "description": "The city and state, e.g. San Francisco, CA"
            }
          },
          "required": [
            "location"
          ]
        }
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Tell me the weather in San Francisco."
      }
    ]
  }' | jq '.usage'
Permintaan di atas seharusnya, rata-rata, menggunakan lebih sedikit token input dan output daripada permintaan normal. Untuk mengonfirmasi ini, coba buat permintaan yang sama tetapi hapus token-efficient-tools-2025-02-19 dari daftar header beta.
Untuk mempertahankan manfaat prompt caching, gunakan header beta secara konsisten untuk permintaan yang ingin Anda cache. Jika Anda menggunakannya secara selektif, prompt caching akan gagal.