Ab Claude Sonnet 3.7 ist Claude in der Lage, Tools auf token-effiziente Weise aufzurufen. Anfragen sparen durchschnittlich 14% bei Output-Tokens, bis zu 70%, was auch die Latenz reduziert. Die genaue Token-Reduzierung und Latenz-Verbesserungen hängen von der Gesamtform und -größe der Antwort ab.
Token-effiziente Tool-Nutzung ist eine Beta-Funktion in Claude 3.7. Um diese Beta-Funktion zu verwenden, fügen Sie einfach den Beta-Header token-efficient-tools-2025-02-19 zu einer Tool-Nutzungsanfrage hinzu.Alle Claude 4 Modelle unterstützen token-effiziente Tool-Nutzung standardmäßig. Kein Beta-Header ist erforderlich, aber der token-efficient-tools-2025-02-19 Header wird eine API-Anfrage nicht unterbrechen.
Token-effiziente Tool-Nutzung funktioniert derzeit nicht mit disable_parallel_tool_use.
Hier ist ein Beispiel, wie man token-effiziente Tools mit der API in Claude Sonnet 3.7 verwendet:
curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: token-efficient-tools-2025-02-19" \
  -d '{
    "model": "claude-3-7-sonnet-20250219",
    "max_tokens": 1024,
    "tools": [
      {
        "name": "get_weather",
        "description": "Get the current weather in a given location",
        "input_schema": {
          "type": "object",
          "properties": {
            "location": {
              "type": "string",
              "description": "The city and state, e.g. San Francisco, CA"
            }
          },
          "required": [
            "location"
          ]
        }
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Tell me the weather in San Francisco."
      }
    ]
  }' | jq '.usage'
Die obige Anfrage sollte im Durchschnitt weniger Input- und Output-Tokens verwenden als eine normale Anfrage. Um dies zu bestätigen, versuchen Sie, dieselbe Anfrage zu stellen, aber entfernen Sie token-efficient-tools-2025-02-19 aus der Liste der Beta-Header.
Um die Vorteile des Prompt-Cachings zu behalten, verwenden Sie den Beta-Header konsistent für Anfragen, die Sie cachen möchten. Wenn Sie ihn selektiv verwenden, wird das Prompt-Caching fehlschlagen.