Claude Sonnet 3.7 ist in der Lage, Tools auf eine token-effiziente Weise aufzurufen. Anfragen sparen durchschnittlich 14% bei Output-Token, bis zu 70%, was auch die Latenz reduziert. Die genaue Token-Reduzierung und Latenz-Verbesserungen hängen von der Gesamtform und -größe der Antwort ab.

Token-effiziente Tool-Nutzung ist eine Beta-Funktion. Bitte stellen Sie sicher, dass Sie Ihre Antworten evaluieren, bevor Sie sie in der Produktion verwenden.

Bitte verwenden Sie dieses Formular, um Feedback zur Qualität der Modellantworten, der API selbst oder der Qualität der Dokumentation zu geben—wir können es kaum erwarten, von Ihnen zu hören!

Wenn Sie sich entscheiden, mit dieser Funktion zu experimentieren, empfehlen wir die Verwendung des Prompt Improver in der Console, um Ihren Prompt zu verbessern.

Token-effiziente Tool-Nutzung funktioniert derzeit nicht mit disable_parallel_tool_use.

Claude 4 Modelle (Opus 4.1, Opus 4 und Sonnet 4) unterstützen diese Funktion nicht. Der Beta-Header token-efficient-tools-2025-02-19 wird eine API-Anfrage nicht unterbrechen, aber er wird zu einem No-Op führen.

Um diese Beta-Funktion zu verwenden, fügen Sie einfach den Beta-Header token-efficient-tools-2025-02-19 zu einer Tool-Nutzungsanfrage hinzu. Wenn Sie das SDK verwenden, stellen Sie sicher, dass Sie das Beta-SDK mit anthropic.beta.messages verwenden.

Hier ist ein Beispiel, wie Sie token-effiziente Tools mit der API verwenden:

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: token-efficient-tools-2025-02-19" \
  -d '{
    "model": "claude-3-7-sonnet-20250219",
    "max_tokens": 1024,
    "tools": [
      {
        "name": "get_weather",
        "description": "Get the current weather in a given location",
        "input_schema": {
          "type": "object",
          "properties": {
            "location": {
              "type": "string",
              "description": "The city and state, e.g. San Francisco, CA"
            }
          },
          "required": [
            "location"
          ]
        }
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Tell me the weather in San Francisco."
      }
    ]
  }' | jq '.usage'

Die obige Anfrage sollte im Durchschnitt weniger Input- und Output-Token verwenden als eine normale Anfrage. Um dies zu bestätigen, versuchen Sie, dieselbe Anfrage zu stellen, aber entfernen Sie token-efficient-tools-2025-02-19 aus der Liste der Beta-Header.

Um die Vorteile des Prompt-Cachings zu behalten, verwenden Sie den Beta-Header konsistent für Anfragen, die Sie cachen möchten. Wenn Sie ihn selektiv verwenden, wird das Prompt-Caching fehlschlagen.