Claude Sonnet 3.7 è in grado di chiamare strumenti in modo efficiente dal punto di vista dei token. Le richieste risparmiano in media il 14% nei token di output, fino al 70%, il che riduce anche la latenza. La riduzione esatta dei token e i miglioramenti della latenza dipendono dalla forma e dalle dimensioni complessive della risposta.

L’uso efficiente dei token per gli strumenti è una funzionalità beta. Assicurati di valutare le tue risposte prima di utilizzarla in produzione.

Utilizza questo modulo per fornire feedback sulla qualità delle risposte del modello, sull’API stessa o sulla qualità della documentazione—non vediamo l’ora di sentirti!

Se scegli di sperimentare con questa funzionalità, ti consigliamo di utilizzare il Prompt Improver nella Console per migliorare il tuo prompt.

L’uso efficiente dei token per gli strumenti attualmente non funziona con disable_parallel_tool_use.

I modelli Claude 4 (Opus 4.1, Opus 4 e Sonnet 4) non supportano questa funzionalità. L’header beta token-efficient-tools-2025-02-19 non interromperà una richiesta API, ma risulterà in un no-op.

Per utilizzare questa funzionalità beta, aggiungi semplicemente l’header beta token-efficient-tools-2025-02-19 a una richiesta di uso degli strumenti. Se stai utilizzando l’SDK, assicurati di utilizzare l’SDK beta con anthropic.beta.messages.

Ecco un esempio di come utilizzare gli strumenti efficienti dal punto di vista dei token con l’API:

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: token-efficient-tools-2025-02-19" \
  -d '{
    "model": "claude-3-7-sonnet-20250219",
    "max_tokens": 1024,
    "tools": [
      {
        "name": "get_weather",
        "description": "Get the current weather in a given location",
        "input_schema": {
          "type": "object",
          "properties": {
            "location": {
              "type": "string",
              "description": "The city and state, e.g. San Francisco, CA"
            }
          },
          "required": [
            "location"
          ]
        }
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Tell me the weather in San Francisco."
      }
    ]
  }' | jq '.usage'

La richiesta sopra dovrebbe, in media, utilizzare meno token di input e output rispetto a una richiesta normale. Per confermarlo, prova a fare la stessa richiesta ma rimuovi token-efficient-tools-2025-02-19 dall’elenco degli header beta.

Per mantenere i benefici del caching dei prompt, utilizza l’header beta in modo coerente per le richieste che desideri memorizzare nella cache. Se lo utilizzi selettivamente, il caching dei prompt fallirà.