- Gestire proattivamente i limiti di velocità e i costi
- Prendere decisioni intelligenti di routing del modello
- Ottimizzare i prompt per avere una lunghezza specifica
Come contare i token dei messaggi
L’endpoint di conteggio dei token accetta la stessa lista strutturata di input per creare un messaggio, incluso il supporto per prompt di sistema, strumenti, immagini, e PDF. La risposta contiene il numero totale di token di input.Il conteggio dei token dovrebbe essere considerato una stima. In alcuni casi, il numero effettivo di token di input utilizzati durante la creazione di un messaggio potrebbe differire di una piccola quantità.I conteggi dei token possono includere token aggiunti automaticamente da Anthropic per ottimizzazioni del sistema. Non ti vengono addebitati i token aggiunti dal sistema. La fatturazione riflette solo il tuo contenuto.
Modelli supportati
Tutti i modelli attivi supportano il conteggio dei token.Contare i token nei messaggi di base
JSON
Contare i token nei messaggi con strumenti
I conteggi dei token degli strumenti server si applicano solo alla prima chiamata di campionamento.
JSON
Contare i token nei messaggi con immagini
JSON
Contare i token nei messaggi con pensiero esteso
Vedi qui per maggiori dettagli su come viene calcolata la finestra di contesto con il pensiero esteso
- I blocchi di pensiero dai turni dell’assistente precedenti vengono ignorati e non contano verso i tuoi token di input
- Il pensiero del turno dell’assistente corrente conta verso i tuoi token di input
JSON
Contare i token nei messaggi con PDF
Il conteggio dei token supporta i PDF con le stesse limitazioni dell’API Messages.
JSON
Prezzi e limiti di velocità
Il conteggio dei token è gratuito ma soggetto ai limiti di richieste per minuto basati sul tuo livello di utilizzo. Se hai bisogno di limiti più alti, contatta il team vendite tramite la Console Claude.| Livello di utilizzo | Richieste per minuto (RPM) |
|---|---|
| 1 | 100 |
| 2 | 2,000 |
| 3 | 4,000 |
| 4 | 8,000 |
Il conteggio dei token e la creazione di messaggi hanno limiti di velocità separati e indipendenti — l’utilizzo di uno non conta contro i limiti dell’altro.
FAQ
Il conteggio dei token utilizza la cache dei prompt?
Il conteggio dei token utilizza la cache dei prompt?
No, il conteggio dei token fornisce una stima senza utilizzare la logica di caching. Anche se puoi fornire blocchi
cache_control nella tua richiesta di conteggio dei token, la cache dei prompt avviene solo durante l’effettiva creazione del messaggio.