- Gérer proactivement les limites de taux et les coûts
- Prendre des décisions intelligentes de routage de modèle
- Optimiser les prompts pour qu’ils aient une longueur spécifique
Comment compter les tokens de message
Le point de terminaison comptage de tokens accepte la même liste structurée d’entrées pour créer un message, incluant le support pour les prompts système, les outils, les images, et les PDFs. La réponse contient le nombre total de tokens d’entrée.Le nombre de tokens doit être considéré comme une estimation. Dans certains cas, le nombre réel de tokens d’entrée utilisés lors de la création d’un message peut différer d’une petite quantité.Les comptes de tokens peuvent inclure des tokens ajoutés automatiquement par Anthropic pour les optimisations système. Vous n’êtes pas facturé pour les tokens ajoutés par le système. La facturation ne reflète que votre contenu.
Modèles supportés
Tous les modèles actifs supportent le comptage de tokens.Compter les tokens dans les messages de base
JSON
Compter les tokens dans les messages avec des outils
Les comptes de tokens d’outils serveur ne s’appliquent qu’au premier appel d’échantillonnage.
JSON
Compter les tokens dans les messages avec des images
JSON
Compter les tokens dans les messages avec réflexion étendue
Voir ici pour plus de détails sur la façon dont la fenêtre de contexte est calculée avec la réflexion étendue
- Les blocs de réflexion des tours d’assistant précédents sont ignorés et ne comptent pas vers vos tokens d’entrée
- La réflexion du tour d’assistant actuel compte vers vos tokens d’entrée
JSON
Compter les tokens dans les messages avec des PDFs
Le comptage de tokens supporte les PDFs avec les mêmes limitations que l’API Messages.
JSON
Tarification et limites de taux
Le comptage de tokens est gratuit à utiliser mais soumis aux limites de requêtes par minute basées sur votre niveau d’utilisation. Si vous avez besoin de limites plus élevées, contactez les ventes via la Console Claude.| Niveau d’utilisation | Requêtes par minute (RPM) |
|---|---|
| 1 | 100 |
| 2 | 2,000 |
| 3 | 4,000 |
| 4 | 8,000 |
Le comptage de tokens et la création de messages ont des limites de taux séparées et indépendantes — l’utilisation de l’un ne compte pas contre les limites de l’autre.
FAQ
Le comptage de tokens utilise-t-il la mise en cache de prompts ?
Le comptage de tokens utilise-t-il la mise en cache de prompts ?
Non, le comptage de tokens fournit une estimation sans utiliser la logique de mise en cache. Bien que vous puissiez fournir des blocs
cache_control dans votre requête de comptage de tokens, la mise en cache de prompts ne se produit que lors de la création réelle de messages.