Utilisation d'outils économe en jetons
Claude Sonnet 3.7 est capable d’appeler des outils de manière économe en jetons. Les requêtes économisent en moyenne 14% de jetons de sortie, jusqu’à 70%, ce qui réduit également la latence. La réduction exacte des jetons et les améliorations de latence dépendent de la forme et de la taille globales de la réponse.
L’utilisation d’outils économe en jetons est une fonctionnalité bêta. Veuillez vous assurer d’évaluer vos réponses avant de l’utiliser en production.
Veuillez utiliser ce formulaire pour fournir des commentaires sur la qualité des réponses du modèle, l’API elle-même, ou la qualité de la documentation—nous avons hâte de vous entendre !
Si vous choisissez d’expérimenter avec cette fonctionnalité, nous recommandons d’utiliser l’Améliorateur de Prompt dans la Console pour améliorer votre prompt.
L’utilisation d’outils économe en jetons ne fonctionne actuellement pas avec disable_parallel_tool_use
.
Les modèles Claude 4 (Opus 4.1, Opus 4, et Sonnet 4) ne prennent pas en charge cette fonctionnalité. L’en-tête bêta token-efficient-tools-2025-02-19
ne cassera pas une requête API, mais il en résultera un no-op.
Pour utiliser cette fonctionnalité bêta, ajoutez simplement l’en-tête bêta token-efficient-tools-2025-02-19
à une requête d’utilisation d’outils. Si vous utilisez le SDK, assurez-vous d’utiliser le SDK bêta avec anthropic.beta.messages
.
Voici un exemple de comment utiliser les outils économes en jetons avec l’API :
La requête ci-dessus devrait, en moyenne, utiliser moins de jetons d’entrée et de sortie qu’une requête normale. Pour confirmer cela, essayez de faire la même requête mais supprimez token-efficient-tools-2025-02-19
de la liste des en-têtes bêta.
Pour conserver les avantages de la mise en cache des prompts, utilisez l’en-tête bêta de manière cohérente pour les requêtes que vous souhaitez mettre en cache. Si vous l’utilisez de manière sélective, la mise en cache des prompts échouera.