- Niveau Prioritaire : Idéal pour les workflows déployés en production où le temps, la disponibilité et la tarification prévisible sont importants
- Standard : Niveau par défaut pour les pilotes et la mise à l’échelle des cas d’usage quotidiens
- Batch : Idéal pour les workflows asynchrones qui peuvent attendre ou bénéficier d’être en dehors de votre capacité normale
Niveau Standard
Le niveau standard est le niveau de service par défaut pour toutes les demandes d’API. Les demandes de ce niveau sont priorisées aux côtés de toutes les autres demandes et observent une disponibilité au mieux de nos efforts.Niveau Prioritaire
Les demandes de ce niveau sont priorisées par rapport à toutes les autres demandes adressées à Anthropic. Cette priorisation aide à minimiser les erreurs « serveur surchargé », même pendant les heures de pointe. Pour plus d’informations, consultez Commencer avec le Niveau PrioritaireComment les demandes se voient attribuer des niveaux
Lors du traitement d’une demande, Anthropic décide d’attribuer une demande au Niveau Prioritaire dans les scénarios suivants :- Votre organisation dispose d’une capacité de niveau prioritaire suffisante en jetons d’entrée par minute
- Votre organisation dispose d’une capacité de niveau prioritaire suffisante en jetons de sortie par minute
- Les lectures du cache comptent comme 0,1 jeton par jeton lu du cache
- Les écritures du cache comptent comme 1,25 jeton par jeton écrit dans le cache avec un TTL de 5 minutes
- Les écritures du cache comptent comme 2,00 jetons par jeton écrit dans le cache avec un TTL d’1 heure
- Pour les demandes de contexte long (>200k jetons d’entrée), les jetons d’entrée comptent comme 2 jetons par jeton
- Tous les autres jetons d’entrée comptent comme 1 jeton par jeton
- Pour les demandes de contexte long (>200k jetons d’entrée), les jetons de sortie comptent comme 1,5 jeton par jeton
- Tous les autres jetons de sortie comptent comme 1 jeton par jeton
Les demandes attribuées au Niveau Prioritaire tirent à la fois de la capacité du Niveau Prioritaire et des limites de débit régulières.
Si le traitement de la demande dépasserait les limites de débit, la demande est refusée.
Utilisation des niveaux de service
Vous pouvez contrôler quels niveaux de service peuvent être utilisés pour une demande en définissant le paramètreservice_tier :
service_tier accepte les valeurs suivantes :
"auto"(par défaut) - Utilise la capacité du Niveau Prioritaire si disponible, sinon revient à votre autre capacité"standard_only"- Utilise uniquement la capacité du niveau standard, utile si vous ne voulez pas utiliser votre capacité du Niveau Prioritaire
usage de la réponse inclut également le niveau de service attribué à la demande :
service_tier="auto" avec un modèle ayant un engagement de Niveau Prioritaire, ces en-têtes de réponse fournissent des informations :
Commencer avec le Niveau Prioritaire
Vous pourriez vouloir vous engager à une capacité du Niveau Prioritaire si vous êtes intéressé par :- Disponibilité plus élevée : Cible 99,5 % de disponibilité avec des ressources informatiques priorisées
- Contrôle des coûts : Dépenses prévisibles et réductions pour les engagements plus longs
- Débordement flexible : Revient automatiquement au niveau standard quand vous dépassez votre capacité engagée
- Un nombre de jetons d’entrée par minute
- Un nombre de jetons de sortie par minute
- Une durée d’engagement (1, 3, 6 ou 12 mois)
- Une version de modèle spécifique
Le ratio de jetons d’entrée à jetons de sortie que vous achetez est important. Dimensionner votre capacité du Niveau Prioritaire pour s’aligner avec vos modèles de trafic réels vous aide à maximiser l’utilisation de vos jetons achetés.
Modèles supportés
Le Niveau Prioritaire est supporté par :- Claude Opus 4.1
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Haiku 3.5
Comment accéder au Niveau Prioritaire
Pour commencer à utiliser le Niveau Prioritaire :- Contactez les ventes pour terminer l’approvisionnement
- (Optionnel) Mettez à jour vos demandes d’API pour définir optionnellement le paramètre
service_tieràauto - Surveillez votre utilisation via les en-têtes de réponse et la Console Claude