Nous offrons trois niveaux de service :
  • Niveau Prioritaire : Idéal pour les workflows déployés en production où le temps, la disponibilité et la tarification prévisible sont importants
  • Standard : Niveau par défaut pour les pilotes et la mise à l’échelle des cas d’usage quotidiens
  • Batch : Idéal pour les workflows asynchrones qui peuvent attendre ou bénéficier d’être en dehors de votre capacité normale

Niveau Standard

Le niveau standard est le niveau de service par défaut pour toutes les demandes d’API. Les demandes de ce niveau sont priorisées aux côtés de toutes les autres demandes et observent une disponibilité au mieux de nos efforts.

Niveau Prioritaire

Les demandes de ce niveau sont priorisées par rapport à toutes les autres demandes adressées à Anthropic. Cette priorisation aide à minimiser les erreurs « serveur surchargé », même pendant les heures de pointe. Pour plus d’informations, consultez Commencer avec le Niveau Prioritaire

Comment les demandes se voient attribuer des niveaux

Lors du traitement d’une demande, Anthropic décide d’attribuer une demande au Niveau Prioritaire dans les scénarios suivants :
  • Votre organisation dispose d’une capacité de niveau prioritaire suffisante en jetons d’entrée par minute
  • Votre organisation dispose d’une capacité de niveau prioritaire suffisante en jetons de sortie par minute
Anthropic compte l’utilisation par rapport à la capacité du Niveau Prioritaire comme suit : Jetons d’entrée
  • Les lectures du cache comptent comme 0,1 jeton par jeton lu du cache
  • Les écritures du cache comptent comme 1,25 jeton par jeton écrit dans le cache avec un TTL de 5 minutes
  • Les écritures du cache comptent comme 2,00 jetons par jeton écrit dans le cache avec un TTL d’1 heure
  • Pour les demandes de contexte long (>200k jetons d’entrée), les jetons d’entrée comptent comme 2 jetons par jeton
  • Tous les autres jetons d’entrée comptent comme 1 jeton par jeton
Jetons de sortie
  • Pour les demandes de contexte long (>200k jetons d’entrée), les jetons de sortie comptent comme 1,5 jeton par jeton
  • Tous les autres jetons de sortie comptent comme 1 jeton par jeton
Sinon, les demandes procèdent au niveau standard.
Les demandes attribuées au Niveau Prioritaire tirent à la fois de la capacité du Niveau Prioritaire et des limites de débit régulières. Si le traitement de la demande dépasserait les limites de débit, la demande est refusée.

Utilisation des niveaux de service

Vous pouvez contrôler quels niveaux de service peuvent être utilisés pour une demande en définissant le paramètre service_tier :
message = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # Utilise automatiquement le Niveau Prioritaire quand disponible, sinon revient au standard
)
Le paramètre service_tier accepte les valeurs suivantes :
  • "auto" (par défaut) - Utilise la capacité du Niveau Prioritaire si disponible, sinon revient à votre autre capacité
  • "standard_only" - Utilise uniquement la capacité du niveau standard, utile si vous ne voulez pas utiliser votre capacité du Niveau Prioritaire
L’objet usage de la réponse inclut également le niveau de service attribué à la demande :
{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}
Cela vous permet de déterminer quel niveau de service a été attribué à la demande. Lors de la demande de service_tier="auto" avec un modèle ayant un engagement de Niveau Prioritaire, ces en-têtes de réponse fournissent des informations :
anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z
Vous pouvez utiliser la présence de ces en-têtes pour détecter si votre demande était éligible au Niveau Prioritaire, même si elle dépassait la limite.

Commencer avec le Niveau Prioritaire

Vous pourriez vouloir vous engager à une capacité du Niveau Prioritaire si vous êtes intéressé par :
  • Disponibilité plus élevée : Cible 99,5 % de disponibilité avec des ressources informatiques priorisées
  • Contrôle des coûts : Dépenses prévisibles et réductions pour les engagements plus longs
  • Débordement flexible : Revient automatiquement au niveau standard quand vous dépassez votre capacité engagée
S’engager au Niveau Prioritaire impliquera de décider :
  • Un nombre de jetons d’entrée par minute
  • Un nombre de jetons de sortie par minute
  • Une durée d’engagement (1, 3, 6 ou 12 mois)
  • Une version de modèle spécifique
Le ratio de jetons d’entrée à jetons de sortie que vous achetez est important. Dimensionner votre capacité du Niveau Prioritaire pour s’aligner avec vos modèles de trafic réels vous aide à maximiser l’utilisation de vos jetons achetés.

Modèles supportés

Le Niveau Prioritaire est supporté par :
  • Claude Opus 4.1
  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Haiku 3.5
Consultez la page de présentation des modèles pour plus de détails sur nos modèles.

Comment accéder au Niveau Prioritaire

Pour commencer à utiliser le Niveau Prioritaire :
  1. Contactez les ventes pour terminer l’approvisionnement
  2. (Optionnel) Mettez à jour vos demandes d’API pour définir optionnellement le paramètre service_tier à auto
  3. Surveillez votre utilisation via les en-têtes de réponse et la Console Claude