- Les limites de dépenses définissent un coût mensuel maximum qu’une organisation peut engager pour l’utilisation de l’API.
- Les limites de débit définissent le nombre maximum de requêtes API qu’une organisation peut effectuer sur une période définie.
À propos de nos limites
- Les limites sont conçues pour prévenir les abus de l’API, tout en minimisant l’impact sur les modèles d’utilisation courants des clients.
- Les limites sont définies par niveau d’utilisation, où chaque niveau est associé à un ensemble différent de limites de dépenses et de débit.
- Votre organisation augmentera automatiquement les niveaux à mesure que vous atteindrez certains seuils lors de l’utilisation de l’API. Les limites sont définies au niveau de l’organisation. Vous pouvez voir les limites de votre organisation sur la page Limites dans la Console Claude.
- Vous pouvez atteindre les limites de débit sur des intervalles de temps plus courts. Par exemple, un débit de 60 requêtes par minute (RPM) peut être appliqué comme 1 requête par seconde. Les courtes rafales de requêtes à haut volume peuvent dépasser la limite de débit et entraîner des erreurs de limite de débit.
- Les limites décrites ci-dessous sont nos limites de niveau standard. Si vous recherchez des limites plus élevées et personnalisées ou le niveau Priority pour des niveaux de service améliorés, contactez les ventes via la Console Claude.
- Nous utilisons l’algorithme du seau de jetons pour effectuer la limitation de débit. Cela signifie que votre capacité est continuellement reconstituée jusqu’à votre limite maximale, plutôt que d’être réinitialisée à des intervalles fixes.
- Toutes les limites décrites ici représentent l’utilisation maximale autorisée, et non les minimums garantis. Ces limites sont destinées à réduire les dépenses excessives involontaires et à assurer une distribution équitable des ressources entre les utilisateurs.
Limites de dépenses
Chaque niveau d’utilisation a une limite sur le montant que vous pouvez dépenser sur l’API chaque mois calendaire. Une fois que vous atteindrez la limite de dépenses de votre niveau, jusqu’à ce que vous vous qualifiiez pour le niveau suivant, vous devrez attendre le mois suivant pour pouvoir utiliser l’API à nouveau. Pour vous qualifier pour le niveau suivant, vous devez respecter une exigence de dépôt. Pour minimiser le risque de surfinancement de votre compte, vous ne pouvez pas déposer plus que votre limite de dépenses mensuelle.Exigences pour passer au niveau suivant
| Niveau d’utilisation | Achat de crédits | Achat de crédits maximum |
|---|---|---|
| Niveau 1 | $5 | $100 |
| Niveau 2 | $40 | $500 |
| Niveau 3 | $200 | $1 000 |
| Niveau 4 | $400 | $5 000 |
| Facturation mensuelle | S/O | S/O |
Achat de crédits affiche les achats de crédits cumulatifs (hors taxes) requis pour passer à ce niveau. Vous progressez immédiatement après avoir atteint le seuil.Achat de crédits maximum limite le montant maximum que vous pouvez ajouter à votre compte en une seule transaction pour éviter le surfinancement du compte.
Limites de débit
Nos limites de débit pour l’API Messages sont mesurées en requêtes par minute (RPM), jetons d’entrée par minute (ITPM) et jetons de sortie par minute (OTPM) pour chaque classe de modèle. Si vous dépassez l’une des limites de débit, vous recevrez une erreur 429 décrivant quelle limite de débit a été dépassée, ainsi qu’un en-têteretry-after indiquant combien de temps attendre.
Vous pouvez également rencontrer des erreurs 429 en raison des limites d’accélération sur l’API si votre organisation connaît une augmentation nette de l’utilisation. Pour éviter de atteindre les limites d’accélération, augmentez progressivement votre trafic et maintenez des modèles d’utilisation cohérents.
ITPM conscient du cache
De nombreux fournisseurs d’API utilisent une limite combinée de « jetons par minute » (TPM) qui peut inclure tous les jetons, à la fois mis en cache et non mis en cache, entrée et sortie. Pour la plupart des modèles Claude, seuls les jetons d’entrée non mis en cache comptent vers vos limites de débit ITPM. C’est un avantage clé qui rend nos limites de débit effectivement plus élevées qu’elles ne pourraient le paraître initialement. Les limites de débit ITPM sont estimées au début de chaque requête, et l’estimation est ajustée pendant la requête pour refléter le nombre réel de jetons d’entrée utilisés. Voici ce qui compte vers ITPM :input_tokens(nouveaux jetons d’entrée qui ne sont pas mis en cache) ✓ Comptent vers ITPMcache_creation_input_tokens(jetons en cours d’écriture dans le cache) ✓ Comptent vers ITPMcache_read_input_tokens(jetons lus à partir du cache) ✗ Ne comptent PAS vers ITPM pour la plupart des modèles
Certains modèles plus anciens (marqués avec † dans les tableaux de limites de débit ci-dessous) comptent également
cache_read_input_tokens vers les limites de débit ITPM.Pour tous les modèles sans le marqueur †, les jetons d’entrée mis en cache ne comptent pas vers les limites de débit et sont facturés à un taux réduit (10 % du prix du jeton d’entrée de base). Cela signifie que vous pouvez atteindre un débit effectif considérablement plus élevé en utilisant la mise en cache des invites.Maximisez vos limites de débit avec la mise en cache des invitesPour tirer le meilleur parti de vos limites de débit, utilisez la mise en cache des invites pour le contenu répété comme :
- Instructions système et invites
- Documents de contexte volumineux
- Définitions d’outils
- Historique de conversation
max_tokens au début de chaque requête, et l’estimation est ajustée à la fin de la requête pour refléter le nombre réel de jetons de sortie utilisés.
Si vous atteindrez les limites OTPM plus tôt que prévu, essayez de réduire max_tokens pour mieux approximer la taille de vos complétions.
Les limites de débit sont appliquées séparément pour chaque modèle ; par conséquent, vous pouvez utiliser différents modèles jusqu’à leurs limites respectives simultanément.
Vous pouvez vérifier vos limites de débit actuelles et votre comportement dans la Console Claude.
Pour les requêtes de contexte long (>200K jetons) lors de l’utilisation de l’en-tête bêta
context-1m-2025-08-07 avec Claude Sonnet 4.x, des limites de débit distinctes s’appliquent. Consultez Limites de débit de contexte long ci-dessous.| Modèle | Requêtes maximales par minute (RPM) | Jetons d’entrée maximaux par minute (ITPM) | Jetons de sortie maximaux par minute (OTPM) |
|---|---|---|---|
| Claude Sonnet 4.x** | 50 | 30 000 | 8 000 |
| Claude Sonnet 3.7 (déprécié) | 50 | 20 000 | 8 000 |
| Claude Haiku 4.5 | 50 | 50 000 | 10 000 |
| Claude Haiku 3.5 | 50 | 50 000† | 10 000 |
| Claude Haiku 3 | 50 | 50 000† | 10 000 |
| Claude Opus 4.x* | 50 | 30 000 | 8 000 |
| Claude Opus 3 (déprécié) | 50 | 20 000† | 4 000 |
cache_read_input_tokens vers l’utilisation ITPM.
API Message Batches
L’API Message Batches a son propre ensemble de limites de débit qui sont partagées entre tous les modèles. Celles-ci incluent une limite de requêtes par minute (RPM) pour tous les points de terminaison de l’API et une limite sur le nombre de requêtes de lot qui peuvent être dans la file d’attente de traitement en même temps. Une « requête de lot » ici fait référence à une partie d’un Message Batch. Vous pouvez créer un Message Batch contenant des milliers de requêtes de lot, dont chacune compte vers cette limite. Une requête de lot est considérée comme faisant partie de la file d’attente de traitement lorsqu’elle n’a pas encore été traitée avec succès par le modèle.| Requêtes maximales par minute (RPM) | Requêtes de lot maximales en file d’attente de traitement | Requêtes de lot maximales par lot |
|---|---|---|
| 50 | 100 000 | 100 000 |
Limites de débit de contexte long
Lors de l’utilisation de Claude Sonnet 4 et Sonnet 4.5 avec la fenêtre de contexte de 1M jetons activée, les limites de débit dédiées suivantes s’appliquent aux requêtes dépassant 200K jetons.La fenêtre de contexte de 1M jetons est actuellement en bêta pour les organisations du niveau d’utilisation 4 et les organisations avec des limites de débit personnalisées. La fenêtre de contexte de 1M jetons n’est disponible que pour Claude Sonnet 4 et Sonnet 4.5.
| Jetons d’entrée maximaux par minute (ITPM) | Jetons de sortie maximaux par minute (OTPM) |
|---|---|
| 1 000 000 | 200 000 |
Pour tirer le meilleur parti de la fenêtre de contexte de 1M jetons avec les limites de débit, utilisez la mise en cache des invites.
Surveillance de vos limites de débit dans la Console
Vous pouvez surveiller votre utilisation des limites de débit sur la page Utilisation de la Console Claude. En plus de fournir des graphiques de jetons et de requêtes, la page Utilisation fournit deux graphiques de limites de débit distincts. Utilisez ces graphiques pour voir l’espace dont vous disposez pour croître, quand vous pourriez atteindre l’utilisation maximale, mieux comprendre quelles limites de débit demander, ou comment vous pouvez améliorer vos taux de mise en cache. Les graphiques visualisent un certain nombre de métriques pour une limite de débit donnée (par exemple, par modèle) :- Le graphique Limite de débit - Jetons d’entrée inclut :
- Jetons d’entrée non mis en cache maximaux horaires par minute
- Votre limite de débit actuelle en jetons d’entrée par minute
- Le taux de cache pour vos jetons d’entrée (c’est-à-dire le pourcentage de jetons d’entrée lus à partir du cache)
- Le graphique Limite de débit - Jetons de sortie inclut :
- Jetons de sortie maximaux horaires par minute
- Votre limite de débit actuelle en jetons de sortie par minute
Définition de limites inférieures pour les espaces de travail
Afin de protéger les espaces de travail de votre organisation contre une utilisation excessive potentielle, vous pouvez définir des limites de dépenses et de débit personnalisées par espace de travail. Exemple : Si la limite de votre organisation est de 40 000 jetons d’entrée par minute et 8 000 jetons de sortie par minute, vous pourriez limiter un espace de travail à 30 000 jetons totaux par minute. Cela protège les autres espaces de travail contre une utilisation excessive potentielle et assure une distribution plus équitable des ressources dans votre organisation. Les jetons par minute inutilisés restants (ou plus, si cet espace de travail n’utilise pas la limite) sont alors disponibles pour que les autres espaces de travail les utilisent. Remarque :- Vous ne pouvez pas définir de limites sur l’espace de travail par défaut.
- Si elle n’est pas définie, les limites de l’espace de travail correspondent à la limite de l’organisation.
- Les limites à l’échelle de l’organisation s’appliquent toujours, même si les limites de l’espace de travail s’ajoutent à plus.
- Le support des limites de jetons d’entrée et de sortie sera ajouté aux espaces de travail à l’avenir.
En-têtes de réponse
La réponse de l’API inclut des en-têtes qui vous montrent la limite de débit appliquée, l’utilisation actuelle et quand la limite sera réinitialisée. Les en-têtes suivants sont renvoyés :| En-tête | Description |
|---|---|
retry-after | Le nombre de secondes à attendre avant de pouvoir réessayer la requête. Les tentatives antérieures échoueront. |
anthropic-ratelimit-requests-limit | Le nombre maximum de requêtes autorisées dans n’importe quelle période de limite de débit. |
anthropic-ratelimit-requests-remaining | Le nombre de requêtes restantes avant d’être limité en débit. |
anthropic-ratelimit-requests-reset | L’heure à laquelle la limite de débit des requêtes sera complètement reconstituée, fournie au format RFC 3339. |
anthropic-ratelimit-tokens-limit | Le nombre maximum de jetons autorisés dans n’importe quelle période de limite de débit. |
anthropic-ratelimit-tokens-remaining | Le nombre de jetons restants (arrondi au millier le plus proche) avant d’être limité en débit. |
anthropic-ratelimit-tokens-reset | L’heure à laquelle la limite de débit des jetons sera complètement reconstituée, fournie au format RFC 3339. |
anthropic-ratelimit-input-tokens-limit | Le nombre maximum de jetons d’entrée autorisés dans n’importe quelle période de limite de débit. |
anthropic-ratelimit-input-tokens-remaining | Le nombre de jetons d’entrée restants (arrondi au millier le plus proche) avant d’être limité en débit. |
anthropic-ratelimit-input-tokens-reset | L’heure à laquelle la limite de débit des jetons d’entrée sera complètement reconstituée, fournie au format RFC 3339. |
anthropic-ratelimit-output-tokens-limit | Le nombre maximum de jetons de sortie autorisés dans n’importe quelle période de limite de débit. |
anthropic-ratelimit-output-tokens-remaining | Le nombre de jetons de sortie restants (arrondi au millier le plus proche) avant d’être limité en débit. |
anthropic-ratelimit-output-tokens-reset | L’heure à laquelle la limite de débit des jetons de sortie sera complètement reconstituée, fournie au format RFC 3339. |
anthropic-priority-input-tokens-limit | Le nombre maximum de jetons d’entrée Priority Tier autorisés dans n’importe quelle période de limite de débit. (Priority Tier uniquement) |
anthropic-priority-input-tokens-remaining | Le nombre de jetons d’entrée Priority Tier restants (arrondi au millier le plus proche) avant d’être limité en débit. (Priority Tier uniquement) |
anthropic-priority-input-tokens-reset | L’heure à laquelle la limite de débit des jetons d’entrée Priority Tier sera complètement reconstituée, fournie au format RFC 3339. (Priority Tier uniquement) |
anthropic-priority-output-tokens-limit | Le nombre maximum de jetons de sortie Priority Tier autorisés dans n’importe quelle période de limite de débit. (Priority Tier uniquement) |
anthropic-priority-output-tokens-remaining | Le nombre de jetons de sortie Priority Tier restants (arrondi au millier le plus proche) avant d’être limité en débit. (Priority Tier uniquement) |
anthropic-priority-output-tokens-reset | L’heure à laquelle la limite de débit des jetons de sortie Priority Tier sera complètement reconstituée, fournie au format RFC 3339. (Priority Tier uniquement) |
anthropic-ratelimit-tokens-* affichent les valeurs pour la limite la plus restrictive actuellement en vigueur. Par exemple, si vous avez dépassé la limite de jetons par minute de l’espace de travail, les en-têtes contiendront les valeurs de limite de débit des jetons par minute de l’espace de travail. Si les limites de l’espace de travail ne s’appliquent pas, les en-têtes renverront les jetons totaux restants, où le total est la somme des jetons d’entrée et de sortie. Cette approche garantit que vous avez une visibilité sur la contrainte la plus pertinente sur votre utilisation actuelle de l’API.