Limiti di velocità
Per mitigare l’uso improprio e gestire la capacità sulla nostra API, abbiamo implementato limiti su quanto un’organizzazione può utilizzare l’API Claude.
Abbiamo due tipi di limiti:
- Limiti di spesa stabiliscono un costo mensile massimo che un’organizzazione può sostenere per l’utilizzo dell’API.
- Limiti di velocità stabiliscono il numero massimo di richieste API che un’organizzazione può effettuare in un periodo di tempo definito.
Applichiamo limiti configurati dal servizio a livello di organizzazione, ma puoi anche impostare limiti configurabili dall’utente per i workspace della tua organizzazione.
Questi limiti si applicano sia all’utilizzo del Tier Standard che del Priority Tier. Per maggiori informazioni sul Priority Tier, che offre livelli di servizio migliorati in cambio di spesa impegnata, vedi Tier di Servizio.
Informazioni sui nostri limiti
- I limiti sono progettati per prevenire l’abuso dell’API, minimizzando l’impatto sui modelli di utilizzo comuni dei clienti.
- I limiti sono definiti per tier di utilizzo, dove ogni tier è associato a un diverso set di limiti di spesa e velocità.
- La tua organizzazione aumenterà automaticamente di tier quando raggiungi certe soglie mentre utilizzi l’API. I limiti sono impostati a livello di organizzazione. Puoi vedere i limiti della tua organizzazione nella pagina Limiti nella Console Anthropic.
- Potresti raggiungere i limiti di velocità in intervalli di tempo più brevi. Ad esempio, una velocità di 60 richieste al minuto (RPM) può essere applicata come 1 richiesta al secondo. Brevi raffiche di richieste ad alto volume possono superare il limite di velocità e risultare in errori di limite di velocità.
- I limiti delineati di seguito sono i nostri limiti di tier standard. Se stai cercando limiti più alti e personalizzati o il Priority Tier per livelli di servizio migliorati, contatta le vendite attraverso la Console Anthropic.
- Utilizziamo l’algoritmo token bucket per fare il rate limiting. Questo significa che la tua capacità viene continuamente riempita fino al tuo limite massimo, piuttosto che essere resettata a intervalli fissi.
- Tutti i limiti descritti qui rappresentano l’utilizzo massimo consentito, non minimi garantiti. Questi limiti sono intesi per ridurre la spesa eccessiva involontaria e garantire una distribuzione equa delle risorse tra gli utenti.
Limiti di spesa
Ogni tier di utilizzo ha un limite su quanto puoi spendere sull’API ogni mese di calendario. Una volta raggiunto il limite di spesa del tuo tier, fino a quando non ti qualifichi per il tier successivo, dovrai aspettare fino al mese successivo per poter utilizzare nuovamente l’API.
Per qualificarti per il tier successivo, devi soddisfare un requisito di deposito. Per minimizzare il rischio di sovrafinanziare il tuo account, non puoi depositare più del tuo limite di spesa mensile.
Requisiti per avanzare di tier
Tier di Utilizzo | Acquisto Crediti | Utilizzo Massimo per Mese |
---|---|---|
Tier 1 | $5 | $100 |
Tier 2 | $40 | $500 |
Tier 3 | $200 | $1,000 |
Tier 4 | $400 | $5,000 |
Fatturazione Mensile | N/A | N/A |
Limiti di velocità
I nostri limiti di velocità per l’API Messages sono misurati in richieste al minuto (RPM), token di input al minuto (ITPM) e token di output al minuto (OTPM) per ogni classe di modello.
Se superi qualsiasi limite di velocità riceverai un errore 429 che descrive quale limite di velocità è stato superato, insieme a un header retry-after
che indica quanto tempo aspettare.
I limiti di velocità ITPM sono stimati all’inizio di ogni richiesta, e la stima viene aggiustata durante la richiesta per riflettere il numero effettivo di token di input utilizzati.
L’aggiustamento finale conta input_tokens
e cache_creation_input_tokens
verso i limiti di velocità ITPM.
Per alcuni modelli, anche cache_read_input_tokens
contano verso i limiti di velocità ITPM. L’ITPM massimo per questi modelli è contrassegnato con † nelle tabelle dei limiti di velocità di seguito.
Per tutti gli altri modelli, cache_read_input_tokens
non contano verso i limiti di velocità ITPM (anche se vengono comunque fatturati).
I limiti di velocità OTPM sono stimati basandosi su max_tokens
all’inizio di ogni richiesta, e la stima viene aggiustata alla fine della richiesta per riflettere il numero effettivo di token di output utilizzati.
Se stai raggiungendo i limiti OTPM prima del previsto, prova a ridurre max_tokens
per approssimare meglio la dimensione dei tuoi completamenti.
I limiti di velocità sono applicati separatamente per ogni modello; pertanto puoi utilizzare diversi modelli fino ai loro rispettivi limiti simultaneamente. Puoi controllare i tuoi limiti di velocità attuali e il comportamento nella Console Anthropic.
Per richieste di contesto lungo (>200K token) quando si utilizza l’header beta context-1m-2025-08-07
con Claude Sonnet 4, si applicano limiti di velocità separati. Vedi Limiti di velocità per contesto lungo di seguito.
Modello | Richieste massime al minuto (RPM) | Token di input massimi al minuto (ITPM) | Token di output massimi al minuto (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 (deprecato) | 50 | 40,000† | 8,000 |
Claude Sonnet 3.5 2024-06-20 (deprecato) | 50 | 40,000† | 8,000 |
Claude Haiku 3.5 | 50 | 50,000† | 10,000 |
Claude Opus 3 (deprecato) | 50 | 20,000† | 4,000 |
Claude Haiku 3 | 50 | 50,000† | 10,000 |
Modello | Richieste massime al minuto (RPM) | Token di input massimi al minuto (ITPM) | Token di output massimi al minuto (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 (deprecato) | 50 | 40,000† | 8,000 |
Claude Sonnet 3.5 2024-06-20 (deprecato) | 50 | 40,000† | 8,000 |
Claude Haiku 3.5 | 50 | 50,000† | 10,000 |
Claude Opus 3 (deprecato) | 50 | 20,000† | 4,000 |
Claude Haiku 3 | 50 | 50,000† | 10,000 |
Modello | Richieste massime al minuto (RPM) | Token di input massimi al minuto (ITPM) | Token di output massimi al minuto (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 1,000 | 450,000 | 90,000 |
Claude Sonnet 4 | 1,000 | 450,000 | 90,000 |
Claude Sonnet 3.7 | 1,000 | 40,000 | 16,000 |
Claude Sonnet 3.5 2024-10-22 (deprecato) | 1,000 | 80,000† | 16,000 |
Claude Sonnet 3.5 2024-06-20 (deprecato) | 1,000 | 80,000† | 16,000 |
Claude Haiku 3.5 | 1,000 | 100,000† | 20,000 |
Claude Opus 3 (deprecato) | 1,000 | 40,000† | 8,000 |
Claude Haiku 3 | 1,000 | 100,000† | 20,000 |
Modello | Richieste massime al minuto (RPM) | Token di input massimi al minuto (ITPM) | Token di output massimi al minuto (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 2,000 | 800,000 | 160,000 |
Claude Sonnet 4 | 2,000 | 800,000 | 160,000 |
Claude Sonnet 3.7 | 2,000 | 80,000 | 32,000 |
Claude Sonnet 3.5 2024-10-22 (deprecato) | 2,000 | 160,000† | 32,000 |
Claude Sonnet 3.5 2024-06-20 (deprecato) | 2,000 | 160,000† | 32,000 |
Claude Haiku 3.5 | 2,000 | 200,000† | 40,000 |
Claude Opus 3 (deprecato) | 2,000 | 80,000† | 16,000 |
Claude Haiku 3 | 2,000 | 200,000† | 40,000 |
Modello | Richieste massime al minuto (RPM) | Token di input massimi al minuto (ITPM) | Token di output massimi al minuto (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 4,000 | 2,000,000 | 400,000 |
Claude Sonnet 4 | 4,000 | 2,000,000 | 400,000 |
Claude Sonnet 3.7 | 4,000 | 200,000 | 80,000 |
Claude Sonnet 3.5 2024-10-22 (deprecato) | 4,000 | 400,000† | 80,000 |
Claude Sonnet 3.5 2024-06-20 (deprecato) | 4,000 | 400,000† | 80,000 |
Claude Haiku 3.5 | 4,000 | 400,000† | 80,000 |
Claude Opus 3 (deprecato) | 4,000 | 400,000† | 80,000 |
Claude Haiku 3 | 4,000 | 400,000† | 80,000 |
Se stai cercando limiti più alti per un caso d’uso Enterprise, contatta le vendite attraverso la Console Anthropic.
* - Il limite di velocità di Opus 4.x è un limite totale che si applica al traffico combinato sia di Opus 4.0 che di Opus 4.1.
† - Il limite conta cache_read_input_tokens
verso l’utilizzo ITPM.
API Message Batches
L’API Message Batches ha il suo proprio set di limiti di velocità che sono condivisi tra tutti i modelli. Questi includono un limite di richieste al minuto (RPM) per tutti gli endpoint API e un limite sul numero di richieste batch che possono essere nella coda di elaborazione contemporaneamente. Una “richiesta batch” qui si riferisce a parte di un Message Batch. Puoi creare un Message Batch contenente migliaia di richieste batch, ognuna delle quali conta verso questo limite. Una richiesta batch è considerata parte della coda di elaborazione quando deve ancora essere elaborata con successo dal modello.
Richieste massime al minuto (RPM) | Richieste batch massime nella coda di elaborazione | Richieste batch massime per batch |
---|---|---|
50 | 100,000 | 100,000 |
Richieste massime al minuto (RPM) | Richieste batch massime nella coda di elaborazione | Richieste batch massime per batch |
---|---|---|
50 | 100,000 | 100,000 |
Richieste massime al minuto (RPM) | Richieste batch massime nella coda di elaborazione | Richieste batch massime per batch |
---|---|---|
1,000 | 200,000 | 100,000 |
Richieste massime al minuto (RPM) | Richieste batch massime nella coda di elaborazione | Richieste batch massime per batch |
---|---|---|
2,000 | 300,000 | 100,000 |
Richieste massime al minuto (RPM) | Richieste batch massime nella coda di elaborazione | Richieste batch massime per batch |
---|---|---|
4,000 | 500,000 | 100,000 |
Se stai cercando limiti più alti per un caso d’uso Enterprise, contatta le vendite attraverso la Console Anthropic.
Limiti di velocità per contesto lungo
Quando si utilizza Claude Sonnet 4 con la finestra di contesto da 1M token abilitata, i seguenti limiti di velocità dedicati si applicano alle richieste che superano i 200K token.
La finestra di contesto da 1M token è attualmente in beta per le organizzazioni nel tier di utilizzo 4 e le organizzazioni con limiti di velocità personalizzati. La finestra di contesto da 1M token è disponibile solo per Claude Sonnet 4.
Token di input massimi al minuto (ITPM) | Token di output massimi al minuto (OTPM) |
---|---|
1,000,000 | 200,000 |
Token di input massimi al minuto (ITPM) | Token di output massimi al minuto (OTPM) |
---|---|
1,000,000 | 200,000 |
Per limiti di velocità per contesto lungo personalizzati per casi d’uso enterprise, contatta le vendite attraverso la Console Anthropic.
Per ottenere il massimo dalla finestra di contesto da 1M token con i limiti di velocità, utilizza il caching dei prompt.
Monitoraggio dei tuoi limiti di velocità nella Console
Puoi monitorare l’utilizzo dei tuoi limiti di velocità nella pagina Utilizzo della Console Anthropic.
Oltre a fornire grafici di token e richieste, la pagina Utilizzo fornisce due grafici separati per i limiti di velocità. Utilizza questi grafici per vedere che margine hai per crescere, quando potresti raggiungere il picco di utilizzo, comprendere meglio quali limiti di velocità richiedere, o come puoi migliorare i tuoi tassi di caching. I grafici visualizzano una serie di metriche per un dato limite di velocità (ad esempio per modello):
- Il grafico Limite di Velocità - Token di Input include:
- Token di input massimi orari al minuto non in cache
- Il tuo limite attuale di token di input al minuto
- Il tasso di cache per i tuoi token di input (cioè la percentuale di token di input letti dalla cache)
- Il grafico Limite di Velocità - Token di Output include:
- Token di output massimi orari al minuto
- Il tuo limite attuale di token di output al minuto
Impostazione di limiti più bassi per i Workspace
Per proteggere i Workspace nella tua Organizzazione da potenziale uso eccessivo, puoi impostare limiti personalizzati di spesa e velocità per Workspace.
Esempio: Se il limite della tua Organizzazione è 40,000 token di input al minuto e 8,000 token di output al minuto, potresti limitare un Workspace a 30,000 token totali al minuto. Questo protegge altri Workspace da potenziale uso eccessivo e garantisce una distribuzione più equa delle risorse nella tua Organizzazione. I token rimanenti non utilizzati al minuto (o di più, se quel Workspace non utilizza il limite) sono quindi disponibili per altri Workspace da utilizzare.
Nota:
- Non puoi impostare limiti sul Workspace predefinito.
- Se non impostati, i limiti del Workspace corrispondono al limite dell’Organizzazione.
- I limiti a livello di Organizzazione si applicano sempre, anche se i limiti del Workspace sommati superano.
- Il supporto per i limiti di token di input e output sarà aggiunto ai Workspace in futuro.
Header di risposta
La risposta dell’API include header che mostrano il limite di velocità applicato, l’utilizzo attuale e quando il limite sarà resettato.
Vengono restituiti i seguenti header:
Header | Descrizione |
---|---|
retry-after | Il numero di secondi da aspettare prima di poter riprovare la richiesta. Tentativi precedenti falliranno. |
anthropic-ratelimit-requests-limit | Il numero massimo di richieste consentite in qualsiasi periodo di limite di velocità. |
anthropic-ratelimit-requests-remaining | Il numero di richieste rimanenti prima di essere limitato dalla velocità. |
anthropic-ratelimit-requests-reset | Il momento in cui il limite di velocità delle richieste sarà completamente riempito, fornito in formato RFC 3339. |
anthropic-ratelimit-tokens-limit | Il numero massimo di token consentiti in qualsiasi periodo di limite di velocità. |
anthropic-ratelimit-tokens-remaining | Il numero di token rimanenti (arrotondato al migliaio più vicino) prima di essere limitato dalla velocità. |
anthropic-ratelimit-tokens-reset | Il momento in cui il limite di velocità dei token sarà completamente riempito, fornito in formato RFC 3339. |
anthropic-ratelimit-input-tokens-limit | Il numero massimo di token di input consentiti in qualsiasi periodo di limite di velocità. |
anthropic-ratelimit-input-tokens-remaining | Il numero di token di input rimanenti (arrotondato al migliaio più vicino) prima di essere limitato dalla velocità. |
anthropic-ratelimit-input-tokens-reset | Il momento in cui il limite di velocità dei token di input sarà completamente riempito, fornito in formato RFC 3339. |
anthropic-ratelimit-output-tokens-limit | Il numero massimo di token di output consentiti in qualsiasi periodo di limite di velocità. |
anthropic-ratelimit-output-tokens-remaining | Il numero di token di output rimanenti (arrotondato al migliaio più vicino) prima di essere limitato dalla velocità. |
anthropic-ratelimit-output-tokens-reset | Il momento in cui il limite di velocità dei token di output sarà completamente riempito, fornito in formato RFC 3339. |
anthropic-priority-input-tokens-limit | Il numero massimo di token di input Priority Tier consentiti in qualsiasi periodo di limite di velocità. (Solo Priority Tier) |
anthropic-priority-input-tokens-remaining | Il numero di token di input Priority Tier rimanenti (arrotondato al migliaio più vicino) prima di essere limitato dalla velocità. (Solo Priority Tier) |
anthropic-priority-input-tokens-reset | Il momento in cui il limite di velocità dei token di input Priority Tier sarà completamente riempito, fornito in formato RFC 3339. (Solo Priority Tier) |
anthropic-priority-output-tokens-limit | Il numero massimo di token di output Priority Tier consentiti in qualsiasi periodo di limite di velocità. (Solo Priority Tier) |
anthropic-priority-output-tokens-remaining | Il numero di token di output Priority Tier rimanenti (arrotondato al migliaio più vicino) prima di essere limitato dalla velocità. (Solo Priority Tier) |
anthropic-priority-output-tokens-reset | Il momento in cui il limite di velocità dei token di output Priority Tier sarà completamente riempito, fornito in formato RFC 3339. (Solo Priority Tier) |
Gli header anthropic-ratelimit-tokens-*
mostrano i valori per il limite più restrittivo attualmente in vigore. Ad esempio, se hai superato il limite di token al minuto del Workspace, gli header conterranno i valori del limite di velocità dei token al minuto del Workspace. Se i limiti del Workspace non si applicano, gli header restituiranno i token totali rimanenti, dove totale è la somma dei token di input e output. Questo approccio garantisce che tu abbia visibilità sul vincolo più rilevante per il tuo utilizzo API attuale.