Abbiamo due tipi di limiti:
  1. Limiti di spesa impostano un costo mensile massimo che un’organizzazione può sostenere per l’utilizzo dell’API.
  2. Limiti di velocità impostano il numero massimo di richieste API che un’organizzazione può effettuare in un periodo di tempo definito.
Applichiamo i limiti configurati dal servizio a livello di organizzazione, ma puoi anche impostare limiti configurabili dall’utente per gli spazi di lavoro della tua organizzazione. Questi limiti si applicano sia all’utilizzo del Tier Standard che del Tier Priority. Per ulteriori informazioni su Priority Tier, che offre livelli di servizio migliorati in cambio di spesa impegnata, vedi Service Tiers.

Informazioni sui nostri limiti

  • I limiti sono progettati per prevenire gli abusi dell’API, riducendo al minimo l’impatto sui modelli di utilizzo comuni dei clienti.
  • I limiti sono definiti per tier di utilizzo, dove ogni tier è associato a un diverso set di limiti di spesa e velocità.
  • La tua organizzazione aumenterà automaticamente i tier man mano che raggiungi determinati soglie durante l’utilizzo dell’API. I limiti sono impostati a livello di organizzazione. Puoi visualizzare i limiti della tua organizzazione nella pagina Limiti nella Claude Console.
  • Potresti raggiungere i limiti di velocità in intervalli di tempo più brevi. Ad esempio, una velocità di 60 richieste al minuto (RPM) potrebbe essere applicata come 1 richiesta al secondo. Brevi raffiche di richieste ad alto volume possono superare il limite di velocità e causare errori di limite di velocità.
  • I limiti descritti di seguito sono i nostri limiti del tier standard. Se stai cercando limiti più elevati e personalizzati o Priority Tier per livelli di servizio migliorati, contatta il team di vendita tramite la Claude Console.
  • Utilizziamo l’algoritmo token bucket per il rate limiting. Ciò significa che la tua capacità viene continuamente reintegrata fino al tuo limite massimo, piuttosto che essere ripristinata a intervalli fissi.
  • Tutti i limiti descritti qui rappresentano l’utilizzo massimo consentito, non i minimi garantiti. Questi limiti sono destinati a ridurre la spesa eccessiva involontaria e garantire una distribuzione equa delle risorse tra gli utenti.

Limiti di spesa

Ogni tier di utilizzo ha un limite su quanto puoi spendere per l’API ogni mese di calendario. Una volta raggiunto il limite di spesa del tuo tier, fino a quando non ti qualifichi per il tier successivo, dovrai aspettare fino al mese successivo per poter utilizzare di nuovo l’API. Per qualificarti per il tier successivo, devi soddisfare un requisito di deposito. Per ridurre al minimo il rischio di sovrafinanziamento del tuo account, non puoi depositare più del tuo limite di spesa mensile.

Requisiti per avanzare di tier

Tier di utilizzoAcquisto di creditiAcquisto massimo di crediti
Tier 1$5$100
Tier 2$40$500
Tier 3$200$1.000
Tier 4$400$5.000
Fatturazione mensileN/DN/D
Acquisto di crediti mostra gli acquisti di crediti cumulativi (escluse le tasse) richiesti per avanzare a quel tier. Avanzi immediatamente al raggiungimento della soglia.Acquisto massimo di crediti limita l’importo massimo che puoi aggiungere al tuo account in una singola transazione per prevenire il sovrafinanziamento dell’account.

Limiti di velocità

I nostri limiti di velocità per l’API Messages sono misurati in richieste al minuto (RPM), token di input al minuto (ITPM) e token di output al minuto (OTPM) per ogni classe di modello. Se superi uno qualsiasi dei limiti di velocità, riceverai un errore 429 che descrive quale limite di velocità è stato superato, insieme a un’intestazione retry-after che indica quanto tempo aspettare.
Potresti anche incontrare errori 429 a causa dei limiti di accelerazione sull’API se la tua organizzazione ha un aumento acuto dell’utilizzo. Per evitare di raggiungere i limiti di accelerazione, aumenta il tuo traffico gradualmente e mantieni modelli di utilizzo coerenti.

ITPM consapevole della cache

Molti provider di API utilizzano un limite combinato di “token al minuto” (TPM) che potrebbe includere tutti i token, sia quelli memorizzati nella cache che quelli non memorizzati, input e output. Per la maggior parte dei modelli Claude, solo i token di input non memorizzati nella cache contano verso i tuoi limiti di velocità ITPM. Questo è un vantaggio chiave che rende i nostri limiti di velocità effettivamente più alti di quanto potrebbero sembrare inizialmente. I limiti di velocità ITPM sono stimati all’inizio di ogni richiesta e la stima viene regolata durante la richiesta per riflettere il numero effettivo di token di input utilizzati. Ecco cosa conta verso ITPM:
  • input_tokens (nuovi token di input che non sono memorizzati nella cache) ✓ Contano verso ITPM
  • cache_creation_input_tokens (token in fase di scrittura nella cache) ✓ Contano verso ITPM
  • cache_read_input_tokens (token letti dalla cache) ✗ NON contano verso ITPM per la maggior parte dei modelli
Esempio: Con un limite ITPM di 2.000.000 e un tasso di hit della cache dell’80%, potresti elaborare efficacemente 10.000.000 token di input totali al minuto (2M non memorizzati nella cache + 8M memorizzati nella cache), poiché i token memorizzati nella cache non contano verso il tuo limite di velocità.
Alcuni modelli più vecchi (contrassegnati con † nelle tabelle dei limiti di velocità di seguito) contano anche cache_read_input_tokens verso i limiti di velocità ITPM.Per tutti i modelli senza il marcatore †, i token di input memorizzati nella cache non contano verso i limiti di velocità e vengono fatturati a una tariffa ridotta (10% del prezzo del token di input di base). Ciò significa che puoi ottenere una velocità effettiva significativamente più elevata utilizzando prompt caching.
Massimizza i tuoi limiti di velocità con prompt cachingPer ottenere il massimo dai tuoi limiti di velocità, utilizza prompt caching per contenuti ripetuti come:
  • Istruzioni di sistema e prompt
  • Documenti di contesto di grandi dimensioni
  • Definizioni di strumenti
  • Cronologia della conversazione
Con caching efficace, puoi aumentare drasticamente la tua velocità effettiva senza aumentare i tuoi limiti di velocità. Monitora il tuo tasso di hit della cache nella pagina Utilizzo per ottimizzare la tua strategia di caching.
I limiti di velocità OTPM sono stimati in base a max_tokens all’inizio di ogni richiesta e la stima viene regolata alla fine della richiesta per riflettere il numero effettivo di token di output utilizzati. Se stai raggiungendo i limiti OTPM prima del previsto, prova a ridurre max_tokens per approssimare meglio la dimensione dei tuoi completamenti. I limiti di velocità vengono applicati separatamente per ogni modello; pertanto puoi utilizzare modelli diversi fino ai loro rispettivi limiti contemporaneamente. Puoi controllare i tuoi attuali limiti di velocità e comportamento nella Claude Console.
Per richieste di contesto lungo (>200K token) quando si utilizza l’intestazione beta context-1m-2025-08-07 con Claude Sonnet 4.x, si applicano limiti di velocità separati. Vedi Limiti di velocità per contesto lungo di seguito.
ModelloRichieste massime al minuto (RPM)Token di input massimi al minuto (ITPM)Token di output massimi al minuto (OTPM)
Claude Sonnet 4.x**5030.0008.000
Claude Sonnet 3.7 (deprecato)5020.0008.000
Claude Haiku 4.55050.00010.000
Claude Haiku 3.55050.00010.000
Claude Haiku 35050.00010.000
Claude Opus 4.x*5030.0008.000
Claude Opus 3 (deprecato)5020.0004.000
* - Il limite di velocità Opus 4.x è un limite totale che si applica al traffico combinato sia per Opus 4 che per Opus 4.1. ** - Il limite di velocità Sonnet 4.x è un limite totale che si applica al traffico combinato sia per Sonnet 4 che per Sonnet 4.5. † - Il limite conta cache_read_input_tokens verso l’utilizzo ITPM.

API Message Batches

L’API Message Batches ha il suo proprio set di limiti di velocità che sono condivisi tra tutti i modelli. Questi includono un limite di richieste al minuto (RPM) per tutti gli endpoint API e un limite sul numero di richieste batch che possono trovarsi nella coda di elaborazione contemporaneamente. Una “richiesta batch” qui si riferisce a parte di un Message Batch. Puoi creare un Message Batch contenente migliaia di richieste batch, ognuna delle quali conta verso questo limite. Una richiesta batch è considerata parte della coda di elaborazione quando non è stata ancora elaborata con successo dal modello.
Richieste massime al minuto (RPM)Richieste batch massime nella coda di elaborazioneRichieste batch massime per batch
50100.000100.000

Limiti di velocità per contesto lungo

Quando si utilizza Claude Sonnet 4 e Sonnet 4.5 con la finestra di contesto di 1M token abilitata, i seguenti limiti di velocità dedicati si applicano alle richieste che superano 200K token.
La finestra di contesto di 1M token è attualmente in beta per le organizzazioni nel tier di utilizzo 4 e le organizzazioni con limiti di velocità personalizzati. La finestra di contesto di 1M token è disponibile solo per Claude Sonnet 4 e Sonnet 4.5.
Token di input massimi al minuto (ITPM)Token di output massimi al minuto (OTPM)
1.000.000200.000
Per ottenere il massimo dalla finestra di contesto di 1M token con limiti di velocità, utilizza prompt caching.

Monitoraggio dei tuoi limiti di velocità nella Console

Puoi monitorare l’utilizzo del tuo limite di velocità nella pagina Utilizzo della Claude Console. Oltre a fornire grafici di token e richieste, la pagina Utilizzo fornisce due grafici separati dei limiti di velocità. Utilizza questi grafici per vedere quanto spazio hai per crescere, quando potresti raggiungere il picco di utilizzo, comprendere meglio quali limiti di velocità richiedere, o come puoi migliorare i tuoi tassi di caching. I grafici visualizzano un numero di metriche per un determinato limite di velocità (ad es. per modello):
  • Il grafico Rate Limit - Input Tokens include:
    • Token di input massimi orari non memorizzati nella cache al minuto
    • Il tuo attuale limite di velocità dei token di input al minuto
    • Il tasso di cache per i tuoi token di input (cioè la percentuale di token di input letti dalla cache)
  • Il grafico Rate Limit - Output Tokens include:
    • Token di output massimi orari al minuto
    • Il tuo attuale limite di velocità dei token di output al minuto

Impostazione di limiti inferiori per gli spazi di lavoro

Per proteggere gli spazi di lavoro nella tua organizzazione da un potenziale utilizzo eccessivo, puoi impostare limiti di spesa e velocità personalizzati per spazio di lavoro. Esempio: Se il limite della tua organizzazione è 40.000 token di input al minuto e 8.000 token di output al minuto, potresti limitare uno spazio di lavoro a 30.000 token totali al minuto. Questo protegge gli altri spazi di lavoro da un potenziale utilizzo eccessivo e garantisce una distribuzione più equa delle risorse tra la tua organizzazione. I token al minuto inutilizzati rimanenti (o più, se quello spazio di lavoro non utilizza il limite) sono quindi disponibili per altri spazi di lavoro da utilizzare. Nota:
  • Non puoi impostare limiti sullo spazio di lavoro predefinito.
  • Se non impostato, i limiti dello spazio di lavoro corrispondono al limite dell’organizzazione.
  • I limiti a livello di organizzazione si applicano sempre, anche se i limiti dello spazio di lavoro si sommano a più.
  • Il supporto per i limiti dei token di input e output verrà aggiunto agli spazi di lavoro in futuro.

Intestazioni di risposta

La risposta dell’API include intestazioni che mostrano il limite di velocità applicato, l’utilizzo attuale e quando il limite verrà ripristinato. Le seguenti intestazioni vengono restituite:
IntestazioneDescrizione
retry-afterIl numero di secondi da aspettare prima di poter riprovare la richiesta. I tentativi precedenti falliranno.
anthropic-ratelimit-requests-limitIl numero massimo di richieste consentite entro qualsiasi periodo di limite di velocità.
anthropic-ratelimit-requests-remainingIl numero di richieste rimanenti prima di essere limitato dalla velocità.
anthropic-ratelimit-requests-resetL’ora in cui il limite di velocità delle richieste sarà completamente reintegrato, fornito in formato RFC 3339.
anthropic-ratelimit-tokens-limitIl numero massimo di token consentiti entro qualsiasi periodo di limite di velocità.
anthropic-ratelimit-tokens-remainingIl numero di token rimanenti (arrotondato al migliaio più vicino) prima di essere limitato dalla velocità.
anthropic-ratelimit-tokens-resetL’ora in cui il limite di velocità dei token sarà completamente reintegrato, fornito in formato RFC 3339.
anthropic-ratelimit-input-tokens-limitIl numero massimo di token di input consentiti entro qualsiasi periodo di limite di velocità.
anthropic-ratelimit-input-tokens-remainingIl numero di token di input rimanenti (arrotondato al migliaio più vicino) prima di essere limitato dalla velocità.
anthropic-ratelimit-input-tokens-resetL’ora in cui il limite di velocità dei token di input sarà completamente reintegrato, fornito in formato RFC 3339.
anthropic-ratelimit-output-tokens-limitIl numero massimo di token di output consentiti entro qualsiasi periodo di limite di velocità.
anthropic-ratelimit-output-tokens-remainingIl numero di token di output rimanenti (arrotondato al migliaio più vicino) prima di essere limitato dalla velocità.
anthropic-ratelimit-output-tokens-resetL’ora in cui il limite di velocità dei token di output sarà completamente reintegrato, fornito in formato RFC 3339.
anthropic-priority-input-tokens-limitIl numero massimo di token di input Priority Tier consentiti entro qualsiasi periodo di limite di velocità. (Solo Priority Tier)
anthropic-priority-input-tokens-remainingIl numero di token di input Priority Tier rimanenti (arrotondato al migliaio più vicino) prima di essere limitato dalla velocità. (Solo Priority Tier)
anthropic-priority-input-tokens-resetL’ora in cui il limite di velocità dei token di input Priority Tier sarà completamente reintegrato, fornito in formato RFC 3339. (Solo Priority Tier)
anthropic-priority-output-tokens-limitIl numero massimo di token di output Priority Tier consentiti entro qualsiasi periodo di limite di velocità. (Solo Priority Tier)
anthropic-priority-output-tokens-remainingIl numero di token di output Priority Tier rimanenti (arrotondato al migliaio più vicino) prima di essere limitato dalla velocità. (Solo Priority Tier)
anthropic-priority-output-tokens-resetL’ora in cui il limite di velocità dei token di output Priority Tier sarà completamente reintegrato, fornito in formato RFC 3339. (Solo Priority Tier)
Le intestazioni anthropic-ratelimit-tokens-* visualizzano i valori per il limite più restrittivo attualmente in vigore. Ad esempio, se hai superato il limite di token al minuto dello spazio di lavoro, le intestazioni conterranno i valori del limite di velocità dei token al minuto dello spazio di lavoro. Se i limiti dello spazio di lavoro non si applicano, le intestazioni restituiranno i token totali rimanenti, dove il totale è la somma dei token di input e output. Questo approccio garantisce che tu abbia visibilità nel vincolo più rilevante sul tuo utilizzo attuale dell’API.