Limites de taxa

Temos dois tipos de limites:

Limites de gastos definem um custo máximo mensal que uma organização pode incorrer pelo uso da API.
Limites de taxa definem o número máximo de solicitações de API que uma organização pode fazer em um período de tempo definido.

Aplicamos limites configurados pelo serviço no nível da organização, mas você também pode definir limites configuráveis pelo usuário para os workspaces da sua organização. Esses limites se aplicam ao uso de Tier Padrão e Tier Prioritário. Para mais informações sobre o Tier Prioritário, que oferece níveis de serviço aprimorados em troca de gastos comprometidos, consulte Service Tiers.

Sobre nossos limites

Os limites são projetados para prevenir abuso da API, minimizando o impacto nos padrões de uso comum dos clientes.
Os limites são definidos por tier de uso, onde cada tier está associado a um conjunto diferente de limites de gastos e taxa.
Sua organização aumentará automaticamente de tier conforme você atinge certos limites enquanto usa a API. Os limites são definidos no nível da organização. Você pode ver os limites da sua organização na página Limites no Claude Console.
Você pode atingir limites de taxa em intervalos de tempo mais curtos. Por exemplo, uma taxa de 60 solicitações por minuto (RPM) pode ser aplicada como 1 solicitação por segundo. Rajadas curtas de solicitações em alto volume podem exceder o limite de taxa e resultar em erros de limite de taxa.
Os limites descritos abaixo são nossos limites de tier padrão. Se você está procurando limites mais altos, personalizados ou Tier Prioritário para níveis de serviço aprimorados, entre em contato com vendas através do Claude Console.
Usamos o algoritmo token bucket para fazer limitação de taxa. Isso significa que sua capacidade é continuamente reabastecida até seu limite máximo, em vez de ser redefinida em intervalos fixos.
Todos os limites descritos aqui representam uso máximo permitido, não mínimos garantidos. Esses limites são destinados a reduzir gastos excessivos não intencionais e garantir distribuição justa de recursos entre usuários.

Limites de gastos

Cada tier de uso tem um limite sobre quanto você pode gastar na API a cada mês do calendário. Uma vez que você atinge o limite de gastos do seu tier, até que você se qualifique para o próximo tier, você terá que esperar até o próximo mês para poder usar a API novamente. Para se qualificar para o próximo tier, você deve atender a um requisito de depósito. Para minimizar o risco de financiar em excesso sua conta, você não pode depositar mais do que seu limite de gastos mensal.

Requisitos para avançar de tier

Usage Tier	Credit Purchase	Max Credit Purchase
Tier 1	$5	$100
Tier 2	$40	$500
Tier 3	$200	$1,000
Tier 4	$400	$5,000
Monthly Invoicing	N/A	N/A

Credit Purchase mostra as compras de crédito cumulativas (excluindo impostos) necessárias para avançar para esse tier. Você avança imediatamente ao atingir o limite.Max Credit Purchase limita o valor máximo que você pode adicionar à sua conta em uma única transação para evitar financiamento excessivo da conta.

Nossos limites de taxa para a API Messages são medidos em solicitações por minuto (RPM), tokens de entrada por minuto (ITPM) e tokens de saída por minuto (OTPM) para cada classe de modelo. Se você exceder qualquer um dos limites de taxa, receberá um erro 429 descrevendo qual limite de taxa foi excedido, junto com um cabeçalho retry-after indicando quanto tempo esperar.

Você também pode encontrar erros 429 devido a limites de aceleração na API se sua organização tiver um aumento acentuado no uso. Para evitar atingir limites de aceleração, aumente seu tráfego gradualmente e mantenha padrões de uso consistentes.

ITPM com reconhecimento de cache

Muitos provedores de API usam um limite combinado de “tokens por minuto” (TPM) que pode incluir todos os tokens, tanto em cache quanto não em cache, entrada e saída. Para a maioria dos modelos Claude, apenas tokens de entrada não em cache contam para seus limites de taxa ITPM. Esta é uma vantagem chave que torna nossos limites de taxa efetivamente mais altos do que podem parecer inicialmente. Os limites de taxa ITPM são estimados no início de cada solicitação, e a estimativa é ajustada durante a solicitação para refletir o número real de tokens de entrada usados. Aqui está o que conta para ITPM:

input_tokens (novos tokens de entrada que não estão em cache) ✓ Contam para ITPM
cache_creation_input_tokens (tokens sendo escritos no cache) ✓ Contam para ITPM
cache_read_input_tokens (tokens lidos do cache) ✗ NÃO contam para ITPM para a maioria dos modelos

Exemplo: Com um limite de 2.000.000 ITPM e uma taxa de acerto de cache de 80%, você poderia processar efetivamente 10.000.000 tokens de entrada totais por minuto (2M não em cache + 8M em cache), já que tokens em cache não contam para seu limite de taxa.

Alguns modelos mais antigos (marcados com † nas tabelas de limite de taxa abaixo) também contam cache_read_input_tokens para limites de taxa ITPM.Para todos os modelos sem o marcador †, tokens de entrada em cache não contam para limites de taxa e são cobrados a uma taxa reduzida (10% do preço do token de entrada base). Isso significa que você pode alcançar uma taxa de transferência efetiva significativamente mais alta usando prompt caching.

Maximize seus limites de taxa com prompt cachingPara aproveitar ao máximo seus limites de taxa, use prompt caching para conteúdo repetido como:

Instruções de sistema e prompts
Documentos de contexto grande
Definições de ferramentas
Histórico de conversa

Com caching eficaz, você pode aumentar dramaticamente sua taxa de transferência real sem aumentar seus limites de taxa. Monitore sua taxa de acerto de cache na página Uso para otimizar sua estratégia de caching.

Os limites de taxa OTPM são estimados com base em max_tokens no início de cada solicitação, e a estimativa é ajustada no final da solicitação para refletir o número real de tokens de saída usados. Se você está atingindo limites OTPM mais cedo do que esperado, tente reduzir max_tokens para aproximar melhor o tamanho de suas conclusões. Os limites de taxa são aplicados separadamente para cada modelo; portanto, você pode usar diferentes modelos até seus respectivos limites simultaneamente. Você pode verificar seus limites de taxa atuais e comportamento no Claude Console.

Para solicitações de contexto longo (>200K tokens) ao usar o cabeçalho beta context-1m-2025-08-07 com Claude Sonnet 4.x, limites de taxa separados se aplicam. Consulte Limites de taxa de contexto longo abaixo.

Model	Maximum requests per minute (RPM)	Maximum input tokens per minute (ITPM)	Maximum output tokens per minute (OTPM)
Claude Sonnet 4.x^**	50	30,000	8,000
Claude Sonnet 3.7	50	20,000	8,000
Claude Sonnet 3.5 2024-10-22 (deprecated)	50	40,000^†	8,000
Claude Sonnet 3.5 2024-06-20 (deprecated)	50	40,000^†	8,000
Claude Haiku 4.5	50	50,000	10,000
Claude Haiku 3.5	50	50,000^†	10,000
Claude Haiku 3	50	50,000^†	10,000
Claude Opus 4.x^*	50	30,000	8,000
Claude Opus 3 (deprecated)	50	20,000^†	4,000

^{* - O limite de taxa Opus 4.x é um limite total que se aplica ao tráfego combinado entre Opus 4 e Opus 4.1.} ^{** - O limite de taxa Sonnet 4.x é um limite total que se aplica ao tráfego combinado entre Sonnet 4 e Sonnet 4.5.} ^{† - O limite conta cache_read_input_tokens para uso de ITPM.}

API de Lotes de Mensagens

A API de Lotes de Mensagens tem seu próprio conjunto de limites de taxa que são compartilhados entre todos os modelos. Estes incluem um limite de solicitações por minuto (RPM) para todos os endpoints da API e um limite no número de solicitações de lote que podem estar na fila de processamento ao mesmo tempo. Um “solicitação de lote” aqui se refere a parte de um Lote de Mensagens. Você pode criar um Lote de Mensagens contendo milhares de solicitações de lote, cada uma das quais conta para esse limite. Uma solicitação de lote é considerada parte da fila de processamento quando ainda não foi processada com sucesso pelo modelo.

Maximum requests per minute (RPM)	Maximum batch requests in processing queue	Maximum batch requests per batch
50	100,000	100,000

Limites de taxa de contexto longo

Ao usar Claude Sonnet 4 e Sonnet 4.5 com a janela de contexto de 1M tokens ativada, os seguintes limites de taxa dedicados se aplicam a solicitações que excedem 200K tokens.

A janela de contexto de 1M tokens está atualmente em beta para organizações no tier de uso 4 e organizações com limites de taxa personalizados. A janela de contexto de 1M tokens está disponível apenas para Claude Sonnet 4 e Sonnet 4.5.

Maximum input tokens per minute (ITPM)	Maximum output tokens per minute (OTPM)
1,000,000	200,000

Para aproveitar ao máximo a janela de contexto de 1M tokens com limites de taxa, use prompt caching.

Monitorando seus limites de taxa no Console

Você pode monitorar seu uso de limite de taxa na página Uso do Claude Console. Além de fornecer gráficos de token e solicitação, a página Uso fornece dois gráficos de limite de taxa separados. Use esses gráficos para ver quanto espaço você tem para crescer, quando você pode estar atingindo pico de uso, entender melhor quais limites de taxa solicitar, ou como você pode melhorar suas taxas de caching. Os gráficos visualizam um número de métricas para um determinado limite de taxa (por exemplo, por modelo):

O gráfico Rate Limit - Input Tokens inclui:
- Máximo horário de tokens de entrada não em cache por minuto
- Seu limite de taxa de tokens de entrada por minuto atual
- A taxa de cache para seus tokens de entrada (ou seja, a porcentagem de tokens de entrada lidos do cache)
O gráfico Rate Limit - Output Tokens inclui:
- Máximo horário de tokens de saída por minuto
- Seu limite de taxa de tokens de saída por minuto atual

Definindo limites mais baixos para Workspaces

Para proteger Workspaces em sua Organização de possível uso excessivo, você pode definir limites de gastos e taxa personalizados por Workspace. Exemplo: Se o limite da sua Organização é 40.000 tokens de entrada por minuto e 8.000 tokens de saída por minuto, você pode limitar um Workspace a 30.000 tokens totais por minuto. Isso protege outros Workspaces de possível uso excessivo e garante uma distribuição mais equitativa de recursos em sua Organização. Os tokens por minuto não utilizados restantes (ou mais, se esse Workspace não usar o limite) ficam disponíveis para outros Workspaces usarem. Nota:

Você não pode definir limites no Workspace padrão.
Se não definido, os limites do Workspace correspondem ao limite da Organização.
Os limites de toda a Organização sempre se aplicam, mesmo que os limites do Workspace somem mais.
O suporte para limites de tokens de entrada e saída será adicionado aos Workspaces no futuro.

Cabeçalhos de resposta

A resposta da API inclui cabeçalhos que mostram o limite de taxa aplicado, uso atual e quando o limite será redefinido. Os seguintes cabeçalhos são retornados:

Header	Description
`retry-after`	O número de segundos a esperar até que você possa tentar novamente a solicitação. Tentativas anteriores falharão.
`anthropic-ratelimit-requests-limit`	O número máximo de solicitações permitidas em qualquer período de limite de taxa.
`anthropic-ratelimit-requests-remaining`	O número de solicitações restantes antes de ser limitado por taxa.
`anthropic-ratelimit-requests-reset`	A hora em que o limite de taxa de solicitação será totalmente reabastecido, fornecido em formato RFC 3339.
`anthropic-ratelimit-tokens-limit`	O número máximo de tokens permitidos em qualquer período de limite de taxa.
`anthropic-ratelimit-tokens-remaining`	O número de tokens restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa.
`anthropic-ratelimit-tokens-reset`	A hora em que o limite de taxa de token será totalmente reabastecido, fornecido em formato RFC 3339.
`anthropic-ratelimit-input-tokens-limit`	O número máximo de tokens de entrada permitidos em qualquer período de limite de taxa.
`anthropic-ratelimit-input-tokens-remaining`	O número de tokens de entrada restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa.
`anthropic-ratelimit-input-tokens-reset`	A hora em que o limite de taxa de token de entrada será totalmente reabastecido, fornecido em formato RFC 3339.
`anthropic-ratelimit-output-tokens-limit`	O número máximo de tokens de saída permitidos em qualquer período de limite de taxa.
`anthropic-ratelimit-output-tokens-remaining`	O número de tokens de saída restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa.
`anthropic-ratelimit-output-tokens-reset`	A hora em que o limite de taxa de token de saída será totalmente reabastecido, fornecido em formato RFC 3339.
`anthropic-priority-input-tokens-limit`	O número máximo de tokens de entrada do Tier Prioritário permitidos em qualquer período de limite de taxa. (Apenas Tier Prioritário)
`anthropic-priority-input-tokens-remaining`	O número de tokens de entrada do Tier Prioritário restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa. (Apenas Tier Prioritário)
`anthropic-priority-input-tokens-reset`	A hora em que o limite de taxa de token de entrada do Tier Prioritário será totalmente reabastecido, fornecido em formato RFC 3339. (Apenas Tier Prioritário)
`anthropic-priority-output-tokens-limit`	O número máximo de tokens de saída do Tier Prioritário permitidos em qualquer período de limite de taxa. (Apenas Tier Prioritário)
`anthropic-priority-output-tokens-remaining`	O número de tokens de saída do Tier Prioritário restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa. (Apenas Tier Prioritário)
`anthropic-priority-output-tokens-reset`	A hora em que o limite de taxa de token de saída do Tier Prioritário será totalmente reabastecido, fornecido em formato RFC 3339. (Apenas Tier Prioritário)

Os cabeçalhos anthropic-ratelimit-tokens-* exibem os valores para o limite mais restritivo atualmente em vigor. Por exemplo, se você excedeu o limite de token por minuto do Workspace, os cabeçalhos conterão os valores de limite de taxa de token por minuto do Workspace. Se os limites do Workspace não se aplicarem, os cabeçalhos retornarão o total de tokens restantes, onde total é a soma de tokens de entrada e saída. Esta abordagem garante que você tenha visibilidade da restrição mais relevante no seu uso atual da API.

Release Notes

​Sobre nossos limites

​Limites de gastos

​Requisitos para avançar de tier

​Limites de taxa

​ITPM com reconhecimento de cache

​API de Lotes de Mensagens

​Limites de taxa de contexto longo

​Monitorando seus limites de taxa no Console

​Definindo limites mais baixos para Workspaces

​Cabeçalhos de resposta

Sobre nossos limites

Limites de gastos

Requisitos para avançar de tier

Limites de taxa

ITPM com reconhecimento de cache

API de Lotes de Mensagens

Limites de taxa de contexto longo

Monitorando seus limites de taxa no Console

Definindo limites mais baixos para Workspaces

Cabeçalhos de resposta