Límites de velocidad

Tenemos dos tipos de límites:

Límites de gasto establecen un costo mensual máximo que una organización puede incurrir por el uso de la API.
Límites de velocidad establecen el número máximo de solicitudes de API que una organización puede hacer durante un período de tiempo definido.

Aplicamos límites configurados por el servicio a nivel de organización, pero también puede establecer límites configurables por el usuario para los espacios de trabajo de su organización. Estos límites se aplican tanto al uso de nivel Estándar como de nivel Prioritario. Para obtener más información sobre el nivel Prioritario, que ofrece niveles de servicio mejorados a cambio de gasto comprometido, consulte Niveles de servicio.

Acerca de nuestros límites

Los límites están diseñados para prevenir el abuso de la API, minimizando el impacto en los patrones de uso comunes de los clientes.
Los límites se definen por nivel de uso, donde cada nivel está asociado con un conjunto diferente de límites de gasto y velocidad.
Su organización aumentará de nivel automáticamente a medida que alcance ciertos umbrales mientras usa la API. Los límites se establecen a nivel de organización. Puede ver los límites de su organización en la página de Límites en la Consola Claude.
Puede alcanzar límites de velocidad en intervalos de tiempo más cortos. Por ejemplo, una velocidad de 60 solicitudes por minuto (RPM) puede aplicarse como 1 solicitud por segundo. Ráfagas cortas de solicitudes con alto volumen pueden superar el límite de velocidad y resultar en errores de límite de velocidad.
Los límites descritos a continuación son nuestros límites de nivel estándar. Si busca límites más altos y personalizados o nivel Prioritario para niveles de servicio mejorados, póngase en contacto con ventas a través de la Consola Claude.
Utilizamos el algoritmo de cubo de tokens para hacer limitación de velocidad. Esto significa que su capacidad se repone continuamente hasta su límite máximo, en lugar de restablecerse en intervalos fijos.
Todos los límites descritos aquí representan el uso máximo permitido, no mínimos garantizados. Estos límites están destinados a reducir el gasto excesivo involuntario y garantizar una distribución justa de recursos entre usuarios.

Límites de gasto

Cada nivel de uso tiene un límite sobre cuánto puede gastar en la API cada mes calendario. Una vez que alcance el límite de gasto de su nivel, hasta que califique para el siguiente nivel, deberá esperar hasta el próximo mes para poder usar la API nuevamente. Para calificar para el siguiente nivel, debe cumplir con un requisito de depósito. Para minimizar el riesgo de sobrefondear su cuenta, no puede depositar más que su límite de gasto mensual.

Requisitos para avanzar de nivel

Nivel de uso	Compra de crédito	Compra de crédito máxima
Nivel 1	$5	$100
Nivel 2	$40	$500
Nivel 3	$200	$1,000
Nivel 4	$400	$5,000
Facturación mensual	N/A	N/A

Compra de crédito muestra las compras de crédito acumulativas (excluyendo impuestos) requeridas para avanzar a ese nivel. Avanza inmediatamente al alcanzar el umbral.Compra de crédito máxima limita la cantidad máxima que puede agregar a su cuenta en una sola transacción para evitar el sobrefondeo de la cuenta.

Límites de velocidad

Nuestros límites de velocidad para la API de Mensajes se miden en solicitudes por minuto (RPM), tokens de entrada por minuto (ITPM) y tokens de salida por minuto (OTPM) para cada clase de modelo. Si excede cualquiera de los límites de velocidad, obtendrá un error 429 que describe qué límite de velocidad se excedió, junto con un encabezado retry-after que indica cuánto tiempo esperar.

También puede encontrar errores 429 debido a límites de aceleración en la API si su organización tiene un aumento brusco en el uso. Para evitar alcanzar límites de aceleración, aumente su tráfico gradualmente y mantenga patrones de uso consistentes.

ITPM consciente del caché

Muchos proveedores de API utilizan un límite combinado de “tokens por minuto” (TPM) que puede incluir todos los tokens, tanto almacenados en caché como no almacenados en caché, entrada y salida. Para la mayoría de los modelos Claude, solo los tokens de entrada no almacenados en caché cuentan hacia sus límites de velocidad ITPM. Esta es una ventaja clave que hace que nuestros límites de velocidad sean efectivamente más altos de lo que podrían parecer inicialmente. Los límites de velocidad ITPM se estiman al principio de cada solicitud, y la estimación se ajusta durante la solicitud para reflejar el número real de tokens de entrada utilizados. Esto es lo que cuenta hacia ITPM:

input_tokens (nuevos tokens de entrada que no están almacenados en caché) ✓ Cuentan hacia ITPM
cache_creation_input_tokens (tokens que se escriben en el caché) ✓ Cuentan hacia ITPM
cache_read_input_tokens (tokens leídos del caché) ✗ NO cuentan hacia ITPM para la mayoría de los modelos

Ejemplo: Con un límite ITPM de 2,000,000 y una tasa de acierto de caché del 80%, podría procesar efectivamente 10,000,000 tokens de entrada totales por minuto (2M no almacenados en caché + 8M almacenados en caché), ya que los tokens almacenados en caché no cuentan hacia su límite de velocidad.

Algunos modelos más antiguos (marcados con † en las tablas de límites de velocidad a continuación) también cuentan cache_read_input_tokens hacia los límites de velocidad ITPM.Para todos los modelos sin el marcador †, los tokens de entrada almacenados en caché no cuentan hacia los límites de velocidad y se facturan a una tasa reducida (10% del precio del token de entrada base). Esto significa que puede lograr un rendimiento efectivo significativamente más alto utilizando almacenamiento en caché de indicaciones.

Maximice sus límites de velocidad con almacenamiento en caché de indicacionesPara aprovechar al máximo sus límites de velocidad, use almacenamiento en caché de indicaciones para contenido repetido como:

Instrucciones del sistema e indicaciones
Documentos de contexto grandes
Definiciones de herramientas
Historial de conversación

Con almacenamiento en caché efectivo, puede aumentar dramáticamente su rendimiento real sin aumentar sus límites de velocidad. Monitoree su tasa de acierto de caché en la página de Uso para optimizar su estrategia de almacenamiento en caché.

Los límites de velocidad OTPM se estiman basándose en max_tokens al principio de cada solicitud, y la estimación se ajusta al final de la solicitud para reflejar el número real de tokens de salida utilizados. Si está alcanzando límites OTPM antes de lo esperado, intente reducir max_tokens para aproximar mejor el tamaño de sus finalizaciones. Los límites de velocidad se aplican por separado para cada modelo; por lo tanto, puede usar diferentes modelos hasta sus límites respectivos simultáneamente. Puede verificar sus límites de velocidad actuales y comportamiento en la Consola Claude.

Para solicitudes de contexto largo (>200K tokens) cuando se usa el encabezado beta context-1m-2025-08-07 con Claude Sonnet 4.x, se aplican límites de velocidad separados. Consulte Límites de velocidad de contexto largo a continuación.

Modelo	Máximo de solicitudes por minuto (RPM)	Máximo de tokens de entrada por minuto (ITPM)	Máximo de tokens de salida por minuto (OTPM)
Claude Sonnet 4.x^**	50	30,000	8,000
Claude Sonnet 3.7 (obsoleto)	50	20,000	8,000
Claude Haiku 4.5	50	50,000	10,000
Claude Haiku 3.5	50	50,000^†	10,000
Claude Haiku 3	50	50,000^†	10,000
Claude Opus 4.x^*	50	30,000	8,000
Claude Opus 3 (obsoleto)	50	20,000^†	4,000

^{* - El límite de velocidad de Opus 4.x es un límite total que se aplica al tráfico combinado entre Opus 4 y Opus 4.1.} ^{** - El límite de velocidad de Sonnet 4.x es un límite total que se aplica al tráfico combinado entre Sonnet 4 y Sonnet 4.5.} ^{† - El límite cuenta cache_read_input_tokens hacia el uso de ITPM.}

API de lotes de mensajes

La API de lotes de mensajes tiene su propio conjunto de límites de velocidad que se comparten entre todos los modelos. Estos incluyen un límite de solicitudes por minuto (RPM) para todos los puntos finales de la API y un límite en el número de solicitudes de lote que pueden estar en la cola de procesamiento al mismo tiempo. Una “solicitud de lote” aquí se refiere a parte de un lote de mensajes. Puede crear un lote de mensajes que contenga miles de solicitudes de lote, cada una de las cuales cuenta hacia este límite. Una solicitud de lote se considera parte de la cola de procesamiento cuando aún no ha sido procesada exitosamente por el modelo.

Máximo de solicitudes por minuto (RPM)	Máximo de solicitudes de lote en cola de procesamiento	Máximo de solicitudes de lote por lote
50	100,000	100,000

Límites de velocidad de contexto largo

Cuando se usa Claude Sonnet 4 y Sonnet 4.5 con la ventana de contexto de 1M tokens habilitada, se aplican los siguientes límites de velocidad dedicados a solicitudes que exceden 200K tokens.

La ventana de contexto de 1M tokens está actualmente en beta para organizaciones en el nivel de uso 4 y organizaciones con límites de velocidad personalizados. La ventana de contexto de 1M tokens solo está disponible para Claude Sonnet 4 y Sonnet 4.5.

Máximo de tokens de entrada por minuto (ITPM)	Máximo de tokens de salida por minuto (OTPM)
1,000,000	200,000

Para aprovechar al máximo la ventana de contexto de 1M tokens con límites de velocidad, use almacenamiento en caché de indicaciones.

Monitoreo de sus límites de velocidad en la consola

Puede monitorear el uso de su límite de velocidad en la página Uso de la Consola Claude. Además de proporcionar gráficos de tokens y solicitudes, la página de Uso proporciona dos gráficos de límites de velocidad separados. Use estos gráficos para ver cuánto espacio tiene para crecer, cuándo puede estar alcanzando el uso máximo, comprender mejor qué límites de velocidad solicitar, o cómo puede mejorar sus tasas de almacenamiento en caché. Los gráficos visualizan una serie de métricas para un límite de velocidad determinado (por ejemplo, por modelo):

El gráfico Límite de velocidad - Tokens de entrada incluye:
- Máximo horario de tokens de entrada no almacenados en caché por minuto
- Su límite de velocidad actual de tokens de entrada por minuto
- La tasa de caché para sus tokens de entrada (es decir, el porcentaje de tokens de entrada leídos del caché)
El gráfico Límite de velocidad - Tokens de salida incluye:
- Máximo horario de tokens de salida por minuto
- Su límite de velocidad actual de tokens de salida por minuto

Establecimiento de límites más bajos para espacios de trabajo

Para proteger los espacios de trabajo en su organización del uso excesivo potencial, puede establecer límites de gasto y velocidad personalizados por espacio de trabajo. Ejemplo: Si el límite de su organización es 40,000 tokens de entrada por minuto y 8,000 tokens de salida por minuto, puede limitar un espacio de trabajo a 30,000 tokens totales por minuto. Esto protege otros espacios de trabajo del uso excesivo potencial y garantiza una distribución más equitativa de recursos en su organización. Los tokens por minuto no utilizados restantes (o más, si ese espacio de trabajo no usa el límite) están disponibles para que otros espacios de trabajo los usen. Nota:

No puede establecer límites en el espacio de trabajo predeterminado.
Si no se establece, los límites del espacio de trabajo coinciden con el límite de la organización.
Los límites de toda la organización siempre se aplican, incluso si los límites del espacio de trabajo suman más.
Se agregará soporte para límites de tokens de entrada y salida a espacios de trabajo en el futuro.

Encabezados de respuesta

La respuesta de la API incluye encabezados que muestran el límite de velocidad aplicado, el uso actual y cuándo se restablecerá el límite. Se devuelven los siguientes encabezados:

Encabezado	Descripción
`retry-after`	El número de segundos a esperar hasta que pueda reintentar la solicitud. Los reintentos anteriores fallarán.
`anthropic-ratelimit-requests-limit`	El número máximo de solicitudes permitidas dentro de cualquier período de límite de velocidad.
`anthropic-ratelimit-requests-remaining`	El número de solicitudes restantes antes de ser limitado por velocidad.
`anthropic-ratelimit-requests-reset`	La hora en que se restablecerá completamente el límite de velocidad de solicitudes, proporcionada en formato RFC 3339.
`anthropic-ratelimit-tokens-limit`	El número máximo de tokens permitidos dentro de cualquier período de límite de velocidad.
`anthropic-ratelimit-tokens-remaining`	El número de tokens restantes (redondeado al millar más cercano) antes de ser limitado por velocidad.
`anthropic-ratelimit-tokens-reset`	La hora en que se restablecerá completamente el límite de velocidad de tokens, proporcionada en formato RFC 3339.
`anthropic-ratelimit-input-tokens-limit`	El número máximo de tokens de entrada permitidos dentro de cualquier período de límite de velocidad.
`anthropic-ratelimit-input-tokens-remaining`	El número de tokens de entrada restantes (redondeado al millar más cercano) antes de ser limitado por velocidad.
`anthropic-ratelimit-input-tokens-reset`	La hora en que se restablecerá completamente el límite de velocidad de tokens de entrada, proporcionada en formato RFC 3339.
`anthropic-ratelimit-output-tokens-limit`	El número máximo de tokens de salida permitidos dentro de cualquier período de límite de velocidad.
`anthropic-ratelimit-output-tokens-remaining`	El número de tokens de salida restantes (redondeado al millar más cercano) antes de ser limitado por velocidad.
`anthropic-ratelimit-output-tokens-reset`	La hora en que se restablecerá completamente el límite de velocidad de tokens de salida, proporcionada en formato RFC 3339.
`anthropic-priority-input-tokens-limit`	El número máximo de tokens de entrada de nivel prioritario permitidos dentro de cualquier período de límite de velocidad. (Solo nivel prioritario)
`anthropic-priority-input-tokens-remaining`	El número de tokens de entrada de nivel prioritario restantes (redondeado al millar más cercano) antes de ser limitado por velocidad. (Solo nivel prioritario)
`anthropic-priority-input-tokens-reset`	La hora en que se restablecerá completamente el límite de velocidad de tokens de entrada de nivel prioritario, proporcionada en formato RFC 3339. (Solo nivel prioritario)
`anthropic-priority-output-tokens-limit`	El número máximo de tokens de salida de nivel prioritario permitidos dentro de cualquier período de límite de velocidad. (Solo nivel prioritario)
`anthropic-priority-output-tokens-remaining`	El número de tokens de salida de nivel prioritario restantes (redondeado al millar más cercano) antes de ser limitado por velocidad. (Solo nivel prioritario)
`anthropic-priority-output-tokens-reset`	La hora en que se restablecerá completamente el límite de velocidad de tokens de salida de nivel prioritario, proporcionada en formato RFC 3339. (Solo nivel prioritario)

Los encabezados anthropic-ratelimit-tokens-* muestran los valores para el límite más restrictivo actualmente en vigor. Por ejemplo, si ha excedido el límite de tokens por minuto del espacio de trabajo, los encabezados contendrán los valores del límite de velocidad de tokens por minuto del espacio de trabajo. Si los límites del espacio de trabajo no se aplican, los encabezados devolverán los tokens totales restantes, donde el total es la suma de tokens de entrada y salida. Este enfoque garantiza que tenga visibilidad del restricción más relevante en su uso actual de la API.

​Acerca de nuestros límites

​Límites de gasto

​Requisitos para avanzar de nivel

​Límites de velocidad

​ITPM consciente del caché

​API de lotes de mensajes

​Límites de velocidad de contexto largo

​Monitoreo de sus límites de velocidad en la consola

​Establecimiento de límites más bajos para espacios de trabajo

​Encabezados de respuesta

Acerca de nuestros límites

Límites de gasto

Requisitos para avanzar de nivel

Límites de velocidad

ITPM consciente del caché

API de lotes de mensajes

Límites de velocidad de contexto largo

Monitoreo de sus límites de velocidad en la consola

Establecimiento de límites más bajos para espacios de trabajo

Encabezados de respuesta