- Nivel de Prioridad: Ideal para flujos de trabajo implementados en producción donde el tiempo, la disponibilidad y los precios predecibles son importantes
- Estándar: Nivel de servicio predeterminado tanto para pruebas piloto como para escalar casos de uso cotidianos
- Lote: Ideal para flujos de trabajo asincrónico que pueden esperar o beneficiarse de estar fuera de tu capacidad normal
Nivel Estándar
El nivel estándar es el nivel de servicio predeterminado para todas las solicitudes de API. Las solicitudes en este nivel se priorizan junto con todas las demás solicitudes y observan disponibilidad de mejor esfuerzo.Nivel de Prioridad
Las solicitudes en este nivel se priorizan sobre todas las demás solicitudes a Anthropic. Esta priorización ayuda a minimizar errores de “servidor sobrecargado”, incluso durante horas pico. Para más información, consulta Comenzar con Nivel de PrioridadCómo se asignan los niveles a las solicitudes
Al manejar una solicitud, Anthropic decide asignar una solicitud al Nivel de Prioridad en los siguientes escenarios:- Tu organización tiene suficiente capacidad de nivel de prioridad input tokens por minuto
- Tu organización tiene suficiente capacidad de nivel de prioridad output tokens por minuto
- Las lecturas de caché como 0.1 tokens por token leído del caché
- Las escrituras de caché como 1.25 tokens por token escrito en el caché con un TTL de 5 minutos
- Las escrituras de caché como 2.00 tokens por token escrito en el caché con un TTL de 1 hora
- Para solicitudes de contexto largo (>200k tokens de entrada), los tokens de entrada son 2 tokens por token
- Todos los demás tokens de entrada son 1 token por token
- Para solicitudes de contexto largo (>200k tokens de entrada), los tokens de salida son 1.5 tokens por token
- Todos los demás tokens de salida son 1 token por token
Las solicitudes asignadas al Nivel de Prioridad se extraen tanto de la capacidad del Nivel de Prioridad como de los límites de velocidad regulares.
Si servir la solicitud excedería los límites de velocidad, la solicitud se rechaza.
Usar niveles de servicio
Puedes controlar qué niveles de servicio se pueden usar para una solicitud estableciendo el parámetroservice_tier:
service_tier acepta los siguientes valores:
"auto"(predeterminado) - Usa la capacidad del Nivel de Prioridad si está disponible, retrocediendo a tu otra capacidad si no"standard_only"- Solo usa la capacidad del nivel estándar, útil si no deseas usar tu capacidad del Nivel de Prioridad
usage de la respuesta también incluye el nivel de servicio asignado a la solicitud:
service_tier="auto" con un modelo con un compromiso de Nivel de Prioridad, estos encabezados de respuesta proporcionan información:
Comenzar con Nivel de Prioridad
Puede que desees comprometerte con la capacidad del Nivel de Prioridad si estás interesado en:- Mayor disponibilidad: Objetivo de 99.5% de tiempo de actividad con recursos computacionales priorizados
- Control de Costos: Gasto predecible y descuentos para compromisos más largos
- Desbordamiento Flexible: Retrocede automáticamente al nivel estándar cuando excedes tu capacidad comprometida
- Un número de tokens de entrada por minuto
- Un número de tokens de salida por minuto
- Una duración de compromiso (1, 3, 6 o 12 meses)
- Una versión de modelo específica
La relación de tokens de entrada a salida que compres importa. Dimensionar tu capacidad del Nivel de Prioridad para alinearse con tus patrones de tráfico reales te ayuda a maximizar la utilización de tus tokens comprados.
Modelos Soportados
El Nivel de Prioridad es compatible con:- Claude Opus 4.1
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Haiku 3.5
Cómo acceder al Nivel de Prioridad
Para comenzar a usar el Nivel de Prioridad:- Contacta a ventas para completar el aprovisionamiento
- (Opcional) Actualiza tus solicitudes de API para establecer opcionalmente el parámetro
service_tieraauto - Monitorea tu uso a través de encabezados de respuesta y la Consola de Claude