- Nível Prioritário: Melhor para fluxos de trabalho implantados em produção onde tempo, disponibilidade e preços previsíveis são importantes
- Padrão: Nível padrão para pilotar e escalar casos de uso cotidianos
- Lote: Melhor para fluxos de trabalho assíncronos que podem aguardar ou se beneficiar de estar fora da sua capacidade normal
Nível Padrão
O nível padrão é o nível de serviço padrão para todas as solicitações da API. As solicitações neste nível são priorizadas junto com todas as outras solicitações e observam disponibilidade de melhor esforço.Nível Prioritário
As solicitações neste nível são priorizadas sobre todas as outras solicitações para a Anthropic. Esta priorização ajuda a minimizar erros de “servidor sobrecarregado”, mesmo durante horários de pico. Para mais informações, consulte Começar com o Nível PrioritárioComo as solicitações recebem níveis atribuídos
Ao lidar com uma solicitação, a Anthropic decide atribuir uma solicitação ao Nível Prioritário nos seguintes cenários:- Sua organização tem capacidade suficiente de tokens de entrada por minuto no nível prioritário
- Sua organização tem capacidade suficiente de tokens de saída por minuto no nível prioritário
- Leituras de cache como 0,1 tokens por token lido do cache
- Escritas de cache como 1,25 tokens por token escrito no cache com TTL de 5 minutos
- Escritas de cache como 2,00 tokens por token escrito no cache com TTL de 1 hora
- Para solicitações de contexto longo (>200k tokens de entrada), tokens de entrada são 2 tokens por token
- Todos os outros tokens de entrada são 1 token por token
- Para solicitações de contexto longo (>200k tokens de entrada), tokens de saída são 1,5 tokens por token
- Todos os outros tokens de saída são 1 token por token
Solicitações atribuídas ao Nível Prioritário utilizam tanto a capacidade do Nível Prioritário quanto os limites de taxa regulares.
Se atender à solicitação excederia os limites de taxa, a solicitação é recusada.
Usando níveis de serviço
Você pode controlar quais níveis de serviço podem ser usados para uma solicitação definindo o parâmetroservice_tier:
service_tier aceita os seguintes valores:
"auto"(padrão) - Usa a capacidade do Nível Prioritário se disponível, voltando à sua outra capacidade se não"standard_only"- Usar apenas capacidade do nível padrão, útil se você não quiser usar sua capacidade do Nível Prioritário
usage da resposta também inclui o nível de serviço atribuído à solicitação:
service_tier="auto" com um modelo com compromisso de Nível Prioritário, estes cabeçalhos de resposta fornecem insights:
Começar com o Nível Prioritário
Você pode querer se comprometer com a capacidade do Nível Prioritário se estiver interessado em:- Maior disponibilidade: Meta de 99,5% de tempo de atividade com recursos computacionais priorizados
- Controle de Custos: Gastos previsíveis e descontos para compromissos mais longos
- Overflow flexível: Volta automaticamente ao nível padrão quando você excede sua capacidade comprometida
- Um número de tokens de entrada por minuto
- Um número de tokens de saída por minuto
- Uma duração de compromisso (1, 3, 6 ou 12 meses)
- Uma versão específica do modelo
A proporção de tokens de entrada para saída que você compra importa. Dimensionar sua capacidade do Nível Prioritário para alinhar com seus padrões de tráfego reais ajuda você a maximizar a utilização dos seus tokens comprados.
Modelos suportados
O Nível Prioritário é suportado por:- Claude Opus 4.1
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Sonnet 3.5 (ambas as versões)
- Claude Haiku 3.5
Como acessar o Nível Prioritário
Para começar a usar o Nível Prioritário:- Entre em contato com vendas para completar o provisionamento
- (Opcional) Atualize suas solicitações da API para opcionalmente definir o parâmetro
service_tiercomoauto - Monitore seu uso através dos cabeçalhos de resposta e do Console Claude