- Camada de Prioridade: Melhor para fluxos de trabalho implantados em produção onde tempo, disponibilidade e preços previsíveis são importantes
- Padrão: Camada padrão para pilotagem e dimensionamento de casos de uso cotidianos
- Lote: Melhor para fluxos de trabalho assíncronos que podem esperar ou se beneficiar de estar fora da sua capacidade normal
Camada Padrão
A camada padrão é a camada de serviço padrão para todas as solicitações de API. As solicitações nesta camada são priorizadas junto com todas as outras solicitações e observam disponibilidade de melhor esforço.Camada de Prioridade
As solicitações nesta camada são priorizadas sobre todas as outras solicitações para Anthropic. Esta priorização ajuda a minimizar erros “servidor sobrecarregado”, mesmo durante horários de pico. Para mais informações, consulte Comece com a Camada de PrioridadeComo as solicitações recebem atribuição de camadas
Ao lidar com uma solicitação, Anthropic decide atribuir uma solicitação à Camada de Prioridade nos seguintes cenários:- Sua organização tem capacidade de camada de prioridade suficiente de tokens de entrada por minuto
- Sua organização tem capacidade de camada de prioridade suficiente de tokens de saída por minuto
- Leituras de cache como 0,1 tokens por token lido do cache
- Escritas de cache como 1,25 tokens por token escrito no cache com TTL de 5 minutos
- Escritas de cache como 2,00 tokens por token escrito no cache com TTL de 1 hora
- Para solicitações de contexto longo (>200k tokens de entrada), tokens de entrada são 2 tokens por token
- Todos os outros tokens de entrada são 1 token por token
- Para solicitações de contexto longo (>200k tokens de entrada), tokens de saída são 1,5 tokens por token
- Todos os outros tokens de saída são 1 token por token
As solicitações atribuídas à Camada de Prioridade extraem tanto da capacidade da Camada de Prioridade quanto dos limites de taxa regulares.
Se atender a solicitação excederia os limites de taxa, a solicitação é recusada.
Usando camadas de serviço
Você pode controlar quais camadas de serviço podem ser usadas para uma solicitação definindo o parâmetroservice_tier:
service_tier aceita os seguintes valores:
"auto"(padrão) - Usa a capacidade da Camada de Prioridade se disponível, retornando à sua outra capacidade se não estiver"standard_only"- Use apenas a capacidade da camada padrão, útil se você não quiser usar sua capacidade da Camada de Prioridade
usage da resposta também inclui a camada de serviço atribuída à solicitação:
service_tier="auto" com um modelo com um compromisso de Camada de Prioridade, estes cabeçalhos de resposta fornecem insights:
Comece com a Camada de Prioridade
Você pode querer se comprometer com a capacidade da Camada de Prioridade se estiver interessado em:- Maior disponibilidade: Alvo de 99,5% de tempo de atividade com recursos computacionais priorizados
- Controle de Custos: Gastos previsíveis e descontos para compromissos mais longos
- Overflow Flexível: Retorna automaticamente à camada padrão quando você excede sua capacidade comprometida
- Um número de tokens de entrada por minuto
- Um número de tokens de saída por minuto
- Uma duração de compromisso (1, 3, 6 ou 12 meses)
- Uma versão de modelo específica
A proporção de tokens de entrada para saída que você compra importa. Dimensionar sua capacidade da Camada de Prioridade para se alinhar com seus padrões de tráfego reais ajuda você a maximizar a utilização de seus tokens adquiridos.
Modelos suportados
A Camada de Prioridade é suportada por:- Claude Opus 4.1
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Haiku 3.5
Como acessar a Camada de Prioridade
Para começar a usar a Camada de Prioridade:- Entre em contato com vendas para concluir o provisionamento
- (Opcional) Atualize suas solicitações de API para opcionalmente definir o parâmetro
service_tiercomoauto - Monitore seu uso através de cabeçalhos de resposta e do Console Claude