Níveis de serviço - Claude Docs

Oferecemos três níveis de serviço:

Nível Prioritário: Melhor para fluxos de trabalho implantados em produção onde tempo, disponibilidade e preços previsíveis são importantes
Padrão: Nível padrão para pilotar e escalar casos de uso cotidianos
Lote: Melhor para fluxos de trabalho assíncronos que podem aguardar ou se beneficiar de estar fora da sua capacidade normal

Nível Padrão

O nível padrão é o nível de serviço padrão para todas as solicitações da API. As solicitações neste nível são priorizadas junto com todas as outras solicitações e observam disponibilidade de melhor esforço.

Nível Prioritário

As solicitações neste nível são priorizadas sobre todas as outras solicitações para a Anthropic. Esta priorização ajuda a minimizar erros de “servidor sobrecarregado”, mesmo durante horários de pico. Para mais informações, consulte Começar com o Nível Prioritário

Como as solicitações recebem níveis atribuídos

Ao lidar com uma solicitação, a Anthropic decide atribuir uma solicitação ao Nível Prioritário nos seguintes cenários:

Sua organização tem capacidade suficiente de tokens de entrada por minuto no nível prioritário
Sua organização tem capacidade suficiente de tokens de saída por minuto no nível prioritário

A Anthropic conta o uso contra a capacidade do Nível Prioritário da seguinte forma: Tokens de Entrada

Leituras de cache como 0,1 tokens por token lido do cache
Escritas de cache como 1,25 tokens por token escrito no cache com TTL de 5 minutos
Escritas de cache como 2,00 tokens por token escrito no cache com TTL de 1 hora
Para solicitações de contexto longo (>200k tokens de entrada), tokens de entrada são 2 tokens por token
Todos os outros tokens de entrada são 1 token por token

Tokens de Saída

Para solicitações de contexto longo (>200k tokens de entrada), tokens de saída são 1,5 tokens por token
Todos os outros tokens de saída são 1 token por token

Caso contrário, as solicitações prosseguem no nível padrão.

Solicitações atribuídas ao Nível Prioritário utilizam tanto a capacidade do Nível Prioritário quanto os limites de taxa regulares. Se atender à solicitação excederia os limites de taxa, a solicitação é recusada.

Usando níveis de serviço

Você pode controlar quais níveis de serviço podem ser usados para uma solicitação definindo o parâmetro service_tier:

message = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # Usar automaticamente o Nível Prioritário quando disponível, voltar ao padrão
)

O parâmetro service_tier aceita os seguintes valores:

"auto" (padrão) - Usa a capacidade do Nível Prioritário se disponível, voltando à sua outra capacidade se não
"standard_only" - Usar apenas capacidade do nível padrão, útil se você não quiser usar sua capacidade do Nível Prioritário

O objeto usage da resposta também inclui o nível de serviço atribuído à solicitação:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Isso permite determinar qual nível de serviço foi atribuído à solicitação. Ao solicitar service_tier="auto" com um modelo com compromisso de Nível Prioritário, estes cabeçalhos de resposta fornecem insights:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Você pode usar a presença destes cabeçalhos para detectar se sua solicitação era elegível para o Nível Prioritário, mesmo se estava acima do limite.

Começar com o Nível Prioritário

Você pode querer se comprometer com a capacidade do Nível Prioritário se estiver interessado em:

Maior disponibilidade: Meta de 99,5% de tempo de atividade com recursos computacionais priorizados
Controle de Custos: Gastos previsíveis e descontos para compromissos mais longos
Overflow flexível: Volta automaticamente ao nível padrão quando você excede sua capacidade comprometida

Comprometer-se com o Nível Prioritário envolverá decidir:

Um número de tokens de entrada por minuto
Um número de tokens de saída por minuto
Uma duração de compromisso (1, 3, 6 ou 12 meses)
Uma versão específica do modelo

A proporção de tokens de entrada para saída que você compra importa. Dimensionar sua capacidade do Nível Prioritário para alinhar com seus padrões de tráfego reais ajuda você a maximizar a utilização dos seus tokens comprados.

Modelos suportados

O Nível Prioritário é suportado por:

Claude Opus 4.1
Claude Opus 4
Claude Sonnet 4
Claude Sonnet 3.7
Claude Sonnet 3.5 (ambas as versões)
Claude Haiku 3.5

Consulte a página de visão geral dos modelos para mais detalhes sobre nossos modelos.

Como acessar o Nível Prioritário

Para começar a usar o Nível Prioritário:

Entre em contato com vendas para completar o provisionamento
(Opcional) Atualize suas solicitações da API para opcionalmente definir o parâmetro service_tier como auto
Monitore seu uso através dos cabeçalhos de resposta e do Console Claude

Release Notes

​Nível Padrão

​Nível Prioritário

​Como as solicitações recebem níveis atribuídos

​Usando níveis de serviço

​Começar com o Nível Prioritário

​Modelos suportados

​Como acessar o Nível Prioritário

Nível Padrão

Nível Prioritário

Como as solicitações recebem níveis atribuídos

Usando níveis de serviço

Começar com o Nível Prioritário

Modelos suportados

Como acessar o Nível Prioritário