- Gerenciar proativamente limites de taxa e custos
- Tomar decisões inteligentes de roteamento de modelo
- Otimizar prompts para ter um comprimento específico
Como contar tokens de mensagem
O endpoint de contagem de tokens aceita a mesma lista estruturada de entradas para criar uma mensagem, incluindo suporte para prompts de sistema, ferramentas, imagens e PDFs. A resposta contém o número total de tokens de entrada.A contagem de tokens deve ser considerada uma estimativa. Em alguns casos, o número real de tokens de entrada usados ao criar uma mensagem pode diferir por uma pequena quantidade.As contagens de tokens podem incluir tokens adicionados automaticamente pela Anthropic para otimizações do sistema. Você não é cobrado por tokens adicionados pelo sistema. A cobrança reflete apenas seu conteúdo.
Modelos suportados
Todos os modelos ativos suportam contagem de tokens.Contar tokens em mensagens básicas
JSON
Contar tokens em mensagens com ferramentas
As contagens de tokens de ferramentas de servidor se aplicam apenas à primeira chamada de amostragem.
JSON
Contar tokens em mensagens com imagens
JSON
Contar tokens em mensagens com pensamento estendido
Veja aqui para mais detalhes sobre como a janela de contexto é calculada com pensamento estendido
- Blocos de pensamento de turnos de assistente anteriores são ignorados e não contam para seus tokens de entrada
- O pensamento do turno atual do assistente conta para seus tokens de entrada
JSON
Contar tokens em mensagens com PDFs
A contagem de tokens suporta PDFs com as mesmas limitações da API de Mensagens.
JSON
Preços e limites de taxa
A contagem de tokens é gratuita para usar, mas sujeita a limites de taxa de solicitações por minuto baseados no seu nível de uso. Se você precisar de limites mais altos, entre em contato com vendas através do Console Claude.| Nível de uso | Solicitações por minuto (RPM) |
|---|---|
| 1 | 100 |
| 2 | 2,000 |
| 3 | 4,000 |
| 4 | 8,000 |
A contagem de tokens e a criação de mensagens têm limites de taxa separados e independentes — o uso de um não conta contra os limites do outro.
FAQ
A contagem de tokens usa cache de prompt?
A contagem de tokens usa cache de prompt?
Não, a contagem de tokens fornece uma estimativa sem usar lógica de cache. Embora você possa fornecer blocos
cache_control em sua solicitação de contagem de tokens, o cache de prompt ocorre apenas durante a criação real da mensagem.