É sempre melhor primeiro projetar um prompt que funcione bem sem restrições de modelo ou prompt, e então tentar estratégias de redução de latência depois. Tentar reduzir a latência prematuramente pode impedir que você descubra como é o desempenho máximo.
Como medir latência
Ao discutir latência, você pode encontrar vários termos e medições:- Latência base: Este é o tempo levado pelo modelo para processar o prompt e gerar a resposta, sem considerar os tokens de entrada e saída por segundo. Fornece uma ideia geral da velocidade do modelo.
- Tempo até o primeiro token (TTFT): Esta métrica mede o tempo que leva para o modelo gerar o primeiro token da resposta, a partir de quando o prompt foi enviado. É particularmente relevante quando você está usando streaming (mais sobre isso depois) e quer fornecer uma experiência responsiva aos seus usuários.
Como reduzir latência
1. Escolha o modelo certo
Uma das maneiras mais diretas de reduzir latência é selecionar o modelo apropriado para seu caso de uso. A Anthropic oferece uma gama de modelos com diferentes capacidades e características de desempenho. Considere seus requisitos específicos e escolha o modelo que melhor se adequa às suas necessidades em termos de velocidade e qualidade de saída. Para aplicações críticas em velocidade, Claude Haiku 4.5 oferece os tempos de resposta mais rápidos mantendo alta inteligência:2. Otimize o comprimento do prompt e da saída
Minimize o número de tokens tanto no seu prompt de entrada quanto na saída esperada, mantendo ainda alto desempenho. Quanto menos tokens o modelo tiver que processar e gerar, mais rápida será a resposta. Aqui estão algumas dicas para ajudá-lo a otimizar seus prompts e saídas:- Seja claro mas conciso: Procure transmitir sua intenção de forma clara e concisa no prompt. Evite detalhes desnecessários ou informações redundantes, mantendo em mente que Claude carece de contexto sobre seu caso de uso e pode não fazer os saltos lógicos pretendidos se as instruções não estiverem claras.
- Peça respostas mais curtas: Peça ao Claude diretamente para ser conciso. A família de modelos Claude 3 tem melhor dirigibilidade em relação às gerações anteriores. Se Claude está produzindo comprimento indesejado, peça ao Claude para conter sua tagarelice.
Devido a como LLMs contam tokens em vez de palavras, pedir uma contagem exata de palavras ou um limite de contagem de palavras não é uma estratégia tão eficaz quanto pedir limites de contagem de parágrafos ou frases.
- Defina limites de saída apropriados: Use o parâmetro
max_tokenspara definir um limite rígido no comprimento máximo da resposta gerada. Isso impede que Claude gere saídas excessivamente longas.Nota: Quando a resposta atinge
max_tokenstokens, a resposta será cortada, talvez no meio da frase ou no meio da palavra, então esta é uma técnica grosseira que pode exigir pós-processamento e geralmente é mais apropriada para respostas de múltipla escolha ou respostas curtas onde a resposta vem logo no início. - Experimente com temperatura: O parâmetro
temperaturecontrola a aleatoriedade da saída. Valores mais baixos (por exemplo, 0.2) às vezes podem levar a respostas mais focadas e mais curtas, enquanto valores mais altos (por exemplo, 0.8) podem resultar em saídas mais diversas mas potencialmente mais longas.