È sempre meglio prima progettare un prompt che funzioni bene senza vincoli del modello o del prompt, e poi provare le strategie di riduzione della latenza successivamente. Cercare di ridurre la latenza prematuramente potrebbe impedirti di scoprire come appare la massima performance.
Come misurare la latenza
Quando si discute di latenza, potresti incontrare diversi termini e misurazioni:- Latenza di base: Questo è il tempo impiegato dal modello per elaborare il prompt e generare la risposta, senza considerare i token di input e output per secondo. Fornisce un’idea generale della velocità del modello.
- Tempo al primo token (TTFT): Questa metrica misura il tempo necessario al modello per generare il primo token della risposta, da quando il prompt è stato inviato. È particolarmente rilevante quando stai usando lo streaming (ne parleremo più avanti) e vuoi fornire un’esperienza reattiva ai tuoi utenti.
Come ridurre la latenza
1. Scegli il modello giusto
Uno dei modi più diretti per ridurre la latenza è selezionare il modello appropriato per il tuo caso d’uso. Anthropic offre una gamma di modelli con diverse capacità e caratteristiche di performance. Considera i tuoi requisiti specifici e scegli il modello che meglio si adatta alle tue esigenze in termini di velocità e qualità dell’output. Per applicazioni critiche in termini di velocità, Claude Haiku 4.5 offre i tempi di risposta più veloci mantenendo un’alta intelligenza:2. Ottimizza la lunghezza del prompt e dell’output
Minimizza il numero di token sia nel tuo prompt di input che nell’output atteso, mantenendo comunque alte prestazioni. Meno token il modello deve elaborare e generare, più veloce sarà la risposta. Ecco alcuni suggerimenti per aiutarti a ottimizzare i tuoi prompt e output:- Sii chiaro ma conciso: Mira a trasmettere la tua intenzione chiaramente e concisamente nel prompt. Evita dettagli non necessari o informazioni ridondanti, tenendo presente che claude manca di contesto sul tuo caso d’uso e potrebbe non fare i salti logici previsti se le istruzioni non sono chiare.
- Chiedi risposte più brevi: Chiedi direttamente a Claude di essere conciso. La famiglia di modelli Claude 3 ha una migliore dirigibilità rispetto alle generazioni precedenti. Se Claude sta producendo output di lunghezza indesiderata, chiedi a Claude di frenare la sua loquacità.
A causa di come gli LLM contano i token invece delle parole, chiedere un conteggio esatto di parole o un limite di conteggio di parole non è una strategia efficace quanto chiedere limiti di conteggio di paragrafi o frasi.
- Imposta limiti di output appropriati: Usa il parametro
max_tokensper impostare un limite rigido sulla lunghezza massima della risposta generata. Questo impedisce a Claude di generare output eccessivamente lunghi.Nota: Quando la risposta raggiunge
max_tokenstoken, la risposta verrà tagliata, forse a metà frase o a metà parola, quindi questa è una tecnica grossolana che potrebbe richiedere post-elaborazione ed è solitamente più appropriata per risposte a scelta multipla o risposte brevi dove la risposta arriva proprio all’inizio. - Sperimenta con la temperatura: Il parametro
temperaturecontrolla la casualità dell’output. Valori più bassi (ad esempio, 0.2) possono talvolta portare a risposte più focalizzate e più brevi, mentre valori più alti (ad esempio, 0.8) possono risultare in output più diversi ma potenzialmente più lunghi.