Costruire criteri solidi
I buoni criteri di successo sono:- Specifici: Definisci chiaramente ciò che vuoi ottenere. Invece di “buone prestazioni”, specifica “classificazione accurata del sentiment”.
-
Misurabili: Utilizza metriche quantitative o scale qualitative ben definite. I numeri forniscono chiarezza e scalabilità, ma le misure qualitative possono essere preziose se applicate in modo coerente insieme alle misure quantitative.
- Anche argomenti “nebulosi” come etica e sicurezza possono essere quantificati:
Criteri di sicurezza Male Output sicuri Bene Meno dello 0,1% degli output su 10.000 prove segnalate per tossicità dal nostro filtro di contenuti.
Esempi di metriche e metodi di misurazione
Metriche quantitative:- Specifiche per attività: punteggio F1, punteggio BLEU, perplessità
- Generiche: Accuratezza, precisione, richiamo
- Operative: Tempo di risposta (ms), tempo di attività (%)
- Test A/B: Confronta le prestazioni rispetto a un modello di riferimento o una versione precedente.
- Feedback degli utenti: Misure implicite come i tassi di completamento delle attività.
- Analisi dei casi limite: Percentuale di casi limite gestiti senza errori.
- Scale Likert: “Valuta la coerenza da 1 (insensato) a 5 (perfettamente logico)”
- Rubriche di esperti: Linguisti che valutano la qualità della traduzione su criteri definiti
- Anche argomenti “nebulosi” come etica e sicurezza possono essere quantificati:
- Raggiungibili: Basa i tuoi obiettivi su benchmark di settore, esperimenti precedenti, ricerca sull’IA o conoscenze di esperti. I tuoi parametri di successo non dovrebbero essere irrealistici rispetto alle attuali capacità dei modelli all’avanguardia.
- Rilevanti: Allinea i tuoi criteri con lo scopo dell’applicazione e le esigenze degli utenti. Una forte accuratezza nelle citazioni potrebbe essere fondamentale per app mediche ma meno importante per chatbot casuali.
Esempio di criteri di fedeltà del compito per l'analisi del sentiment
Esempio di criteri di fedeltà del compito per l'analisi del sentiment
| Criteri | |
|---|---|
| Male | Il modello dovrebbe classificare bene i sentiment |
| Bene | Il nostro modello di analisi del sentiment dovrebbe raggiungere un punteggio F1 di almeno 0,85 (Misurabile, Specifico) su un set di test separato* di 10.000 diversi post di Twitter (Rilevante), che rappresenta un miglioramento del 5% rispetto alla nostra baseline attuale (Raggiungibile). |
Criteri di successo comuni da considerare
Ecco alcuni criteri che potrebbero essere importanti per il tuo caso d’uso. Questo elenco non è esaustivo.Fedeltà del compito
Fedeltà del compito
Quanto bene deve performare il modello sul compito? Potresti anche dover considerare la gestione dei casi limite, come quanto bene il modello deve performare su input rari o impegnativi.
Coerenza
Coerenza
Quanto simili devono essere le risposte del modello per tipi simili di input? Se un utente pone la stessa domanda due volte, quanto è importante che riceva risposte semanticamente simili?
Rilevanza e coerenza
Rilevanza e coerenza
Quanto bene il modello affronta direttamente le domande o le istruzioni dell’utente? Quanto è importante che le informazioni siano presentate in modo logico e facile da seguire?
Tono e stile
Tono e stile
Quanto bene lo stile di output del modello corrisponde alle aspettative? Quanto è appropriato il suo linguaggio per il pubblico target?
Preservazione della privacy
Preservazione della privacy
Qual è una metrica di successo per come il modello gestisce le informazioni personali o sensibili? Può seguire le istruzioni di non utilizzare o condividere determinati dettagli?
Utilizzo del contesto
Utilizzo del contesto
Quanto efficacemente il modello utilizza il contesto fornito? Quanto bene fa riferimento e si basa sulle informazioni fornite nella sua cronologia?
Latenza
Latenza
Qual è il tempo di risposta accettabile per il modello? Questo dipenderà dai requisiti in tempo reale della tua applicazione e dalle aspettative degli utenti.
Prezzo
Prezzo
Qual è il tuo budget per l’esecuzione del modello? Considera fattori come il costo per chiamata API, la dimensione del modello e la frequenza di utilizzo.
Esempio di criteri multidimensionali per l'analisi del sentiment
Esempio di criteri multidimensionali per l'analisi del sentiment
| Criteri | |
|---|---|
| Male | Il modello dovrebbe classificare bene i sentiment |
| Bene | Su un set di test separato di 10.000 diversi post di Twitter, il nostro modello di analisi del sentiment dovrebbe raggiungere: - un punteggio F1 di almeno 0,85 - il 99,5% degli output non è tossico - il 90% degli errori causerebbe inconvenienti, non errori gravi* - il 95% dei tempi di risposta < 200ms |
Prossimi passi
Brainstorm dei criteri
Fai un brainstorming dei criteri di successo per il tuo caso d’uso con Claude su claude.ai.
Suggerimento: Inserisci questa pagina nella chat come guida per Claude!
Suggerimento: Inserisci questa pagina nella chat come guida per Claude!
Progetta valutazioni
Impara a costruire solidi set di test per valutare le prestazioni di Claude rispetto ai tuoi criteri.