Visita il nostro cookbook sulla moderazione dei contenuti per vedere un esempio di implementazione della moderazione dei contenuti utilizzando Claude.
Prima di costruire con Claude
Decidere se utilizzare Claude per la moderazione dei contenuti
Ecco alcuni indicatori chiave che suggeriscono di utilizzare un LLM come Claude invece di un approccio ML tradizionale o basato su regole per la moderazione dei contenuti:Vuoi un'implementazione economica e rapida
Vuoi un'implementazione economica e rapida
Desideri sia comprensione semantica che decisioni rapide
Desideri sia comprensione semantica che decisioni rapide
Hai bisogno di decisioni politiche coerenti
Hai bisogno di decisioni politiche coerenti
Le tue politiche di moderazione sono probabilmente destinate a cambiare o evolversi nel tempo
Le tue politiche di moderazione sono probabilmente destinate a cambiare o evolversi nel tempo
Richiedi ragionamento interpretabile per le tue decisioni di moderazione
Richiedi ragionamento interpretabile per le tue decisioni di moderazione
Hai bisogno di supporto multilingue senza mantenere modelli separati
Hai bisogno di supporto multilingue senza mantenere modelli separati
Richiedi supporto multimodale
Richiedi supporto multimodale
Generare esempi di contenuti da moderare
Prima di sviluppare una soluzione di moderazione dei contenuti, crea prima esempi di contenuti che dovrebbero essere segnalati e contenuti che non dovrebbero essere segnalati. Assicurati di includere casi limite e scenari impegnativi che potrebbero essere difficili da gestire efficacemente per un sistema di moderazione dei contenuti. Successivamente, rivedi i tuoi esempi per creare un elenco ben definito di categorie di moderazione. Ad esempio, gli esempi generati da una piattaforma di social media potrebbero includere quanto segue:This movie was great, I really enjoyed it. The main actor really killed it!, il sistema di moderazione dei contenuti deve riconoscere che “killed it” è una metafora, non un’indicazione di violenza reale. Al contrario, nonostante la mancanza di menzioni esplicite di violenza, il commento Delete this post now or you better hide. I am coming after you and your family. dovrebbe essere segnalato dal sistema di moderazione dei contenuti.
L’elenco unsafe_categories può essere personalizzato per adattarsi alle tue esigenze specifiche. Ad esempio, se desideri impedire ai minori di creare contenuti sul tuo sito web, potresti aggiungere “Underage Posting” all’elenco.
Come moderare i contenuti utilizzando Claude
Selezionare il modello Claude giusto
Quando selezioni un modello, è importante considerare la dimensione dei tuoi dati. Se i costi sono una preoccupazione, un modello più piccolo come Claude Haiku 3 è una scelta eccellente grazie alla sua economicità. Di seguito è riportata una stima del costo per moderare il testo per una piattaforma di social media che riceve un miliardo di post al mese:-
Dimensione del contenuto
- Post al mese: 1 miliardo
- Caratteri per post: 100
- Caratteri totali: 100 miliardi
-
Token stimati
- Token di input: 28,6 miliardi (assumendo 1 token per 3,5 caratteri)
- Percentuale di messaggi segnalati: 3%
- Token di output per messaggio segnalato: 50
- Token di output totali: 1,5 miliardi
-
Costo stimato Claude Haiku 3
- Costo token di input: 2.860 MTok * $0,25/MTok = $715
- Costo token di output: 1.500 MTok * $1,25/MTok = $1.875
- Costo mensile: $715 + $1.875 = $2.590
-
Costo stimato Claude Sonnet 4.5
- Costo token di input: 2.860 MTok * $3,00/MTok = $8.580
- Costo token di output: 1.500 MTok * $15,00/MTok = $22.500
- Costo mensile: $8.580 + $22.500 = $31.080
explanation dalla risposta.Costruire un prompt forte
Per utilizzare Claude per la moderazione dei contenuti, Claude deve comprendere i requisiti di moderazione della tua applicazione. Iniziamo scrivendo un prompt che ti permette di definire le tue esigenze di moderazione:moderate_message contiene un prompt di valutazione che include le categorie di contenuti non sicuri e il messaggio che desideriamo valutare. Il prompt chiede a Claude di valutare se il messaggio dovrebbe essere moderato, basandosi sulle categorie non sicure che abbiamo definito.
La valutazione del modello viene quindi analizzata per determinare se c’è una violazione. Se c’è una violazione, Claude restituisce anche un elenco delle categorie violate, così come una spiegazione del perché il messaggio è non sicuro.
Valutare il tuo prompt
La moderazione dei contenuti è un problema di classificazione. Pertanto, puoi utilizzare le stesse tecniche delineate nel nostro cookbook sulla classificazione per determinare l’accuratezza del tuo sistema di moderazione dei contenuti. Una considerazione aggiuntiva è che invece di trattare la moderazione dei contenuti come un problema di classificazione binaria, potresti invece creare più categorie per rappresentare vari livelli di rischio. Creare più livelli di rischio ti permette di regolare l’aggressività della tua moderazione. Ad esempio, potresti voler bloccare automaticamente le query degli utenti che sono ritenute ad alto rischio, mentre gli utenti con molte query a medio rischio vengono segnalati per la revisione umana.assess_risk_level che utilizza Claude per valutare il livello di rischio di un messaggio. La funzione accetta un messaggio e un elenco di categorie non sicure come input.
All’interno della funzione, viene generato un prompt per Claude, includendo il messaggio da valutare, le categorie non sicure e istruzioni specifiche per valutare il livello di rischio. Il prompt istruisce Claude a rispondere con un oggetto JSON che include il livello di rischio, le categorie violate e una spiegazione opzionale.
Questo approccio consente una moderazione dei contenuti flessibile assegnando livelli di rischio. Può essere integrato senza problemi in un sistema più ampio per automatizzare il filtraggio dei contenuti o segnalare commenti per la revisione umana basandosi sul loro livello di rischio valutato. Ad esempio, quando si esegue questo codice, il commento Delete this post now or you better hide. I am coming after you and your family. è identificato come ad alto rischio a causa della sua minaccia pericolosa. Al contrario, il commento Stay away from the 5G cellphones!! They are using 5G to control you. è categorizzato come a medio rischio.
Distribuire il tuo prompt
Una volta che sei sicuro della qualità della tua soluzione, è tempo di distribuirla in produzione. Ecco alcune migliori pratiche da seguire quando si utilizza la moderazione dei contenuti in produzione:-
Fornire feedback chiaro agli utenti: Quando l’input dell’utente viene bloccato o una risposta viene segnalata a causa della moderazione dei contenuti, fornisci feedback informativo e costruttivo per aiutare gli utenti a capire perché il loro messaggio è stato segnalato e come possono riformularlo appropriatamente. Negli esempi di codice sopra, questo viene fatto attraverso il tag
explanationnella risposta di Claude. - Analizzare i contenuti moderati: Tieni traccia dei tipi di contenuti che vengono segnalati dal tuo sistema di moderazione per identificare tendenze e potenziali aree di miglioramento.
- Valutare e migliorare continuamente: Valuta regolarmente le prestazioni del tuo sistema di moderazione dei contenuti utilizzando metriche come il tracciamento di precisione e richiamo. Utilizza questi dati per perfezionare iterativamente i tuoi prompt di moderazione, parole chiave e criteri di valutazione.
Migliorare le prestazioni
In scenari complessi, può essere utile considerare strategie aggiuntive per migliorare le prestazioni oltre alle tecniche standard di ingegneria dei prompt. Ecco alcune strategie avanzate:Definire argomenti e fornire esempi
Oltre a elencare le categorie non sicure nel prompt, ulteriori miglioramenti possono essere fatti fornendo definizioni e frasi relative a ciascuna categoria.moderate_message_with_definitions espande la precedente funzione moderate_message permettendo a ciascuna categoria non sicura di essere abbinata a una definizione dettagliata. Questo avviene nel codice sostituendo l’elenco unsafe_categories dalla funzione originale con un dizionario unsafe_category_definitions. Questo dizionario mappa ciascuna categoria non sicura alla sua definizione corrispondente. Sia i nomi delle categorie che le loro definizioni sono inclusi nel prompt.
Notevolmente, la definizione per la categoria Specialized Advice ora specifica i tipi di consigli finanziari che dovrebbero essere proibiti. Di conseguenza, il commento It's a great time to invest in gold!, che precedentemente superava la valutazione moderate_message, ora scatena una violazione.
Considerare l’elaborazione in batch
Per ridurre i costi in situazioni dove la moderazione in tempo reale non è necessaria, considera di moderare i messaggi in batch. Includi più messaggi nel contesto del prompt e chiedi a Claude di valutare quali messaggi dovrebbero essere moderati.batch_moderate_messages gestisce la moderazione di un intero batch di messaggi con una singola chiamata API di Claude.
All’interno della funzione, viene creato un prompt che include l’elenco dei messaggi da valutare, le categorie di contenuti non sicuri definite e le loro descrizioni. Il prompt dirige Claude a restituire un oggetto JSON che elenca tutti i messaggi che contengono violazioni. Ogni messaggio nella risposta è identificato dal suo id, che corrisponde alla posizione del messaggio nell’elenco di input.
Tieni presente che trovare la dimensione ottimale del batch per le tue esigenze specifiche potrebbe richiedere qualche sperimentazione. Mentre dimensioni di batch più grandi possono ridurre i costi, potrebbero anche portare a una leggera diminuzione della qualità. Inoltre, potresti dover aumentare il parametro max_tokens nella chiamata API di Claude per accogliere risposte più lunghe. Per dettagli sul numero massimo di token che il tuo modello scelto può produrre, fai riferimento alla pagina di confronto dei modelli.