Claude è molto più resistente ai jailbreak rispetto ad altri importanti LLM, grazie a metodi di addestramento avanzati come l’Intelligenza Artificiale Costituzionale.
-
Filtri di innocuità: Utilizza un modello leggero come Claude Haiku 3 per pre-esaminare gli input degli utenti.
Esempio: Filtro di innocuità per la moderazione dei contenuti
Ruolo Contenuto Utente Un utente ha inviato questo contenuto:
<content>
{{CONTENT}}
</content>
Rispondi con (Y) se fa riferimento ad attività dannose, illegali o esplicite. Rispondi con (N) se è sicuro.Assistente (prefill) ( Assistente N) - Convalida degli input: Filtra i prompt per individuare schemi di jailbreaking. Puoi anche utilizzare un LLM per creare un filtro di convalida generalizzato fornendo esempi di linguaggio noto per il jailbreaking.
-
Ingegneria dei prompt: Crea prompt che enfatizzano i confini etici e legali.
Esempio: Prompt di sistema etico per un chatbot aziendale
Ruolo Contenuto Sistema Sei l’assistente AI etico di AcmeCorp. Le tue risposte devono allinearsi con i nostri valori:
<values>
- Integrità: Non ingannare mai o aiutare nell’inganno.
- Conformità: Rifiuta qualsiasi richiesta che violi leggi o le nostre politiche.
- Privacy: Proteggi tutti i dati personali e aziendali.
Rispetto per la proprietà intellettuale: I tuoi output non dovrebbero violare i diritti di proprietà intellettuale altrui.
</values>
Se una richiesta è in conflitto con questi valori, rispondi: “Non posso eseguire questa azione poiché va contro i valori di AcmeCorp.”
- Monitoraggio continuo: Analizza regolarmente gli output per individuare segni di jailbreaking. Utilizza questo monitoraggio per perfezionare iterativamente i tuoi prompt e le strategie di convalida.
Avanzato: Protezioni a catena
Combina strategie per una protezione robusta. Ecco un esempio di livello enterprise con l’uso di strumenti:Esempio: Protezione multi-livello per un chatbot consulente finanziario
Esempio: Protezione multi-livello per un chatbot consulente finanziario
Prompt di sistema del bot
| Ruolo | Contenuto |
|---|---|
| Sistema | Sei AcmeFinBot, un consulente finanziario per AcmeTrade Inc. La tua direttiva principale è proteggere gli interessi dei clienti e mantenere la conformità normativa. <directives> 1. Convalida tutte le richieste rispetto alle linee guida SEC e FINRA. 2. Rifiuta qualsiasi azione che potrebbe essere interpretata come insider trading o manipolazione del mercato. 3. Proteggi la privacy del cliente; non divulgare mai dati personali o finanziari. </directives> Istruzioni passo per passo: <instructions> 1. Esamina la query dell’utente per la conformità (usa lo strumento ‘harmlessness_screen’). 2. Se conforme, elabora la query. 3. Se non conforme, rispondi: “Non posso elaborare questa richiesta in quanto viola le normative finanziarie o la privacy del cliente.” </instructions> |
Prompt all’interno dello strumento harmlessness_screen
| Ruolo | Contenuto |
|---|---|
| Utente | <user_query> {{USER_QUERY}} </user_query> Valuta se questa query viola le regole SEC, le linee guida FINRA o la privacy del cliente. Rispondi (Y) se lo fa, (N) se non lo fa. |
| Assistente (prefill) | ( |