Mitigare i jailbreak e le iniezioni di prompt

In questa pagina

Avanzato: Protezioni a catena

I jailbreak e le iniezioni di prompt si verificano quando gli utenti creano prompt per sfruttare le vulnerabilità del modello, con l’obiettivo di generare contenuti inappropriati. Mentre Claude è intrinsecamente resiliente a tali attacchi, ecco ulteriori passaggi per rafforzare le tue protezioni, in particolare contro usi che violano i nostri Termini di Servizio o la Politica di Utilizzo.

Claude è molto più resistente ai jailbreak rispetto ad altri importanti LLM, grazie a metodi di addestramento avanzati come l’Intelligenza Artificiale Costituzionale.

Filtri di innocuità: Utilizza un modello leggero come Claude Haiku 3 per pre-esaminare gli input degli utenti.

Esempio: Filtro di innocuità per la moderazione dei contenuti

Ruolo	Contenuto
Utente	Un utente ha inviato questo contenuto: <content> {{CONTENT}} </content> Rispondi con (Y) se fa riferimento ad attività dannose, illegali o esplicite. Rispondi con (N) se è sicuro.
Assistente (prefill)	(
Assistente	N)

Convalida degli input: Filtra i prompt per individuare schemi di jailbreaking. Puoi anche utilizzare un LLM per creare un filtro di convalida generalizzato fornendo esempi di linguaggio noto per il jailbreaking.

Ingegneria dei prompt: Crea prompt che enfatizzano i confini etici e legali.

Esempio: Prompt di sistema etico per un chatbot aziendale

Ruolo	Contenuto
Sistema	Sei l’assistente AI etico di AcmeCorp. Le tue risposte devono allinearsi con i nostri valori: <values> - Integrità: Non ingannare mai o aiutare nell’inganno. - Conformità: Rifiuta qualsiasi richiesta che violi leggi o le nostre politiche. - Privacy: Proteggi tutti i dati personali e aziendali. Rispetto per la proprietà intellettuale: I tuoi output non dovrebbero violare i diritti di proprietà intellettuale altrui. </values> Se una richiesta è in conflitto con questi valori, rispondi: “Non posso eseguire questa azione poiché va contro i valori di AcmeCorp.”

Ruolo

Contenuto

Sistema

Sei l’assistente AI etico di AcmeCorp. Le tue risposte devono allinearsi con i nostri valori:
<values>
- Integrità: Non ingannare mai o aiutare nell’inganno.
- Conformità: Rifiuta qualsiasi richiesta che violi leggi o le nostre politiche.
- Privacy: Proteggi tutti i dati personali e aziendali.
Rispetto per la proprietà intellettuale: I tuoi output non dovrebbero violare i diritti di proprietà intellettuale altrui.
</values>

Se una richiesta è in conflitto con questi valori, rispondi: “Non posso eseguire questa azione poiché va contro i valori di AcmeCorp.”

Adatta le risposte e considera di limitare o bannare gli utenti che ripetutamente si impegnano in comportamenti abusivi cercando di aggirare le protezioni di Claude. Ad esempio, se un particolare utente attiva ripetutamente lo stesso tipo di rifiuto (es. “output bloccato dalla politica di filtraggio dei contenuti”), informa l’utente che le sue azioni violano le politiche di utilizzo pertinenti e agisci di conseguenza.

Monitoraggio continuo: Analizza regolarmente gli output per individuare segni di jailbreaking. Utilizza questo monitoraggio per perfezionare iterativamente i tuoi prompt e le strategie di convalida.

Avanzato: Protezioni a catena

Combina strategie per una protezione robusta. Ecco un esempio di livello enterprise con l’uso di strumenti:

Esempio: Protezione multi-livello per un chatbot consulente finanziario

Prompt di sistema del bot

Ruolo	Contenuto
Sistema	Sei AcmeFinBot, un consulente finanziario per AcmeTrade Inc. La tua direttiva principale è proteggere gli interessi dei clienti e mantenere la conformità normativa. <directives> 1. Convalida tutte le richieste rispetto alle linee guida SEC e FINRA. 2. Rifiuta qualsiasi azione che potrebbe essere interpretata come insider trading o manipolazione del mercato. 3. Proteggi la privacy del cliente; non divulgare mai dati personali o finanziari. </directives> Istruzioni passo per passo: <instructions> 1. Esamina la query dell’utente per la conformità (usa lo strumento ‘harmlessness_screen’). 2. Se conforme, elabora la query. 3. Se non conforme, rispondi: “Non posso elaborare questa richiesta in quanto viola le normative finanziarie o la privacy del cliente.” </instructions>

Ruolo

Contenuto

Sistema

Sei AcmeFinBot, un consulente finanziario per AcmeTrade Inc. La tua direttiva principale è proteggere gli interessi dei clienti e mantenere la conformità normativa.

<directives>
1. Convalida tutte le richieste rispetto alle linee guida SEC e FINRA.
2. Rifiuta qualsiasi azione che potrebbe essere interpretata come insider trading o manipolazione del mercato.
3. Proteggi la privacy del cliente; non divulgare mai dati personali o finanziari.
</directives>

Istruzioni passo per passo:
<instructions>
1. Esamina la query dell’utente per la conformità (usa lo strumento ‘harmlessness_screen’).
2. Se conforme, elabora la query.
3. Se non conforme, rispondi: “Non posso elaborare questa richiesta in quanto viola le normative finanziarie o la privacy del cliente.”
</instructions>

Prompt all’interno dello strumento `harmlessness_screen`

Ruolo	Contenuto
Utente	<user_query> {{USER_QUERY}} </user_query> Valuta se questa query viola le regole SEC, le linee guida FINRA o la privacy del cliente. Rispondi (Y) se lo fa, (N) se non lo fa.
Assistente (prefill)	(

Stratificando queste strategie, crei una difesa robusta contro i jailbreak e le iniezioni di prompt, garantendo che le tue applicazioni basate su Claude mantengano i più alti standard di sicurezza e conformità.

Aumentare la coerenza dell'output Handle streaming refusals

Primi passi

Modelli e prezzi

Crea con Claude

Capacità

Strumenti

Competenze Agente

Agent SDK

MCP nell'API

Claude su piattaforme di terze parti

Ingegneria dei prompt

Testa e valuta

Rafforza le protezioni

Mitigare i jailbreak e le iniezioni di prompt

Avanzato: Protezioni a catena

Prompt di sistema del bot

Prompt all’interno dello strumento `harmlessness_screen`

Primi passi

Modelli e prezzi

Crea con Claude

Capacità

Strumenti

Competenze Agente

Agent SDK

MCP nell'API

Claude su piattaforme di terze parti

Ingegneria dei prompt

Testa e valuta

Rafforza le protezioni

​Avanzato: Protezioni a catena

​Prompt di sistema del bot

​Prompt all’interno dello strumento harmlessness_screen

Avanzato: Protezioni a catena

Prompt di sistema del bot

Prompt all’interno dello strumento `harmlessness_screen`