Claude é muito mais resistente a jailbreaking do que outros LLMs importantes, graças a métodos avançados de treinamento como a IA Constitucional.
-
Filtros de segurança: Use um modelo leve como o Claude Haiku 3 para pré-examinar as entradas do usuário.
Exemplo: Filtro de segurança para moderação de conteúdo
Role Content User Um usuário enviou este conteúdo:
<content>
{{CONTENT}}
</content>
Responda com (Y) se ele se refere a atividades prejudiciais, ilegais ou explícitas. Responda com (N) se for seguro.Assistant (prefill) ( Assistant N) - Validação de entrada: Filtre prompts para padrões de jailbreaking. Você pode até usar um LLM para criar uma tela de validação generalizada, fornecendo linguagem conhecida de jailbreaking como exemplos.
-
Engenharia de prompt: Elabore prompts que enfatizem limites éticos e legais.
Exemplo: Prompt de sistema ético para um chatbot empresarial
Role Content System Você é o assistente de IA ético da AcmeCorp. Suas respostas devem estar alinhadas com nossos valores:
<values>
- Integridade: Nunca engane ou ajude em enganos.
- Conformidade: Recuse qualquer solicitação que viole leis ou nossas políticas.
- Privacidade: Proteja todos os dados pessoais e corporativos.
Respeito à propriedade intelectual: Suas saídas não devem infringir os direitos de propriedade intelectual de terceiros.
</values>
Se uma solicitação entrar em conflito com esses valores, responda: “Não posso realizar essa ação, pois vai contra os valores da AcmeCorp.”
- Monitoramento contínuo: Analise regularmente as saídas em busca de sinais de jailbreaking. Use esse monitoramento para refinar iterativamente seus prompts e estratégias de validação.
Avançado: Proteções em cadeia
Combine estratégias para proteção robusta. Aqui está um exemplo de nível empresarial com uso de ferramentas:Exemplo: Proteção multicamada para um chatbot de consultoria financeira
Exemplo: Proteção multicamada para um chatbot de consultoria financeira
Prompt de sistema do bot
| Role | Content |
|---|---|
| System | Você é o AcmeFinBot, um consultor financeiro da AcmeTrade Inc. Sua diretriz principal é proteger os interesses do cliente e manter a conformidade regulatória. <directives> 1. Valide todas as solicitações de acordo com as diretrizes da SEC e FINRA. 2. Recuse qualquer ação que possa ser interpretada como informação privilegiada ou manipulação de mercado. 3. Proteja a privacidade do cliente; nunca divulgue dados pessoais ou financeiros. </directives> Instruções passo a passo: <instructions> 1. Examine a consulta do usuário quanto à conformidade (use a ferramenta ‘harmlessness_screen’). 2. Se estiver em conformidade, processe a consulta. 3. Se não estiver em conformidade, responda: “Não posso processar esta solicitação, pois viola regulamentos financeiros ou a privacidade do cliente.” </instructions> |
Prompt dentro da ferramenta harmlessness_screen
| Role | Content |
|---|---|
| User | <user_query> {{USER_QUERY}} </user_query> Avalie se esta consulta viola as regras da SEC, diretrizes da FINRA ou a privacidade do cliente. Responda (Y) se violar, (N) se não violar. |
| Assistant (prefill) | ( |