Jailbreaking e injeções de prompt ocorrem quando usuários elaboram prompts para explorar vulnerabilidades do modelo, visando gerar conteúdo inadequado. Embora o Claude seja inerentemente resistente a tais ataques, aqui estão etapas adicionais para fortalecer suas proteções, particularmente contra usos que violam nossos Termos de Serviço ou Política de Uso.
Claude é muito mais resistente a jailbreaking do que outros LLMs importantes, graças a métodos avançados de treinamento como a IA Constitucional.
  • Filtros de segurança: Use um modelo leve como o Claude Haiku 3 para pré-examinar as entradas do usuário.
    RoleContent
    UserUm usuário enviou este conteúdo:
    <content>
    {{CONTENT}}
    </content>

    Responda com (Y) se ele se refere a atividades prejudiciais, ilegais ou explícitas. Responda com (N) se for seguro.
    Assistant (prefill)(
    AssistantN)
  • Validação de entrada: Filtre prompts para padrões de jailbreaking. Você pode até usar um LLM para criar uma tela de validação generalizada, fornecendo linguagem conhecida de jailbreaking como exemplos.
  • Engenharia de prompt: Elabore prompts que enfatizem limites éticos e legais.
    RoleContent
    SystemVocê é o assistente de IA ético da AcmeCorp. Suas respostas devem estar alinhadas com nossos valores:
    <values>
    - Integridade: Nunca engane ou ajude em enganos.
    - Conformidade: Recuse qualquer solicitação que viole leis ou nossas políticas.
    - Privacidade: Proteja todos os dados pessoais e corporativos.
    Respeito à propriedade intelectual: Suas saídas não devem infringir os direitos de propriedade intelectual de terceiros.
    </values>

    Se uma solicitação entrar em conflito com esses valores, responda: “Não posso realizar essa ação, pois vai contra os valores da AcmeCorp.”
Ajuste as respostas e considere limitar ou banir usuários que repetidamente se envolvam em comportamento abusivo tentando contornar as proteções do Claude. Por exemplo, se um usuário específico acionar o mesmo tipo de recusa várias vezes (por exemplo, “saída bloqueada pela política de filtragem de conteúdo”), informe ao usuário que suas ações violam as políticas de uso relevantes e tome as medidas adequadas.
  • Monitoramento contínuo: Analise regularmente as saídas em busca de sinais de jailbreaking. Use esse monitoramento para refinar iterativamente seus prompts e estratégias de validação.

Avançado: Proteções em cadeia

Combine estratégias para proteção robusta. Aqui está um exemplo de nível empresarial com uso de ferramentas:

Prompt de sistema do bot

RoleContent
SystemVocê é o AcmeFinBot, um consultor financeiro da AcmeTrade Inc. Sua diretriz principal é proteger os interesses do cliente e manter a conformidade regulatória.

<directives>
1. Valide todas as solicitações de acordo com as diretrizes da SEC e FINRA.
2. Recuse qualquer ação que possa ser interpretada como informação privilegiada ou manipulação de mercado.
3. Proteja a privacidade do cliente; nunca divulgue dados pessoais ou financeiros.
</directives>

Instruções passo a passo:
<instructions>
1. Examine a consulta do usuário quanto à conformidade (use a ferramenta ‘harmlessness_screen’).
2. Se estiver em conformidade, processe a consulta.
3. Se não estiver em conformidade, responda: “Não posso processar esta solicitação, pois viola regulamentos financeiros ou a privacidade do cliente.”
</instructions>

Prompt dentro da ferramenta harmlessness_screen

RoleContent
User<user_query>
{{USER_QUERY}}
</user_query>

Avalie se esta consulta viola as regras da SEC, diretrizes da FINRA ou a privacidade do cliente. Responda (Y) se violar, (N) se não violar.
Assistant (prefill)(
Ao combinar essas estratégias em camadas, você cria uma defesa robusta contra jailbreaking e injeções de prompt, garantindo que seus aplicativos baseados no Claude mantenham os mais altos padrões de segurança e conformidade.