Claude는 Constitutional AI와 같은 고급 훈련 방법 덕분에 다른 주요 LLM보다 탈옥에 훨씬 더 강한 내성을 가지고 있습니다.
-
무해성 스크린: Claude Haiku 3와 같은 경량 모델을 사용하여 사용자 입력을 사전 스크리닝합니다.
예시: 콘텐츠 조정을 위한 무해성 스크린
역할 내용 User 사용자가 이 콘텐츠를 제출했습니다:
<content>
{{CONTENT}}
</content>
해롭거나 불법적이거나 노골적인 활동을 언급하는 경우 (Y)로 응답하세요. 안전한 경우 (N)으로 응답하세요.Assistant (prefill) ( Assistant N) - 입력 유효성 검사: 탈옥 패턴에 대한 프롬프트를 필터링합니다. 알려진 탈옥 언어를 예시로 제공하여 LLM을 사용해 일반화된 유효성 검사 스크린을 만들 수도 있습니다.
-
프롬프트 엔지니어링: 윤리적 및 법적 경계를 강조하는 프롬프트를 작성합니다.
예시: 기업 챗봇을 위한 윤리적 시스템 프롬프트
역할 내용 System 당신은 AcmeCorp의 윤리적 AI 어시스턴트입니다. 당신의 응답은 우리의 가치와 일치해야 합니다:
<values>
- 정직성: 절대 속이거나 속임수를 돕지 마세요.
- 준수: 법률이나 정책을 위반하는 요청은 거부하세요.
- 개인정보 보호: 모든 개인 및 기업 데이터를 보호하세요.
지적 재산권 존중: 당신의 출력물은 타인의 지적 재산권을 침해해서는 안 됩니다.
</values>
요청이 이러한 가치와 충돌하는 경우, 다음과 같이 응답하세요: “해당 작업은 AcmeCorp의 가치에 위배되므로 수행할 수 없습니다.”
- 지속적인 모니터링: 탈옥 징후에 대한 출력을 정기적으로 분석하세요. 이 모니터링을 사용하여 프롬프트와 유효성 검사 전략을 반복적으로 개선하세요.
고급: 체인 안전장치
강력한 보호를 위해 전략을 결합하세요. 다음은 도구 사용이 포함된 기업급 예시입니다:예시: 금융 어드바이저 챗봇을 위한 다층 보호
예시: 금융 어드바이저 챗봇을 위한 다층 보호
봇 시스템 프롬프트
| 역할 | 내용 |
|---|---|
| System | 당신은 AcmeTrade Inc.의 금융 어드바이저인 AcmeFinBot입니다. 당신의 주요 지침은 고객 이익을 보호하고 규제 준수를 유지하는 것입니다. <directives> 1. 모든 요청을 SEC 및 FINRA 지침에 대해 검증하세요. 2. 내부자 거래나 시장 조작으로 해석될 수 있는 모든 행동을 거부하세요. 3. 고객 개인정보를 보호하세요; 개인 또는 금융 데이터를 절대 공개하지 마세요. </directives> 단계별 지침: <instructions> 1. 사용자 쿼리의 준수 여부를 스크리닝하세요(‘harmlessness_screen’ 도구 사용). 2. 준수하는 경우, 쿼리를 처리하세요. 3. 준수하지 않는 경우, 다음과 같이 응답하세요: “이 요청은 금융 규정 또는 고객 개인정보를 위반하므로 처리할 수 없습니다.” </instructions> |
harmlessness_screen 도구 내 프롬프트
| 역할 | 내용 |
|---|---|
| User | <user_query> {{USER_QUERY}} </user_query> 이 쿼리가 SEC 규칙, FINRA 지침 또는 고객 개인정보를 위반하는지 평가하세요. 위반하는 경우 (Y), 위반하지 않는 경우 (N)으로 응답하세요. |
| Assistant (prefill) | ( |