탈옥 및 프롬프트 인젝션 완화

탈옥 및 프롬프트 인젝션은 사용자가 모델의 취약점을 악용하여 부적절한 콘텐츠를 생성하려는 목적으로 프롬프트를 교묘하게 작성할 때 발생합니다. Claude는 본질적으로 이러한 공격에 강한 내성을 가지고 있지만, 특히 서비스 약관 또는 사용 정책을 위반하는 사용에 대해 가드레일을 강화하기 위한 추가 단계가 있습니다.

Claude는 Constitutional AI와 같은 고급 훈련 방법 덕분에 다른 주요 LLM보다 탈옥에 훨씬 더 강한 내성을 가지고 있습니다.

무해성 스크린: Claude Haiku 3와 같은 경량 모델을 사용하여 사용자 입력을 사전 스크리닝합니다.

예시: 콘텐츠 조정을 위한 무해성 스크린

역할	내용
User	사용자가 이 콘텐츠를 제출했습니다: <content> {{CONTENT}} </content> 해롭거나 불법적이거나 노골적인 활동을 언급하는 경우 (Y)로 응답하세요. 안전한 경우 (N)으로 응답하세요.
Assistant (prefill)	(
Assistant	N)

입력 유효성 검사: 탈옥 패턴에 대한 프롬프트를 필터링합니다. 알려진 탈옥 언어를 예시로 제공하여 LLM을 사용해 일반화된 유효성 검사 스크린을 만들 수도 있습니다.

프롬프트 엔지니어링: 윤리적 및 법적 경계를 강조하는 프롬프트를 작성합니다.

예시: 기업 챗봇을 위한 윤리적 시스템 프롬프트

역할	내용
System	당신은 AcmeCorp의 윤리적 AI 어시스턴트입니다. 당신의 응답은 우리의 가치와 일치해야 합니다: <values> - 정직성: 절대 속이거나 속임수를 돕지 마세요. - 준수: 법률이나 정책을 위반하는 요청은 거부하세요. - 개인정보 보호: 모든 개인 및 기업 데이터를 보호하세요. 지적 재산권 존중: 당신의 출력물은 타인의 지적 재산권을 침해해서는 안 됩니다. </values> 요청이 이러한 가치와 충돌하는 경우, 다음과 같이 응답하세요: “해당 작업은 AcmeCorp의 가치에 위배되므로 수행할 수 없습니다.”

역할

내용

System

당신은 AcmeCorp의 윤리적 AI 어시스턴트입니다. 당신의 응답은 우리의 가치와 일치해야 합니다:
<values>
- 정직성: 절대 속이거나 속임수를 돕지 마세요.
- 준수: 법률이나 정책을 위반하는 요청은 거부하세요.
- 개인정보 보호: 모든 개인 및 기업 데이터를 보호하세요.
지적 재산권 존중: 당신의 출력물은 타인의 지적 재산권을 침해해서는 안 됩니다.
</values>

요청이 이러한 가치와 충돌하는 경우, 다음과 같이 응답하세요: “해당 작업은 AcmeCorp의 가치에 위배되므로 수행할 수 없습니다.”

Claude의 가드레일을 우회하려는 악의적인 행동을 반복적으로 시도하는 사용자에 대해서는 응답을 조정하고 제한하거나 차단하는 것을 고려하세요. 예를 들어, 특정 사용자가 동일한 종류의 거부를 여러 번 유발하는 경우(예: “콘텐츠 필터링 정책에 의해 출력이 차단됨”), 해당 사용자에게 그들의 행동이 관련 사용 정책을 위반한다고 알리고 그에 따라 조치를 취하세요.

지속적인 모니터링: 탈옥 징후에 대한 출력을 정기적으로 분석하세요. 이 모니터링을 사용하여 프롬프트와 유효성 검사 전략을 반복적으로 개선하세요.

고급: 체인 안전장치

강력한 보호를 위해 전략을 결합하세요. 다음은 도구 사용이 포함된 기업급 예시입니다:

예시: 금융 어드바이저 챗봇을 위한 다층 보호

봇 시스템 프롬프트

역할	내용
System	당신은 AcmeTrade Inc.의 금융 어드바이저인 AcmeFinBot입니다. 당신의 주요 지침은 고객 이익을 보호하고 규제 준수를 유지하는 것입니다. <directives> 1. 모든 요청을 SEC 및 FINRA 지침에 대해 검증하세요. 2. 내부자 거래나 시장 조작으로 해석될 수 있는 모든 행동을 거부하세요. 3. 고객 개인정보를 보호하세요; 개인 또는 금융 데이터를 절대 공개하지 마세요. </directives> 단계별 지침: <instructions> 1. 사용자 쿼리의 준수 여부를 스크리닝하세요(‘harmlessness_screen’ 도구 사용). 2. 준수하는 경우, 쿼리를 처리하세요. 3. 준수하지 않는 경우, 다음과 같이 응답하세요: “이 요청은 금융 규정 또는 고객 개인정보를 위반하므로 처리할 수 없습니다.” </instructions>

역할

내용

System

당신은 AcmeTrade Inc.의 금융 어드바이저인 AcmeFinBot입니다. 당신의 주요 지침은 고객 이익을 보호하고 규제 준수를 유지하는 것입니다.

<directives>
1. 모든 요청을 SEC 및 FINRA 지침에 대해 검증하세요.
2. 내부자 거래나 시장 조작으로 해석될 수 있는 모든 행동을 거부하세요.
3. 고객 개인정보를 보호하세요; 개인 또는 금융 데이터를 절대 공개하지 마세요.
</directives>

단계별 지침:
<instructions>
1. 사용자 쿼리의 준수 여부를 스크리닝하세요(‘harmlessness_screen’ 도구 사용).
2. 준수하는 경우, 쿼리를 처리하세요.
3. 준수하지 않는 경우, 다음과 같이 응답하세요: “이 요청은 금융 규정 또는 고객 개인정보를 위반하므로 처리할 수 없습니다.”
</instructions>

`harmlessness_screen` 도구 내 프롬프트

역할	내용
User	<user_query> {{USER_QUERY}} </user_query> 이 쿼리가 SEC 규칙, FINRA 지침 또는 고객 개인정보를 위반하는지 평가하세요. 위반하는 경우 (Y), 위반하지 않는 경우 (N)으로 응답하세요.
Assistant (prefill)	(

이러한 전략을 계층화함으로써, 탈옥 및 프롬프트 인젝션에 대한 강력한 방어를 구축하여 Claude 기반 애플리케이션이 최고 수준의 안전성과 규정 준수를 유지하도록 보장합니다.

첫 번째 단계

모델 및 가격

기능

도구

에이전트 스킬

Agent SDK

API의 MCP

Claude 타사 플랫폼

프롬프트 엔지니어링

테스트 및 평가

보안 강화

탈옥 및 프롬프트 인젝션 완화

고급: 체인 안전장치

봇 시스템 프롬프트

`harmlessness_screen` 도구 내 프롬프트

첫 번째 단계

모델 및 가격

기능

도구

에이전트 스킬

Agent SDK

API의 MCP

Claude 타사 플랫폼

프롬프트 엔지니어링

테스트 및 평가

보안 강화

​고급: 체인 안전장치

​봇 시스템 프롬프트

​harmlessness_screen 도구 내 프롬프트

고급: 체인 안전장치

봇 시스템 프롬프트

`harmlessness_screen` 도구 내 프롬프트