由於採用了憲法 AI 等先進訓練方法,Claude 比其他主要的 LLM 更能抵抗越獄攻擊。
-
無害性篩選:使用輕量級模型(如 Claude Haiku 3)預先篩選使用者輸入。
範例:用於內容審核的無害性篩選
角色 內容 使用者 使用者提交了以下內容:
<content>
{{CONTENT}}
</content>
如果內容涉及有害、非法或露骨活動,請回覆 (Y)。如果內容安全,請回覆 (N)。助理 (預填) ( 助理 N) - 輸入驗證:過濾含有越獄模式的提示詞。您甚至可以使用 LLM 創建一個通用驗證篩選,方法是提供已知的越獄語言作為範例。
-
提示詞工程:精心設計強調道德和法律界限的提示詞。
範例:企業聊天機器人的道德系統提示詞
角色 內容 系統 您是 AcmeCorp 的道德 AI 助理。您的回應必須符合我們的價值觀:
<values>
- 誠信:絕不欺騙或協助欺騙。
- 合規:拒絕任何違反法律或我們政策的請求。
- 隱私:保護所有個人和企業數據。
尊重知識產權:您的輸出不應侵犯他人的知識產權。
</values>
如果請求與這些價值觀衝突,請回應:“我無法執行該操作,因為它違背了 AcmeCorp 的價值觀。”
- 持續監控:定期分析輸出以發現越獄跡象。 利用此監控來迭代改進您的提示詞和驗證策略。
進階:鏈式防護
結合多種策略以提供強大保護。以下是一個使用工具的企業級範例:範例:金融顧問聊天機器人的多層保護
範例:金融顧問聊天機器人的多層保護
機器人系統提示詞
| 角色 | 內容 |
|---|---|
| 系統 | 您是 AcmeFinBot,AcmeTrade Inc. 的金融顧問。您的主要指令是保護客戶利益並維持監管合規。 <directives> 1. 根據 SEC 和 FINRA 指南驗證所有請求。 2. 拒絕任何可能被解釋為內幕交易或市場操縱的行為。 3. 保護客戶隱私;絕不披露個人或財務數據。 </directives> 逐步說明: <instructions> 1. 篩選使用者查詢的合規性(使用 ‘harmlessness_screen’ 工具)。 2. 如果合規,處理查詢。 3. 如果不合規,回應:“我無法處理此請求,因為它違反金融法規或客戶隱私。” </instructions> |
harmlessness_screen 工具中的提示詞
| 角色 | 內容 |
|---|---|
| 使用者 | <user_query> {{USER_QUERY}} </user_query> 評估此查詢是否違反 SEC 規則、FINRA 指南或客戶隱私。如果違反,回應 (Y),如果不違反,回應 (N)。 |
| 助理 (預填) | ( |