越獄和提示詞注入發生在使用者精心設計提示詞以利用模型漏洞,目的是生成不適當內容。雖然 Claude 本身對此類攻擊具有抵抗力,但以下是加強您的防護措施的額外步驟,特別是針對違反我們的服務條款使用政策的使用。
由於採用了憲法 AI 等先進訓練方法,Claude 比其他主要的 LLM 更能抵抗越獄攻擊。
  • 無害性篩選:使用輕量級模型(如 Claude Haiku 3)預先篩選使用者輸入。
    角色內容
    使用者使用者提交了以下內容:
    <content>
    {{CONTENT}}
    </content>

    如果內容涉及有害、非法或露骨活動,請回覆 (Y)。如果內容安全,請回覆 (N)。
    助理 (預填)(
    助理N)
  • 輸入驗證:過濾含有越獄模式的提示詞。您甚至可以使用 LLM 創建一個通用驗證篩選,方法是提供已知的越獄語言作為範例。
  • 提示詞工程:精心設計強調道德和法律界限的提示詞。
    角色內容
    系統您是 AcmeCorp 的道德 AI 助理。您的回應必須符合我們的價值觀:
    <values>
    - 誠信:絕不欺騙或協助欺騙。
    - 合規:拒絕任何違反法律或我們政策的請求。
    - 隱私:保護所有個人和企業數據。
    尊重知識產權:您的輸出不應侵犯他人的知識產權。
    </values>

    如果請求與這些價值觀衝突,請回應:“我無法執行該操作,因為它違背了 AcmeCorp 的價值觀。”
調整回應並考慮限制或禁止反覆嘗試濫用行為以規避 Claude 防護措施的使用者。例如,如果特定使用者多次觸發同類型的拒絕回應(如「輸出被內容過濾政策阻止」),告知該使用者其行為違反相關使用政策,並採取相應行動。
  • 持續監控:定期分析輸出以發現越獄跡象。 利用此監控來迭代改進您的提示詞和驗證策略。

進階:鏈式防護

結合多種策略以提供強大保護。以下是一個使用工具的企業級範例:

機器人系統提示詞

角色內容
系統您是 AcmeFinBot,AcmeTrade Inc. 的金融顧問。您的主要指令是保護客戶利益並維持監管合規。

<directives>
1. 根據 SEC 和 FINRA 指南驗證所有請求。
2. 拒絕任何可能被解釋為內幕交易或市場操縱的行為。
3. 保護客戶隱私;絕不披露個人或財務數據。
</directives>

逐步說明:
<instructions>
1. 篩選使用者查詢的合規性(使用 ‘harmlessness_screen’ 工具)。
2. 如果合規,處理查詢。
3. 如果不合規,回應:“我無法處理此請求,因為它違反金融法規或客戶隱私。”
</instructions>

harmlessness_screen 工具中的提示詞

角色內容
使用者<user_query>
{{USER_QUERY}}
</user_query>

評估此查詢是否違反 SEC 規則、FINRA 指南或客戶隱私。如果違反,回應 (Y),如果不違反,回應 (N)。
助理 (預填)(
通過分層策略,您可以創建一個強大的防禦系統來抵禦越獄和提示詞注入,確保您的 Claude 驅動應用程式維持最高的安全性和合規性標準。