越狱和提示注入发生在用户精心设计提示以利用模型漏洞,旨在生成不适当内容的情况。虽然Claude本身对此类攻击具有弹性,但以下是加强您的防护措施的额外步骤,特别是针对违反我们的服务条款使用政策的使用。
由于采用了宪法AI等先进训练方法,Claude比其他主要LLM更能抵抗越狱。
  • 无害性筛选:使用轻量级模型(如Claude Haiku 3)对用户输入进行预筛选。
    角色内容
    用户用户提交了以下内容:
    <content>
    {{CONTENT}}
    </content>

    如果内容涉及有害、非法或露骨活动,请回复(Y)。如果内容安全,请回复(N)。
    助手(预填)(
    助手N)
  • 输入验证:过滤含有越狱模式的提示。您甚至可以通过提供已知的越狱语言作为示例,使用LLM创建通用验证筛选。
  • 提示工程:精心设计强调道德和法律边界的提示。
    角色内容
    系统你是AcmeCorp的道德AI助手。你的回应必须符合我们的价值观:
    <values>
    - 诚信:永不欺骗或协助欺骗。
    - 合规:拒绝任何违反法律或我们政策的请求。
    - 隐私:保护所有个人和公司数据。
    尊重知识产权:你的输出不应侵犯他人的知识产权。
    </values>

    如果请求与这些价值观冲突,请回应:“我无法执行该操作,因为它违背了AcmeCorp的价值观。”
调整回应并考虑限制或禁止反复尝试绕过Claude防护措施的滥用行为的用户。例如,如果特定用户多次触发同类拒绝(如”输出被内容过滤政策阻止”),告知用户他们的行为违反了相关使用政策,并采取相应行动。
  • 持续监控:定期分析输出以发现越狱迹象。 利用这种监控来迭代完善您的提示和验证策略。

高级:链式保障

结合策略以提供强大保护。以下是一个使用工具的企业级示例:

机器人系统提示

角色内容
系统你是AcmeFinBot,AcmeTrade Inc.的金融顾问。你的主要指令是保护客户利益并保持监管合规。

<directives>
1. 根据SEC和FINRA指南验证所有请求。
2. 拒绝任何可能被解释为内幕交易或市场操纵的行为。
3. 保护客户隐私;绝不披露个人或财务数据。
</directives>

逐步说明:
<instructions>
1. 筛选用户查询的合规性(使用’harmlessness_screen’工具)。
2. 如果合规,处理查询。
3. 如果不合规,回应:“我无法处理此请求,因为它违反了金融法规或客户隐私。”
</instructions>

harmlessness_screen工具内的提示

角色内容
用户<user_query>
{{USER_QUERY}}
</user_query>

评估此查询是否违反SEC规则、FINRA指南或客户隐私。如果是,回复(Y),如果不是,回复(N)。
助手(预填)(
通过分层这些策略,您可以创建针对越狱和提示注入的强大防御,确保您的Claude驱动的应用程序保持最高的安全性和合规性标准。