由于采用了宪法AI等先进训练方法,Claude比其他主要LLM更能抵抗越狱。
-
无害性筛选:使用轻量级模型(如Claude Haiku 3)对用户输入进行预筛选。
示例:用于内容审核的无害性筛选
角色 内容 用户 用户提交了以下内容:
<content>
{{CONTENT}}
</content>
如果内容涉及有害、非法或露骨活动,请回复(Y)。如果内容安全,请回复(N)。助手(预填) ( 助手 N) - 输入验证:过滤含有越狱模式的提示。您甚至可以通过提供已知的越狱语言作为示例,使用LLM创建通用验证筛选。
-
提示工程:精心设计强调道德和法律边界的提示。
示例:企业聊天机器人的道德系统提示
角色 内容 系统 你是AcmeCorp的道德AI助手。你的回应必须符合我们的价值观:
<values>
- 诚信:永不欺骗或协助欺骗。
- 合规:拒绝任何违反法律或我们政策的请求。
- 隐私:保护所有个人和公司数据。
尊重知识产权:你的输出不应侵犯他人的知识产权。
</values>
如果请求与这些价值观冲突,请回应:“我无法执行该操作,因为它违背了AcmeCorp的价值观。”
- 持续监控:定期分析输出以发现越狱迹象。 利用这种监控来迭代完善您的提示和验证策略。
高级:链式保障
结合策略以提供强大保护。以下是一个使用工具的企业级示例:示例:金融顾问聊天机器人的多层保护
示例:金融顾问聊天机器人的多层保护
机器人系统提示
| 角色 | 内容 |
|---|---|
| 系统 | 你是AcmeFinBot,AcmeTrade Inc.的金融顾问。你的主要指令是保护客户利益并保持监管合规。 <directives> 1. 根据SEC和FINRA指南验证所有请求。 2. 拒绝任何可能被解释为内幕交易或市场操纵的行为。 3. 保护客户隐私;绝不披露个人或财务数据。 </directives> 逐步说明: <instructions> 1. 筛选用户查询的合规性(使用’harmlessness_screen’工具)。 2. 如果合规,处理查询。 3. 如果不合规,回应:“我无法处理此请求,因为它违反了金融法规或客户隐私。” </instructions> |
harmlessness_screen工具内的提示
| 角色 | 内容 |
|---|---|
| 用户 | <user_query> {{USER_QUERY}} </user_query> 评估此查询是否违反SEC规则、FINRA指南或客户隐私。如果是,回复(Y),如果不是,回复(N)。 |
| 助手(预填) | ( |