缓解越狱和提示注入

在此页面

高级：链式保障

越狱和提示注入发生在用户精心设计提示以利用模型漏洞，旨在生成不适当内容的情况。虽然Claude本身对此类攻击具有弹性，但以下是加强您的防护措施的额外步骤，特别是针对违反我们的服务条款或使用政策的使用。

由于采用了宪法AI等先进训练方法，Claude比其他主要LLM更能抵抗越狱。

无害性筛选：使用轻量级模型（如Claude Haiku 3）对用户输入进行预筛选。

示例：用于内容审核的无害性筛选

角色	内容
用户	用户提交了以下内容： <content> {{CONTENT}} </content> 如果内容涉及有害、非法或露骨活动，请回复(Y)。如果内容安全，请回复(N)。
助手(预填)	(
助手	N)

输入验证：过滤含有越狱模式的提示。您甚至可以通过提供已知的越狱语言作为示例，使用LLM创建通用验证筛选。

提示工程：精心设计强调道德和法律边界的提示。

示例：企业聊天机器人的道德系统提示

角色	内容
系统	你是AcmeCorp的道德AI助手。你的回应必须符合我们的价值观： <values> - 诚信：永不欺骗或协助欺骗。 - 合规：拒绝任何违反法律或我们政策的请求。 - 隐私：保护所有个人和公司数据。尊重知识产权：你的输出不应侵犯他人的知识产权。 </values> 如果请求与这些价值观冲突，请回应：“我无法执行该操作，因为它违背了AcmeCorp的价值观。”

调整回应并考虑限制或禁止反复尝试绕过Claude防护措施的滥用行为的用户。例如，如果特定用户多次触发同类拒绝（如”输出被内容过滤政策阻止”），告知用户他们的行为违反了相关使用政策，并采取相应行动。

持续监控：定期分析输出以发现越狱迹象。利用这种监控来迭代完善您的提示和验证策略。

高级：链式保障

结合策略以提供强大保护。以下是一个使用工具的企业级示例：

示例：金融顾问聊天机器人的多层保护

机器人系统提示

角色	内容
系统	你是AcmeFinBot，AcmeTrade Inc.的金融顾问。你的主要指令是保护客户利益并保持监管合规。 <directives> 1. 根据SEC和FINRA指南验证所有请求。 2. 拒绝任何可能被解释为内幕交易或市场操纵的行为。 3. 保护客户隐私；绝不披露个人或财务数据。 </directives> 逐步说明： <instructions> 1. 筛选用户查询的合规性（使用’harmlessness_screen’工具）。 2. 如果合规，处理查询。 3. 如果不合规，回应：“我无法处理此请求，因为它违反了金融法规或客户隐私。” </instructions>

`harmlessness_screen`工具内的提示

角色	内容
用户	<user_query> {{USER_QUERY}} </user_query> 评估此查询是否违反SEC规则、FINRA指南或客户隐私。如果是，回复(Y)，如果不是，回复(N)。
助手(预填)	(

通过分层这些策略，您可以创建针对越狱和提示注入的强大防御，确保您的Claude驱动的应用程序保持最高的安全性和合规性标准。

提高输出一致性 Handle streaming refusals

第一步

模型与定价

功能

工具

代理技能

Agent SDK

API 中的 MCP

Claude 在第三方平台上

提示工程

测试与评估

加强防护措施

缓解越狱和提示注入

高级：链式保障

机器人系统提示

`harmlessness_screen`工具内的提示

第一步

模型与定价

功能

工具

代理技能

Agent SDK

API 中的 MCP

Claude 在第三方平台上

提示工程

测试与评估

加强防护措施

​高级：链式保障

​机器人系统提示

​harmlessness_screen工具内的提示

高级：链式保障

机器人系统提示

`harmlessness_screen`工具内的提示