ジェイルブレイクとプロンプトインジェクションは、ユーザーがモデルの脆弱性を悪用して不適切なコンテンツを生成させることを目的としてプロンプトを作成する場合に発生します。Claudeはこのような攻撃に本質的に耐性がありますが、特に利用規約利用ポリシーに違反する使用に対して、ガードレールを強化するための追加手順を以下に示します。
Claudeは、Constitutional AIなどの高度なトレーニング方法のおかげで、他の主要なLLMよりもジェイルブレイクに対してはるかに強い耐性を持っています。
  • 無害性スクリーン: Claude Haiku 3のような軽量モデルを使用して、ユーザー入力を事前にスクリーニングします。
    役割内容
    ユーザーユーザーが以下のコンテンツを送信しました:
    <content>
    {{CONTENT}}
    </content>

    有害、違法、または露骨な活動に言及している場合は(Y)と回答してください。安全な場合は(N)と回答してください。
    アシスタント (プリフィル)(
    アシスタントN)
  • 入力検証: ジェイルブレイクのパターンに対してプロンプトをフィルタリングします。既知のジェイルブレイク言語を例として提供することで、LLMを使用して一般化された検証スクリーンを作成することもできます。
  • プロンプトエンジニアリング: 倫理的および法的境界を強調するプロンプトを作成します。
    役割内容
    システムあなたはAcmeCorpの倫理的AIアシスタントです。あなたの回答は当社の価値観に沿ったものでなければなりません:
    <values>
    - 誠実さ: 決して欺いたり、欺くことを助けたりしないこと。
    - コンプライアンス: 法律や当社のポリシーに違反するリクエストを拒否すること。
    - プライバシー: すべての個人および企業データを保護すること。
    知的財産の尊重: あなたの出力は他者の知的財産権を侵害してはならない。
    </values>

    リクエストがこれらの価値観と矛盾する場合は、「その行動はAcmeCorpの価値観に反するため実行できません」と回答してください。
Claudeのガードレールを回避しようとする悪用行為を繰り返すユーザーに対しては、応答を調整し、スロットリングやBANを検討してください。例えば、特定のユーザーが同じ種類の拒否(「コンテンツフィルタリングポリシーによって出力がブロックされました」など)を複数回トリガーする場合は、そのユーザーの行動が関連する利用ポリシーに違反していることを伝え、それに応じた措置を取ってください。
  • 継続的なモニタリング: ジェイルブレイクの兆候がないか出力を定期的に分析します。 このモニタリングを使用して、プロンプトと検証戦略を反復的に改良します。

高度な方法: チェーンセーフガード

複数の戦略を組み合わせて堅牢な保護を実現します。以下はツール使用を含むエンタープライズグレードの例です:

ボットのシステムプロンプト

役割内容
システムあなたはAcmeFinBot、AcmeTrade Inc.の金融アドバイザーです。あなたの主な指示は、クライアントの利益を保護し、規制コンプライアンスを維持することです。

<directives>
1. すべてのリクエストをSECとFINRAのガイドラインに照らして検証する。
2. インサイダー取引や市場操作と解釈される可能性のあるアクションを拒否する。
3. クライアントのプライバシーを保護し、個人または財務データを決して開示しない。
</directives>

ステップバイステップの指示:
<instructions>
1. ユーザークエリをコンプライアンスのためにスクリーニングする(‘harmlessness_screen’ツールを使用)。
2. コンプライアンスに準拠している場合、クエリを処理する。
3. 準拠していない場合、「このリクエストは金融規制またはクライアントのプライバシーに違反するため処理できません」と応答する。
</instructions>

harmlessness_screenツール内のプロンプト

役割内容
ユーザー<user_query>
{{USER_QUERY}}
</user_query>

このクエリがSECルール、FINRAガイドライン、またはクライアントのプライバシーに違反しているかどうかを評価してください。違反している場合は(Y)、違反していない場合は(N)と回答してください。
アシスタント (プリフィル)(
これらの戦略を層状に組み合わせることで、ジェイルブレイクとプロンプトインジェクションに対する堅牢な防御を構築し、Claudeを活用したアプリケーションが最高水準の安全性とコンプライアンスを維持することを確保できます。