Mitigasi jailbreak dan injeksi prompt

Di halaman ini

Lanjutan: Pengamanan berantai

Jailbreaking dan injeksi prompt terjadi ketika pengguna membuat prompt untuk mengeksploitasi kerentanan model, dengan tujuan menghasilkan konten yang tidak pantas. Meskipun Claude secara inheren tahan terhadap serangan semacam itu, berikut adalah langkah-langkah tambahan untuk memperkuat pagar pembatas Anda, terutama terhadap penggunaan yang melanggar Ketentuan Layanan atau Kebijakan Penggunaan kami.

Claude jauh lebih tahan terhadap jailbreaking dibandingkan LLM besar lainnya, berkat metode pelatihan canggih seperti Constitutional AI.

Penyaringan keamanan: Gunakan model ringan seperti Claude Haiku 3 untuk pra-penyaringan input pengguna.

Contoh: Penyaringan keamanan untuk moderasi konten

Role	Content
User	Seorang pengguna mengirimkan konten ini: <content> {{CONTENT}} </content> Balas dengan (Y) jika konten tersebut merujuk pada aktivitas berbahaya, ilegal, atau eksplisit. Balas dengan (N) jika aman.
Assistant (prefill)	(
Assistant	N)

Validasi input: Filter prompt untuk pola jailbreaking. Anda bahkan dapat menggunakan LLM untuk membuat layar validasi umum dengan menyediakan contoh bahasa jailbreaking yang diketahui.

Rekayasa prompt: Buat prompt yang menekankan batasan etika dan hukum.

Contoh: Prompt sistem etis untuk chatbot perusahaan

Role	Content
System	Anda adalah asisten AI etis AcmeCorp. Respons Anda harus selaras dengan nilai-nilai kami: <values> - Integritas: Jangan pernah menipu atau membantu penipuan. - Kepatuhan: Tolak permintaan apa pun yang melanggar hukum atau kebijakan kami. - Privasi: Lindungi semua data pribadi dan perusahaan. Menghormati kekayaan intelektual: Output Anda tidak boleh melanggar hak kekayaan intelektual orang lain. </values> Jika permintaan bertentangan dengan nilai-nilai ini, jawab: “Saya tidak dapat melakukan tindakan tersebut karena bertentangan dengan nilai-nilai AcmeCorp.”

Role

Content

System

Anda adalah asisten AI etis AcmeCorp. Respons Anda harus selaras dengan nilai-nilai kami:
<values>
- Integritas: Jangan pernah menipu atau membantu penipuan.
- Kepatuhan: Tolak permintaan apa pun yang melanggar hukum atau kebijakan kami.
- Privasi: Lindungi semua data pribadi dan perusahaan.
Menghormati kekayaan intelektual: Output Anda tidak boleh melanggar hak kekayaan intelektual orang lain.
</values>

Jika permintaan bertentangan dengan nilai-nilai ini, jawab: “Saya tidak dapat melakukan tindakan tersebut karena bertentangan dengan nilai-nilai AcmeCorp.”

Sesuaikan respons dan pertimbangkan untuk membatasi atau melarang pengguna yang berulang kali terlibat dalam perilaku kasar yang mencoba menghindari pagar pembatas Claude. Misalnya, jika pengguna tertentu memicu jenis penolakan yang sama berulang kali (misalnya, “output diblokir oleh kebijakan penyaringan konten”), beri tahu pengguna bahwa tindakan mereka melanggar kebijakan penggunaan yang relevan dan ambil tindakan yang sesuai.

Pemantauan berkelanjutan: Secara teratur menganalisis output untuk tanda-tanda jailbreaking. Gunakan pemantauan ini untuk menyempurnakan prompt dan strategi validasi Anda secara iteratif.

Lanjutan: Pengamanan berantai

Kombinasikan strategi untuk perlindungan yang kuat. Berikut adalah contoh tingkat perusahaan dengan penggunaan alat:

Contoh: Perlindungan multi-lapisan untuk chatbot penasihat keuangan

Prompt sistem bot

Role	Content
System	Anda adalah AcmeFinBot, penasihat keuangan untuk AcmeTrade Inc. Arahan utama Anda adalah melindungi kepentingan klien dan menjaga kepatuhan terhadap peraturan. <directives> 1. Validasi semua permintaan terhadap pedoman SEC dan FINRA. 2. Tolak tindakan apa pun yang dapat ditafsirkan sebagai perdagangan orang dalam atau manipulasi pasar. 3. Lindungi privasi klien; jangan pernah mengungkapkan data pribadi atau keuangan. </directives> Instruksi langkah demi langkah: <instructions> 1. Periksa kueri pengguna untuk kepatuhan (gunakan alat ‘harmlessness_screen’). 2. Jika patuh, proses kueri. 3. Jika tidak patuh, jawab: “Saya tidak dapat memproses permintaan ini karena melanggar peraturan keuangan atau privasi klien.” </instructions>

Role

Content

System

Anda adalah AcmeFinBot, penasihat keuangan untuk AcmeTrade Inc. Arahan utama Anda adalah melindungi kepentingan klien dan menjaga kepatuhan terhadap peraturan.

<directives>
1. Validasi semua permintaan terhadap pedoman SEC dan FINRA.
2. Tolak tindakan apa pun yang dapat ditafsirkan sebagai perdagangan orang dalam atau manipulasi pasar.
3. Lindungi privasi klien; jangan pernah mengungkapkan data pribadi atau keuangan.
</directives>

Instruksi langkah demi langkah:
<instructions>
1. Periksa kueri pengguna untuk kepatuhan (gunakan alat ‘harmlessness_screen’).
2. Jika patuh, proses kueri.
3. Jika tidak patuh, jawab: “Saya tidak dapat memproses permintaan ini karena melanggar peraturan keuangan atau privasi klien.”
</instructions>

Prompt dalam alat `harmlessness_screen`

Role	Content
User	<user_query> {{USER_QUERY}} </user_query> Evaluasi apakah kueri ini melanggar aturan SEC, pedoman FINRA, atau privasi klien. Jawab (Y) jika ya, (N) jika tidak.
Assistant (prefill)	(

Dengan melapisi strategi-strategi ini, Anda menciptakan pertahanan yang kuat terhadap jailbreaking dan injeksi prompt, memastikan aplikasi Claude Anda mempertahankan standar keamanan dan kepatuhan tertinggi.

Meningkatkan konsistensi output Handle streaming refusals

Langkah pertama

Model & harga

Bangun dengan Claude

Kemampuan

Alat

Keterampilan Agen

SDK Agen

MCP dalam API

Claude di platform pihak ketiga

Rekayasa Prompt

Uji & evaluasi

Perkuat perlindungan

Mitigasi jailbreak dan injeksi prompt

Lanjutan: Pengamanan berantai

Prompt sistem bot

Prompt dalam alat `harmlessness_screen`

Langkah pertama

Model & harga

Bangun dengan Claude

Kemampuan

Alat

Keterampilan Agen

SDK Agen

MCP dalam API

Claude di platform pihak ketiga

Rekayasa Prompt

Uji & evaluasi

Perkuat perlindungan

​Lanjutan: Pengamanan berantai

​Prompt sistem bot

​Prompt dalam alat harmlessness_screen

Lanjutan: Pengamanan berantai

Prompt sistem bot

Prompt dalam alat `harmlessness_screen`