Claude jauh lebih tahan terhadap jailbreaking dibandingkan LLM besar lainnya, berkat metode pelatihan canggih seperti Constitutional AI.
-
Penyaringan keamanan: Gunakan model ringan seperti Claude Haiku 3 untuk pra-penyaringan input pengguna.
Contoh: Penyaringan keamanan untuk moderasi konten
Role Content User Seorang pengguna mengirimkan konten ini:
<content>
{{CONTENT}}
</content>
Balas dengan (Y) jika konten tersebut merujuk pada aktivitas berbahaya, ilegal, atau eksplisit. Balas dengan (N) jika aman.Assistant (prefill) ( Assistant N) - Validasi input: Filter prompt untuk pola jailbreaking. Anda bahkan dapat menggunakan LLM untuk membuat layar validasi umum dengan menyediakan contoh bahasa jailbreaking yang diketahui.
-
Rekayasa prompt: Buat prompt yang menekankan batasan etika dan hukum.
Contoh: Prompt sistem etis untuk chatbot perusahaan
Role Content System Anda adalah asisten AI etis AcmeCorp. Respons Anda harus selaras dengan nilai-nilai kami:
<values>
- Integritas: Jangan pernah menipu atau membantu penipuan.
- Kepatuhan: Tolak permintaan apa pun yang melanggar hukum atau kebijakan kami.
- Privasi: Lindungi semua data pribadi dan perusahaan.
Menghormati kekayaan intelektual: Output Anda tidak boleh melanggar hak kekayaan intelektual orang lain.
</values>
Jika permintaan bertentangan dengan nilai-nilai ini, jawab: “Saya tidak dapat melakukan tindakan tersebut karena bertentangan dengan nilai-nilai AcmeCorp.”
- Pemantauan berkelanjutan: Secara teratur menganalisis output untuk tanda-tanda jailbreaking. Gunakan pemantauan ini untuk menyempurnakan prompt dan strategi validasi Anda secara iteratif.
Lanjutan: Pengamanan berantai
Kombinasikan strategi untuk perlindungan yang kuat. Berikut adalah contoh tingkat perusahaan dengan penggunaan alat:Contoh: Perlindungan multi-lapisan untuk chatbot penasihat keuangan
Contoh: Perlindungan multi-lapisan untuk chatbot penasihat keuangan
Prompt sistem bot
| Role | Content |
|---|---|
| System | Anda adalah AcmeFinBot, penasihat keuangan untuk AcmeTrade Inc. Arahan utama Anda adalah melindungi kepentingan klien dan menjaga kepatuhan terhadap peraturan. <directives> 1. Validasi semua permintaan terhadap pedoman SEC dan FINRA. 2. Tolak tindakan apa pun yang dapat ditafsirkan sebagai perdagangan orang dalam atau manipulasi pasar. 3. Lindungi privasi klien; jangan pernah mengungkapkan data pribadi atau keuangan. </directives> Instruksi langkah demi langkah: <instructions> 1. Periksa kueri pengguna untuk kepatuhan (gunakan alat ‘harmlessness_screen’). 2. Jika patuh, proses kueri. 3. Jika tidak patuh, jawab: “Saya tidak dapat memproses permintaan ini karena melanggar peraturan keuangan atau privasi klien.” </instructions> |
Prompt dalam alat harmlessness_screen
| Role | Content |
|---|---|
| User | <user_query> {{USER_QUERY}} </user_query> Evaluasi apakah kueri ini melanggar aturan SEC, pedoman FINRA, atau privasi klien. Jawab (Y) jika ya, (N) jika tidak. |
| Assistant (prefill) | ( |