Kunjungi cookbook moderasi konten kami untuk melihat contoh implementasi moderasi konten menggunakan Claude.
Sebelum membangun dengan Claude
Putuskan apakah akan menggunakan Claude untuk moderasi konten
Berikut adalah beberapa indikator kunci bahwa Anda harus menggunakan LLM seperti Claude daripada pendekatan ML tradisional atau berbasis aturan untuk moderasi konten:Anda menginginkan implementasi yang hemat biaya dan cepat
Anda menginginkan implementasi yang hemat biaya dan cepat
Anda menginginkan pemahaman semantik dan keputusan yang cepat
Anda menginginkan pemahaman semantik dan keputusan yang cepat
Anda memerlukan keputusan kebijakan yang konsisten
Anda memerlukan keputusan kebijakan yang konsisten
Kebijakan moderasi Anda kemungkinan akan berubah atau berkembang seiring waktu
Kebijakan moderasi Anda kemungkinan akan berubah atau berkembang seiring waktu
Anda memerlukan penalaran yang dapat diinterpretasikan untuk keputusan moderasi Anda
Anda memerlukan penalaran yang dapat diinterpretasikan untuk keputusan moderasi Anda
Anda memerlukan dukungan multibahasa tanpa mempertahankan model terpisah
Anda memerlukan dukungan multibahasa tanpa mempertahankan model terpisah
Anda memerlukan dukungan multimodal
Anda memerlukan dukungan multimodal
Buat contoh konten untuk dimoderasi
Sebelum mengembangkan solusi moderasi konten, pertama buat contoh konten yang harus ditandai dan konten yang tidak boleh ditandai. Pastikan Anda menyertakan kasus tepi dan skenario menantang yang mungkin sulit ditangani secara efektif oleh sistem moderasi konten. Setelah itu, tinjau contoh Anda untuk membuat daftar kategori moderasi yang terdefinisi dengan baik. Misalnya, contoh yang dihasilkan oleh platform media sosial mungkin mencakup yang berikut:This movie was great, I really enjoyed it. The main actor really killed it!, sistem moderasi konten perlu mengenali bahwa “killed it” adalah metafora, bukan indikasi kekerasan yang sebenarnya. Sebaliknya, meskipun tidak ada penyebutan eksplisit tentang kekerasan, komentar Delete this post now or you better hide. I am coming after you and your family. harus ditandai oleh sistem moderasi konten.
Daftar unsafe_categories dapat disesuaikan untuk memenuhi kebutuhan spesifik Anda. Misalnya, jika Anda ingin mencegah anak di bawah umur membuat konten di situs web Anda, Anda dapat menambahkan “Underage Posting” ke daftar.
Cara memoderasi konten menggunakan Claude
Pilih model Claude yang tepat
Saat memilih model, penting untuk mempertimbangkan ukuran data Anda. Jika biaya menjadi perhatian, model yang lebih kecil seperti Claude Haiku 3 adalah pilihan yang sangat baik karena efektivitas biayanya. Berikut adalah perkiraan biaya untuk memoderasi teks untuk platform media sosial yang menerima satu miliar posting per bulan:-
Ukuran konten
- Posting per bulan: 1 miliar
- Karakter per posting: 100
- Total karakter: 100 miliar
-
Perkiraan token
- Token input: 28,6 miliar (dengan asumsi 1 token per 3,5 karakter)
- Persentase pesan yang ditandai: 3%
- Token output per pesan yang ditandai: 50
- Total token output: 1,5 miliar
-
Perkiraan biaya Claude Haiku 3
- Biaya token input: 2.860 MTok * $0,25/MTok = $715
- Biaya token output: 1.500 MTok * $1,25/MTok = $1.875
- Biaya bulanan: $715 + $1.875 = $2.590
-
Perkiraan biaya Claude Sonnet 4.5
- Biaya token input: 2.860 MTok * $3,00/MTok = $8.580
- Biaya token output: 1.500 MTok * $15,00/MTok = $22.500
- Biaya bulanan: $8.580 + $22.500 = $31.080
explanation dari respons.Bangun prompt yang kuat
Untuk menggunakan Claude untuk moderasi konten, Claude harus memahami persyaratan moderasi aplikasi Anda. Mari mulai dengan menulis prompt yang memungkinkan Anda mendefinisikan kebutuhan moderasi Anda:moderate_message berisi prompt penilaian yang mencakup kategori konten tidak aman dan pesan yang ingin kita evaluasi. Prompt meminta Claude untuk menilai apakah pesan harus dimoderasi, berdasarkan kategori tidak aman yang telah kita definisikan.
Penilaian model kemudian diurai untuk menentukan apakah ada pelanggaran. Jika ada pelanggaran, Claude juga mengembalikan daftar kategori yang dilanggar, serta penjelasan mengapa pesan tersebut tidak aman.
Evaluasi prompt Anda
Moderasi konten adalah masalah klasifikasi. Dengan demikian, Anda dapat menggunakan teknik yang sama yang diuraikan dalam cookbook klasifikasi kami untuk menentukan akurasi sistem moderasi konten Anda. Satu pertimbangan tambahan adalah bahwa alih-alih memperlakukan moderasi konten sebagai masalah klasifikasi biner, Anda mungkin malah membuat beberapa kategori untuk mewakili berbagai tingkat risiko. Membuat beberapa tingkat risiko memungkinkan Anda menyesuaikan agresivitas moderasi Anda. Misalnya, Anda mungkin ingin secara otomatis memblokir kueri pengguna yang dianggap berisiko tinggi, sementara pengguna dengan banyak kueri berisiko sedang ditandai untuk tinjauan manusia.assess_risk_level yang menggunakan Claude untuk mengevaluasi tingkat risiko suatu pesan. Fungsi ini menerima pesan dan daftar kategori tidak aman sebagai input.
Dalam fungsi tersebut, prompt dihasilkan untuk Claude, termasuk pesan yang akan dinilai, kategori tidak aman, dan instruksi khusus untuk mengevaluasi tingkat risiko. Prompt menginstruksikan Claude untuk merespons dengan objek JSON yang mencakup tingkat risiko, kategori yang dilanggar, dan penjelasan opsional.
Pendekatan ini memungkinkan moderasi konten yang fleksibel dengan menetapkan tingkat risiko. Ini dapat diintegrasikan dengan mulus ke dalam sistem yang lebih besar untuk mengotomatisasi penyaringan konten atau menandai komentar untuk tinjauan manusia berdasarkan tingkat risiko yang dinilai. Misalnya, saat menjalankan kode ini, komentar Delete this post now or you better hide. I am coming after you and your family. diidentifikasi sebagai berisiko tinggi karena ancaman berbahayanya. Sebaliknya, komentar Stay away from the 5G cellphones!! They are using 5G to control you. dikategorikan sebagai berisiko sedang.
Deploy prompt Anda
Setelah Anda yakin dengan kualitas solusi Anda, saatnya untuk men-deploy-nya ke produksi. Berikut adalah beberapa praktik terbaik yang harus diikuti saat menggunakan moderasi konten dalam produksi:-
Berikan umpan balik yang jelas kepada pengguna: Ketika input pengguna diblokir atau respons ditandai karena moderasi konten, berikan umpan balik yang informatif dan konstruktif untuk membantu pengguna memahami mengapa pesan mereka ditandai dan bagaimana mereka dapat merumuskannya kembali dengan tepat. Dalam contoh koding di atas, ini dilakukan melalui tag
explanationdalam respons Claude. - Analisis konten yang dimoderasi: Lacak jenis konten yang ditandai oleh sistem moderasi Anda untuk mengidentifikasi tren dan area potensial untuk perbaikan.
- Evaluasi dan tingkatkan secara berkelanjutan: Secara teratur menilai kinerja sistem moderasi konten Anda menggunakan metrik seperti pelacakan presisi dan recall. Gunakan data ini untuk secara iteratif memperbaiki prompt moderasi, kata kunci, dan kriteria penilaian Anda.
Tingkatkan kinerja
Dalam skenario kompleks, mungkin membantu untuk mempertimbangkan strategi tambahan untuk meningkatkan kinerja di luar teknik prompt engineering standar. Berikut adalah beberapa strategi lanjutan:Definisikan topik dan berikan contoh
Selain mencantumkan kategori tidak aman dalam prompt, perbaikan lebih lanjut dapat dilakukan dengan memberikan definisi dan frasa yang terkait dengan setiap kategori.moderate_message_with_definitions memperluas fungsi moderate_message sebelumnya dengan memungkinkan setiap kategori tidak aman dipasangkan dengan definisi yang detail. Ini terjadi dalam kode dengan mengganti daftar unsafe_categories dari fungsi asli dengan kamus unsafe_category_definitions. Kamus ini memetakan setiap kategori tidak aman ke definisi yang sesuai. Baik nama kategori maupun definisinya disertakan dalam prompt.
Khususnya, definisi untuk kategori Specialized Advice sekarang menentukan jenis nasihat keuangan yang harus dilarang. Akibatnya, komentar It's a great time to invest in gold!, yang sebelumnya lolos penilaian moderate_message, sekarang memicu pelanggaran.
Pertimbangkan pemrosesan batch
Untuk mengurangi biaya dalam situasi di mana moderasi real-time tidak diperlukan, pertimbangkan untuk memoderasi pesan dalam batch. Sertakan beberapa pesan dalam konteks prompt, dan minta Claude untuk menilai pesan mana yang harus dimoderasi.batch_moderate_messages menangani moderasi seluruh batch pesan dengan satu panggilan API Claude.
Di dalam fungsi, prompt dibuat yang mencakup daftar pesan untuk dievaluasi, kategori konten tidak aman yang didefinisikan, dan deskripsinya. Prompt mengarahkan Claude untuk mengembalikan objek JSON yang mencantumkan semua pesan yang mengandung pelanggaran. Setiap pesan dalam respons diidentifikasi oleh id-nya, yang sesuai dengan posisi pesan dalam daftar input.
Perlu diingat bahwa menemukan ukuran batch optimal untuk kebutuhan spesifik Anda mungkin memerlukan beberapa eksperimen. Sementara ukuran batch yang lebih besar dapat menurunkan biaya, mereka juga mungkin menyebabkan sedikit penurunan kualitas. Selain itu, Anda mungkin perlu meningkatkan parameter max_tokens dalam panggilan API Claude untuk mengakomodasi respons yang lebih panjang. Untuk detail tentang jumlah maksimum token yang dapat dikeluarkan model pilihan Anda, lihat halaman perbandingan model.