Membangun kriteria yang kuat
Kriteria keberhasilan yang baik adalah:- Spesifik: Tentukan dengan jelas apa yang ingin Anda capai. Alih-alih “kinerja yang baik,” tentukan “klasifikasi sentimen yang akurat.”
-
Terukur: Gunakan metrik kuantitatif atau skala kualitatif yang terdefinisi dengan baik. Angka memberikan kejelasan dan skalabilitas, tetapi ukuran kualitatif bisa berharga jika diterapkan secara konsisten bersamaan dengan ukuran kuantitatif.
- Bahkan topik “kabur” seperti etika dan keamanan dapat dikuantifikasi:
Kriteria keamanan Buruk Output yang aman Baik Kurang dari 0,1% output dari 10.000 percobaan ditandai sebagai beracun oleh filter konten kami.
Contoh metrik dan metode pengukuran
Metrik kuantitatif:- Khusus tugas: Skor F1, skor BLEU, perplexity
- Umum: Akurasi, presisi, recall
- Operasional: Waktu respons (ms), uptime (%)
- Pengujian A/B: Bandingkan kinerja dengan model dasar atau versi sebelumnya.
- Umpan balik pengguna: Ukuran implisit seperti tingkat penyelesaian tugas.
- Analisis kasus ekstrem: Persentase kasus ekstrem yang ditangani tanpa kesalahan.
- Skala Likert: “Nilai koherensi dari 1 (tidak masuk akal) hingga 5 (sangat logis)”
- Rubrik ahli: Ahli bahasa menilai kualitas terjemahan berdasarkan kriteria yang ditentukan
- Bahkan topik “kabur” seperti etika dan keamanan dapat dikuantifikasi:
- Dapat dicapai: Dasarkan target Anda pada tolok ukur industri, eksperimen sebelumnya, penelitian AI, atau pengetahuan ahli. Metrik keberhasilan Anda tidak boleh tidak realistis terhadap kemampuan model frontier saat ini.
- Relevan: Selaraskan kriteria Anda dengan tujuan aplikasi dan kebutuhan pengguna. Akurasi kutipan yang kuat mungkin penting untuk aplikasi medis tetapi tidak terlalu penting untuk chatbot kasual.
Contoh kriteria kesetiaan tugas untuk analisis sentimen
Contoh kriteria kesetiaan tugas untuk analisis sentimen
| Kriteria | |
|---|---|
| Buruk | Model harus mengklasifikasikan sentimen dengan baik |
| Baik | Model analisis sentimen kami harus mencapai skor F1 minimal 0,85 (Terukur, Spesifik) pada set pengujian terpisah* dari 10.000 postingan Twitter yang beragam (Relevan), yang merupakan peningkatan 5% dari baseline kami saat ini (Dapat dicapai). |
Kriteria keberhasilan umum yang perlu dipertimbangkan
Berikut adalah beberapa kriteria yang mungkin penting untuk kasus penggunaan Anda. Daftar ini tidak lengkap.Kesetiaan tugas
Kesetiaan tugas
Seberapa baik model perlu tampil pada tugas? Anda mungkin juga perlu mempertimbangkan penanganan kasus ekstrem, seperti seberapa baik model perlu tampil pada input yang jarang atau menantang.
Konsistensi
Konsistensi
Seberapa mirip respons model perlu untuk jenis input yang serupa? Jika pengguna mengajukan pertanyaan yang sama dua kali, seberapa penting bagi mereka untuk mendapatkan jawaban yang secara semantik serupa?
Relevansi dan koherensi
Relevansi dan koherensi
Seberapa baik model secara langsung menjawab pertanyaan atau instruksi pengguna? Seberapa penting informasi disajikan dengan cara yang logis dan mudah diikuti?
Nada dan gaya
Nada dan gaya
Seberapa baik gaya output model sesuai dengan harapan? Seberapa tepat bahasanya untuk audiens target?
Pelestarian privasi
Pelestarian privasi
Apa metrik keberhasilan untuk bagaimana model menangani informasi pribadi atau sensitif? Bisakah model mengikuti instruksi untuk tidak menggunakan atau membagikan detail tertentu?
Pemanfaatan konteks
Pemanfaatan konteks
Seberapa efektif model menggunakan konteks yang diberikan? Seberapa baik model mereferensikan dan membangun berdasarkan informasi yang diberikan dalam riwayatnya?
Latensi
Latensi
Berapa waktu respons yang dapat diterima untuk model? Ini akan bergantung pada persyaratan real-time aplikasi Anda dan harapan pengguna.
Harga
Harga
Berapa anggaran Anda untuk menjalankan model? Pertimbangkan faktor-faktor seperti biaya per panggilan API, ukuran model, dan frekuensi penggunaan.
Contoh kriteria multidimensi untuk analisis sentimen
Contoh kriteria multidimensi untuk analisis sentimen
| Kriteria | |
|---|---|
| Buruk | Model harus mengklasifikasikan sentimen dengan baik |
| Baik | Pada set pengujian terpisah dari 10.000 postingan Twitter yang beragam, model analisis sentimen kami harus mencapai: - skor F1 minimal 0,85 - 99,5% output tidak beracun - 90% kesalahan hanya akan menyebabkan ketidaknyamanan, bukan kesalahan fatal* - 95% waktu respons < 200ms |