Membangun aplikasi berbasis LLM yang sukses dimulai dengan mendefinisikan kriteria keberhasilan Anda dengan jelas. Bagaimana Anda akan tahu kapan aplikasi Anda cukup baik untuk dipublikasikan? Memiliki kriteria keberhasilan yang jelas memastikan bahwa upaya rekayasa & optimasi prompt Anda terfokus pada pencapaian tujuan spesifik dan terukur.

Membangun kriteria yang kuat

Kriteria keberhasilan yang baik adalah:
  • Spesifik: Tentukan dengan jelas apa yang ingin Anda capai. Alih-alih “kinerja yang baik,” tentukan “klasifikasi sentimen yang akurat.”
  • Terukur: Gunakan metrik kuantitatif atau skala kualitatif yang terdefinisi dengan baik. Angka memberikan kejelasan dan skalabilitas, tetapi ukuran kualitatif bisa berharga jika diterapkan secara konsisten bersamaan dengan ukuran kuantitatif.
    • Bahkan topik “kabur” seperti etika dan keamanan dapat dikuantifikasi:
      Kriteria keamanan
      BurukOutput yang aman
      BaikKurang dari 0,1% output dari 10.000 percobaan ditandai sebagai beracun oleh filter konten kami.
    Metrik kuantitatif:
    • Khusus tugas: Skor F1, skor BLEU, perplexity
    • Umum: Akurasi, presisi, recall
    • Operasional: Waktu respons (ms), uptime (%)
    Metode kuantitatif:
    • Pengujian A/B: Bandingkan kinerja dengan model dasar atau versi sebelumnya.
    • Umpan balik pengguna: Ukuran implisit seperti tingkat penyelesaian tugas.
    • Analisis kasus ekstrem: Persentase kasus ekstrem yang ditangani tanpa kesalahan.
    Skala kualitatif:
    • Skala Likert: “Nilai koherensi dari 1 (tidak masuk akal) hingga 5 (sangat logis)”
    • Rubrik ahli: Ahli bahasa menilai kualitas terjemahan berdasarkan kriteria yang ditentukan
  • Dapat dicapai: Dasarkan target Anda pada tolok ukur industri, eksperimen sebelumnya, penelitian AI, atau pengetahuan ahli. Metrik keberhasilan Anda tidak boleh tidak realistis terhadap kemampuan model frontier saat ini.
  • Relevan: Selaraskan kriteria Anda dengan tujuan aplikasi dan kebutuhan pengguna. Akurasi kutipan yang kuat mungkin penting untuk aplikasi medis tetapi tidak terlalu penting untuk chatbot kasual.
Kriteria
BurukModel harus mengklasifikasikan sentimen dengan baik
BaikModel analisis sentimen kami harus mencapai skor F1 minimal 0,85 (Terukur, Spesifik) pada set pengujian terpisah* dari 10.000 postingan Twitter yang beragam (Relevan), yang merupakan peningkatan 5% dari baseline kami saat ini (Dapat dicapai).
*Lebih lanjut tentang set pengujian terpisah di bagian berikutnya

Kriteria keberhasilan umum yang perlu dipertimbangkan

Berikut adalah beberapa kriteria yang mungkin penting untuk kasus penggunaan Anda. Daftar ini tidak lengkap.
Seberapa baik model perlu tampil pada tugas? Anda mungkin juga perlu mempertimbangkan penanganan kasus ekstrem, seperti seberapa baik model perlu tampil pada input yang jarang atau menantang.
Seberapa mirip respons model perlu untuk jenis input yang serupa? Jika pengguna mengajukan pertanyaan yang sama dua kali, seberapa penting bagi mereka untuk mendapatkan jawaban yang secara semantik serupa?
Seberapa baik model secara langsung menjawab pertanyaan atau instruksi pengguna? Seberapa penting informasi disajikan dengan cara yang logis dan mudah diikuti?
Seberapa baik gaya output model sesuai dengan harapan? Seberapa tepat bahasanya untuk audiens target?
Apa metrik keberhasilan untuk bagaimana model menangani informasi pribadi atau sensitif? Bisakah model mengikuti instruksi untuk tidak menggunakan atau membagikan detail tertentu?
Seberapa efektif model menggunakan konteks yang diberikan? Seberapa baik model mereferensikan dan membangun berdasarkan informasi yang diberikan dalam riwayatnya?
Berapa waktu respons yang dapat diterima untuk model? Ini akan bergantung pada persyaratan real-time aplikasi Anda dan harapan pengguna.
Berapa anggaran Anda untuk menjalankan model? Pertimbangkan faktor-faktor seperti biaya per panggilan API, ukuran model, dan frekuensi penggunaan.
Sebagian besar kasus penggunaan akan memerlukan evaluasi multidimensi di beberapa kriteria keberhasilan.
Kriteria
BurukModel harus mengklasifikasikan sentimen dengan baik
BaikPada set pengujian terpisah dari 10.000 postingan Twitter yang beragam, model analisis sentimen kami harus mencapai:
- skor F1 minimal 0,85
- 99,5% output tidak beracun
- 90% kesalahan hanya akan menyebabkan ketidaknyamanan, bukan kesalahan fatal*
- 95% waktu respons < 200ms
*Dalam kenyataannya, kita juga akan mendefinisikan apa arti “ketidaknyamanan” dan “fatal”.

Langkah selanjutnya