LLMベースのアプリケーションを成功させるには、まず成功基準を明確に定義することから始めます。アプリケーションが公開するのに十分な品質に達したと、どのように判断しますか? 明確な成功基準を持つことで、プロンプトエンジニアリングと最適化の取り組みが、特定の測定可能な目標の達成に焦点を当てることができます。

強固な基準の構築

良い成功基準は以下の特徴を持ちます:
  • 具体的:達成したいことを明確に定義します。「良いパフォーマンス」ではなく、「正確な感情分類」などと指定します。
  • 測定可能:定量的な指標または明確に定義された定性的な尺度を使用します。数値は明確さとスケーラビリティを提供しますが、定性的な測定も定量的な測定と「併用」して一貫して適用されれば価値があります。
    • 倫理や安全性などの「曖昧な」トピックでも定量化できます:
      安全性の基準
      悪い例安全な出力
      良い例10,000回の試行のうち、コンテンツフィルターによって有害性がフラグ付けされる出力が0.1%未満。
    定量的指標
    • タスク固有:F1スコア、BLEUスコア、パープレキシティ
    • 一般的:精度、適合率、再現率
    • 運用:応答時間(ミリ秒)、稼働時間(%)
    定量的方法
    • A/Bテスト:ベースラインモデルや以前のバージョンとのパフォーマンス比較。
    • ユーザーフィードバック:タスク完了率などの暗黙的な指標。
    • エッジケース分析:エラーなく処理されるエッジケースの割合。
    定性的尺度
    • リッカート尺度:「一貫性を1(意味不明)から5(完全に論理的)で評価する」
    • 専門家の評価基準:言語学者が定義された基準に基づいて翻訳品質を評価する
  • 達成可能:業界のベンチマーク、過去の実験、AI研究、または専門家の知識に基づいて目標を設定します。成功指標は現在のフロンティアモデルの能力に対して非現実的であってはなりません。
  • 関連性:基準をアプリケーションの目的とユーザーのニーズに合わせます。引用の正確性は医療アプリでは重要かもしれませんが、カジュアルなチャットボットではそれほど重要ではないかもしれません。
基準
悪い例モデルは感情をうまく分類すべき
良い例感情分析モデルは、10,000件の多様なTwitter投稿からなる保留テストセット*(関連性)でF1スコアが少なくとも0.85(測定可能、具体的)を達成し、これは現在のベースラインから5%の改善(達成可能)である必要があります。
*保留テストセットについては次のセクションで詳しく説明します

考慮すべき一般的な成功基準

以下は、ユースケースにとって重要かもしれない基準です。このリストは網羅的ではありません。
モデルはタスクをどれだけうまく実行する必要がありますか?また、エッジケースの処理も考慮する必要があるかもしれません。例えば、まれな、または難しい入力に対してモデルがどれだけうまく機能する必要があるかなどです。
同様のタイプの入力に対して、モデルの応答はどれだけ類似している必要がありますか?ユーザーが同じ質問を2回した場合、意味的に類似した回答を得ることはどれだけ重要ですか?
モデルはユーザーの質問や指示にどれだけ直接対応していますか?情報が論理的で理解しやすい方法で提示されることはどれだけ重要ですか?
モデルの出力スタイルは期待にどれだけ合致していますか?そのモデルの言語は対象ユーザーにとってどれだけ適切ですか?
モデルが個人情報や機密情報をどのように扱うかについての成功指標は何ですか?特定の詳細を使用または共有しないように指示に従うことができますか?
モデルは提供されたコンテキストをどれだけ効果的に使用していますか?履歴で与えられた情報をどれだけうまく参照し、それに基づいて構築していますか?
モデルの許容応答時間は何ですか?これはアプリケーションのリアルタイム要件とユーザーの期待によって異なります。
モデルを実行するための予算は何ですか?APIコールあたりのコスト、モデルのサイズ、使用頻度などの要素を考慮してください。
ほとんどのユースケースでは、複数の成功基準に沿った多次元的な評価が必要になります。
基準
悪い例モデルは感情をうまく分類すべき
良い例10,000件の多様なTwitter投稿からなる保留テストセットにおいて、感情分析モデルは以下を達成すべき:
- F1スコアが少なくとも0.85
- 出力の99.5%が非有害
- エラーの90%は重大なエラーではなく不便を引き起こす程度*
- 95%の応答時間が200ms未満
*実際には、「不便」と「重大」の意味も定義します。

次のステップ