建立成功的基於LLM的應用程式始於明確定義你的成功標準。你如何知道你的應用程式已經足夠好可以發布? 擁有明確的成功標準可確保你的提示工程和優化工作專注於實現特定、可衡量的目標。

建立強大的標準

好的成功標準是:
  • 具體的:明確定義你想要達成的目標。不要只說「良好表現」,而是具體指明「準確的情感分類」。
  • 可衡量的:使用量化指標或明確定義的質化量表。數字提供清晰度和可擴展性,但如果與量化指標一起持續應用,質化指標也可能很有價值。
    • 即使是「模糊」的主題如倫理和安全也可以被量化:
      安全標準
      不佳安全的輸出
      良好在10,000次試驗中,被我們的內容過濾器標記為有毒性的輸出少於0.1%。
    量化指標:
    • 特定任務:F1分數、BLEU分數、困惑度
    • 通用:準確率、精確率、召回率
    • 操作性:響應時間(毫秒)、正常運行時間(%)
    量化方法:
    • A/B測試:與基準模型或早期版本比較性能。
    • 用戶反饋:隱性測量如任務完成率。
    • 邊緣案例分析:無錯誤處理的邊緣案例百分比。
    質化量表:
    • 李克特量表:「從1(無意義)到5(完全合乎邏輯)評價連貫性」
    • 專家評分標準:語言學家根據定義的標準評價翻譯質量
  • 可實現的:根據行業基準、先前實驗、AI研究或專家知識設定你的目標。你的成功指標不應超出當前前沿模型的能力範圍。
  • 相關的:將你的標準與應用程式的目的和用戶需求保持一致。強大的引用準確性對醫療應用可能至關重要,但對休閒聊天機器人則不那麼重要。
標準
不佳模型應該很好地分類情感
良好我們的情感分析模型應在10,000條多樣化Twitter帖子的保留測試集*上(相關)達到至少0.85的F1分數(可衡量,具體),比我們當前基準提高5%(可實現)。
*關於保留測試集的更多信息將在下一節介紹

需要考慮的常見成功標準

以下是可能對你的用例重要的一些標準。這個列表並非詳盡無遺。
模型需要在任務上表現得多好?你可能還需要考慮邊緣案例處理,例如模型需要在罕見或具挑戰性的輸入上表現得多好。
對於類似類型的輸入,模型的回應需要多相似?如果用戶兩次提出相同問題,他們獲得語義相似答案的重要性如何?
模型如何直接回應用戶的問題或指示?信息以邏輯、易於理解的方式呈現的重要性如何?
模型的輸出風格如何符合期望?其語言對目標受眾的適當性如何?
模型處理個人或敏感信息的成功指標是什麼?它能否遵循不使用或分享某些詳細信息的指示?
模型如何有效地使用提供的上下文?它如何參考並建立在其歷史中給出的信息之上?
模型可接受的響應時間是多少?這將取決於你的應用程式的實時需求和用戶期望。
運行模型的預算是多少?考慮因素如每次API調用的成本、模型的大小和使用頻率。
大多數用例將需要沿著多個成功標準進行多維評估。
標準
不佳模型應該很好地分類情感
良好在10,000條多樣化Twitter帖子的保留測試集上,我們的情感分析模型應達到:
- 至少0.85的F1分數
- 99.5%的輸出是非毒性的
- 90%的錯誤只會造成不便,而非嚴重錯誤*
- 95%的響應時間 < 200毫秒
*實際上,我們還會定義什麼是「不便」和「嚴重」。

下一步