构建成功的基于LLM的应用程序始于明确定义你的成功标准。你如何知道你的应用程序何时足够好可以发布? 拥有明确的成功标准可确保你的提示工程和优化工作专注于实现特定的、可衡量的目标。

建立强有力的标准

好的成功标准是:
  • 具体的:明确定义你想要实现的目标。不要说”良好的性能”,而应该具体说明”准确的情感分类”。
  • 可衡量的:使用定量指标或定义明确的定性量表。数字提供清晰度和可扩展性,但如果与定量措施一起持续应用,定性措施也可能很有价值。
    • 即使是”模糊”的主题,如伦理和安全也可以被量化:
      安全标准
      安全输出
      在10,000次试验中,被我们的内容过滤器标记为有毒性的输出少于0.1%。
    定量指标:
    • 特定任务:F1分数、BLEU分数、困惑度
    • 通用:准确率、精确率、召回率
    • 运营:响应时间(毫秒)、正常运行时间(%)
    定量方法:
    • A/B测试:与基准模型或早期版本比较性能。
    • 用户反馈:隐性指标如任务完成率。
    • 边缘案例分析:无错误处理的边缘案例百分比。
    定性量表:
    • 李克特量表:“从1(无意义)到5(完全合逻辑)评价连贯性”
    • 专家评分标准:语言学家根据定义的标准评价翻译质量
  • 可实现的:根据行业基准、先前实验、AI研究或专家知识设定你的目标。你的成功指标不应该对当前前沿模型能力而言不切实际。
  • 相关的:将你的标准与应用程序的目的和用户需求保持一致。强引用准确性对医疗应用可能至关重要,但对休闲聊天机器人则不那么重要。
标准
模型应该很好地分类情感
我们的情感分析模型应在10,000条多样化Twitter帖子的保留测试集*上(相关)达到至少0.85的F1分数(可衡量,具体),比我们当前基准提高5%(可实现)。
*关于保留测试集的更多内容将在下一节介绍

需要考虑的常见成功标准

以下是可能对你的用例重要的一些标准。此列表并非详尽无遗。
模型需要在任务上表现得多好?你可能还需要考虑边缘情况处理,例如模型需要在罕见或具有挑战性的输入上表现得多好。
对于类似类型的输入,模型的响应需要多相似?如果用户两次提出相同问题,他们得到语义相似答案的重要性如何?
模型如何直接回应用户的问题或指示?信息以逻辑、易于理解的方式呈现的重要性如何?
模型的输出风格如何符合期望?其语言对目标受众的适当性如何?
模型处理个人或敏感信息的成功指标是什么?它能否遵循不使用或分享某些细节的指示?
模型如何有效地使用提供的上下文?它如何引用并基于其历史中给出的信息?
模型可接受的响应时间是多少?这将取决于你的应用程序的实时需求和用户期望。
运行模型的预算是多少?考虑因素如每次API调用的成本、模型的大小和使用频率。
大多数用例将需要沿着几个成功标准进行多维评估。
标准
模型应该很好地分类情感
在10,000条多样化Twitter帖子的保留测试集上,我们的情感分析模型应达到:
- 至少0.85的F1分数
- 99.5%的输出是非有毒的
- 90%的错误只会造成不便,而非严重错误*
- 95%的响应时间 < 200毫秒
*实际上,我们还会定义”不便”和”严重”的含义。

下一步