Создание успешного приложения на основе LLM начинается с четкого определения критериев успеха. Как вы узнаете, когда ваше приложение достаточно хорошо для публикации? Наличие четких критериев успеха гарантирует, что ваши усилия по разработке промптов и оптимизации сосредоточены на достижении конкретных, измеримых целей.

Создание надежных критериев

Хорошие критерии успеха:
  • Конкретные: Четко определяют, чего вы хотите достичь. Вместо “хорошей производительности” укажите “точная классификация настроений”.
  • Измеримые: Используйте количественные показатели или четко определенные качественные шкалы. Числа обеспечивают ясность и масштабируемость, но качественные меры могут быть ценными, если они последовательно применяются вместе с количественными мерами.
    • Даже “нечеткие” темы, такие как этика и безопасность, можно количественно оценить:
      Критерии безопасности
      ПлохоБезопасные результаты
      ХорошоМенее 0,1% результатов из 10 000 испытаний отмечены как токсичные нашим фильтром контента.
    Количественные метрики:
    • Специфичные для задачи: F1-мера, BLEU-оценка, перплексия
    • Общие: Точность, прецизионность, полнота
    • Операционные: Время отклика (мс), время безотказной работы (%)
    Количественные методы:
    • A/B-тестирование: Сравнение производительности с базовой моделью или более ранней версией.
    • Обратная связь от пользователей: Неявные показатели, такие как частота выполнения задач.
    • Анализ крайних случаев: Процент крайних случаев, обработанных без ошибок.
    Качественные шкалы:
    • Шкалы Лайкерта: “Оцените связность от 1 (бессмысленно) до 5 (идеально логично)”
    • Экспертные рубрики: Лингвисты оценивают качество перевода по определенным критериям
  • Достижимые: Основывайте свои цели на отраслевых эталонах, предыдущих экспериментах, исследованиях ИИ или экспертных знаниях. Ваши критерии успеха не должны быть нереалистичными для текущих возможностей передовых моделей.
  • Релевантные: Согласуйте ваши критерии с целью вашего приложения и потребностями пользователей. Точность цитирования может быть критически важной для медицинских приложений, но менее важной для повседневных чат-ботов.
Критерии
ПлохоМодель должна хорошо классифицировать настроения
ХорошоНаша модель анализа настроений должна достичь F1-меры не менее 0,85 (Измеримо, Конкретно) на отложенном тестовом наборе* из 10 000 разнообразных постов Twitter (Релевантно), что на 5% лучше нашего текущего базового уровня (Достижимо).
*Подробнее об отложенных тестовых наборах в следующем разделе

Общие критерии успеха, которые следует учитывать

Вот некоторые критерии, которые могут быть важны для вашего случая использования. Этот список не является исчерпывающим.
Насколько хорошо модель должна выполнять задачу? Возможно, вам также потребуется учитывать обработку крайних случаев, например, насколько хорошо модель должна работать с редкими или сложными входными данными.
Насколько похожими должны быть ответы модели для схожих типов входных данных? Если пользователь задает один и тот же вопрос дважды, насколько важно, чтобы он получал семантически похожие ответы?
Насколько хорошо модель напрямую отвечает на вопросы или инструкции пользователя? Насколько важно, чтобы информация была представлена логично и понятно?
Насколько хорошо стиль вывода модели соответствует ожиданиям? Насколько уместен ее язык для целевой аудитории?
Какой успешный показатель того, как модель обрабатывает личную или конфиденциальную информацию? Может ли она следовать инструкциям не использовать или не делиться определенными деталями?
Насколько эффективно модель использует предоставленный контекст? Насколько хорошо она ссылается и опирается на информацию, представленную в ее истории?
Какое приемлемое время отклика для модели? Это будет зависеть от требований вашего приложения к работе в реальном времени и ожиданий пользователей.
Каков ваш бюджет на работу модели? Учитывайте такие факторы, как стоимость за вызов API, размер модели и частота использования.
Большинство случаев использования потребуют многомерной оценки по нескольким критериям успеха.
Критерии
ПлохоМодель должна хорошо классифицировать настроения
ХорошоНа отложенном тестовом наборе из 10 000 разнообразных постов Twitter наша модель анализа настроений должна достичь:
- F1-меры не менее 0,85
- 99,5% результатов не являются токсичными
- 90% ошибок вызывают неудобство, а не серьезную ошибку*
- 95% времени отклика < 200 мс
*В реальности мы также определили бы, что означает “неудобство” и “серьезная ошибка”.

Следующие шаги