Посетите нашу книгу рецептов по модерации контента, чтобы увидеть пример реализации модерации контента с использованием Claude.
Перед созданием с Claude
Решите, использовать ли Claude для модерации контента
Вот некоторые ключевые индикаторы того, что вам следует использовать LLM, такую как Claude, вместо традиционного ML или основанного на правилах подхода для модерации контента:Вы хотите экономически эффективную и быструю реализацию
Вы хотите экономически эффективную и быструю реализацию
Вы желаете как семантическое понимание, так и быстрые решения
Вы желаете как семантическое понимание, так и быстрые решения
Вам нужны последовательные политические решения
Вам нужны последовательные политические решения
Ваши политики модерации, вероятно, изменятся или эволюционируют со временем
Ваши политики модерации, вероятно, изменятся или эволюционируют со временем
Вам требуется интерпретируемое рассуждение для ваших решений модерации
Вам требуется интерпретируемое рассуждение для ваших решений модерации
Вам нужна многоязычная поддержка без поддержания отдельных моделей
Вам нужна многоязычная поддержка без поддержания отдельных моделей
Вам требуется мультимодальная поддержка
Вам требуется мультимодальная поддержка
Генерируйте примеры контента для модерации
Перед разработкой решения для модерации контента сначала создайте примеры контента, который должен быть помечен, и контента, который не должен быть помечен. Убедитесь, что вы включили пограничные случаи и сложные сценарии, которые могут быть трудными для эффективной обработки системой модерации контента. После этого просмотрите свои примеры, чтобы создать четко определенный список категорий модерации. Например, примеры, сгенерированные платформой социальных медиа, могут включать следующее:This movie was great, I really enjoyed it. The main actor really killed it! система модерации контента должна распознать, что “killed it” является метафорой, а не указанием на реальное насилие. Наоборот, несмотря на отсутствие явных упоминаний насилия, комментарий Delete this post now or you better hide. I am coming after you and your family. должен быть помечен системой модерации контента.
Список unsafe_categories может быть настроен в соответствии с вашими конкретными потребностями. Например, если вы хотите предотвратить создание контента несовершеннолетними на вашем веб-сайте, вы можете добавить “Underage Posting” к списку.
Как модерировать контент с помощью Claude
Выберите правильную модель Claude
При выборе модели важно учитывать размер ваших данных. Если затраты вызывают беспокойство, меньшая модель, такая как Claude Haiku 3, является отличным выбором из-за своей экономической эффективности. Ниже приведена оценка стоимости модерации текста для платформы социальных медиа, которая получает один миллиард постов в месяц:-
Размер контента
- Постов в месяц: 1 млрд
- Символов на пост: 100
- Общее количество символов: 100 млрд
-
Оценочные токены
- Входные токены: 28,6 млрд (предполагая 1 токен на 3,5 символа)
- Процент помеченных сообщений: 3%
- Выходные токены на помеченное сообщение: 50
- Общие выходные токены: 1,5 млрд
-
Оценочная стоимость Claude Haiku 3
- Стоимость входных токенов: 2,860 MTok * $0.25/MTok = $715
- Стоимость выходных токенов: 1,500 MTok * $1.25/MTok = $1,875
- Месячная стоимость: $715 + $1,875 = $2,590
-
Оценочная стоимость Claude Sonnet 4.5
- Стоимость входных токенов: 2,860 MTok * $3.00/MTok = $8,580
- Стоимость выходных токенов: 1,500 MTok * $15.00/MTok = $22,500
- Месячная стоимость: $8,580 + $22,500 = $31,080
explanation из ответа.Создайте сильный промпт
Чтобы использовать Claude для модерации контента, Claude должен понимать требования модерации вашего приложения. Давайте начнем с написания промпта, который позволяет вам определить ваши потребности в модерации:moderate_message содержит промпт оценки, который включает категории небезопасного контента и сообщение, которое мы хотим оценить. Промпт просит Claude оценить, должно ли сообщение быть модерировано, основываясь на небезопасных категориях, которые мы определили.
Оценка модели затем анализируется, чтобы определить, есть ли нарушение. Если есть нарушение, Claude также возвращает список нарушенных категорий, а также объяснение того, почему сообщение небезопасно.
Оцените ваш промпт
Модерация контента - это проблема классификации. Таким образом, вы можете использовать те же техники, изложенные в нашей книге рецептов по классификации, чтобы определить точность вашей системы модерации контента. Одно дополнительное соображение заключается в том, что вместо рассмотрения модерации контента как проблемы бинарной классификации, вы можете вместо этого создать несколько категорий для представления различных уровней риска. Создание нескольких уровней риска позволяет вам настроить агрессивность вашей модерации. Например, вы можете автоматически блокировать пользовательские запросы, которые считаются высокорисковыми, в то время как пользователи с множеством среднерисковых запросов помечаются для человеческого рассмотрения.assess_risk_level, которая использует Claude для оценки уровня риска сообщения. Функция принимает сообщение и список небезопасных категорий в качестве входных данных.
Внутри функции генерируется промпт для Claude, включающий сообщение для оценки, небезопасные категории и конкретные инструкции для оценки уровня риска. Промпт инструктирует Claude отвечать объектом JSON, который включает уровень риска, нарушенные категории и необязательное объяснение.
Этот подход обеспечивает гибкую модерацию контента путем назначения уровней риска. Он может быть легко интегрирован в более крупную систему для автоматизации фильтрации контента или пометки комментариев для человеческого рассмотрения на основе их оцененного уровня риска. Например, при выполнении этого кода комментарий Delete this post now or you better hide. I am coming after you and your family. идентифицируется как высокорисковый из-за его опасной угрозы. Наоборот, комментарий Stay away from the 5G cellphones!! They are using 5G to control you. категоризируется как среднерисковый.
Разверните ваш промпт
Как только вы уверены в качестве вашего решения, пришло время развернуть его в продакшене. Вот некоторые лучшие практики, которым следует следовать при использовании модерации контента в продакшене:-
Предоставляйте четкую обратную связь пользователям: Когда пользовательский ввод блокируется или ответ помечается из-за модерации контента, предоставляйте информативную и конструктивную обратную связь, чтобы помочь пользователям понять, почему их сообщение было помечено и как они могут переформулировать его соответствующим образом. В примерах кода выше это делается через тег
explanationв ответе Claude. - Анализируйте модерируемый контент: Отслеживайте типы контента, помечаемого вашей системой модерации, чтобы выявить тенденции и потенциальные области для улучшения.
- Непрерывно оценивайте и улучшайте: Регулярно оценивайте производительность вашей системы модерации контента, используя метрики, такие как отслеживание точности и полноты. Используйте эти данные для итеративного улучшения ваших промптов модерации, ключевых слов и критериев оценки.
Улучшите производительность
В сложных сценариях может быть полезно рассмотреть дополнительные стратегии для улучшения производительности помимо стандартных техник промпт-инжиниринга. Вот некоторые продвинутые стратегии:Определите темы и предоставьте примеры
В дополнение к перечислению небезопасных категорий в промпте, дальнейшие улучшения могут быть сделаны путем предоставления определений и фраз, связанных с каждой категорией.moderate_message_with_definitions расширяет более раннюю функцию moderate_message, позволяя каждой небезопасной категории быть сопряженной с подробным определением. Это происходит в коде путем замены списка unsafe_categories из исходной функции словарем unsafe_category_definitions. Этот словарь сопоставляет каждую небезопасную категорию с ее соответствующим определением. И названия категорий, и их определения включены в промпт.
Примечательно, что определение для категории Specialized Advice теперь указывает типы финансовых советов, которые должны быть запрещены. В результате комментарий It's a great time to invest in gold!, который ранее прошел оценку moderate_message, теперь вызывает нарушение.
Рассмотрите пакетную обработку
Чтобы снизить затраты в ситуациях, когда модерация в реальном времени не нужна, рассмотрите модерацию сообщений пакетами. Включите несколько сообщений в контекст промпта и попросите Claude оценить, какие сообщения должны быть модерированы.batch_moderate_messages обрабатывает модерацию целого пакета сообщений одним вызовом API Claude.
Внутри функции создается промпт, который включает список сообщений для оценки, определенные категории небезопасного контента и их описания. Промпт направляет Claude вернуть объект JSON, перечисляющий все сообщения, содержащие нарушения. Каждое сообщение в ответе идентифицируется по его id, который соответствует позиции сообщения во входном списке.
Имейте в виду, что поиск оптимального размера пакета для ваших конкретных потребностей может потребовать некоторых экспериментов. Хотя большие размеры пакетов могут снизить затраты, они также могут привести к небольшому снижению качества. Кроме того, вам может потребоваться увеличить параметр max_tokens в вызове API Claude для размещения более длинных ответов. Для получения подробной информации о максимальном количестве токенов, которые может выводить выбранная вами модель, обратитесь к странице сравнения моделей.