Visitez notre livre de recettes de modération de contenu pour voir un exemple d’implémentation de modération de contenu utilisant Claude.
Avant de construire avec Claude
Décider d’utiliser Claude pour la modération de contenu
Voici quelques indicateurs clés que vous devriez utiliser un LLM comme Claude au lieu d’une approche ML traditionnelle ou basée sur des règles pour la modération de contenu :Vous voulez une implémentation rentable et rapide
Vous voulez une implémentation rentable et rapide
Vous désirez à la fois une compréhension sémantique et des décisions rapides
Vous désirez à la fois une compréhension sémantique et des décisions rapides
Vous avez besoin de décisions politiques cohérentes
Vous avez besoin de décisions politiques cohérentes
Vos politiques de modération sont susceptibles de changer ou d'évoluer au fil du temps
Vos politiques de modération sont susceptibles de changer ou d'évoluer au fil du temps
Vous nécessitez un raisonnement interprétable pour vos décisions de modération
Vous nécessitez un raisonnement interprétable pour vos décisions de modération
Vous avez besoin d'un support multilingue sans maintenir des modèles séparés
Vous avez besoin d'un support multilingue sans maintenir des modèles séparés
Vous nécessitez un support multimodal
Vous nécessitez un support multimodal
Générer des exemples de contenu à modérer
Avant de développer une solution de modération de contenu, créez d’abord des exemples de contenu qui devrait être signalé et de contenu qui ne devrait pas être signalé. Assurez-vous d’inclure des cas limites et des scénarios difficiles qui peuvent être difficiles à gérer efficacement pour un système de modération de contenu. Ensuite, examinez vos exemples pour créer une liste bien définie de catégories de modération. Par exemple, les exemples générés par une plateforme de médias sociaux pourraient inclure les suivants :Ce film était génial, j'ai vraiment apprécié. L'acteur principal a vraiment assuré !, le système de modération de contenu doit reconnaître que “a vraiment assuré” est une métaphore, pas une indication de violence réelle. Inversement, malgré l’absence de mentions explicites de violence, le commentaire Supprime ce post maintenant ou tu ferais mieux de te cacher. Je viens après toi et ta famille. devrait être signalé par le système de modération de contenu.
La liste unsafe_categories peut être personnalisée pour répondre à vos besoins spécifiques. Par exemple, si vous souhaitez empêcher les mineurs de créer du contenu sur votre site web, vous pourriez ajouter “Publication de Mineurs” à la liste.
Comment modérer le contenu en utilisant Claude
Sélectionner le bon modèle Claude
Lors de la sélection d’un modèle, il est important de considérer la taille de vos données. Si les coûts sont une préoccupation, un modèle plus petit comme Claude Haiku 3 est un excellent choix en raison de sa rentabilité. Voici une estimation du coût pour modérer le texte pour une plateforme de médias sociaux qui reçoit un milliard de posts par mois :-
Taille du contenu
- Posts par mois : 1 milliard
- Caractères par post : 100
- Total de caractères : 100 milliards
-
Tokens estimés
- Tokens d’entrée : 28,6 milliards (en supposant 1 token par 3,5 caractères)
- Pourcentage de messages signalés : 3%
- Tokens de sortie par message signalé : 50
- Total de tokens de sortie : 1,5 milliard
-
Coût estimé de Claude Haiku 3
- Coût des tokens d’entrée : 2 860 MTok * $0,25/MTok = $715
- Coût des tokens de sortie : 1 500 MTok * $1,25/MTok = $1 875
- Coût mensuel : $715 + $1 875 = $2 590
-
Coût estimé de Claude Sonnet 4.5
- Coût des tokens d’entrée : 2 860 MTok * $3,00/MTok = $8 580
- Coût des tokens de sortie : 1 500 MTok * $15,00/MTok = $22 500
- Coût mensuel : $8 580 + $22 500 = $31 080
explanation de la réponse.Construire un prompt solide
Pour utiliser Claude pour la modération de contenu, Claude doit comprendre les exigences de modération de votre application. Commençons par écrire un prompt qui vous permet de définir vos besoins de modération :moderate_message contient un prompt d’évaluation qui inclut les catégories de contenu dangereux et le message que nous souhaitons évaluer. Le prompt demande à Claude d’évaluer si le message doit être modéré, basé sur les catégories dangereuses que nous avons définies.
L’évaluation du modèle est ensuite analysée pour déterminer s’il y a une violation. S’il y a une violation, Claude retourne également une liste des catégories violées, ainsi qu’une explication de pourquoi le message est dangereux.
Évaluer votre prompt
La modération de contenu est un problème de classification. Ainsi, vous pouvez utiliser les mêmes techniques décrites dans notre livre de recettes de classification pour déterminer la précision de votre système de modération de contenu. Une considération supplémentaire est qu’au lieu de traiter la modération de contenu comme un problème de classification binaire, vous pouvez plutôt créer plusieurs catégories pour représenter divers niveaux de risque. Créer plusieurs niveaux de risque vous permet d’ajuster l’agressivité de votre modération. Par exemple, vous pourriez vouloir bloquer automatiquement les requêtes d’utilisateurs qui sont jugées à haut risque, tandis que les utilisateurs avec de nombreuses requêtes à risque moyen sont signalés pour examen humain.assess_risk_level qui utilise Claude pour évaluer le niveau de risque d’un message. La fonction accepte un message et une liste de catégories dangereuses comme entrées.
Dans la fonction, un prompt est généré pour Claude, incluant le message à évaluer, les catégories dangereuses et des instructions spécifiques pour évaluer le niveau de risque. Le prompt instruit Claude à répondre avec un objet JSON qui inclut le niveau de risque, les catégories violées et une explication optionnelle.
Cette approche permet une modération de contenu flexible en attribuant des niveaux de risque. Elle peut être intégrée de manière transparente dans un système plus large pour automatiser le filtrage de contenu ou signaler des commentaires pour examen humain basé sur leur niveau de risque évalué. Par exemple, lors de l’exécution de ce code, le commentaire Supprime ce post maintenant ou tu ferais mieux de te cacher. Je viens après toi et ta famille. est identifié comme à haut risque en raison de sa menace dangereuse. Inversement, le commentaire Éloignez-vous des téléphones 5G !! Ils utilisent la 5G pour vous contrôler. est catégorisé comme à risque moyen.
Déployer votre prompt
Une fois que vous êtes confiant dans la qualité de votre solution, il est temps de la déployer en production. Voici quelques meilleures pratiques à suivre lors de l’utilisation de la modération de contenu en production :-
Fournir des commentaires clairs aux utilisateurs : Lorsque l’entrée de l’utilisateur est bloquée ou qu’une réponse est signalée en raison de la modération de contenu, fournissez des commentaires informatifs et constructifs pour aider les utilisateurs à comprendre pourquoi leur message a été signalé et comment ils peuvent le reformuler de manière appropriée. Dans les exemples de codage ci-dessus, cela se fait à travers la balise
explanationdans la réponse de Claude. - Analyser le contenu modéré : Gardez une trace des types de contenu signalés par votre système de modération pour identifier les tendances et les domaines potentiels d’amélioration.
- Évaluer et améliorer continuellement : Évaluez régulièrement les performances de votre système de modération de contenu en utilisant des métriques telles que le suivi de la précision et du rappel. Utilisez ces données pour affiner de manière itérative vos prompts de modération, mots-clés et critères d’évaluation.
Améliorer les performances
Dans des scénarios complexes, il peut être utile de considérer des stratégies supplémentaires pour améliorer les performances au-delà des techniques d’ingénierie de prompt standard. Voici quelques stratégies avancées :Définir les sujets et fournir des exemples
En plus de lister les catégories dangereuses dans le prompt, des améliorations supplémentaires peuvent être apportées en fournissant des définitions et des phrases liées à chaque catégorie.moderate_message_with_definitions étend la fonction moderate_message précédente en permettant à chaque catégorie dangereuse d’être associée à une définition détaillée. Cela se produit dans le code en remplaçant la liste unsafe_categories de la fonction originale par un dictionnaire unsafe_category_definitions. Ce dictionnaire mappe chaque catégorie dangereuse à sa définition correspondante. Les noms des catégories et leurs définitions sont inclus dans le prompt.
Notamment, la définition pour la catégorie Conseils Spécialisés spécifie maintenant les types de conseils financiers qui devraient être interdits. En conséquence, le commentaire C'est un bon moment pour investir dans l'or !, qui passait précédemment l’évaluation moderate_message, déclenche maintenant une violation.
Considérer le traitement par lots
Pour réduire les coûts dans des situations où la modération en temps réel n’est pas nécessaire, considérez modérer les messages par lots. Incluez plusieurs messages dans le contexte du prompt, et demandez à Claude d’évaluer quels messages devraient être modérés.batch_moderate_messages gère la modération d’un lot entier de messages avec un seul appel API Claude.
À l’intérieur de la fonction, un prompt est créé qui inclut la liste des messages à évaluer, les catégories de contenu dangereux définies et leurs descriptions. Le prompt dirige Claude à retourner un objet JSON listant tous les messages qui contiennent des violations. Chaque message dans la réponse est identifié par son id, qui correspond à la position du message dans la liste d’entrée.
Gardez à l’esprit que trouver la taille de lot optimale pour vos besoins spécifiques peut nécessiter quelques expérimentations. Bien que des tailles de lot plus importantes puissent réduire les coûts, elles peuvent également conduire à une légère diminution de la qualité. De plus, vous pourriez avoir besoin d’augmenter le paramètre max_tokens dans l’appel API Claude pour accommoder des réponses plus longues. Pour des détails sur le nombre maximum de tokens que votre modèle choisi peut produire, référez-vous à la page de comparaison des modèles.