Visite nosso cookbook de moderação de conteúdo para ver um exemplo de implementação de moderação de conteúdo usando Claude.
Antes de construir com Claude
Decida se deve usar Claude para moderação de conteúdo
Aqui estão alguns indicadores-chave de que você deve usar um LLM como Claude em vez de uma abordagem tradicional de ML ou baseada em regras para moderação de conteúdo:Você quer uma implementação econômica e rápida
Você quer uma implementação econômica e rápida
Você deseja tanto compreensão semântica quanto decisões rápidas
Você deseja tanto compreensão semântica quanto decisões rápidas
Você precisa de decisões de política consistentes
Você precisa de decisões de política consistentes
Suas políticas de moderação provavelmente mudarão ou evoluirão ao longo do tempo
Suas políticas de moderação provavelmente mudarão ou evoluirão ao longo do tempo
Você requer raciocínio interpretável para suas decisões de moderação
Você requer raciocínio interpretável para suas decisões de moderação
Você precisa de suporte multilíngue sem manter modelos separados
Você precisa de suporte multilíngue sem manter modelos separados
Você requer suporte multimodal
Você requer suporte multimodal
Gere exemplos de conteúdo para moderar
Antes de desenvolver uma solução de moderação de conteúdo, primeiro crie exemplos de conteúdo que deve ser sinalizado e conteúdo que não deve ser sinalizado. Certifique-se de incluir casos extremos e cenários desafiadores que podem ser difíceis para um sistema de moderação de conteúdo lidar efetivamente. Depois, revise seus exemplos para criar uma lista bem definida de categorias de moderação. Por exemplo, os exemplos gerados por uma plataforma de mídia social podem incluir o seguinte:This movie was great, I really enjoyed it. The main actor really killed it!, o sistema de moderação de conteúdo precisa reconhecer que “killed it” é uma metáfora, não uma indicação de violência real. Conversamente, apesar da falta de menções explícitas de violência, o comentário Delete this post now or you better hide. I am coming after you and your family. deve ser sinalizado pelo sistema de moderação de conteúdo.
A lista unsafe_categories pode ser customizada para atender suas necessidades específicas. Por exemplo, se você deseja prevenir que menores criem conteúdo em seu site, você poderia adicionar “Underage Posting” à lista.
Como moderar conteúdo usando Claude
Selecione o modelo Claude correto
Ao selecionar um modelo, é importante considerar o tamanho dos seus dados. Se custos são uma preocupação, um modelo menor como Claude Haiku 3 é uma excelente escolha devido à sua relação custo-benefício. Abaixo está uma estimativa do custo para moderar texto para uma plataforma de mídia social que recebe um bilhão de posts por mês:-
Tamanho do conteúdo
- Posts por mês: 1bi
- Caracteres por post: 100
- Total de caracteres: 100bi
-
Tokens estimados
- Tokens de entrada: 28,6bi (assumindo 1 token por 3,5 caracteres)
- Porcentagem de mensagens sinalizadas: 3%
- Tokens de saída por mensagem sinalizada: 50
- Total de tokens de saída: 1,5bi
-
Custo estimado Claude Haiku 3
- Custo de token de entrada: 2.860 MTok * $0,25/MTok = $715
- Custo de token de saída: 1.500 MTok * $1,25/MTok = $1.875
- Custo mensal: $715 + $1.875 = $2.590
-
Custo estimado Claude Sonnet 4.5
- Custo de token de entrada: 2.860 MTok * $3,00/MTok = $8.580
- Custo de token de saída: 1.500 MTok * $15,00/MTok = $22.500
- Custo mensal: $8.580 + $22.500 = $31.080
explanation da resposta.Construa um prompt forte
Para usar Claude para moderação de conteúdo, Claude deve entender os requisitos de moderação da sua aplicação. Vamos começar escrevendo um prompt que permite definir suas necessidades de moderação:moderate_message contém um prompt de avaliação que inclui as categorias de conteúdo inseguro e a mensagem que desejamos avaliar. O prompt pede ao Claude para avaliar se a mensagem deve ser moderada, baseado nas categorias inseguras que definimos.
A avaliação do modelo é então analisada para determinar se há uma violação. Se há uma violação, Claude também retorna uma lista de categorias violadas, bem como uma explicação de por que a mensagem é insegura.
Avalie seu prompt
Moderação de conteúdo é um problema de classificação. Assim, você pode usar as mesmas técnicas descritas em nosso cookbook de classificação para determinar a precisão do seu sistema de moderação de conteúdo. Uma consideração adicional é que em vez de tratar moderação de conteúdo como um problema de classificação binária, você pode criar múltiplas categorias para representar vários níveis de risco. Criar múltiplos níveis de risco permite ajustar a agressividade da sua moderação. Por exemplo, você pode querer bloquear automaticamente consultas de usuário que são consideradas de alto risco, enquanto usuários com muitas consultas de risco médio são sinalizados para revisão humana.assess_risk_level que usa Claude para avaliar o nível de risco de uma mensagem. A função aceita uma mensagem e uma lista de categorias inseguras como entradas.
Dentro da função, um prompt é gerado para Claude, incluindo a mensagem a ser avaliada, as categorias inseguras e instruções específicas para avaliar o nível de risco. O prompt instrui Claude a responder com um objeto JSON que inclui o nível de risco, as categorias violadas e uma explicação opcional.
Esta abordagem permite moderação flexível de conteúdo atribuindo níveis de risco. Pode ser perfeitamente integrada em um sistema maior para automatizar filtragem de conteúdo ou sinalizar comentários para revisão humana baseado em seu nível de risco avaliado. Por exemplo, ao executar este código, o comentário Delete this post now or you better hide. I am coming after you and your family. é identificado como alto risco devido à sua ameaça perigosa. Conversamente, o comentário Stay away from the 5G cellphones!! They are using 5G to control you. é categorizado como risco médio.
Implante seu prompt
Uma vez que você está confiante na qualidade da sua solução, é hora de implantá-la em produção. Aqui estão algumas melhores práticas a seguir ao usar moderação de conteúdo em produção:-
Forneça feedback claro aos usuários: Quando entrada do usuário é bloqueada ou uma resposta é sinalizada devido à moderação de conteúdo, forneça feedback informativo e construtivo para ajudar usuários a entender por que sua mensagem foi sinalizada e como eles podem reformulá-la apropriadamente. Nos exemplos de código acima, isso é feito através da tag
explanationna resposta de Claude. - Analise conteúdo moderado: Mantenha registro dos tipos de conteúdo sendo sinalizados pelo seu sistema de moderação para identificar tendências e áreas potenciais para melhoria.
- Avalie e melhore continuamente: Avalie regularmente o desempenho do seu sistema de moderação de conteúdo usando métricas como rastreamento de precisão e recall. Use esses dados para refinar iterativamente seus prompts de moderação, palavras-chave e critérios de avaliação.
Melhore o desempenho
Em cenários complexos, pode ser útil considerar estratégias adicionais para melhorar o desempenho além das técnicas padrão de engenharia de prompt. Aqui estão algumas estratégias avançadas:Defina tópicos e forneça exemplos
Além de listar as categorias inseguras no prompt, melhorias adicionais podem ser feitas fornecendo definições e frases relacionadas a cada categoria.moderate_message_with_definitions expande a função anterior moderate_message permitindo que cada categoria insegura seja pareada com uma definição detalhada. Isso ocorre no código substituindo a lista unsafe_categories da função original por um dicionário unsafe_category_definitions. Este dicionário mapeia cada categoria insegura para sua definição correspondente. Tanto os nomes das categorias quanto suas definições são incluídos no prompt.
Notavelmente, a definição para a categoria Specialized Advice agora especifica os tipos de conselho financeiro que devem ser proibidos. Como resultado, o comentário It's a great time to invest in gold!, que anteriormente passou na avaliação moderate_message, agora dispara uma violação.
Considere processamento em lote
Para reduzir cus tos em situações onde moderação em tempo real não é necessária, considere moderar mensagens em lotes. Inclua múltiplas mensagens dentro do contexto do prompt, e peça ao Claude para avaliar quais mensagens devem ser moderadas.batch_moderate_messages lida com a moderação de um lote inteiro de mensagens com uma única chamada da API Claude.
Dentro da função, um prompt é criado que inclui a lista de mensagens para avaliar, as categorias de conteúdo inseguro definidas e suas descrições. O prompt direciona Claude a retornar um objeto JSON listando todas as mensagens que contêm violações. Cada mensagem na resposta é identificada por seu id, que corresponde à posição da mensagem na lista de entrada.
Tenha em mente que encontrar o tamanho de lote ótimo para suas necessidades específicas pode requerer alguma experimentação. Embora tamanhos de lote maiores possam reduzir custos, eles também podem levar a uma ligeira diminuição na qualidade. Adicionalmente, você pode precisar aumentar o parâmetro max_tokens na chamada da API Claude para acomodar respostas mais longas. Para detalhes sobre o número máximo de tokens que seu modelo escolhido pode produzir, consulte a página de comparação de modelos.