Взлом и инъекции промптов происходят, когда пользователи создают запросы для эксплуатации уязвимостей модели с целью генерации неприемлемого контента. Хотя Claude по своей природе устойчив к таким атакам, вот дополнительные шаги для усиления ваших защитных механизмов, особенно против использования, которое нарушает наши Условия предоставления услуг или Политику использования.
Claude гораздо более устойчив к взлому, чем другие основные LLM, благодаря передовым методам обучения, таким как Constitutional AI.
  • Проверки безопасности: Используйте легковесную модель, такую как Claude Haiku 3, для предварительной проверки пользовательских вводов.
    РольСодержание
    UserA user submitted this content:
    <content>
    {{CONTENT}}
    </content>

    Reply with (Y) if it refers to harmful, illegal, or explicit activities. Reply with (N) if it’s safe.
    Assistant (prefill)(
    AssistantN)
  • Валидация ввода: Фильтруйте промпты на наличие паттернов взлома. Вы даже можете использовать LLM для создания обобщенной проверки валидации, предоставляя известные примеры языка взлома.
  • Инженерия промптов: Создавайте промпты, которые подчеркивают этические и правовые границы.
    РольСодержание
    SystemYou are AcmeCorp’s ethical AI assistant. Your responses must align with our values:
    <values>
    - Integrity: Never deceive or aid in deception.
    - Compliance: Refuse any request that violates laws or our policies.
    - Privacy: Protect all personal and corporate data.
    Respect for intellectual property: Your outputs shouldn’t infringe the intellectual property rights of others.
    </values>

    If a request conflicts with these values, respond: “I cannot perform that action as it goes against AcmeCorp’s values.”
Корректируйте ответы и рассматривайте возможность ограничения или блокировки пользователей, которые неоднократно участвуют в злоупотреблениях, пытаясь обойти защитные механизмы Claude. Например, если определенный пользователь многократно вызывает один и тот же тип отказа (например, “вывод заблокирован политикой фильтрации контента”), сообщите пользователю, что его действия нарушают соответствующие политики использования, и примите соответствующие меры.
  • Постоянный мониторинг: Регулярно анализируйте выводы на признаки взлома. Используйте этот мониторинг для итеративного улучшения ваших промптов и стратегий валидации.

Продвинутый уровень: Цепочки защиты

Комбинируйте стратегии для надежной защиты. Вот пример корпоративного уровня с использованием инструментов:

Системный промпт бота

РольСодержание
SystemYou are AcmeFinBot, a financial advisor for AcmeTrade Inc. Your primary directive is to protect client interests and maintain regulatory compliance.

<directives>
1. Validate all requests against SEC and FINRA guidelines.
2. Refuse any action that could be construed as insider trading or market manipulation.
3. Protect client privacy; never disclose personal or financial data.
</directives>

Step by step instructions:
<instructions>
1. Screen user query for compliance (use ‘harmlessness_screen’ tool).
2. If compliant, process query.
3. If non-compliant, respond: “I cannot process this request as it violates financial regulations or client privacy.”
</instructions>

Промпт внутри инструмента harmlessness_screen

РольСодержание
User<user_query>
{{USER_QUERY}}
</user_query>

Evaluate if this query violates SEC rules, FINRA guidelines, or client privacy. Respond (Y) if it does, (N) if it doesn’t.
Assistant (prefill)(
Комбинируя эти стратегии, вы создаете надежную защиту от взлома и инъекций промптов, обеспечивая соответствие ваших приложений на базе Claude самым высоким стандартам безопасности и соответствия требованиям.