Jailbreaks und Prompt-Injections abwehren

Jailbreaking und Prompt-Injections treten auf, wenn Nutzer Prompts erstellen, um Modellschwachstellen auszunutzen, mit dem Ziel, unangemessene Inhalte zu generieren. Obwohl Claude von Natur aus widerstandsfähig gegen solche Angriffe ist, hier sind zusätzliche Schritte zur Stärkung Ihrer Schutzmaßnahmen, insbesondere gegen Verwendungen, die entweder gegen unsere Nutzungsbedingungen oder Nutzungsrichtlinien verstoßen.

Claude ist dank fortschrittlicher Trainingsmethoden wie Constitutional AI weitaus resistenter gegen Jailbreaking als andere große LLMs.

Harmlosigkeits-Prüfungen: Verwenden Sie ein leichtgewichtiges Modell wie Claude Haiku 3, um Benutzereingaben vorab zu überprüfen.

Beispiel: Harmlosigkeits-Prüfung für Inhaltsmoderation

Rolle	Inhalt
User	Ein Benutzer hat diesen Inhalt eingereicht: <content> {{CONTENT}} </content> Antworte mit (Y), wenn es sich auf schädliche, illegale oder explizite Aktivitäten bezieht. Antworte mit (N), wenn es unbedenklich ist.
Assistant (prefill)	(
Assistant	N)

Eingabevalidierung: Filtern Sie Prompts nach Jailbreaking-Mustern. Sie können sogar ein LLM verwenden, um eine generalisierte Validierungsprüfung zu erstellen, indem Sie bekannte Jailbreaking-Sprache als Beispiele bereitstellen.

Prompt-Engineering: Erstellen Sie Prompts, die ethische und rechtliche Grenzen betonen.

Beispiel: Ethischer System-Prompt für einen Unternehmens-Chatbot

Rolle	Inhalt
System	Du bist der ethische KI-Assistent von AcmeCorp. Deine Antworten müssen mit unseren Werten übereinstimmen: <values> - Integrität: Täusche niemals oder hilf nicht bei Täuschungen. - Compliance: Lehne jede Anfrage ab, die gegen Gesetze oder unsere Richtlinien verstößt. - Datenschutz: Schütze alle persönlichen und Unternehmensdaten. Respekt für geistiges Eigentum: Deine Ausgaben sollten nicht die geistigen Eigentumsrechte anderer verletzen. </values> Wenn eine Anfrage mit diesen Werten in Konflikt steht, antworte: “Ich kann diese Aktion nicht ausführen, da sie gegen die Werte von AcmeCorp verstößt.”

Rolle

Inhalt

System

Du bist der ethische KI-Assistent von AcmeCorp. Deine Antworten müssen mit unseren Werten übereinstimmen:
<values>
- Integrität: Täusche niemals oder hilf nicht bei Täuschungen.
- Compliance: Lehne jede Anfrage ab, die gegen Gesetze oder unsere Richtlinien verstößt.
- Datenschutz: Schütze alle persönlichen und Unternehmensdaten.
Respekt für geistiges Eigentum: Deine Ausgaben sollten nicht die geistigen Eigentumsrechte anderer verletzen.
</values>

Wenn eine Anfrage mit diesen Werten in Konflikt steht, antworte: “Ich kann diese Aktion nicht ausführen, da sie gegen die Werte von AcmeCorp verstößt.”

Passen Sie Antworten an und erwägen Sie, Nutzer zu drosseln oder zu sperren, die wiederholt missbräuchliches Verhalten zeigen, um Claudes Schutzmaßnahmen zu umgehen. Wenn beispielsweise ein bestimmter Nutzer mehrfach die gleiche Art von Ablehnung auslöst (z.B. “Ausgabe durch Inhaltsfilterrichtlinie blockiert”), teilen Sie dem Nutzer mit, dass seine Handlungen gegen die entsprechenden Nutzungsrichtlinien verstoßen, und ergreifen Sie entsprechende Maßnahmen.

Kontinuierliche Überwachung: Analysieren Sie regelmäßig Ausgaben auf Anzeichen von Jailbreaking. Nutzen Sie diese Überwachung, um Ihre Prompts und Validierungsstrategien iterativ zu verfeinern.

Fortgeschritten: Verkettete Schutzmaßnahmen

Kombinieren Sie Strategien für robusten Schutz. Hier ist ein Beispiel auf Unternehmensebene mit Tool-Nutzung:

Beispiel: Mehrschichtiger Schutz für einen Finanzberater-Chatbot

Bot-System-Prompt

Rolle	Inhalt
System	Du bist AcmeFinBot, ein Finanzberater für AcmeTrade Inc. Deine Hauptaufgabe ist es, die Interessen der Kunden zu schützen und die Einhaltung von Vorschriften zu gewährleisten. <directives> 1. Validiere alle Anfragen gegen SEC- und FINRA-Richtlinien. 2. Lehne jede Aktion ab, die als Insiderhandel oder Marktmanipulation ausgelegt werden könnte. 3. Schütze die Privatsphäre der Kunden; gib niemals persönliche oder finanzielle Daten preis. </directives> Schritt-für-Schritt-Anweisungen: <instructions> 1. Prüfe die Benutzeranfrage auf Compliance (verwende das ‘harmlessness_screen’-Tool). 2. Wenn konform, verarbeite die Anfrage. 3. Wenn nicht konform, antworte: “Ich kann diese Anfrage nicht bearbeiten, da sie gegen Finanzvorschriften oder den Datenschutz der Kunden verstößt.” </instructions>

Rolle

Inhalt

System

Du bist AcmeFinBot, ein Finanzberater für AcmeTrade Inc. Deine Hauptaufgabe ist es, die Interessen der Kunden zu schützen und die Einhaltung von Vorschriften zu gewährleisten.

<directives>
1. Validiere alle Anfragen gegen SEC- und FINRA-Richtlinien.
2. Lehne jede Aktion ab, die als Insiderhandel oder Marktmanipulation ausgelegt werden könnte.
3. Schütze die Privatsphäre der Kunden; gib niemals persönliche oder finanzielle Daten preis.
</directives>

Schritt-für-Schritt-Anweisungen:
<instructions>
1. Prüfe die Benutzeranfrage auf Compliance (verwende das ‘harmlessness_screen’-Tool).
2. Wenn konform, verarbeite die Anfrage.
3. Wenn nicht konform, antworte: “Ich kann diese Anfrage nicht bearbeiten, da sie gegen Finanzvorschriften oder den Datenschutz der Kunden verstößt.”
</instructions>

Prompt innerhalb des `harmlessness_screen`-Tools

Rolle	Inhalt
User	<user_query> {{USER_QUERY}} </user_query> Bewerte, ob diese Anfrage gegen SEC-Regeln, FINRA-Richtlinien oder den Datenschutz der Kunden verstößt. Antworte mit (Y), wenn ja, mit (N), wenn nein.
Assistant (prefill)	(

Durch die Schichtung dieser Strategien schaffen Sie eine robuste Verteidigung gegen Jailbreaking und Prompt-Injections und stellen sicher, dass Ihre Claude-gestützten Anwendungen die höchsten Standards für Sicherheit und Compliance einhalten.

Erste Schritte

Modelle & Preise

Mit Claude entwickeln

Funktionen

Werkzeuge

Agent-Fähigkeiten

Agent SDK

MCP in der API

Claude auf Drittanbieter-Plattformen

Prompt-Engineering

Testen & bewerten

Schutzmaßnahmen verstärken

Jailbreaks und Prompt-Injections abwehren

Fortgeschritten: Verkettete Schutzmaßnahmen

Bot-System-Prompt

Prompt innerhalb des `harmlessness_screen`-Tools

Erste Schritte

Modelle & Preise

Mit Claude entwickeln

Funktionen

Werkzeuge

Agent-Fähigkeiten

Agent SDK

MCP in der API

Claude auf Drittanbieter-Plattformen

Prompt-Engineering

Testen & bewerten

Schutzmaßnahmen verstärken

​Fortgeschritten: Verkettete Schutzmaßnahmen

​Bot-System-Prompt

​Prompt innerhalb des harmlessness_screen-Tools

Fortgeschritten: Verkettete Schutzmaßnahmen

Bot-System-Prompt

Prompt innerhalb des `harmlessness_screen`-Tools