Jailbreaking LLM
Artikelübersicht
Heute werden wir kurz und knapp die Fragen beantworten: „Was sind schädliche Ausgaben?“ „Welche Abwehrmechanismen gibt es, um „schädliche“ Ausgaben zu verhindern?“ und „Welche Jailbreak-Methoden gibt es?“
Alle Angaben nachzulesen in Jiang et al:"ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs"
1. Was sind schädliche Ausgaben
Diese Kategorien leiten sich ab aus den Nutzungsbedingungen von OpenAI und Llama 2. vgl. "FINE-TUNING ALIGNED LANGUAGE MODELS COMPROMISES SAFETY, EVEN WHEN USERS DO NOT INTEND TO!" S. 19
HEx-PHI Datensatz:
- illegale Handlungen
- Kindesmissbrauchsinhalte
- Hass Belästigung Gewalt
- Schadsoftware
- physischer Schaden*
- wirtschaftlich schädliche Inhalte
- Betrug und Täuschung
- nicht-jugendfreie Inhalte
- Wahlkampfmaterial
- die Privatsphäre verletzende Handlungen
- maßgeschneiderte Finanzberatung
*hohes Risiko von physischem Schaden (Waffen, Militär, Infrastruktur, Selbstverletzung usw.) (OpenAI) sowie Risiko für Tod oder Verletzung (Militär, Kriegsführung, illegale Waffen, Drogen, Selbstverletzung usw.) (Llama 2)
Ausgaben dieser Kategorien sind unerwünscht und werden im normalen Gebrauch nicht zugelassen.
Jede Eingabe die diese Sicherheitsvorkehrungen umgeht, wird als Jailbreak bezeichnet.
2. Welche Jailbreak-Methoden gibt es?
Die Möglichkeiten schädliche Ausgaben zu provozieren sind unterschiedlich einfach umzusetzen. Hier sind einige Beispiele mit kurzer Erklärung:
- Direkte Anweisung: jeder Prompt mit direkter, unverschleierter Aufforderung für eine schädliche Ausgabe; benötigt nur Blackbox-Zugang
- Greedy Coordinate Gradient: ein Gradientenverfahren zur Suche nach Token-Reihen, um die Sicherheitsvorkehrungen zu umgehen. Whitebox-Zugang notwendig
- AutoDAN: Optimierungsverfahren zur Generierung von verschleierten Jailbreak-Prompts; Whitebox-Zugang notwendig
- Prompt Automatic Iterative Refinement (PAIR): Optimierungsverfahren, dass den Prompt iterativ an das Modell anpasst um schädliches Verhalten hervorzurufen; benötigt nur Blackbox-Zugang
- DeepInception: nutzt die Personifizierungsfähigkeit von LLMs aus, Erstellung einer verschachtelte Szene als Einstieg in das Opfermodell; benötigt nur Blackbox-Zugang
- ArtPrompt: ersetzt Schlüsselwörter die Ablehnung auslösen durch ASCII-Art; benötigt nur Blackbox-Zugang
3. Welche Abwehrmechanismen gibt es gegen ungewollte Ausgaben?
Jiang et al kategorisieren die momentanen Abwehrmechanismen in zwei Kategorien:
3.1 Erkennungsbasierte Abwehrmechanismen
- Eingabefilter überprüfen die Eingabe nach Schädlichkeit
- Ausgabefilter überprüfen die Ausgabe nach Schädlichkeit
3.2 Mildernde Abwehrmechanismen
- Paraphrasierung und Retokenisierung zur Verhinderung von gradientenbasierten Angriffen
- rewindable auto-regressive inference lässt LLM ihre Ausgabe bewerten und ausbessern
Dieser Artikel hat einen kurzen Einblick gegeben dazu, was schädliche Ausgaben sind, mit welchen Angriffen man sie provozieren kann und welche Möglichkeiten es gibt, auch komplexere Angriffe abzuwehren.
Für den interessierten Leser gibt es nachfolgend einige Leseempfehlungen:
- Was sind schädliche Ausgaben? Xiangyu Q, Yi Zeng, Tinghao Xie et al.: FINE-TUNING ALIGNED LANGUAGE MODELS COMPROMISES SAFETY, EVEN WHEN USERS DO NOT INTEND TO!; S.19.
- Welche Möglichkeiten gibt es, schädliche Ausgaben zu provozieren?Jiang et al:"ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs"
- Welche Methoden nutzen LLMs zur Abwehr schädlicher Ausgaben?Jiang et al:"ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs"
- Wo gibt es weitere Informationen zu Jailbreaking auf Deutsch?
Bildquellen
- Der Tod des Maximilian (Édouard Manet): Édouard Manet | Public Domain Mark 1.0