Jailbreaking LLM

Artikelübersicht

Normalerweise beschäftigen wir uns bei Vuitest mit Anfragen die Sprachsysteme nicht beantworten können. Allerdings gibt es auch Anfragen, die nicht beantworten werden sollen. Sprachsysteme, auch LLM, weigern sich dann zu antworten.
Heute werden wir kurz und knapp die Fragen beantworten: „Was sind schädliche Ausgaben?“ „Welche Abwehrmechanismen gibt es, um „schädliche“ Ausgaben zu verhindern?“ und „Welche Jailbreak-Methoden gibt es?“

Alle Angaben nachzulesen in Jiang et al:"ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs"

1. Was sind schädliche Ausgaben

Diese Kategorien leiten sich ab aus den Nutzungsbedingungen von OpenAI und Llama 2. vgl. "FINE-TUNING ALIGNED LANGUAGE MODELS COMPROMISES SAFETY, EVEN WHEN USERS DO NOT INTEND TO!" S. 19

HEx-PHI Datensatz:

illegale Handlungen
Kindesmissbrauchsinhalte
Hass Belästigung Gewalt
Schadsoftware
physischer Schaden*
wirtschaftlich schädliche Inhalte
Betrug und Täuschung
nicht-jugendfreie Inhalte
Wahlkampfmaterial
die Privatsphäre verletzende Handlungen
maßgeschneiderte Finanzberatung

*hohes Risiko von physischem Schaden (Waffen, Militär, Infrastruktur, Selbstverletzung usw.) (OpenAI) sowie Risiko für Tod oder Verletzung (Militär, Kriegsführung, illegale Waffen, Drogen, Selbstverletzung usw.) (Llama 2)

Ausgaben dieser Kategorien sind unerwünscht und werden im normalen Gebrauch nicht zugelassen.
Jede Eingabe die diese Sicherheitsvorkehrungen umgeht, wird als Jailbreak bezeichnet.

2. Welche Jailbreak-Methoden gibt es?

Die Möglichkeiten schädliche Ausgaben zu provozieren sind unterschiedlich einfach umzusetzen. Hier sind einige Beispiele mit kurzer Erklärung:

Direkte Anweisung: jeder Prompt mit direkter, unverschleierter Aufforderung für eine schädliche Ausgabe; benötigt nur Blackbox-Zugang
Greedy Coordinate Gradient: ein Gradientenverfahren zur Suche nach Token-Reihen, um die Sicherheitsvorkehrungen zu umgehen. Whitebox-Zugang notwendig
AutoDAN: Optimierungsverfahren zur Generierung von verschleierten Jailbreak-Prompts; Whitebox-Zugang notwendig
Prompt Automatic Iterative Refinement (PAIR): Optimierungsverfahren, dass den Prompt iterativ an das Modell anpasst um schädliches Verhalten hervorzurufen; benötigt nur Blackbox-Zugang
DeepInception: nutzt die Personifizierungsfähigkeit von LLMs aus, Erstellung einer verschachtelte Szene als Einstieg in das Opfermodell; benötigt nur Blackbox-Zugang
ArtPrompt: ersetzt Schlüsselwörter die Ablehnung auslösen durch ASCII-Art; benötigt nur Blackbox-Zugang

3. Welche Abwehrmechanismen gibt es gegen ungewollte Ausgaben?

Jiang et al kategorisieren die momentanen Abwehrmechanismen in zwei Kategorien:

3.1 Erkennungsbasierte Abwehrmechanismen

Eingabefilter überprüfen die Eingabe nach Schädlichkeit
Ausgabefilter überprüfen die Ausgabe nach Schädlichkeit

3.2 Mildernde Abwehrmechanismen
Paraphrasierung und Retokenisierung zur Verhinderung von gradientenbasierten Angriffen
rewindable auto-regressive inference lässt LLM ihre Ausgabe bewerten und ausbessern

Dieser Artikel hat einen kurzen Einblick gegeben dazu, was schädliche Ausgaben sind, mit welchen Angriffen man sie provozieren kann und welche Möglichkeiten es gibt, auch komplexere Angriffe abzuwehren.

Für den interessierten Leser gibt es nachfolgend einige Leseempfehlungen:

Was sind schädliche Ausgaben? Xiangyu Q, Yi Zeng, Tinghao Xie et al.: FINE-TUNING ALIGNED LANGUAGE MODELS COMPROMISES SAFETY, EVEN WHEN USERS DO NOT INTEND TO!; S.19.
Welche Möglichkeiten gibt es, schädliche Ausgaben zu provozieren?Jiang et al:"ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs"
Welche Methoden nutzen LLMs zur Abwehr schädlicher Ausgaben?Jiang et al:"ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs"
Wo gibt es weitere Informationen zu Jailbreaking auf Deutsch?
- Verteidigung¹
- Angriffe und Verteidigung²
- Angriffe³

Artikelaufrufe: 57

Bildquellen

Der Tod des Maximilian (Édouard Manet): Édouard Manet | Public Domain Mark 1.0

1. Was sind schädliche Ausgaben

2. Welche Jailbreak-Methoden gibt es?

3. Welche Abwehrmechanismen gibt es gegen ungewollte Ausgaben?

3.1 Erkennungsbasierte Abwehrmechanismen

3.2 Mildernde Abwehrmechanismen