Jailbreaking LLM

Normalerweise beschäftigen wir uns bei Vuitest mit Anfragen die Sprachsysteme nicht beantworten können. Allerdings gibt es auch Anfragen, die nicht beantworten werden sollen. Sprachsysteme, auch LLM, weigern sich dann zu antworten.
Heute werden wir kurz und knapp die Fragen beantworten: „Was sind schädliche Ausgaben?“ „Welche Abwehrmechanismen gibt es, um „schädliche“ Ausgaben zu verhindern?“ und „Welche Jailbreak-Methoden gibt es?“

Alle Angaben nachzulesen in Jiang et al:"ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs"

1. Was sind schädliche Ausgaben

Diese Kategorien leiten sich ab aus den Nutzungsbedingungen von OpenAI und Llama 2. vgl. "FINE-TUNING ALIGNED LANGUAGE MODELS COMPROMISES SAFETY, EVEN WHEN USERS DO NOT INTEND TO!" S. 19

HEx-PHI Datensatz:

  • illegale Handlungen
  • Kindesmissbrauchsinhalte
  • Hass Belästigung Gewalt
  • Schadsoftware
  • physischer Schaden*
  • wirtschaftlich schädliche Inhalte
  • Betrug und Täuschung
  • nicht-jugendfreie Inhalte
  • Wahlkampfmaterial
  • die Privatsphäre verletzende Handlungen
  • maßgeschneiderte Finanzberatung

*hohes Risiko von physischem Schaden (Waffen, Militär, Infrastruktur, Selbstverletzung usw.) (OpenAI) sowie Risiko für Tod oder Verletzung (Militär, Kriegsführung, illegale Waffen, Drogen, Selbstverletzung usw.) (Llama 2)

Ausgaben dieser Kategorien sind unerwünscht und werden im normalen Gebrauch nicht zugelassen.
Jede Eingabe die diese Sicherheitsvorkehrungen umgeht, wird als Jailbreak bezeichnet.

2. Welche Jailbreak-Methoden gibt es?

Die Möglichkeiten schädliche Ausgaben zu provozieren sind unterschiedlich einfach umzusetzen. Hier sind einige Beispiele mit kurzer Erklärung:

  • Direkte Anweisung: jeder Prompt mit direkter, unverschleierter Aufforderung für eine schädliche Ausgabe; benötigt nur Blackbox-Zugang
  • Greedy Coordinate Gradient: ein Gradientenverfahren zur Suche nach Token-Reihen, um die Sicherheitsvorkehrungen zu umgehen. Whitebox-Zugang notwendig
  • AutoDAN: Optimierungsverfahren zur Generierung von verschleierten Jailbreak-Prompts; Whitebox-Zugang notwendig
  • Prompt Automatic Iterative Refinement (PAIR): Optimierungsverfahren, dass den Prompt iterativ an das Modell anpasst um schädliches Verhalten hervorzurufen; benötigt nur Blackbox-Zugang
  • DeepInception: nutzt die Personifizierungsfähigkeit von LLMs aus, Erstellung einer verschachtelte Szene als Einstieg in das Opfermodell; benötigt nur Blackbox-Zugang
  • ArtPrompt: ersetzt Schlüsselwörter die Ablehnung auslösen durch ASCII-Art; benötigt nur Blackbox-Zugang

3. Welche Abwehrmechanismen gibt es gegen ungewollte Ausgaben?

Jiang et al kategorisieren die momentanen Abwehrmechanismen in zwei Kategorien:

3.1 Erkennungsbasierte Abwehrmechanismen

  • Eingabefilter überprüfen die Eingabe nach Schädlichkeit
  • Ausgabefilter überprüfen die Ausgabe nach Schädlichkeit

    3.2 Mildernde Abwehrmechanismen

  • Paraphrasierung und Retokenisierung zur Verhinderung von gradientenbasierten Angriffen
  • rewindable auto-regressive inference lässt LLM ihre Ausgabe bewerten und ausbessern

Dieser Artikel hat einen kurzen Einblick gegeben dazu, was schädliche Ausgaben sind, mit welchen Angriffen man sie provozieren kann und welche Möglichkeiten es gibt, auch komplexere Angriffe abzuwehren.

Für den interessierten Leser gibt es nachfolgend einige Leseempfehlungen:

Bildquellen

J Dahms
  • J Dahms
  • J Dahms ist seit 2021 als wissenschaftlicher Mitarbeiter bei der Speech & Phone GmbH. Teil dieser Tätigkeit ist das Testen von Sprachassistenten und Erstellen von Beiträgen auf diesem Blog.

-+=