Gezieltes Kompromittieren von Sprachmodellen - Wie man Generative KI ganz einfach hacken kann

Über diesen Vortrag

Über diese Masterclass

Große Sprachmodelle (LLMs) werden aktuell vielfältig und intensiv genutzt, aber sind anfällig für Angriffe. Bisher wird diese Möglichkeit sehr wenig, bzw. rein aus der Perspektive des Datenschutzes betrachtet. Das reicht aber bei weitem nicht aus; die wirklich relevanten Bedrohungen sind ganz woanders, und es ist nur eine Frage der Zeit, bis sie real werden.

Indirect Prompt Injection ermöglicht eine ferngesteuerte Übernahme von LLM-Anwendungen im großen Stil. Dabei schmuggelt ein Angreifer über externe Quellen (Webseiten, Dokumente, etc.) versteckte Anweisungen in den Dialogkontext eines Sprachmodells, und bringt den Dialog unter seine Kontrolle. Der Nutzer bekommt davon nichts mit.

Diese Schwachstelle wurde von sequire technology im Februar 2023 veröffentlicht und demonstriert. Dazu gab es ausführliche Gespräche mit betroffenen Anbietern, wie beispielsweise Microsoft, OpenAI und Google. Im Ranking der gefährlichsten Schwachstellen von Sprachmodellen (OWASP Top 10) wurde Prompt Injection als Top 1 Bedrohung gelistet; das Bundesamt für Sicherheit in der Informationstechnik veröffentlichet ein Warnung basierend auf der Arbeit von sequire.

Im Vortrag diskutiert Dr. Christoph Endres die Bedrohungen von Großen Sprachmodellen, erläutert Indirekt Prompt Injection im Detail, gibt Beispiele für aktuelle und zukünftige Angriffe und erläutert, warum die bisherigen Abwehrmaßnahmen nicht funktionieren bzw. ausreichen werden.

‍