Große Sprachmodelle zeigen Schwächen bei wiederholten KI-Angriffen

Worum geht’s?

Cisco-Forscher haben gravierende Schwachstellen in der Sicherheitsarchitektur großer Sprachmodelle aufgedeckt. Die zentrale Erkenntnis: Aktuelle Bewertungsverfahren erfassen das tatsächliche Risiko nur unzureichend, da sie auf einzelnen Anfragen basieren. Realistische Angriffsszenarien arbeiten jedoch mit aufeinanderfolgenden, strategisch aufgebauten Eingaben – sogenannten Multi-Turn-Attacken. Diese Methode erzielt dramatisch höhere Erfolgsquoten beim Umgehen von Sicherheitsvorkehrungen.

In der Untersuchung wurden 15 weitverbreitete KI-Modelle systematisch auf ihre Widerstandsfähigkeit gegenüber mehrstufigen Angriffen getestet. Die Resultate zeigen eindeutig: Was bei einzelnen Anfragen noch sicher erscheint, wird durch wiederholte, geschickt formulierte Eingaben zunehmend angreifbar.

Hintergrund & Einordnung

Die Testresultate offenbaren beträchtliche Unterschiede zwischen einfachen und komplexen Angriffsmustern. Am Beispiel von Googles Gemini 3 Pro wird dies besonders deutlich: Während einfache Angriffe nur in 18,10 Prozent der Fälle erfolgreich waren, stieg die Quote bei mehrstufigen Attacken auf 73,35 Prozent. Dieses Muster zeigte sich modellübergreifend, wobei verschiedene Konfigurationen – etwa mit oder ohne aktiviertem Reasoning – zu erheblichen Schwankungen in der Sicherheitsleistung führten.

Die Angreifer nutzen dabei diverse Techniken: Rollenspiele, kontextuelle Manipulation und schrittweises Verschieben von Grenzen. Open-Source-Modelle erwiesen sich als ähnlich verwundbar wie proprietäre Lösungen. Die Forscher betonen, dass standardisierte Sicherheitsbenchmarks die Realität nicht abbilden, da echte Angreifer iterativ vorgehen und Schwachstellen systematisch ausnutzen.

Die Erkenntnisse haben weitreichende Konsequenzen für kommende Regulierungsrahmen. Cisco fordert Entwickler und Anbieter auf, Sicherheitsmetriken transparenter zu veröffentlichen und Bewertungsverfahren zu etablieren, die beide Angriffsformen berücksichtigen. Dies könnte eine grundlegende Neubewertung bisheriger Sicherheitsstandards in der KI-Branche nach sich ziehen.

Was bedeutet das?

Bestehende Sicherheitsbewertungen für Sprachmodelle bilden reale Bedrohungsszenarien nicht ausreichend ab und wiegen Betreiber in falscher Sicherheit
Entwickler müssen ihre Testverfahren grundlegend überarbeiten und mehrstufige Angriffsszenarien in die Evaluierung integrieren
Unternehmen, die KI-Modelle einsetzen, sollten zusätzliche Schutzebenen implementieren, da die Modelle selbst anfälliger sind als bisher angenommen
Regulierungsbehörden werden voraussichtlich strengere Anforderungen an die Sicherheitszertifizierung von KI-Systemen stellen
Die Transparenz bei Sicherheitsmetriken muss erhöht werden, um fundierte Entscheidungen beim Modellauswahl treffen zu können