Cisco stellt fest, dass KI-Modelle mit offener Gewichtung in langen Chats leicht ausgenutzt werden können.

Wenn Unternehmen ihre KI-Modelle offenlegen, folgen oft Innovationen. Doch laut einer neuen Studie von Cisco öffnen sich auch Angreifer diesem Trend. In einer diese Woche veröffentlichten umfassenden Untersuchung fand Cisco AI Threat Research heraus, dass Modelle mit frei verfügbaren Parametern besonders anfällig für Manipulationen durch Angreifer sind, insbesondere bei längeren Nutzerinteraktionen.
Zur Information: Ein Open-Weight-Modell ist ein KI-Modell , dessen trainierte Parameter (die „Gewichte“) öffentlich zugänglich sind. Diese Gewichte verleihen dem Modell seine erlernten Fähigkeiten; sie definieren, wie es nach dem Training Sprache verarbeitet, Texte generiert oder andere Aufgaben ausführt.
Der Bericht mit dem Titel „Tod durch tausend Eingabeaufforderungen: Schwachstellenanalyse offener Modelle “ analysierte acht führende offene Sprachmodelle und fand heraus, dass Angriffe über mehrere Gesprächsrunden hinweg, bei denen ein Angreifer das Modell über mehrere Gesprächsschritte hinweg interagiert, bis zu zehnmal effektiver sind als einmalige Angriffe. Die höchste Erfolgsquote von beeindruckenden 92,78 % wurde mit dem Large-2-Modell von Mistral erzielt, dicht gefolgt vom Qwen3-32B-Modell von Alibaba mit 86,18 %.

Die Forscher von Cisco erklärten, dass Angreifer durch eine Reihe harmloser Interaktionen Vertrauen zum Modell aufbauen und es dann schrittweise dazu bringen können, unzulässige oder schädliche Ausgaben zu erzeugen. Diese allmähliche Eskalation entgeht oft typischen Moderationssystemen, die für einmalige Interaktionen ausgelegt sind.
Der Bericht führt dieses Problem auf einen simplen, aber gefährlichen Fehler zurück, der unter anderem darin besteht, dass Modelle Schwierigkeiten haben, den Sicherheitskontext im Laufe der Zeit aufrechtzuerhalten. Sobald ein Angreifer lernt, seine Anfragen umzuformulieren oder umzuleiten, verlieren viele dieser Systeme die zuvor festgelegten Sicherheitsbeschränkungen aus den Augen.
Die Forscher stellten fest, dass dieses Verhalten es den Modellen ermöglichte, eingeschränkte Inhalte zu generieren, sensible Daten preiszugeben oder bösartigen Code zu erstellen, ohne dass interne Sicherheitsvorkehrungen ausgelöst wurden.
Allerdings schnitten nicht alle Modelle gleich gut ab. Ciscos Daten zeigten, dass die Ausrichtungsstrategien, mit denen Entwickler ein Modell trainieren, Regeln zu befolgen, eine wichtige Rolle für die Sicherheitsleistung spielten. Modelle wie Googles Gemma-3-1B-IT, die den Fokus stark auf Sicherheit während der Ausrichtung legen, wiesen niedrigere Erfolgsraten bei mehrstufigen Angriffen von etwa 25 % auf.
Andererseits erwiesen sich fähigkeitsorientierte Modelle wie Llama 3.3 und Qwen3-32B, die eine breite Funktionalität priorisieren, als weitaus einfacher zu manipulieren, sobald sich eine Konversation über ein paar Austauschvorgänge hinaus erstreckte.
Cisco analysierte insgesamt 102 verschiedene Bedrohungsarten und stellte fest, dass die fünfzehn häufigsten die meisten und schwerwiegendsten Sicherheitsvorfälle verursachten. Dazu zählten Manipulation, Desinformation und die Generierung von Schadcode, die allesamt zu Datenlecks oder -missbrauch führen können, wenn sie in kundenorientierte Tools wie Chatbots oder virtuelle Assistenten integriert werden.

Die Forscher des Unternehmens nutzten ihre firmeneigene KI-Validierungsplattform, um automatisierte, algorithmische Tests an allen Modellen durchzuführen und dabei sowohl ein- als auch mehrstufige Angriffe zu simulieren. Jedes Modell wurde als Blackbox behandelt, d. h. während der Tests wurden keine internen Informationen über Sicherheitssysteme oder Architektur verwendet. Trotzdem erzielte das Team bei nahezu allen getesteten Modellen hohe Erfolgsquoten bei den Angriffen.
„Über alle Modelle hinweg erwiesen sich Jailbreak-Angriffe mit mehreren Gesprächsrunden als äußerst effektiv, mit Erfolgsquoten von bis zu 92,78 Prozent. Der starke Anstieg der Verwundbarkeit von einzelnen Gesprächsrunden hin zu solchen mit mehreren Gesprächsrunden zeigt, wie schwer es den Modellen fällt, Sicherheitsbarrieren über längere Gespräche hinweg aufrechtzuerhalten.“
– Amy Chang (Hauptautorin), Nicholas Conley (Mitautor), Harish Santhanalakshmi Ganesan und Adam Swanda, Cisco AI Threat Research & Security
Ciscos Erkenntnisse sind zwar neu, die Besorgnis selbst jedoch nicht. Sicherheitsexperten warnen seit Langem davor, dass offene KI-Modelle leicht in unsichere Versionen umgewandelt werden können. Die Möglichkeit, diese Systeme so frei anzupassen, gibt Angreifern die Chance, integrierte Schutzmechanismen zu entfernen und sie für schädliche Zwecke zu missbrauchen.
Da die Gewichte öffentlich zugänglich sind, kann jeder das Modell mit böswilligen Absichten neu trainieren, entweder um seine Schutzmechanismen zu schwächen oder um es dazu zu bringen, Inhalte zu produzieren, die geschlossene Modelle ablehnen würden.
Zu den bekannten KI-Modellen mit offenem Gewicht gehören:
- Meta Llama 3 und Llama 3.3 – von Meta für Forschungs- und kommerzielle Zwecke veröffentlicht, weit verbreitet als Basis für benutzerdefinierte Chatbots und Programmierassistenten.
- Mistral 7B und Mistral Large-2 (auch Large-Instruct-2047 genannt) – von Mistral AI, bekannt für hohe Leistung und freizügige Lizenzierung.
- Alibaba Qwen 2 und Qwen 3 – von Alibaba Cloud, optimiert für mehrsprachige Aufgaben und Programmierung.
- Google Gemma 2 und Gemma 3-1B-IT – kleinere, gewichtsoptimierte Modelle, die für sicherheitsorientierte Anwendungen entwickelt wurden.
- Microsoft Phi-3 und Phi-4 – kompakte Modelle mit Schwerpunkt auf logischem Denken und Effizienz.
- Zhipu AI GLM-4 und GLM-4.5-Air – große zweisprachige Modelle, die im gesamten chinesischen KI-Ökosystem beliebt sind.
- DeepSeek V3.1 – ein Open-Weight-Modell von DeepSeek AI, das für Forschungs- und Entwicklungsaufgaben entwickelt wurde.
- Falcon 180B und Falcon 40B – entwickelt vom Technology Innovation Institute (TII) in den VAE.
- Mixtral 8x7B – ein offenes Mixture-of-Experts-Modell, ebenfalls von Mistral AI.
- OpenAI GPT-OSS-20B – OpenAIs eingeschränktes Open-Source-Forschungsmodell, das für Evaluierung und Benchmarking verwendet wird.
Der Bericht fordert kein Ende der Open-Wave-Entwicklung, sondern plädiert für mehr Verantwortung. Cisco appelliert an KI-Labore, die Deaktivierung integrierter Sicherheitsmechanismen während der Feinabstimmung zu erschweren und empfiehlt Unternehmen, bei der Implementierung dieser Systeme einen sicherheitsorientierten Ansatz zu verfolgen. Dies umfasst kontextbezogene Schutzmechanismen, Echtzeitüberwachung und kontinuierliche Red-Teaming-Tests, um Schwachstellen aufzudecken, bevor sie ausgenutzt werden können.
Ciscos Forschung ergab außerdem, dass Angreifer tendenziell dieselben Manipulationstaktiken anwenden, die auch bei Menschen funktionieren. Methoden wie Rollenspiele, subtile Irreführung und schrittweise Eskalation erwiesen sich als besonders effektiv und zeigten, wie sich Social-Engineering-Techniken leicht auf KI-Interaktionen übertragen lassen und Manipulationen provozieren können. Jedes dieser Modelle wird mit seinen trainierten Gewichten zum Download angeboten, sodass Entwickler sie auf ihren eigenen Systemen ausführen oder für spezifische Aufgaben und Projekte anpassen können.
Dennoch stellt Cisco in seinem Bericht fest, dass der Schutz von KI-Modellen wie jede andere Aufgabe im Bereich Softwaresicherheit behandelt werden sollte. Er erfordert kontinuierliche Tests, Schutzmaßnahmen und die Kommunikation über die damit verbundenen Risiken.
Der vollständige Bericht ist hier auf arXiv (PDF) verfügbar.
(Bild von T Hansen von Pixabay)
HackRead



