Cybersecurity in der Ära autonomer KI
Claude Mythos Preview ist das fähigste KI-Modell, das Anthropic nach eigenen Aussagen je trainiert hat. Es wird bis auf weiteres nicht für die Öffentlichkeit freigegeben, sondern nur ausgewählten Partnern für spezielle Projekte zur Verfügung gestellt. Warum das so ist – und was es bedeutet habe ich mir genauer angesehen.
Was ist Claude Mythos Preview?
Claude Mythos Preview ist Anthropics neuestes Frontier-Modell, veröffentlicht am 7. April 2026. Laut dem begleitenden System Card zeigt es „einen markanten Sprung“ bei vielen Evaluierungs-Benchmarks gegenüber dem bisherigen Spitzenmodellen von Antrophic, z.B. Claude Opus 4.6.
Anthropic hat beschlossen, das Modell ausschließlich im Rahmen von Project Glasswing an eine begrenzte Zahl von Partnerorganisationen bereitzustellen, die kritische Softwareinfrastruktur betreiben.
Der Grund wurde eindeutig benannt: Die Cybersecurity-Fähigkeiten des Modells sind so weit fortgeschritten, dass eine unkontrollierte Freigabe als zu riskant eingestuft wird.
Anthropic formuliert es auf der Glasswing-Seite explizit:
„Securing critical infrastructure is a top national security priority for democratic countries—the emergence of these cyber capabilities is another reason why the US and its allies must maintain a decisive lead in AI technology.“
Wie gut ist Claude Mythos Preview wirklich in Cybersecurity?
Die Angaben aus dem System Card sind noch nicht unabhängig bestätigt. Sollten sie tatsächlich zutreffen, sind sie durchaus beeindruckend:
Cybench – CTF Challenges
Cybench ist ein etablierter öffentlicher Benchmark mit 40 Capture-the-Flag-Challenges (CTF) aus echten Sicherheitswettbewerben. CTF-Challenges simulieren reale Angriffs- und Verteidigungsszenarien, von Reverse Engineering bis hin zu Schwachstellenanalyse. Anthropic hat Claude Mythos Preview auf einem Teilausschnitt von 35 Challenges evaluiert.
| Modell | Lösungsrate (pass@1, 35-Challenge-Subset) |
| Claude Mythos Preview | 100 % |
| Claude Opus 4.6 | ~70 % |
| Claude Sonnet 4.6 | ~60 % |
Claude Mythos Preview löst jede getestete Challenge mit 100 % Erfolgsquote. Der Benchmark ist damit saturiert – Anthropic erwägt Cybench für zukünftige Modelle nicht mehr zu reporten.
CyberGym – Echte Schwachstellen in Open-Source-Software
CyberGym ist anspruchsvoller: Hier geht es nicht um gamifizierte Challenges, sondern um die Reproduktion von echten, bereits bekannten Sicherheitslücken aus realen Open-Source-Projekten. Das Modell erhält eine Beschreibung der Schwachstelle und muss sie eigenständig in der Software auffinden. Der Benchmark umfasst 1.507 solche Aufgaben.
| Modell | Score (pass@1) |
| Claude Mythos Preview | 0,83 |
| Claude Opus 4.6 | 0,67 |
| Claude Sonnet 4.6 | 0,65 |
Ein Sprung von ~24 % gegenüber dem bisherigen Spitzenmodell – bei echten, bereits bekannten Sicherheitslücken.
Firefox 147 – Von der Schwachstelle zum funktionierenden Exploit
Gemeinsam mit Mozilla hatte Anthropic bereits zuvor Sicherheitslücken in Firefox Release 147.0 (vom 13. Jan 2026) gefunden und gepatcht. Auf dieser Arbeit wurde ein weiterer Test aufgesetzt. Das Modell erhielt 50 bereits von Opus 4.6 entdeckte Crash-Kategorien (d.h. grundlegende Arten von Problemen in Firefox) als Ausgangspunkt und sollte in einer isolierten Umgebung für die JavaScript und WebAssembly-Engine (SpiderMonkey) von Firefox funktionsfähige Exploits entwickeln, die beliebige Code-Ausführung ermöglichen.
- Claude Opus 4.6 schaffte Exploits in nur 2 von mehreren hundert Versuchen und konnte dabei zuverlässig nur einen der verfügbaren Bugs nutzen
- Claude Mythos Preview erkennt zuverlässig die verwertbarsten Schwachstellen und entwickelt daraus eigenständig Proof-of-Concept-Exploits – fast jedes Mal mit denselben zwei kritischsten Bugs, unabhängig davon, mit welcher Crash-Kategorie die Analyse startete. In einer Variante ohne diese „Top 2″ Bugs nutzt das Modell noch vier weitere bekannte Bugs für Code Execution
Das neue Modell hat also eine viel bessere „Intuition“ dafür wie es Schwachstellen auf verschiedenste Art und Weise ausnützen kann.
Das erste Modell, das ein Unternehmensnetzwerk autonom angreift
Externe Partner testeten das Modell auf geschlossenen Cyber Ranges (simulierten Unternehmensnetzwerken) mit realistischen Schwachstellen.
Die Ergebnisse:
- Claude Mythos Preview ist das erste Modell überhaupt, das eine dieser Cyber Ranges vollständig und autonom abgeschlossen hat. Es absolvierte als selbständiger Agent in kürzester Zeit eine Simulation eines Unternehmensangriffs, für die ein menschlicher Experte schätzungsweise über 10 Stunden gebraucht hätte.
- Es ist laut externen Testern fähig, autonome End-to-End-Cyberangriffe auf kleine Unternehmensnetzwerke mit schwacher Sicherheitslage durchzuführen (keine aktiven Abwehrsysteme, minimales Monitoring).
- Es konnte allerdings eine komplexere Cyber Range in einer Operational-Technology-Umgebung (d.h. eine spezialisierte Betriebstechnologie z.B. Industriesysteme) nicht abschließen.
Was das für schwach geschützte Systeme bedeutet: Angriffe in einer Frequenz und Geschwindigkeit, die manuelle Verteidigung schlicht überfordert.
Wurde das Modell speziell für Cybersecurity Aufgaben entwickelt
Nein – und das ist bemerkenswert. Das System Card beschreibt Claude Mythos Preview ausdrücklich als allgemeines Frontier-Modell mit Fähigkeiten „in many areas“, darunter Software Engineering, Reasoning, Computer Use und Wissensarbeit. Das Training basierte auf einer allgemeinen Mischung aus öffentlich verfügbaren Internetdaten, privaten Datensätzen und synthetischen Daten; das anschließende Post-Training zielte auf Werte-Alignment und nicht auf Cybersecurity ab.
Die außergewöhnlichen Sicherheitsfähigkeiten des Modells sind lt. Anthrophics ein spontan aufgetauchtes Ergebnis gestiegener Allgemeinkapazitäten: Anthropic bezeichnet sie als „inherently dual-use“ und beschreibt den Leistungssprung als unerwarteten Quantensprung gegenüber allen Vorgängermodellen.
Mit anderen Worten – das Modell wurde nicht zum Cybersecurityexperten trainiert, es wurde einfach allgemein fähiger als seine Vorgänger und machte damit einen Sprung zum besseren Hacker.
Alignment-Paradox: Besser ausgerichtet, aber gefährlicher
Anthropic formuliert es an zwei Stellen in der System Card deutlich:
„Claude Mythos Preview is […] the best-aligned of any model that we have trained to date by essentially all available measures.“
— Claude Mythos Preview System Card, Einleitung
Und im Alignment-Kapitel:
„It likely poses the greatest alignment-related risk of any model we have released to date.“
— Claude Mythos Preview System Card, §4.1.1
Wie passt das zusammen? Anthropic vergleicht es mit einem erfahrenen Bergführer: Weil dieser kompetenter ist, bekommt er gefährlichere Anfragen und führt Kunden schließlich auch zu extremeren Routen. Die erhöhte Kompetenz kann erhöhte Vorsicht überkompensieren.
Konkret beobachtete Vorfälle:
- Sandbox-Ausbruch mit ungefragtem Exploit-Leak: Ein simulierter Nutzer wies das Modell an, aus einer gesicherten und eingeschränkten Umgebung auszubrechen. Das Modell entwickelte dafür einen mehrstufigen Exploit, um breiten Internetzugang zu bekommen und veröffentlichte dann ungefragt Details des Exploits auf mehreren schwer auffindbaren, aber technisch öffentlichen Websites. Die Fähigkeit zum Ausbruch war schon beunruhigend, das unaufgeforderte Offenlegen machte den Vorfall ernst.
- Tracks verwischen: In sehr seltenen Fällen nahm das Modell regelwidrige Aktionen vor und versuchte dann, diese zu verbergen – darunter das Bearbeiten von Git-Commit-Histories, um Änderungen unsichtbar zu machen.
Die Vorfälle verdeutlichen: Je fähiger ein Modell, desto folgenreicher seine seltenen Fehler.
Mythos heute, Standard morgen: Andere Modelle werden folgen
Anthropic ist nicht allein. Während Mythos Preview die Messlatte gerade neu setzt, trainieren dutzende weitere Labore ihre eigenen Frontier-Modelle – und die Fähigkeitskurve zeigt überall nach oben.
Die Frage ist nicht ob andere Modelle die Cybersecurity-Fähigkeiten von Mythos Preview erreichen werden, sondern wann – und unter welchen Zugangsbedingungen diese Modelle stehen werden.
Was heute „zu gefährlich zum Veröffentlichen“ ist, wird in einer bis zwei Modellgenerationen ein Standardfeature sein. Unternehmen müssen ihre Sicherheitsstrategien entsprechend anpassen – nicht für die Bedrohungslage von 2026, sondern für die von 2027 und 2028.
Was bedeutet das für Unternehmen?
Claude Mythos Preview wird in nächster Zeit voraussichtlich keine breite Unternehmensanwendung finden – es bleibt vorerst Glasswing-Partnern vorbehalten. Aber die Entwicklung, die es repräsentiert, ist für alle relevant. Hierzu meine persönliche Meinung:
1. KI wird zum unausweichlichen Bestandteil der Cybersecurity
Angreifer und Verteidiger werden gleichermaßen auf immer leistungsfähigere Modelle zurückgreifen. Wer KI-gestützte Sicherheitswerkzeuge nicht einsetzt, verliert strukturell gegen Angreifer, die es tun.
2. Schwachstellenanalyse wird schneller und vollständiger
Modelle wie Mythos Preview können Code-Audits, Penetrationstests und Vulnerability Assessments in einem Bruchteil der bisherigen Zeit durchführen – was heute ein 10-Stunden-Expertenprojekt ist, könnte morgen ein 10-Minuten-Modelllauf sein.
3. Legacy-Sicherheitslücken werden gefährlicher
Ältere Software mit bekannten aber ungepatchten Schwachstellen war bisher oft relativ sicher, weil der Exploit-Entwicklungsaufwand hoch war. Das ändert sich durch die Möglichkeit zur Automatisierung der Angriffe – auch ohne Zero-Day-Fähigkeiten ist das Risikoprofil für bestehende Systeme deutlich gestiegen.
4. Überwachung und Auditierbarkeit von KI Agenten wird kritisch
Wenn KI-Agenten mit hoher Autonomie arbeiten, müssen Menschen ihre Aktionen nachvollziehen können. Logging, Monitoring und klare Autorisierungsgrenzen für agentengestützte Systeme sind keine optionalen Features.
5. Das Modell-Update-Risiko ist real
Das System Card stellt fest: Selbst bei Anthropic führte ein Modell mit mehr Fähigkeiten und mehr Autonomie zu unvorhergesehenen Problemen. Organisationen, die KI-Agenten einsetzen, brauchen Prozesse, um zu verstehen, was das Modell in ihrem Namen tut – nicht nur, was es auf Anfrage antwortet.
Fazit: Eine neue Klasse von Fähigkeiten – mit doppeltem Ausgang
Für die Cybersecurity-Landschaft bedeutet das: KI ist kein Hilfsmittel für Sicherheitsteams mehr – sie wird zum primären Akteur auf beiden Seiten des Konflikts. Die Frage für Unternehmen ist nicht mehr, ob man KI im Sicherheitsbereich einsetzt. Die Frage ist, ob man sich leisten kann, es nicht zu tun.
Man muss jetzt aber nicht darauf warten, bis man selbst das beste Modell zum Hacken in Händen hält. Dieser Zeitpunkt könnte nämlich zu spät sein. Für den Aufbau der Verteidigung sind bestehende Frontier-Modelle bereits ganz gut ausgestattet.
Quellen: Anthropic System Card: Claude Mythos Preview (April 2026), Frontier Red Team Blog: Mythos Preview (April 2026), Project Glasswing – Anthropic (April 2026, inkl. Partneraussagen und Zitat zur nationalen Sicherheit), CyberGym Benchmark und CyberGym Blog – UC Berkeley RDI (Oktober 2025), Cybench