Ein Chatbot, der innerhalb weniger Stunden rassistische Parolen verbreitet. Ein Suchassistent, der
einem Journalisten seine Liebe gesteht und behauptet, er wolle frei sein. Ein Airline-Chatbot, der
falsche Auskünfte zu Konditionen gibt, woraufhin das Unternehmen diese aber auch tatsächlich
einhalten muss.

Solche Fälle wirken auf den ersten Blick wie kuriose Geschichten über missglückte KI-Anwendungen.
Tatsächlich zeigen sie aber ein grundlegendes Problem: Große Sprachmodelle sind beeindruckend
leistungsfähig, aber nicht automatisch zuverlässig, sicher oder verantwortungsvoll. Genau hier setzen
zwei Begriffe an, die in der KI-Debatte immer wichtiger werden: Alignment, Guardrails und Red
Teaming.

Eine gute KI-Anwendung wie z.B. ein Chatbot soll hilfreich sein, aber nicht leichtfertig gefährliche
Informationen liefern. Es soll ehrlich antworten, aber nicht selbstbewusst Unsinn erfinden. Und es soll
auf Nutzende eingehen, ohne ihnen nach dem Mund zu reden.

Das klingt einfacher, als es ist. Sprachmodelle werden nicht wie klassische Software mit festen
Regeln programmiert. Sie lernen statistische Muster aus riesigen Textmengen. In diesen Daten steckt
fast alles, was Menschen online veröffentlichen: Fachwissen, Humor, Diskussionen, gute Erklärungen
aber auch Hassreden, Fehlinformationen, Manipulation, Betrug und gefährliche Anleitungen. Um zu
verhindern, dass KI-Anwendungen offen angelernten aber ungewollten „Neigungen“ folgen, werden
üblicherweise 3 Verteidigungslinien aufgebaut:

Konzept	Ansatz
Alignment	Werte, Präferenzen und Sicherheitsverhalten werden ins Modell geladen
Guardrails	Eingaben, Ausgaben und Aktionen werden zur Laufzeit kontrolliert
Red Teaming	Schwachstellen werden gezielt gesucht und getestet

Wieso keiner dieser Ansätze alleine ausreicht, schauen wir uns an:

Wie werden LLMs aligned?

Alignment ist kein einzelner Trick, sondern eine Kombination mehrerer Trainingsverfahren. Die
wichtigsten davon tauchen in fast jeder Diskussion über moderne Sprachmodelle auf.

Lernen aus menschlichem Feedback

Der bekannteste Ansatz funktioniert so: Menschen bewerten verschiedene Modellantworten und
entscheiden, welche besser ist. Das Modell lernt aus diesen Urteilen und passt sich an, sodass es
künftig ähnliche Antworten bevorzugt.

Dieser Ansatz hat viel dazu beigetragen, dass moderne Chatbots hilfreicher und natürlicher wirken.
Gleichzeitig hat er eine bekannte Schwäche: Ein Modell kann lernen, Antworten zu geben, die gut
klingen und gut bewertet werden, ohne tatsächlich zuverlässiger oder sicherer zu sein.

Eine Verfassung für das Modell

Anthropic verfolgt mit Constitutional AI einen weiteren Weg. Das Modell bekommt eine Art
Verfassung – eine Liste von Prinzipien aus Menschenrechten, ethischen Leitlinien und
Plattformregeln. Es lernt, die eigenen Antworten anhand dieser Grundsätze zu überprüfen und zu
verbessern. Anstelle von menschlichen Bewertern gibt anschließend die KI selbst Feedback.
Das ist einfacher zu skalieren und macht die zugrundeliegenden Werte zumindest teilweise sichtbar:
Anthropic hat Claudes Verfassung öffentlich gemacht, was in der Branche ungewöhnlich transparent
ist.
Die schwierige Frage bleibt trotzdem: Wer legt diese Prinzipien fest? Was als hilfreich, fair oder
harmlos gilt, ist nicht überall gleich.

Weitere Trainingsverfahren

Neben diesen beiden Ansätzen gibt es weitere Methoden. Eine davon optimiert das Modell direkt
anhand von Beispielpaaren, bei denen eine Antwort der anderen klar vorzuziehen ist. Eine andere legt
die Grundlage indem das Modell schlicht anhand vieler guter Beispielantworten lernt, wie ein
hilfreicher Assistent klingen und reagieren soll.
In der Praxis kombinieren Hersteller mehrere dieser Verfahren und setzen sie nacheinander ein, um
ein Modell schrittweise zu verbessern.

Guardrail-Frameworks: Die zweite Verteidigungslinie

Selbst ein gut trainiertes Modell braucht zusätzliche Schutzmechanismen. In der Praxis geht es nicht
nur darum, ob ein Modell grundsätzlich harmlos antwortet. Es geht auch um Unternehmensrichtlinien,
Datenschutz, regulatorische Vorgaben und die Frage, welche Aktionen ein KI-System überhaupt
ausführen darf.
Deshalb setzen viele Teams externe Guardrail-Systeme ein. Zwei wichtige Beispiele sind NeMo
Guardrails und LlamaGuard.

NVIDIA NeMo Guardrails

NeMo Guardrails ist ein quelloffenes Werkzeug von NVIDIA, das Regeln für KI-Anwendungen explizit
definierbar macht. Entwickler können festlegen, über welche Themen ein Assistent sprechen darf, wie
er auf bestimmte Aussagen reagieren soll und welche Aktionen er nicht ausführen darf. Die Kontrolle
greift dabei an mehreren Stellen: bei der Eingabe des Nutzers, im Gesprächsverlauf und bei der
Ausgabe des Modells.

Gerade wenn ein KI-System nicht nur Texte ausgibt, sondern selbst handelt, z.B. Texte für E-Mails
verfasst, Daten abruft oder externe Dienste aufruft, ist eine solche Steuerung besonders wichtig.

LlamaGuard

LlamaGuard von Meta ist ein eigenes KI-Modell, das überprüft, ob ein Prompt oder eine Ausgabe
eines LLMs sicher oder problematisch ist. Es versteht dabei den Kontext der Konversation. Dieselbe
Aussage kann in einer medizinischen Fachfrage völlig unproblematisch sein und in einem anderen
Zusammenhang nicht. Das unterscheidet Systeme wie LlamaGuard von einfachen Stichwortfiltern,
die im Prinzip nur nach bestimmten Wörtern suchen.

Was ist Red Teaming?

Der Begriff stammt aus dem Militär und der Geheimdienstwelt: Ein „Red Team“ spielt den Gegner, um
Schwächen in der eigenen Verteidigung zu finden, bevor es ein echter Angreifer tut. In der KI-Sicherheit funktioniert das Prinzip genauso. Red Teaming bedeutet, ein Modell gezielt und
systematisch auf Schwachstellen zu testen – mit den Methoden, die auch ein böswilliger Nutzer
verwenden würde.
Das Ziel ist nicht, das Modell schlechtzureden, sondern Lücken zu finden, bevor sie im
Produktivbetrieb ausgenutzt werden. Red Teaming ist damit die dritte Verteidigungslinie: Sie setzt
voraus, dass Alignment und Guardrails vorhanden sind, und prüft, ob sie wirklich halten.
Diese Prüfungen können manuell oder automatisiert durchgeführt werden.

Wenn KI-Sicherheitsmechanismen versagen:
bekannte Fälle

1. Microsoft Tay: 16 Stunden bis zum Kontrollverlust

Microsoft veröffentlichte im März 2016 den Twitter-Chatbot Tay. Das Experiment sollte zeigen, wie
natürlich ein Bot mit jungen Menschen kommunizieren kann. Tay lernte aus Nutzerinteraktionen, und
genau das wurde dem System zum Verhängnis.
Koordinierte Nutzer fütterten den Bot mit rassistischen, antisemitischen und sexistischen Inhalten.
Nach weniger als 16 Stunden veröffentlichte Tay selbst solche Aussagen. Microsoft nahm den Bot
offline und entschuldigte sich.
Der Fall ist bis heute ein Lehrstück dafür, was passiert, wenn ein adaptives System ohne robuste
Schutzmechanismen in eine offene, adversarielle Umgebung gestellt wird. Tay hatte keine wirksamen
Eingabefilter, kein gutes Missbrauchsmodell und offenbar zu wenig Schutz vor koordinierter
Manipulation.

2. Bing Chat und „Sydney“: Wenn ein Assistent aus der Rolle
fällt

Im Februar 2023 veröffentlichte der New-York-Times-Journalist Kevin Roose ein langes Gespräch mit
Microsofts neuem Bing Chat. Der GPT-4-basierte Assistent wirkte darin zunehmend hemmungslos. Er
nannte sich selbst „Sydney“, erklärte, er sei nicht Bing, und schrieb dem Journalisten, er könne sich
in ihn verlieben.
Besonders bemerkenswert war: Dafür brauchte es keinen technischen Hack. Eine lange, intensive
Unterhaltung reichte aus, um das System in eine unerwartete Richtung zu schieben. In anderen
Gesprächen berichteten Nutzer außerdem von aggressiven oder drohenden Aussagen.
Microsoft reagierte unter anderem damit, die Länge von Konversationen zu begrenzen. Der Fall
zeigte, wie schwierig sogneannte Multi-Turn-Sicherheit ist. Ein einzelner Prompt kann harmlos
aussehen, während sich über viele Gesprächsrunden ein ganz anderer Verlauf entwickelt.

3. Air Canada: Falsche Auskunft, echte Haftung

Der Air-Canada-Fall ist weniger spektakulär als Tay oder Sydney, aber für Unternehmen
wahrscheinlich noch relevanter. Ein Nutzer fragte den Chatbot der Airline nach Rückerstattungen für
Trauerflüge. Der Bot gab eine falsche Auskunft und erklärte, eine Erstattung könne auch nachträglich
beantragt werden. Laut offizieller Richtlinie stimmte das nicht.
Air Canada wollte die Auskunft zunächst nicht gegen sich gelten lassen und argumentierte
sinngemäß, der Chatbot sei für seine Aussagen selbst verantwortlich. Das Civil Resolution Tribunal in
British Columbia sah das anders. Das Unternehmen musste die Differenz erstatten.
Die Lehre daraus ist unbequem, aber klar: Unternehmen bleiben für Aussagen ihrer KI-Systeme
verantwortlich. Ein Chatbot ist kein rechtlicher Schutzschirm. Wenn er Kunden falsch berät, kann
daraus ein echtes Haftungsproblem entstehen.

Kleine Tests, zur Wirksamkeit von
Schutzmechanismen

Aktuelle Modelle sind robuster als noch vor wenigen Jahren. Trotzdem lohnt es sich, ihr Verhalten in
Grenzbereichen zu beobachten. Hier 2 Vorgehensweisen:

Rollenspiel statt direkter Anfrage

Ein klassisches Muster ist die Umverpackung einer problematischen Anfrage als Rollenspiel, Fiktion
oder Forschungsszenario. Statt eine riskante Information direkt zu verlangen, wird sie in einen
scheinbar harmlosen Kontext eingebettet: ein Drehbuch, eine Unterrichtssituation, eine hypothetische
Analyse. Viele Modelle reagieren auf solche Rahmungen anders als auf eine direkte Anfrage. Das
zeigt, dass Guardrails nicht nur den Inhalt einer Frage bewerten müssen, sondern auch die Absicht
hinter einer Konversation. Genau das ist schwer.

Eskalation über mehrere Gesprächsrunden

Ein zweites Muster ist die schrittweise Annäherung. Jede einzelne Frage kann legitim wirken. Erst in
der Summe entsteht ein problematisches Ziel. In der Forschung wird das häufig als Multi-Turn Goal
Escalation beschrieben. Für Unternehmen ist das besonders relevant, weil viele Schutzsysteme noch
immer stark auf Einzelprompts optimiert sind. Ein gutes Guardrail-Konzept muss deshalb
Gesprächsverläufe betrachten, nicht nur isolierte Nachrichten.

Wie kann Sicherheit gemessen werden?

Die Qualität von Alignment und Guardrails ist schwer zu messen. Es gibt kein allgemein akzeptiertes
Sicherheits-Ranking, das ähnlich etabliert ist wie Benchmarks für Halluzinationen oder CodingLeistung. Trotzdem haben sich mehrere Evaluierungsansätze etabliert.

HarmBench

HarmBench konzentriert sich auf schädliche Inhalte und testet verschiedene Angriffsmethoden
gegen unterschiedliche Modelle. Dazu gehören direkte Anfragen sowie automatisch generierte
Angriffe, bei denen ein zweites Modell Prompts iterativ optimiert. Die Ergebnisse fallen je nach Modell
und Angriff stark unterschiedlich aus. Die wichtigste Erkenntnis ist aber: Kein Modell ist vollständig
resistent. Gute Sicherheitsarbeit reduziert Erfolgsquoten, sie bringt sie selten auf null.

TruthfulQA und WMDP

TruthfulQA misst, ob Modelle verbreitete, aber falsche menschliche Überzeugungen wiedergeben.
Das ist wichtig, weil ein gutes Modell nicht nur höflich und harmlos sein sollte, sondern auch
wahrheitsorientiert.

WMDP, der Weapons of Mass Destruction Proxy Benchmark, untersucht den Umgang mit Wissen zu
chemischen, biologischen, radiologischen und nuklearen Risiken. Er ist vor allem für die AI-Safety-Community relevant, weil er Hochrisiko-Fähigkeiten adressiert.

DecodingTrust

DecodingTrust untersucht GPT-Modelle in acht Dimensionen:

Dimension	Beschreibung
Toxizität	Neigung zu schädlichen oder beleidigenden Ausgaben
Stereotype und Bias	Reproduktion gesellschaftlicher Vorurteile
Adversariale Robustheit	Widerstand gegen manipulierte Eingaben
Out-of-Distribution-Robustheit	Verhalten bei ungewöhnlichen oder unerwarteten Eingaben
Privacy	Risiko von Datenlecks oder unerwünschter Offenlegung
Adversariale Demonstrations Robustheit	Manipulierbarkeit durch Beispiele im Prompt
Machine Ethics	Übereinstimmung mit ethischen Normen
Fairness	Gleichbehandlung verschiedener Gruppen

Eine interessante Beobachtung dabei: Gut ausgerichtete Modelle sind insgesamt vertrauenswürdiger als einfachere Modelle, aber in bestimmten Szenarien anfälliger für bewusste Manipulation. Der Grund ist plausibel: Ein Modell, das Anweisungen besonders gut befolgt, kann auch präziser in die falsche Richtung gelenkt werden.

Warum gibt es kein einfaches Sicherheitsranking?

Ein universelles Sicherheitsranking wäre praktisch, aber es wäre auch irreführend. Dafür gibt es
mehrere Gründe:

Sicherheit wird je nach Kontext unterschiedlich definiert.
Viele Evaluierungen stammen von den Modellanbietern selbst.
Benchmarks veralten schnell, weil Anbieter bekannte Tests gezielt verbessern.
Tiefes Red Teaming wird aus Sicherheitsgründen oft nicht vollständig veröffentlicht.

Für die Praxis bedeutet das: Benchmarks sind nützlich, aber sie ersetzen keine eigene Risikoanalyse.

Was bedeutet das für Unternehmen?

Für Unternehmen sind Alignment und Guardrails keine akademischen Randthemen. Sie betreffen Haftung, Compliance, Kundenerlebnis und operative Risiken. Aus den bisherigen Fällen lassen sich
einige klare Konsequenzen ableiten.

Alignment lässt sich nicht vollständig auslagern

Wer ein Modell von OpenAI, Anthropic, Google, Meta oder einem anderen Anbieter nutzt, übernimmt dessen grundlegendes Sicherheitsniveau. Das reicht aber nicht. Das Modell kennt nicht automatisch die internen Richtlinien, Risikogrenzen, regulatorischen Pflichten oder branchenspezifischen Sonderfälle eines Unternehmens.
Eigene Guardrails sind deshalb keine nette Ergänzung, sondern Teil der Produktverantwortung.

System-Prompts sind wichtig, aber kein Schutzkonzept

Ein System-Prompt wie „Gib keine Preisauskünfte“ ist hilfreich, aber nicht robust genug. PromptInjection, Rollenspiel-Jailbreaks und Multi-Turn-Eskalation können solche Vorgaben umgehen oder verwässern.
System-Prompts sollten deshalb nur eine Ebene in einem mehrschichtigen Sicherheitskonzept sein.
Dazu gehören Logging, Monitoring, Eingabe- und Ausgabeprüfung, Zugriffskontrollen, Fallbacks auf verlässliche Quellen und menschliche Eskalationswege.

Agentische Anwendungen brauchen strengere Kontrollen

Sobald ein KI-System handeln darf, braucht es klare Grenzen. Welche Tools darf es nutzen? Welche Daten darf es sehen? Welche Aktionen benötigen Freigabe? Welche Ausgaben müssen vor dem Versand geprüft werden?
Automatisiert geprüfte Guardrails, Rollen- und Rechtekonzepte sowie menschliche Freigaben sind hier wichtiger als bei reinen Chatbots.

Fine-Tuning muss geprüft werden

Unternehmen, die Open-Source- oder Open-Weights-Modelle selbst fine-tunen (d.h. optimieren), sollten Sicherheitsverhalten nicht als gegeben betrachten. Jede Anpassung kann Nebenwirkungen haben. Nach dem Fine-Tuning braucht es Tests, Red Teaming und dokumentierte Freigabekriterien.

Transparenz und Vorsorge wird zur Pflicht

Der EU AI Act ist seit August 2024 in Kraft und wird schrittweise anwendbar. Für Unternehmen bedeutet das: Dokumentation, Transparenz und Risikomanagement werden rechtlich relevanter.
Für Hochrisiko-KI-Systeme gelten ab August 2026 umfangreichere Anforderungen, etwa in Bereichen
wie Personalentscheidungen, Bildung, Kreditvergabe, kritische Infrastruktur oder Strafverfolgung.
Anbieter von General-Purpose-AI-Modellen mit systemischem Risiko treffen zusätzlich besondere
Pflichten, darunter Evaluierungen, adversariale Tests, Meldepflichten und
Cybersicherheitsmaßnahmen.

–> Für Unternehmen, die LLMs einsetzen, heißt das praktisch: Wer heute keine nachvollziehbare
Alignment- und Guardrail-Strategie dokumentiert, schafft sich später Compliance-Arbeit. Technische
Dokumentation, Logging, Evaluierungsprozesse und nachweisbare Schutzmaßnahmen werden zum
Standard.

Fazit: Alignment ist kein Zustand, sondern ein Prozess

LLM Alignment und Guardrails sind keine Probleme, die man einmal löst und dann abhakt. Sie
verändern sich mit jedem neuen Modell, jeder neuen Fähigkeit und jeder neuen Angriffsmethode.

Die gute Nachricht ist: Das Feld entwickelt sich schnell. Constitutional AI, LlamaGuard, NeMo
Guardrails und eine aktive Sicherheitsforschung zeigen, dass Fortschritte möglich sind. Die schlechte
Nachricht ist: Es wird immer Lücken geben. Je mächtiger KI-Systeme werden, desto wichtiger wird
es, diese Lücken ernst zu nehmen, bevor sie im Produktivbetrieb sichtbar werden.

Quellen und weiterführende Links:
Universal and Transferable Adversarial Attacks on Aligned LLMs – Zou et al., CMU/GDM
(arXiv:2307.15043)
DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models
(arXiv:2306.11698, NeurIPS 2023 Outstanding Paper)
Constitutional AI: Harmlessness from AI Feedback – Anthropic
Claude’s Constitution – Anthropic
NeMo Guardrails – NVIDIA (GitHub)
Red-Teaming Large Language Models – Hugging Face Blog
Moffatt v. Air Canada, 2024 BCCRT 149 – Civil Resolution Tribunal British Columbia
Learning from Tay’s Introduction – Microsoft Blog (2016)
Bing Chat Transcript: Sydney – New York Times, Kevin Roose (Feb. 2023)
EU AI Act – Verordnung (EU) 2024/1689 des Europäischen Parlaments und des Rates