Open Source bei Large Language Models: Wie offen ist „offen“ wirklich?
Die Begriffe „Open Source“ und „offen“ werden in der LLM-Welt inflationär verwendet – hinter den Marketingaussagen verbergen sich jedoch massive Unterschiede. Ich möchte in diesem Beitrag das Spektrum der Offenheit dieser Systeme einordnen und zeigen, welche relevanten Modelle in welche Kategorie fallen. Gerade für vertrauenswürdige KI-Anwendungen ist volle Transparenz entscheidend – wie wir sehen werden, ist sie jedoch selten.
Das Spektrum der Offenheit: 5 Stufen
Die Open Source Initiative (OSI) hat 2024 mit der Open Source AI Definition (OSAID 1.0) erstmals einen Standard geschaffen. Ergänzend bietet das Model Openness Framework (MOF) der Linux Foundation einen abgestuften Ansatz, um zu entscheiden, wie offen und damit nachvollziehbar ein LLM tatsächlich ist. Aus diesen Frameworks und der Praxis können wir fünf Stufen ableiten – von vollständig geschlossen bis vollständig offen.
Kategorie Weights: Die trainierten Modellparameter – das „Gehirn“ des Modells, das direkt ausgeführt werden kann.
Kategorie Code: Quellcode für Training – ermöglicht Nachvollziehbarkeit und eigene Anpassungen.
Kategorie Trainingsdaten: Die verwendeten Datensätze – entscheidend für Transparenz, Bias-Analyse und rechtliche Nachvollziehbarkeit.
Kategorie Trainings-Methodik: Verfahren, Hyperparameter und Prozesse beim Training – von kurzen Paper-Beschreibungen bis zur vollständigen Reproduzierbarkeit.
Übersicht
| Stufe | Bezeichnung | Weights | Code | Trainingsdaten | Trainings-methodik | Lizenz |
| 5 | Closed/ Proprietär | ❌ | ❌ | ❌ | ❌ | Nur API-Zugang |
| 4 | Restricted Weights | ✅ | ⚠️ teilweise | ❌ | ⚠️ Paper | Restriktiv (Nutzungslimits) |
| 3 | Open Weights | ✅ | ⚠️ teilweise | ❌ | ⚠️ Paper | Frei bis restriktiv |
| 2 | Open Weights + Offene Methodik | ✅ | ✅ | ⚠️ teilweise | ✅ | Frei |
| 1 | Vollständig Open Source | ✅ | ✅ | ✅ | ✅ | Frei (Apache 2.0, MIT) |
Stufe 5: Closed / Proprietär ⚫
Kein Zugang zu Weights, Code oder Daten. Nutzung ausschließlich über APIs oder lizenzierte Integrationen.
Diese Modelle stehen unter vollständiger Kontrolle der Entwicklerfirmen. Man kann sie nutzen, aber nicht inspizieren, modifizieren oder selbst hosten. Die interne Architektur, die Trainingsdaten und der Code bleiben Betriebsgeheimnisse.
Relevante Modelle
| Modell | Organisation | Besonderheiten |
| GPT-4o / GPT-5 | OpenAI | Flaggschiff-Modelle. Multimodal. Nur per API. |
| Claude 4 / 4.5 | Anthropic | Fokus auf Sicherheit und lange Kontexte. Nur per API. |
| Gemini 3.1 / 3.1 Pro | Nativ multimodal. Tief in Google-Produkte integriert. | |
| Grok-3 / 4 | xAI | Nachfolger von Grok-1 und 2 (die noch offen waren). Closed. |
Einordnung: Diese Modelle bieten oft die höchste Leistung „out of the box“, aber keine Kontrolle über Daten, keine Reproduzierbarkeit der Ergebnisse und damit vollständige Abhängigkeit vom Anbieter. Oft ist nicht einmal bekannt, wie groß das Modell ist oder wie viele Trainingsdaten verwendet wurden.
Stufe 4: Restricted Weights (Eingeschränkt offen) 🔴
Weights sind herunterladbar, aber die Lizenz enthält signifikante Einschränkungen, z. B. kommerzielle Nutzungslimits, Nutzungsvorschriften oder Attributionspflichten ab bestimmten Schwellenwerten.
Diese Modelle werden oft als „Open Source“ vermarktet, sind es nach der OSI-Definition aber nicht. Sie bieten Zugang zu den Weights, binden die Nutzung aber an Bedingungen.
Relevante Modelle
| Modell | Organisation | Lizenz | Einschränkungen |
| Llama 4 (Scout/Maverick) | Meta | Llama License | Kommerzielle Nutzung bis 700 Mio. monatlich aktive Nutzer (MAU). Darüber: separate Lizenz nötig. Verbot, andere LLMs damit zu trainieren. |
| Kimi K2.5 | Moonshot AI | Modified MIT | Ab 100 Mio. MAU oder $20 Mio. Umsatz: „Kimi K2.5″-Branding Pflicht. |
| Command R+ | Cohere | CC-BYNC-4.0 | Keine kommerzielle Nutzung ohne separate Lizenzvereinbarung mit Cohere. |
Einordnung: Die Llama-Modelle von Meta sind das prominenteste Beispiel für diese Kategorie – sie sind zweifellos nützlich und leistungsstark, aber die Lizenz schließt wichtige Open-Source-Freiheiten aus.
Stufe 3: Open Weights 🟠
Modellgewichte sind frei verfügbar und nutzbar (auch kommerziell), aber Trainingsdaten und oft auch der Trainingscode bleiben geschlossen.
Das ist die häufigste Kategorie unter den „offenen“ Modellen. Man kann sie herunterladen, lokal betreiben und feinabstimmen – aber man kann sie nicht von Grund auf reproduzieren, da die Trainingsdaten fehlen.
Relevante Modelle
| Modell | Organisation | Lizenz | Besonderheiten |
| Gemma 3 / 4 | Gemma-Lizenz | Multimodal. Effizient auf Consumer-Hardware. 256K Kontext. | |
| GLM-5 | Zhipu AI | MIT | 744B MoE (40B aktiv). Stark in Coding und Agentic Tasks. Keine Nutzungseinschränkungen. |
| gpt-oss 120b | OpenAI | Apache 2.0 | Erstes offenes OpenAI-Modell seit GPT-2. 117B (MoE, 5,1B aktiv). Stark bei Wissen (MMLU-Pro ca. 80,8 %). |
Einordnung: Für die meisten Unternehmen und Entwickler:innen ist diese Kategorie der Sweet Spot – man erhält leistungsstarke Modelle mit weitgehender Nutzungsfreiheit, ohne die Komplexität vollständiger Reproduzierbarkeit.
Stufe 2: Open Weightss + Offene Methodik 
Weights und Code sind offen und ohne Nutzungseinschränkungen lizenziert, Trainingsdaten sind teilweise dokumentiert oder referenziert, aber nicht vollständig verfügbar.
Diese Modelle gehen weit über „nur Weights“ hinaus: Sie veröffentlichen detaillierte Technical Reports, Trainingsrezepte und oft auch den Trainingscode – aber die exakten Trainingsdaten sind nicht vollständig verfügbar, etwa aus urheberrechtlichen Gründen oder wegen der schieren Datenmenge.
Relevante Modelle
| Modell | Organisation | Parameter | Lizenz | Besonderheiten |
| DeepSeek V3 / V3.2 | DeepSeek | 671B (37B aktiv, MoE) | MIT (Code) / DeepSeek Model License (Weights) | Vollständiger Trainingscode offen. Detailliertes Paper. Trainingsdaten nicht offen, aber Methodik exzellent dokumentiert. Weights kommerziell nutzbar. |
| DeepSeek R1 | DeepSeek | 671B (37B aktiv, MoE) | MIT (Code) / DeepSeek Model License (Weights) | Reasoning-Modell mit RL. Destillierte Varianten: Qwenbasierte unter Apache 2.0, Llama-basierte unter LlamaLizenz. |
| Qwen 3 / 3.5 | Alibaba | bis 397B (MoE) | Apache 2.0 | Breiteste Modellpalette (0,6B– 235B). 200+ Sprachen. Trainingsmethodik in Papers dokumentiert. |
| Mixtral 8x22B / Mistral Small 3 | Mistral AI | 141B (MoE, 39B aktiv) / 24B | Apache 2.0 | Europabasiertes Unternehmen. Frei nutzbar (im Gegensatz zu Mistral Large 2, das unter der Mistral Research License steht und damit in Stufe 4 einzuordnen wäre). |
Einordnung: Hier finden sich viele der aktuell leistungsstärksten offenen Modelle. DeepSeek und Qwen setzen mit MIT bzw. Apache 2.0 den Maßstab für industrietaugliche Offenheit – ohne die vollen Trainingsdaten preiszugeben.
Stufe 1: Vollständig Open Source 
Alles ist offen: Weights, Code, Trainingsdaten, Methodik und Dokumentation. Das Modell kann von Grund auf reproduziert werden.
Dies ist die strengste Kategorie – und die seltenste. Gemäß der OSI-Definition (OSAID 1.0) müssen alle Komponenten ohne Nutzungseinschränkungen verfügbar sein (etwa unter Apache 2.0 oder MIT): Modellgewichte, vollständiger Trainingscode, die Trainingsdaten (oder hinreichend detaillierte Dokumentation) sowie die gesamte Trainingsmethodik.
Warum ist das wichtig?
Nur bei vollständiger Offenheit kann man den Bias in Trainingsdaten auditieren, Ergebnisse nachvollziehen und das Modell tatsächlich von Grund auf reproduzieren. Das ist die Grundlage für echte Nachprüfbarkeit.
Relevante Modelle
| Modell | Organisation | Besonderheiten |
| OLMo 3 / 3.1 | AI2 (Allen Institute) | Alle Checkpoints, Dolma-3-Trainingsdaten, Logs, EvalCode offen. Apache 2.0. Inkl. OLMoTrace für Rückverfolgung zu Quelldaten. |
| Amber-7B / Crystal-7B / K2-65B | LLM360 | Projekt mit radikaler Transparenz („360°“): alle Checkpoints, Trainingsdaten, Metriken und W&B-Logs offen. K2-65B übertrifft Llama 2 70B. |
| Pythia | EleutherAI | Forschungsmodell-Suite mit 8 Größen (70M–12B), jeweils 154 Checkpoints. Pile-Trainingsdaten offen. Apache 2.0. |
| BLOOM (176B) | BigScience / HuggingFace | Pionierprojekt (Juli 2022): ROOTS-Corpus (1,6 TB, 46 Sprachen) offen. BigScience BLOOM RAIL License v1.0. |
| MAP-Neo (7B) | M-A-P | Bilingual (EN/ZH). 4,5T Tokens. Trainingsdaten (MatrixPile), Cleaning-Pipeline und Checkpoints offen. |
Einordnung: Diese Modelle sind nicht die leistungsstärksten – aber sie sind für die Wissenschaft und die Open-Source-Gemeinschaft von unschätzbarem Wert. OLMo von AI2 ist hier das aktuelle Flaggschiff.
Die wichtigsten Unterscheidungsmerkmale im Detail
Was genau ist verfügbar?
| Stufe 5 | Stufe 4 | Stufe 3 | Stufe 2 | Stufe 1 | |
| Weights | ❌ | ✅ | ✅ | ✅ | ✅ |
| Architektur-Details | ❌ | ⚠️ | ✅ | ✅ | ✅ |
| Trainingscode | ❌ | ❌ | ⚠️ | ✅ | ✅ |
| Trainingsdaten | ❌ | ❌ | ❌ | ⚠️ | ✅ |
| Trainingsmethodik | ❌ | ⚠️ | ⚠️ | ✅ | ✅ |
| Freie Lizenz | ❌ | ❌ | ✅ | ✅ | ✅ |
| Reproduzierbarkeit | ❌ | ❌ | ❌ | ⚠️ | ✅ |
Lizenz-Landkarte
| Lizenz | Typ | Kommerzielle Nutzung | Beispiele |
| Proprietär | Geschlossen | ❌ Nur per API | GPT-4, Claude, Gemini |
| CC-BY-NC | Restriktiv | ❌ Nur nichtkommerziell | Command R+ |
| Llama License | Restriktiv | ⚠️ Bis 700M MAU | Llama 3, Llama 4 |
| RAIL | Restriktiv | ⚠️ Mit Nutzungsverboten | BLOOM |
| Gemma License | Semi-Offen | ✅ Mit Nutzungsrichtlinien | Gemma 3, Gemma 4 |
| MIT | Offen (keine Einschränkung) | ✅ Uneingeschränkt | DeepSeek (Code), GLM-5, Phi-4 |
| Apache 2.0 | Offen (keine Einschränkung) | ✅ Uneingeschränkt | Qwen, Mixtral, OLMo, Falcon 7B/40B |
Fazit: Was bedeutet das für die Praxis?
- „Open Source“ ≠ „Open Source“ – Die Bezeichnung wird inflationär verwendet. Nur Modelle der Stufe 1 erfüllen die OSI-Definition vollständig. Die meisten populären „offenen“ Modelle fallen in Stufe 2–3.
- Der Sweet Spot liegt bei Stufe 2–3 – Modelle wie DeepSeek V3.2, Qwen 3.5 oder Gemma 4 bieten eine exzellente Balance aus Leistung, Nutzungsfreiheit und Zugänglichkeit.
- Vorsicht bei Stufe 4 – Llama-Modelle sind fantastisch für Prototyping und Forschung, aber die Lizenzbedingungen können bei kommerziellem Einsatz zum Problem werden.
- Stufe 1 ist entscheidend für die Wissenschaft – Projekte wie OLMo und Pythia ermöglichen echte Forschung über das Verhalten von LLMs, Bias-Analyse und algorithmische Transparenz.
- Die Lücke schließt sich – Offene Modelle (Stufe 1–3) erreichen 2025/2026 auf vielen Benchmarks das Niveau das proprietärer Modelle nur ein paar Monate zuvor hatten. Der Grund, sich vollständig an geschlossene Anbieter zu binden, wird immer schwächer.
Stand: April 2026. Die LLM-Landschaft entwickelt sich rasant – neue Modelle und Lizenzen können die Einordnung schnell verändern.
Quellen & weiterführende Links
Open Source AI Definition (OSAID 1.0) – OSI