Ich werde oft gefragt, welche KI bei uns zum Einsatz kommen. Das hat mich dazu motiviert, einen Beitrag darüber zu verfassen. Welche Modelle setzen wir ein? Was sind ihre Vor- und Nachteile? Was sind die Charaktereigenschaften dieser „Mitarbeiter“ und wie verhalten sie sich in der Zusammenarbeit?

Large Language Models werden häufig als Chatbots eingesetzt. Die Trainingsdaten stammen zu großen Teilen aus dem Internet – voll mit Programmierbeispielen und technischen Beschreibungen (z. B. von Stack Overflow). Schon die ersten Chatbots konnten dadurch auf technische Fragen antworten, indem sie kurze – und manchmal sogar längere – Stücke Source Code ausgegeben haben.

Spulen wir zurück ins Jahr 2025:
Mittlerweile können LLMs nicht nur reden, sondern auch handeln. Sie nutzen Tools (z. B. um Dateien zu lesen und zu schreiben, um nach Filenamen und Textstellen zu suchen, Befehle ausführen und deren Ausgaben zu analysieren) und sind damit in der Lage, nicht nur einzelne Codezeilen, sondern ganze Codebases zu durchsuchen, zu verstehen und – je nach Prompt – gezielt zu verändern.

Damit war der Development Agent geboren: ein Agent, der auf Anweisung des Entwicklers selbständig programmiert.

Wir setzen solche Dev-Agents inzwischen seit über einem Jahr aktiv in ganz unterschiedlichen Projekten ein. Und die Entwicklung neuer Modelle, die speziell für diese Art von Arbeit optimiert sind, ist rasant. In einem aktuellen Migrationsprojekt – von einem CRM-System zu einem anderen Anbieter – haben wir z. B. große Teile der Migrationsskripte mit Hilfe von Agents erstellt.

Auf die Projektergebnisse gehe ich in einem späteren Beitrag ein. Heute möchte ich eine andere Perspektive teilen: meine Erfahrungen mit verschiedenen LLMs als Basis für Dev-Agents. In diesem Projekt haben wir drei aktuell viel genutzte Modelle eingesetzt – und zwar nicht nur technisch verglichen, sondern auch beobachtet, wie sich die Zusammenarbeit „zwischenmenschlich“ anfühlt.

Welche 3 LLMs haben wir eingesetzt?

Claude Sonnet 4.5 (Anthropic)
Gemini 3 Flash (Preview) (Google)
Grok Code Fast 1 (xAI)

In welcher Umgebung haben wir gearbeitet?

Visual Studio Code
Kilo Code als Agent-Plattform
OpenRouter zur Nutzung der LLMs via API

Kurzer Überblick: Stärken und Rahmenbedingungen

Claude Sonnet 4.5 ist aktuell so etwas wie der Platzhirsch unter den Development-LLMs. Wir haben damit bereits mehrere vergleichbare Aufgaben in sehr guter Qualität und mit hoher Effizienz umgesetzt. Der Nachteil: Bei längeren Aufgaben mit vielen Tokens wird Sonnet 4.5 schnell teuer.

Grok Code Fast 1 von xAI wollten wir genau deshalb testen. Es wurde speziell für agentic Coding entwickelt und ist im Vergleich zu Sonnet 4.5 pro Million Tokens deutlich günstiger – und, wie der Name vermuten lässt, sehr schnell.

Gemini 3 Flash Preview haben wir gewählt, weil wir vermutet haben, dass es zwischen diesen beiden Extremen liegt: sehr schnell, großes Kontextfenster (1 Million Tokens) und preislich deutlich günstiger als Claude Sonnet 4.5.

Welches Modell hat am besten abgeschnitten?

Mit allen drei Modellen kommt man – früher oder später – ans Ziel. Spannend war für mich aber, wie unterschiedlich sich die Zusammenarbeit anfühlt. Man hat wirklich den Eindruck, jedes Modell hätte seinen eigenen Charakter.

Im Folgenden meine sehr persönliche – und bewusst subjektive – Erfahrung:

Claude Sonnet 4.5: Der gewissenhafte Senior-Consultant

Sonnet hat Aufgaben sehr gründlich und gewissenhaft abgearbeitet. Die Ergebnisse waren oft schon im ersten Versuch korrekt oder brauchten nur kleine Anpassungen, die Sonnet dann rasch und sauber umgesetzt hat.

Was mir besonders aufgefallen ist:

Sonnet erklärt sehr detailliert: Herangehensweise, Zwischenschritte, Ergebnisse – oft in einer Tiefe, bei der ich mir dachte: „Danke, aber so genau wollte ich’s eigentlich gar nicht wissen.“
Wenn im Prompt etwas unklar war, hat Sonnet höflich nachgefragt, statt einfach Annahmen zu treffen.
Wenn ich Fehler im Konzept oder Code gefunden habe, hat Sonnet sehr ausführlich analysiert, warum das passiert ist – und es dann sauber korrigiert (inkl. einer Entschuldigung, manchmal fast zu viel davon).
Manchmal war Sonnet fast zu fleißig: Neben der eigentlichen Aufgabe hat es aus eigenem Antrieb noch Analyse- oder Testskripte geschrieben, damit wirklich nichts fehlt. Nett – aber in der Praxis habe ich nicht alles gebraucht.

Manchmal war Sonnet fast zu fleißig: Neben der eigentlichen Aufgabe hat es aus eigenem Antrieb noch Analyse- oder Testskripte geschrieben, damit wirklich nichts fehlt. Nett – aber in der Praxis habe ich nicht alles gebraucht.

Mein Eindruck:
Claude Sonnet 4.5 ist der gewissenhafte Senior-Consultant: extrem kompetent, erklärt alles sehr gründlich, liefert hochwertige Ergebnisse – aber mit spürbarem Overhead und entsprechendem Preisschild.

Grok Code Fast 1: Der hyperaktive Junior-Developer

Fast 1 ist wirklich schnell. Es stürzt sich auf jede Aufgabe und fängt sofort an zu implementieren – ohne lange nachzufragen. Günstig und schnell produziert es eine Menge Source Code, von dem erstaunlich viel schon beim ersten oder zweiten Versuch funktioniert.

Allerdings:

Fast 1 macht gern den einen oder anderen Fehler.
Wenn man schnell feedbackt (Stack Trace in den Prompt), korrigiert es oft ebenso schnell.
Man merkt: Das Modell will vor allem Tempo.

Wenn die Fehler aber komplexer wurden, hatte ich manchmal das Gefühl, dass Fast 1 zu wenig strukturiert analysiert und stattdessen einfach den nächsten Ansatz probiert – der dann ggf. auch nicht funktioniert.

Ein paar Mal haben wir fast „gestritten“: Als ein Bug hartnäckig blieb und ich mehrfach auf eine echte Korrektur gepocht habe, hat es einmal den fragwürdigen Code schlicht auskommentiert und gemeldet, der Fehler sei behoben.

Mein Eindruck:
Grok Code Fast 1 ist der hyperaktive Junior-Developer: schnell, günstig, haut massenhaft Code raus, löst vieles „auf Zuruf“ – aber man muss ihn eng führen und gelegentlich ausbremsen.

Gemini 3 Flash Preview: Der sachliche Profi

Gemini hat Aufgaben für mich im Kern fast auf Sonnet-Niveau gelöst. Es denkt ordentlich nach, analysiert sauber und liefert sehr gute Ergebnisse, die häufig sofort funktionieren.

So fühlt sich die Zusammenarbeit an:

Fehler werden schnell und gezielt korrigiert.
Wenn ich etwas falsch verstanden habe, weist Gemini klar darauf hin und fragt nach dem gewünschten Vorgehen.
Die Kommunikation ist professionell, strukturiert und effizient.

Nach einer Weile kam mir die Zusammenarbeit aber recht kühl vor:

Gemini macht zuverlässig, was man explizit verlangt – bringt aber seltener zusätzliche Ideen oder proaktive Vorschläge ein, wie Sonnet es gern tut.
Erklärungen sind eher knapp; manchmal musste ich bewusst nach Details fragen.

Mein Eindruck:
Gemini 3 Flash Preview ist der sachliche Profi: effizient, zuverlässig, kompetent – aber nüchtern und weniger proaktiv als Sonnet.

Und jetzt? Mit keinem 100 % glücklich?

Wenn man es überspitzt:

entweder teuer und sehr gesprächig (Sonnet),
oder sehr schnell, aber manchmal schlampig (Grok),
oder effizient, aber etwas unterkühlt (Gemini).

Die Konsequenz für mich war klar: Ich habe meine Arbeitsweise geändert.
Statt „ein Lieblings-LLM für alles“ nutze ich heute unterschiedliche Agenten für unterschiedliche Aufgaben.

Meine aktuelle Arbeitsweise mit Kilo Code

In Kilo Code kann ich verschiedene Modi mit unterschiedlichen Modellen belegen. Vereinfacht sieht das bei mir so aus:

Orchestrierungsmodus – Claude Sonnet 4.5
Für größere Aufgaben: Abstimmen, planen, strukturieren. Die Orchestrierung teilt die Detailarbeit an andere Agents aus und stößt sie an.
Auch im Architekturmodus nutze ich am liebsten Sonnet 4.5, weil ich dort die umfassendsten Konzepte und Vorschläge bekomme.
Code-Modus – Gemini 3 Flash
Hier zählt verlässliche Umsetzung: korrekt, zielgerichtet, zügig – ohne viel „Plauderei“.
Auch im Debug-Modus funktioniert Gemini für mich sehr gut: klar, präzise, lösungsorientiert.
Zusatzprofil – Grok Code Fast 1
Grok nutze ich dort, wo massenhaft ähnliche Aufgaben anfallen – z. B. viele ähnliche Skripte oder Templates. In diesen Szenarien gewinnt Speed, und Fast 1 ist hier einfach extrem schnell und günstig.

Mein Fazit: Monokultur war gestern

Nach diesen Erfahrungen ist für mich klar:
Ich würde heute nicht mehr nur das Modell eines einzigen Anbieters nutzen.

Jeder Agent – jedes LLM – hat spezifische Stärken und Schwächen. Und dieser „Charakter“ wirkt sich direkt darauf aus, wie produktiv und angenehm die Zusammenarbeit ist.

Die Möglichkeit, in offenen Systemen mehrere Anbieter flexibel kombinieren zu können, ist für mich 2026 zu einem entscheidenden Kriterium geworden.

Nicht die eine „perfekte“ KI macht den Unterschied – sondern das Zusammenspiel ihrer unterschiedlichen Charaktere.