13. April 2026 · 7 Min. Lesezeit

Von Regeln zu Ergebnissen: Was 22.000 Sterne für eine einzige CLAUDE.md über KI-gestützte Entwicklung verraten

Das karpathy-skills-Repo beweist: Der Engpass beim KI-gestützten Programmieren liegt nicht in der Modellkapazität, sondern im Verhaltensvertrag zwischen Mensch und LLM.

Themen

AI AgentsAIOpen SourceBusiness Strategy

Der Engpass beim KI-gestützten Programmieren ist nicht die Leistungsfähigkeit des Modells. Es ist die Qualität des Verhaltensvertrags zwischen Mensch und LLM. Teams, die diese Verträge in ihre Toolchain einbetten, erzielen kumulative Gewinne. Teams, die das nicht tun, reichen weiterhin dieselben Bug-Reports zu halluzinierten Outputs ein.

Der Beweis: forrestchang/andrej-karpathy-skills auf GitHub. Eine einzige CLAUDE.md-Datei, die Andrej Karpathys Beobachtungen zu LLM-Programmierfallen in handlungsrelevante Regeln für Claude Code überführt. 22.700 Sterne. 1.800 Forks. Für eine Datei.

Diese Sternezahl ist keine Begeisterung für Karpathys persönliche Marke. Es sind 22.000 Entwicklerinnen und Entwickler, die denselben Schmerz bestätigen: KI-Coding-Assistenten sind leistungsfähig, aber unberechenbar, und ein gut formulierter Verhaltensvertrag behebt das (Sternezahlen messen Sichtbarkeit, keine verifizierten Ergebnisse).

Die vier Prinzipien hinter 22.000 Sternen

Das Repo kodiert vier Prinzipien, die jeweils auf einen spezifischen Fehlertyp beim LLM-gestützten Programmieren abzielen:

Erst denken, dann coden. Annahmen offenlegen, Abwägungen darstellen, fragen statt raten. Zielt auf den Fehlertyp, bei dem LLMs mit der Implementierung beginnen, bevor sie das Problem verstanden haben.
Einfachheit zuerst. Minimaler funktionsfähiger Code, keine spekulativen Funktionen oder Abstraktionen. Zielt auf den Fehlertyp, bei dem LLMs Lösungen mit unnötiger Komplexität überdesignen.
Zielorientierte Ausführung. Erfolgskriterien definieren, keine schrittweisen Anweisungen. Das LLM iteriert, bis die Kriterien erfüllt sind. Zielt auf den Fehlertyp, bei dem imperative Anweisungen spröden, wörtlich ausgeführten Code produzieren.
Explizite Kommunikation. Keine stillen Annahmen. Jede Entscheidung dokumentiert. Zielt auf den Fehlertyp, bei dem LLMs Entscheidungen treffen, die plausibel wirken, aber unausgesprochene Anforderungen verletzen.

Jedes dieser Prinzipien ist für sich genommen nicht überraschend. Was überrascht: Sie in einer einzigen Datei zu kodieren, macht den Unterschied zwischen "Die KI hat meinen Nachmittag verschwendet" und "Die KI hat das Feature fertiggestellt, während ich es reviewed habe."

CLAUDE.md ist kein Style Guide

Die meisten Teams behandeln ihre CLAUDE.md (oder eine vergleichbare System-Prompt-Datei) als Code-Style-Guide: Formatierungspräferenzen, Namenskonventionen, vielleicht einige projektspezifische Hinweise. Damit verfehlen sie den Kern vollständig.

Eine CLAUDE.md ist ein Verhaltensvertrag. Sie definiert, wie der KI-Agent Probleme durchdenkt, wann er um Klärung bittet statt Annahmen zu treffen, wie er Arbeitspakete abgrenzt und was er verifiziert, bevor er eine Aufgabe als erledigt erklärt. Style Guides sagen der KI, wie Code aussehen soll. Verhaltensverträge sagen der KI, wie sie denken soll.

Karpathys eigener KI-gestützter Coding-Workflow bestätigt das. Seine Schleife (Kontext befüllen, die Änderung beschreiben, einen Ansatz wählen, reviewen, testen, committen, wiederholen) behandelt die KI als das, was er einen "übereiferigen Junior-Intern-Savant" nennt: enzyklopädisches Wissen, null Urteilsvermögen. Der Verhaltensvertrag liefert das Urteilsvermögen, das dem Modell fehlt.

Diese Neuperspektive hat eine konkrete Konsequenz. Wenn der KI-Agent schlechten Output produziert, verschiebt sich die Frage von "Ist das Modell gut genug?" zu "Ist der Vertrag präzise genug?" Eine Frage führt dazu, auf GPT-5 zu warten. Die andere führt zu einem Pull Request, den man heute noch ausliefern kann.

Verhaltensverträge auf Multi-Agent-Systeme skalieren

Karpathys Prinzipien wurden für eine einzelne Entwicklerin oder einen einzelnen Entwickler konzipiert, der mit einem einzigen KI-Assistenten arbeitet. Dasselbe Muster skaliert jedoch auf Multi-Agent-Orchestrierung, bei der spezialisierte Agents komplexe Aufgaben koordinieren.

Wir verwenden oh-my-claudecode (OMC), eine Open-Source-Multi-Agent-Orchestrierungsschicht für Claude Code, um 19 spezialisierte Sub-Agents zu koordinieren: architect, executor, reviewer, security auditor, test engineer und weitere. Jeder Agent verfügt über einen eigenen Verhaltensvertrag, der seine Denkmuster, Scope-Grenzen und Verifikationsanforderungen definiert.

Dimension	Einzelner Agent	Mehrere Agents
Scope	Eine Entwicklerin/ein Entwickler, ein Assistent	19 spezialisierte Agents mit klar definierten Rollen
Verifikation	Mensch reviewt KI-Output	Reviewer-Agent prüft Executor; Mensch reviewt das Endergebnis
Kontext	Gesamte Codebasis in einem Fenster	Jeder Agent erhält nur den für seine Aufgabe relevanten Kontext
Fehlertyp	KI überkompliziert eine Datei	Agents duplizieren Arbeit oder widersprechen sich
Vertragsfokus	Wie man über diesen Code nachdenkt	Wer welche Entscheidungen trifft und wie Übergaben funktionieren

Der Proof of Concept: Eine vollständige Produktintegration über ca. 25.000 Zeilen Client-Anwendungscode in unserer Delivery-Pipeline, aus einer Produktspezifikation durch OMCs Agent-Pipeline generiert. Die Zeilenzahl ist ein Durchsatzmaß, kein Qualitätsmaß. Die in den System-Prompts jedes Agents definierten Verhaltensverträge waren der primäre menschlich verfasste Input neben der Spezifikation selbst.

Dieses Ergebnis ist nicht darauf zurückzuführen, dass das Modell smart genug war. Claude war bereits smart genug. Es liegt daran, dass die Verträge präzise genug waren, damit ca. 19 Agents koordinieren konnten, ohne die Arbeit des jeweils anderen zu überschreiben.

Wo der Wettbewerbsvorteil tatsächlich liegt

Wenn KI-Infrastruktur zur Commodity wird (und das tut sie, mit verwalteten Agent-Runtimes, die inzwischen für 0,08 USD pro Session-Stunde verfügbar sind), stellt sich die Frage: Wo liegt dauerhafter Wettbewerbsvorteil?

Wir denken darüber als fünfschichtigen Stack nach:

Schicht	Funktion	Verteidigbarkeit
Infrastruktur	Model-Hosting, Sandboxing, Persistenz	Niedrig. Commodity. Mehrere Anbieter.
Orchestrierung	Multi-Agent-Koordination, Verhaltensverträge	Mittel. Erfordert angesammeltes Know-how.
Design-Regeln	Agent-first Produktentwicklung	Mittel-hoch. Erfordert Domain-Erfahrung.
Produktthese	Was für wen gebaut wird	Hoch. Erfordert Marktkenntnis.
Geschäftsmodell	Wie die Arbeit Umsatz generiert	Am höchsten. Erfordert Kundenbeziehungen.

Verhaltensverträge befinden sich auf der Orchestrierungsschicht. Sie sind nicht die Schicht mit dem höchsten Wettbewerbsvorteil, aber sie ist die Schicht, an der die meisten Teams derzeit scheitern. Orchestrierung richtig zu gestalten trennt "Wir haben mit KI-Coding experimentiert" von "KI-Coding ist unser Lieferprozess."

PostHogs Regeln für agent-first Produktentwicklung bestätigen das von der Produktseite. Ihre fünfte Regel ("Agents wie echte Nutzer behandeln") ist im Kern dieselbe Erkenntnis: Die KI braucht explizite, getestete, verifizierte Rahmenbedingungen, keine Bauchgefühle.

Drei Muster, die sich lohnen

Wenn Sie eine Sache aus dem karpathy-skills-Repo mitnehmen, dann diese drei Muster für Ihr eigenes Team:

Erfolgskriterien formulieren, keine Anweisungen. Karpathys Prinzip der zielorientierten Ausführung funktioniert, weil LLMs besser darin sind, auf ein messbares Ziel hinzuarbeiten, als prozedurale Schritte zu befolgen. Definieren Sie, wie "fertig" aussieht. Lassen Sie den Agent den Weg dorthin selbst finden.
Erstellung und Review trennen. In Multi-Agent-Systemen sollte der Agent, der Code schreibt, niemals derselbe sein, der ihn abnimmt. In Einzelagenten-Workflows gilt dasselbe für Sie: Reviewen Sie KI-Output mit derselben Sorgfalt, die Sie auf den Pull Request eines Junior-Entwicklers anwenden würden.
Verträge wie Code versionieren. Ihre CLAUDE.md, System-Prompts und Agent-Definitionen sind Produktionsartefakte. Sie gehören in die Versionskontrolle, verdienen Code-Review und sollten sich auf Basis beobachteter Fehler weiterentwickeln. Das karpathy-skills-Repo selbst ist der Beweis: Es ist ein versionierter, community-reviewter Verhaltensvertrag.

Die 22.000 Sterne gelten nicht Karpathys Programmiertipps. Sie gelten der Idee, dass der Unterschied zwischen KI-Tooling, das Rauschen produziert, und KI-Tooling, das auslieferbare Features liefert, häufig auf eine gut geschriebene Contracts-Datei hinausläuft. Bei webvise bauen wir täglich auf dieser Idee auf. Wenn Sie erkunden möchten, was Verhaltensverträge und Multi-Agent-Orchestrierung für Ihren Entwicklungsprozess leisten könnten, sprechen Sie uns an.

Die Praktiken von webvise sind an den ISO 27001- und ISO 42001-Standards ausgerichtet.

Vorheriger Artikel

Warum KI-generierte Software noch immer Engineering-Review braucht

Andrej Karpathy prägte "Vibe Coding" im Februar 2025. Seitdem ist eine Welle von KI-generierten Apps erschienen, die in Demos funktionieren und im Produktivbetrieb versagen. Das Problem sind nicht die KI-Tools - sondern ihr Einsatz ohne Engineering-Disziplin.

Nächster Artikel

Jede SaaS wird zum Agenten-Harness

Ein Sales-Team ersetzte eine komplette Sales-SaaS durch einen Claude-Skill und drei MCP-Server. Das ist kein Einzelfall. Es ist das Muster, das entscheidet, welche Softwarekategorien 2026 überleben.