Skip to content
webvise
· 7 Min. Lesezeit

Von Regeln zu Ergebnissen: Was 22.000 Sterne für eine einzige CLAUDE.md über KI-gestützte Entwicklung verraten

Das karpathy-skills-Repo beweist: Der Engpass beim KI-gestützten Programmieren liegt nicht in der Modellkapazität, sondern im Verhaltensvertrag zwischen Mensch und LLM.

Themen
AI AgentsAIOpen SourceBusiness Strategy
Teilen

Der Engpass beim KI-gestützten Programmieren ist nicht die Leistungsfähigkeit des Modells. Es ist die Qualität des Verhaltensvertrags zwischen Mensch und LLM. Teams, die diese Verträge in ihre Toolchain einbetten, erzielen kumulative Gewinne. Teams, die das nicht tun, stellen weiterhin dieselben Bug-Reports ein: "Die KI hat wieder halluziniert."

Der Beweis: forrestchang/andrej-karpathy-skills auf GitHub. Eine einzige CLAUDE.md-Datei, die Andrej Karpathys Beobachtungen zu LLM-Programmierfallen in handlungsrelevante Regeln für Claude Code überführt. 22.700 Sterne. 1.800 Forks. Für eine Datei.

Diese Sternezahl ist keine Begeisterung für Karpathys persönliche Marke. Es sind 22.000 Entwicklerinnen und Entwickler, die denselben Schmerz bestätigen: KI-Coding-Assistenten sind leistungsfähig, aber unberechenbar, und ein gut formulierter Verhaltensvertrag behebt das.

Die vier Prinzipien hinter 22.000 Sternen

Das Repo kodiert vier Prinzipien, die jeweils auf einen spezifischen Fehlertyp beim LLM-gestützten Programmieren abzielen:

  • Erst denken, dann coden. Annahmen offenlegen, Abwägungen darstellen, fragen statt raten. Zielt auf den Fehlertyp, bei dem LLMs mit der Implementierung beginnen, bevor sie das Problem verstanden haben.

  • Einfachheit zuerst. Minimaler funktionsfähiger Code, keine spekulativen Funktionen oder Abstraktionen. Zielt auf den Fehlertyp, bei dem LLMs Lösungen mit unnötiger Komplexität überdesignen.

  • Zielorientierte Ausführung. Erfolgskriterien definieren, keine schrittweisen Anweisungen. Das LLM iteriert, bis die Kriterien erfüllt sind. Zielt auf den Fehlertyp, bei dem imperative Anweisungen spröden, wörtlich ausgeführten Code produzieren.

  • Explizite Kommunikation. Keine stillen Annahmen. Jede Entscheidung dokumentiert. Zielt auf den Fehlertyp, bei dem LLMs Entscheidungen treffen, die plausibel wirken, aber unausgesprochene Anforderungen verletzen.

Jedes dieser Prinzipien ist für sich genommen nicht überraschend. Was überrascht: Sie in einer einzigen Datei zu kodieren, macht den Unterschied zwischen "Die KI hat meinen Nachmittag verschwendet" und "Die KI hat das Feature fertiggestellt, während ich es reviewed habe."

CLAUDE.md ist kein Style Guide

Die meisten Teams behandeln ihre CLAUDE.md (oder eine vergleichbare System-Prompt-Datei) als Code-Style-Guide: Formatierungspräferenzen, Namenskonventionen, vielleicht einige projektspezifische Hinweise. Damit verfehlen sie den Kern vollständig.

Eine CLAUDE.md ist ein Verhaltensvertrag. Sie definiert, wie der KI-Agent Probleme durchdenkt, wann er um Klärung bittet statt Annahmen zu treffen, wie er Arbeitspakete abgrenzt und was er verifiziert, bevor er eine Aufgabe als erledigt erklärt. Style Guides sagen der KI, wie Code aussehen soll. Verhaltensverträge sagen der KI, wie sie denken soll.

Karpathys eigener KI-gestützter Coding-Workflow bestätigt das. Seine Schleife (Kontext befüllen, die Änderung beschreiben, einen Ansatz wählen, reviewen, testen, committen, wiederholen) behandelt die KI als das, was er einen "übereiferigen Junior-Intern-Savant" nennt: enzyklopädisches Wissen, null Urteilsvermögen. Der Verhaltensvertrag liefert das Urteilsvermögen, das dem Modell fehlt.

Diese Neuperspektive hat eine konkrete Konsequenz. Wenn der KI-Agent schlechten Output produziert, verschiebt sich die Frage von "Ist das Modell gut genug?" zu "Ist der Vertrag präzise genug?" Eine Frage führt dazu, auf GPT-5 zu warten. Die andere führt zu einem Pull Request, den man heute noch ausliefern kann.

Verhaltensverträge auf Multi-Agent-Systeme skalieren

Karpathys Prinzipien wurden für eine einzelne Entwicklerin oder einen einzelnen Entwickler konzipiert, der mit einem einzigen KI-Assistenten arbeitet. Dasselbe Muster skaliert jedoch auf Multi-Agent-Orchestrierung, bei der spezialisierte Agents komplexe Aufgaben koordinieren.

Wir verwenden oh-my-claudecode (OMC), eine Open-Source-Multi-Agent-Orchestrierungsschicht für Claude Code, um 19 spezialisierte Sub-Agents zu koordinieren: architect, executor, reviewer, security auditor, test engineer und weitere. Jeder Agent verfügt über einen eigenen Verhaltensvertrag, der seine Denkmuster, Scope-Grenzen und Verifikationsanforderungen definiert.

DimensionEinzelner AgentMehrere Agents
ScopeEine Entwicklerin/ein Entwickler, ein Assistent19 spezialisierte Agents mit klar definierten Rollen
VerifikationMensch reviewt KI-OutputReviewer-Agent prüft Executor; Mensch reviewt das Endergebnis
KontextGesamte Codebasis in einem FensterJeder Agent erhält nur den für seine Aufgabe relevanten Kontext
FehlertypKI überkompliziert eine DateiAgents duplizieren Arbeit oder widersprechen sich
VertragsfokusWie man über diesen Code nachdenktWer welche Entscheidungen trifft und wie Übergaben funktionieren

Der Proof of Concept: Eine vollständige Produktintegration (ca. 25.000 Zeilen Code über 252 Dateien), vollständig aus einer Produktspezifikation durch OMCs Agent-Pipeline generiert. Kein manuelles Code-Schreiben. Die in den System-Prompts jedes Agents definierten Verhaltensverträge waren der einzige menschlich verfasste Input neben der Spezifikation selbst.

Dieses Ergebnis ist nicht darauf zurückzuführen, dass das Modell smart genug war. Claude war bereits smart genug. Es liegt daran, dass die Verträge präzise genug waren, damit 19 Agents koordinieren konnten, ohne sich gegenseitig in die Quere zu kommen.

Wo der Wettbewerbsvorteil tatsächlich liegt

Wenn KI-Infrastruktur zur Commodity wird (und das tut sie, mit verwalteten Agent-Runtimes, die inzwischen für 0,08 USD pro Session-Stunde verfügbar sind), stellt sich die Frage: Wo liegt dauerhafter Wettbewerbsvorteil?

Wir denken darüber als fünfschichtigen Stack nach:

SchichtFunktionVerteidigbarkeit
InfrastrukturModel-Hosting, Sandboxing, PersistenzNiedrig. Commodity. Mehrere Anbieter.
OrchestrierungMulti-Agent-Koordination, VerhaltensverträgeMittel. Erfordert angesammeltes Know-how.
Design-RegelnAgent-first ProduktentwicklungMittel-hoch. Erfordert Domain-Erfahrung.
ProdukttheseWas für wen gebaut wirdHoch. Erfordert Marktkenntnis.
GeschäftsmodellWie die Arbeit Umsatz generiertAm höchsten. Erfordert Kundenbeziehungen.

Verhaltensverträge befinden sich auf der Orchestrierungsschicht. Sie sind nicht die Schicht mit dem höchsten Wettbewerbsvorteil, aber sie ist die Schicht, an der die meisten Teams derzeit scheitern. Orchestrierung richtig zu gestalten trennt "Wir haben mit KI-Coding experimentiert" von "KI-Coding ist unser Lieferprozess."

PostHogs Regeln für agent-first Produktentwicklung bestätigen das von der Produktseite. Ihre fünfte Regel ("Agents wie echte Nutzer behandeln") ist im Kern dieselbe Erkenntnis: Die KI braucht explizite, getestete, verifizierte Rahmenbedingungen, keine Bauchgefühle.

Drei Muster, die sich lohnen

Wenn Sie eine Sache aus dem karpathy-skills-Repo mitnehmen, dann diese drei Muster für Ihr eigenes Team:

  • Erfolgskriterien formulieren, keine Anweisungen. Karpathys Prinzip der zielorientierten Ausführung funktioniert, weil LLMs besser darin sind, auf ein messbares Ziel hinzuarbeiten, als prozedurale Schritte zu befolgen. Definieren Sie, wie "fertig" aussieht. Lassen Sie den Agent den Weg dorthin selbst finden.

  • Erstellung und Review trennen. In Multi-Agent-Systemen sollte der Agent, der Code schreibt, niemals derselbe sein, der ihn abnimmt. In Einzelagenten-Workflows gilt dasselbe für Sie: Reviewen Sie KI-Output mit derselben Sorgfalt, die Sie auf den Pull Request eines Junior-Entwicklers anwenden würden.

  • Verträge wie Code versionieren. Ihre CLAUDE.md, System-Prompts und Agent-Definitionen sind Produktionsartefakte. Sie gehören in die Versionskontrolle, verdienen Code-Review und sollten sich auf Basis beobachteter Fehler weiterentwickeln. Das karpathy-skills-Repo selbst ist der Beweis: Es ist ein versionierter, community-reviewter Verhaltensvertrag.

Die 22.000 Sterne gelten nicht Karpathys Programmiertipps. Sie gelten der Idee, dass der Abstand zwischen "KI, die Ihre Zeit verschwendet" und "KI, die Ihre Features ausliefert" eine gut geschriebene Datei ist. Bei webvise bauen wir täglich auf dieser Idee auf. Wenn Sie erkunden möchten, was Verhaltensverträge und Multi-Agent-Orchestrierung für Ihren Entwicklungsprozess leisten könnten, sprechen Sie uns an.

Die Praktiken von webvise sind an den ISO 27001- und ISO 42001-Standards ausgerichtet.