16. April 2026 · 9 Min. Lesezeit

Warum die meisten KI-Agent-Setups deutlich langsamer laufen als möglich

Der Unterschied zwischen bescheidener und substanzieller KI-Produktivität liegt nicht am Modell. Er liegt an der Architektur, die es umhüllt. Fünf Entwickler haben dieselbe These in einer Woche veröffentlicht.

Themen

AI AgentsAIAutomationWeb Development

Der Unterschied zwischen einem Entwickler, der bescheidenen Mehrwert aus KI-Tools zieht, und einem, der substanziell mehr erreicht, liegt nicht am verwendeten Modell. Er liegt an der Architektur, die dieses Modell umhüllt. Steve Yegge beobachtete Anfang 2026, dass Entwickler, die KI-Coding-Agenten einsetzen, bedeutende Produktivitätssteigerungen bei geeigneten Aufgaben berichten; die genannten Zahlen variieren je nach Methodik und Aufgabentyp erheblich. Dieselben Modelle. Dieselbe zugrundeliegende Intelligenz. Die Variable ist die Struktur.

In einer einzigen Woche im April 2026 veröffentlichten fünf unabhängige Entwickler Frameworks für KI-Agentenarchitektur. Garry Tan (Y Combinator), Andrej Karpathy, Viv Trivedy, Daniel Miessler und ein Community-Repository mit 19.700 GitHub-Stars kamen alle zur selben Kernthese: Intelligenz gehört in portable Markdown-Dateien, die Orchestrierungsinfrastruktur sollte so schlank wie möglich bleiben, das Modell soll das Reasoning übernehmen. Dieser Artikel analysiert, worin sie übereinstimmen, wo sie sich unterscheiden und was das für alle bedeutet, die mit KI bauen.

Die wichtigsten Erkenntnisse

Intelligenz gehört in Markdown-Skill-Dateien, nicht in Framework-Code. Skills sind portabel, versionierbar und verbessern sich automatisch, wenn das Modell besser wird.
Das Harness sollte genau vier Dinge tun und nichts weiter. Das Modell in einer Schleife ausführen, Dateien lesen und schreiben, Kontext verwalten, Sicherheit durchsetzen. Jedes Feature darüber hinaus kostet Kontext und verlangsamt das Reasoning.
Fünf Entwickler veröffentlichten dieselbe These unabhängig voneinander innerhalb von drei Tagen (12. bis 15. April 2026). Garry Tan, Andrej Karpathy, Viv Trivedy, Daniel Miessler und ein Community-Repo mit 19.700 Stars. Die Konvergenz mehrerer unabhängiger Quellen ist ein Signal unter mehreren dafür, dass ein Architekturmuster solide ist.
LangChain widerspricht und hat Benchmarks als Beweis. Harrison Chase argumentiert, das Harness IS das Produkt. Die Antwort hängt möglicherweise davon ab, ob Sie Consumer-Tools oder Enterprise-Pipelines bauen.
Präskriptive Anweisungen laufen ab. Kontext nicht. Jede Schritt-für-Schritt-Anleitung, die Sie für eine KI schreiben, verliert mit dem nächsten Modell-Release an Wert. Kontext darüber, wer Sie sind und was Sie wollen, wächst mit der Zeit.

Die Architektur ist kompakt

Quellen für produktive Agenten-Harnesses sind zunehmend zur Überprüfung verfügbar, darunter ein öffentlich beobachteter Snapshot des Claude Code-Harness im Jahr 2026. Garry Tan hat eine solche Quelle gelesen. Was er fand, bestätigte ein Muster, das er bei Y Combinator seit Monaten lehrte: Der Produktivitätsunterschied liegt nicht an der Modell-Intelligenz. Er liegt daran, was das Modell umhüllt.

Tan destillierte die Architektur in drei Schichten:

Schicht	Inhalt	Kerneigenschaft
Fat Skills	Markdown-Prozeduren mit Urteilsvermögen, Prozessen und Domänenwissen	Portabel. Sie gehören Ihnen.
Thin CLI Harness	~200 Zeilen: JSON rein, Text raus, Kontextverwaltung, Sicherheit	Minimal. Der Anbieter stellt es bereit.
Ihre Anwendung	QueryDB, ReadDoc, Search, Timeline. Deterministische Operationen.	Zuverlässig. Gleicher Input, gleicher Output.

Das Prinzip ist gerichtet. Intelligenz nach oben in Skills verlagern. Ausführung nach unten in deterministische Werkzeuge. Das Harness schlank halten. 90% des Mehrwerts liegt in der Skill-Schicht. Das Harness ist ein Dirigent, der Dateien liest. Es besitzt sie nicht.

Tans eigene Erfahrung illustriert den Punkt. Sein persönliches CLAUDE.md begann mit 20.000 Zeilen. Jede Eigenheit, jede Konvention, jede Lektion, die er je gemacht hatte. Das Ergebnis: Claude Codes Aufmerksamkeit verschlechterte sich. Das Modell bat ihn buchstäblich, es zu kürzen. Seine Lösung waren 200 Zeilen Verweise auf Dokumente, die bei Bedarf geladen werden. Die vollen 20.000 Zeilen Wissen existieren noch. Sie laden nur dann, wenn sie relevant sind, statt bei jedem Turn das Kontextfenster zu belasten.

Wenn Sie KI-gestützte Tools oder Workflows für Ihr Unternehmen bauen, entscheidet die richtige Architektur von Anfang an darüber, ob Sie mit einer beeindruckenden Demo oder einem System enden, das wirklich ausgeliefert wird.

Fünf Konzepte, die leistungsstarke KI-Builds auszeichnen

Die Architektur beruht auf fünf Konzepten. Lassen Sie eines aus, und das System liefert nicht.

1. Skill-Dateien

Ein Skill ist ein wiederverwendbares Markdown-Dokument, das dem Modell beibringt, wie es etwas tun soll. Nicht was es tun soll. Der Nutzer liefert die Aufgabe. Der Skill liefert den Prozess. Er funktioniert wie ein Methodenaufruf: dieselbe Prozedur, unterschiedliche Argumente, radikal unterschiedliche Outputs.

Tans Beispiel: Ein Skill namens /investigate hat sieben Schritte (Datensatz eingrenzen, Timeline erstellen, jedes Dokument diarisieren, synthetisieren, beide Seiten argumentieren, Quellen zitieren). Richten Sie ihn auf einen Sicherheitswissenschaftler und 2,1 Millionen Discovery-E-Mails: Sie erhalten einen medizinischen Forschungsanalysten. Richten Sie ihn auf eine Briefkastenfirma und FEC-Einreichungen: Sie erhalten einen forensischen Ermittler. Dieselben sieben Schritte. Der Aufruf liefert die Welt.

2. Resolver

Ein Resolver ist eine Routing-Tabelle für Kontext. Wenn Aufgabentyp X erscheint, lade zuerst Dokument Y. Ohne Resolver ändert ein Entwickler einen Prompt und liefert ihn aus. Mit einem Resolver liest das Modell zuerst die Eval-Suite-Dokumentation, führt Benchmarks aus und macht die Änderung rückgängig, wenn die Genauigkeit um mehr als 2% sinkt. Der Entwickler wusste nicht, dass die Eval-Suite existiert. Der Resolver hat den richtigen Kontext zum richtigen Zeitpunkt geladen.

3. Latent vs. deterministisch

Jeder Schritt in einem System ist eines von beidem. Sie zu verwechseln ist der häufigste Fehler im Agenten-Design. Ein LLM kann 8 Personen an einem Esstisch platzieren, unter Berücksichtigung der Persönlichkeiten. Bitten Sie ihn, 800 Personen zu platzieren, halluziniert er einen Sitzplan, der plausibel aussieht, aber komplett falsch ist. Das ist ein deterministisches Problem, das in den latenten Raum gezwungen wird. Die besten Systeme ziehen diese Grenze konsequent.

4. Diarisierung

Das Modell liest alles über ein Thema und schreibt ein strukturiertes Profil. Keine SQL-Abfrage liefert das. Keine RAG-Pipeline liefert das. Das Modell muss lesen, Widersprüche im Kopf behalten, bemerken, was sich wann geändert hat, und strukturierte Intelligenz synthetisieren.

Tans Team baute ein System für YC Startup School, das auf diese Weise 6.000 Gründerprofile verwaltet. Die Diarisierungs-Outputs entdecken Dinge, die keine Keyword-Suche finden würde: eine Gründerin, die sagt "Datadog für KI-Agenten", deren GitHub-Commits aber zu 80% Billing-Code sind. Sie baut ein FinOps-Tool, das als Observability verkleidet ist. Diese Lücke zwischen "sagt" und "baut tatsächlich" erfordert, die Commit-Historie, die Bewerbung und das Berater-Transkript gleichzeitig zu lesen. Keine Embedding-Similarity-Suche findet das.

5. Permanente Upgrades

Tans Anweisung an seine KI: "Wenn ich Sie bitte, etwas zu tun, und es ist die Art von Aufgabe, die wieder vorkommen wird, kodifizieren Sie es in eine Skill-Datei. Wenn es automatisch laufen soll, legen Sie einen Cron an. Wenn ich Sie zweimal um dasselbe bitten muss, haben Sie versagt." Jeder geschriebene Skill ist ein permanentes Upgrade. Er degeneriert nie. Wenn das nächste Modell erscheint, wird jeder Skill sofort besser. Das System wächst.

Fünf in einer Woche veröffentlichte Frameworks sagen dasselbe

Die Konvergenz ist das stärkste Signal. Diese fünf Arbeiten entstanden unabhängig voneinander zwischen dem 12. und 15. April 2026. Keiner dieser Entwickler arbeitet zusammen. Sie kamen von unterschiedlichen Ausgangspunkten zur selben Architektur.

Framework	Wo die Intelligenz liegt	Was schlank bleibt
Tan (Fat Skills)	Markdown-Skill-Dateien, SOUL.md	Das Harness: Dirigent, nicht Gehirn
Karpathy (CLAUDE.md)	Verhaltens-Anweisungsdateien	Kein Framework nötig. Eine .md-Datei
Trivedy (Context Fragments)	Externalisiertes Gedächtnis, Retrieval-Schicht	Harness verwaltet Kontext, besitzt kein Wissen
Miessler (Bitter Lesson)	Kontext über Identität, Ziele, Geschmack	Anweisungen zur Ausführung
Community (19.700-Star-Repo)	Skills, Slash-Commands, CLAUDE.md-Regeln	Subagenten ersetzen Komprimierung. Grep ersetzt RAG

Tan gelangte dorthin durch die Auslieferung eines hohen Volumens an Produktionscode in zwei Monaten — Zeilenzahlen sind kein Qualitätsmaßstab, aber der Durchsatz ist ungewöhnlich mit gstack (23.000+ GitHub-Stars in der ersten Woche; Star-Zahlen messen Sichtbarkeit, nicht Produktionsreife). Karpathy gelangte dorthin durch die Analyse der drei persistenten Fehlermodi von KI-Coding-Assistenten. Trivedy gelangte dorthin durch Iteration über 30+ Harness-Versionen. Miessler gelangte dorthin durch die Anwendung von Richard Suttons Bitter Lesson auf KI-Tooling.

Die Konvergenz mehrerer unabhängiger Quellen ist ein Signal unter mehreren dafür, dass ein Architekturmuster solide ist.

LangChain widerspricht und hat Benchmarks als Beweis

Harrison Chase (LangChain CEO) veröffentlichte Deep Agents in derselben Woche und argumentierte das Gegenteil: Das Harness IS das Produkt. Eingebaute Aufgabenplanung, Sub-Agenten-Spawning, Middleware, Hooks, vollständige Orchestrierungsinfrastruktur. Sein Beweis: Allein durch den Wechsel des Harness stieg LangChains DeepAgent auf TerminalBench 2.0 von außerhalb der Top 30 in die Top 5.

Das ist kein Randeinwand. LangChain verarbeitet täglich Millionen von Agenten-Aufrufen. Ihre Benchmarks sind öffentlich. Die echte Spaltung: Tans Position ist, dass jedes Stück Logik im Harness das Reasoning begrenzt, das das Modell selbst hätte durchführen können. Je besser das Modell wird, desto schlanker sollte das Harness sein. Chases Position ist, dass Harness-Engineering die Modell-Fähigkeit erweitert, anstatt sie zu ersetzen.

Beide Positionen können in unterschiedlichen Kontexten richtig sein. Consumer- und persönliche Agenten, bei denen Portabilität und Langlebigkeit zählen, bevorzugen ein schlankes Harness. Enterprise-Pipelines, bei denen Zuverlässigkeit und Nachvollziehbarkeit zählen, rechtfertigen möglicherweise ein fettes Harness. Keine Seite bestreitet, dass Skills fett sein sollten. Die Frage für Ihr Projekt ist nicht, welches Lager recht hat. Sondern auf welcher Seite Ihr Anwendungsfall liegt.

Die meisten Unternehmen, die zum ersten Mal KI-Features bauen, sollten schlank starten und Infrastruktur nur dann hinzufügen, wenn sie auf konkrete Zuverlässigkeitsprobleme stoßen. Unsicher, wo Ihr Projekt einzuordnen ist? Sprechen Sie mit unserem Team über die passende Architektur.

Ihre Anweisungen laufen ab. Ihr Kontext nicht.

Daniel Miessler veröffentlichte das schärfste Diagnose-Framework der Woche. Er nennt es das Bitter-Lesson-Engineering-Audit, nach Richard Suttons Beobachtung von 2019, dass allgemeine Ansätze, die mit Rechenleistung skalieren, handkodierte Ansätze auf lange Sicht konsistent schlagen.

Angewendet auf KI-Tools: Schlechtes Harness-Engineering sind präskriptive Anweisungen. "Kopieren Sie zuerst diese Datei, dann laden Sie das, dann tun Sie dies, dann das." Schritt-für-Schritt-Mikromanagement der Ausführung der KI. Dieser Ansatz degeneriert, je smarter Modelle werden. Übermäßig starre Schritte verhindern, dass das Modell sein eigenes Reasoning anwendet.

Gutes Harness-Engineering ist kontextuell. Wer Sie sind, woran Sie arbeiten, was Sie erreichen wollen, wie gut und schlecht aussieht. Identität, Geschmack, Standards, Ziele. Das Modell findet das Wie.

Miesslers Diagnose ist einfach. Wenn Ihre Konfiguration wie ein Rezept klingt (Schritt 1, Schritt 2, Schritt 3), betreiben Sie schlechtes Harness-Engineering. Wenn sie wie ein Briefing-Dokument klingt (hier bin ich, hier ist, was zählt, hier sind die Werkzeuge), betreiben Sie gutes Harness-Engineering. Kontext darüber, wer Sie sind, läuft nie ab. Präskriptive Anweisungen werden mit jeder Modellverbesserung obsolet.

Die Architektur ist nicht kompliziert. Fat Skills, Thin Harness, konsequente Trennung von latenter und deterministischer Arbeit. Das Schwierige ist die Disziplin: Urteilsvermögen in wiederverwendbare Skills kodieren statt einmalige Aufgaben zu erledigen, das Harness schlank halten, wenn die Versuchung ist, Features hinzuzufügen, und dem Modell vertrauen, das Wie herauszufinden, wenn Sie ihm das richtige Was und Warum geben.

Bei webvise bauen wir KI-gestützte Systeme nach diesen Architekturprinzipien. Ob Sie einen Agenten-Workflow, eine automatisierte Pipeline oder eine produktionsreife KI-Integration benötigen: die Architektur zählt mehr als das Modell.

Die Praktiken von webvise sind an den ISO 27001- und ISO 42001-Standards ausgerichtet.

Vorheriger Artikel

Der KI Knowledge Layer: 127 Seiten, keine Vektordatenbank, und was wir falsch gemacht haben

Karpathys LLM-Wiki-Gist hatte in einer Woche 99.000 Bookmarks. Das traf einen Nerv, weil es benennt, was jeder KI-Nutzer spürt: deine Agenten haben kein Gedächtnis. Wir betreiben einen Knowledge Layer in Produktion. Was funktioniert, was nicht, und wie du in 20 Minuten einen aufbaust.

Nächster Artikel

Hermes Agent im Produktionseinsatz: Der Day-30-Operator-Layer

Die meisten 4-Profil-Teams mit Hermes Agent funktionieren am ersten Tag gut und zeigen bis Tag 30 in produktiven Deployments Zeichen von Stimmenkonvergenz. Der Operator-Layer, der das verhindert: Handoff-Verträge, Memory-KPI-Audits und Policy-Gates pro Rolle.