16 april 2026 · 9 min lezen

Waarom de Meeste AI-agentopzetten Veel Trager Lopen Dan Mogelijk

Het verschil tussen bescheiden en substantiële AI-productiviteitsresultaten zit niet in het model. Het zit in de architectuur eromheen. Vijf builders publiceerden dezelfde these in één week.

Onderwerpen

AI AgentsAIAutomationWeb Development

Het verschil tussen een ontwikkelaar die bescheiden waarde haalt uit AI-tools en iemand die substantieel meer haalt, zit niet in het model dat ze gebruiken. Het zit in de architectuur die dat model omhult. Steve Yegge merkte begin 2026 op dat ontwikkelaars die AI-codeeragenten gebruiken betekenisvolle productiviteitswinsten rapporteren op geschikte taken; gerapporteerde cijfers variëren sterk per methodologie en taaktype. Dezelfde modellen. Dezelfde onderliggende intelligentie. De variabele is structuur.

In één week in april 2026 publiceerden vijf onafhankelijke builders frameworks voor AI-agentarchitectuur. Garry Tan (Y Combinator), Andrej Karpathy, Viv Trivedy, Daniel Miessler en een community-repository die 19.700 GitHub-sterren bereikte, kwamen allemaal uit op dezelfde kernthese: breng intelligentie onder in draagbare markdown-bestanden, houd de orkestratie-infrastructuur zo dun mogelijk, laat het model het redeneren doen. Dit artikel legt uit waar ze het over eens zijn, waar ze van mening verschillen en wat dat betekent voor iedereen die met AI bouwt.

Belangrijkste Inzichten

Intelligentie hoort in markdown-skillbestanden, niet in frameworkcode. Skills zijn draagbaar, versioneerbaar en verbeteren automatisch mee als het model verbetert.
Het harnas moet vier dingen doen en niets anders. Het model in een lus uitvoeren, bestanden lezen en schrijven, context beheren, veiligheid bewaken. Elke functie die u daarbovenop toevoegt, verbruikt context en vertraagt het redeneren.
Vijf builders publiceerden onafhankelijk dezelfde these binnen drie dagen (12 tot 15 april 2026). Garry Tan, Andrej Karpathy, Viv Trivedy, Daniel Miessler en een community-repo met 19.700 sterren. Convergentie van meerdere onafhankelijke bronnen is één van de signalen dat een architectuurpatroon deugdelijk is.
LangChain is het er niet mee eens en heeft benchmarks om dat te onderbouwen. Harrison Chase stelt dat het harnas het product IS. Het antwoord hangt er mogelijk van af of u consumententools of enterprise-pipelines bouwt.
Voorschrijvende instructies verlopen. Context niet. Elk stap-voor-stap recept dat u voor een AI schrijft, degradeert bij de volgende modelrelease. Context over wie u bent en wat u wilt, groeit in waarde.

De Architectuur Is Compact

Bronnen voor productie-agentharnesses zijn steeds vaker beschikbaar voor inspectie, waaronder een publiek waargenomen snapshot van het Claude Code-harnas in 2026. Garry Tan bestudeerde zo'n bron. Wat hij vond, bevestigde een patroon dat hij al maanden bij Y Combinator doceerde: het productiviteitsverschil gaat niet over modelintelligentie. Het gaat over wat het model omhult.

Tan destilleerde de architectuur in drie lagen:

Laag	Wat Het Bevat	Belangrijkste Eigenschap
Dikke skills	Markdown-procedures die oordeel, proces en domeinkennis vastleggen	Draagbaar. U bezit ze.
Dun CLI-harnas	~200 regels: JSON in, tekst uit, contextbeheer, veiligheid	Minimaal. De leverancier levert het.
Uw applicatie	QueryDB, ReadDoc, Search, Timeline. Deterministische operaties.	Betrouwbaar. Zelfde invoer, zelfde uitvoer.

Het principe is richtinggevend. Breng intelligentie omhoog naar skills. Breng uitvoering omlaag naar deterministische tooling. Houd het harnas dun. 90% van de waarde zit in de skilllaag. Het harnas is een dirigent die bestanden leest. Het bezit ze niet.

Tan's eigen ervaring maakt het punt duidelijk. Zijn persoonlijke CLAUDE.md begon op 20.000 regels. Elke eigenaardigheid, elke conventie, elke les die hij ooit was tegengekomen. Het resultaat: de aandacht van Claude Code degradeerde. Het model vertelde hem letterlijk om het in te korten. Zijn oplossing was 200 regels verwijzingen naar documenten die op aanvraag laden. De volledige 20.000 regels kennis bestaan nog steeds. Ze laden alleen wanneer relevant in plaats van bij elke beurt het contextvenster te vervuilen.

Als u AI-tools of workflows voor uw bedrijf bouwt, bepaalt de architectuur van het begin af aan goed inrichten of u eindigt met een demo die imponeer of een systeem dat daadwerkelijk in productie gaat.

Vijf Definities die Hoogpresterende AI-builds Onderscheiden

De architectuur rust op vijf concepten. Sla er één over en het systeem presteert ondermaats.

1. Skillbestanden

Een skill is een herbruikbaar markdown-document dat het model leert hoe iets gedaan moet worden. Niet wat er gedaan moet worden. De gebruiker levert de taak. De skill levert het proces. Het werkt als een methodeaanroep: dezelfde procedure, andere argumenten, radicaal verschillende uitvoer.

Tan's voorbeeld: een skill genaamd /investigate heeft zeven stappen (de dataset afbakenen, een tijdlijn opstellen, elk document diariseren, synthetiseren, beide kanten beargumenteren, bronnen citeren). Richt het op een veiligheidswetenschapper en 2,1 miljoen discovery-e-mails en u krijgt een medisch onderzoeksanalist. Richt het op een brievenbusfirma en FEC-documenten en u krijgt een forensisch onderzoeker. Dezelfde zeven stappen. De aanroep levert de wereld.

2. Resolvers

Een resolver is een routeringstabel voor context. Wanneer taaktype X verschijnt, laad dan eerst document Y. Zonder een resolver wijzigt een ontwikkelaar een prompt en publiceert die. Met een resolver leest het model eerst de documentatie van de evaluatiesuite, voert benchmarks uit en keert terug als de nauwkeurigheid meer dan 2% daalt. De ontwikkelaar wist niet dat de evaluatiesuite bestond. De resolver laadde de juiste context op het juiste moment.

3. Latent versus deterministisch

Elke stap in een systeem is het een of het ander. Ze door elkaar halen is de meest voorkomende fout in agentontwerp. Een LLM kan 8 mensen aan een diner plaatsen, rekening houdend met persoonlijkheden. Vraag het 800 mensen te plaatsen en het hallucineert een tafelindeling die plausibel oogt maar volledig onjuist is. Dat is een deterministisch probleem dat in de latente ruimte wordt gedwongen. De beste systemen zijn meedogenloos over deze grens.

4. Diarisering

Het model leest alles over een onderwerp en schrijft een gestructureerd profiel. Geen SQL-query produceert dit. Geen RAG-pipeline produceert dit. Het model moet lezen, tegenstrijdigheden in gedachten houden, opmerken wat er veranderd is en wanneer, en gestructureerde inzichten synthetiseren.

Tan's team bouwde een systeem voor YC Startup School dat op deze manier 6.000 oprichterprofielen beheert. De diariseringsuitvoer vangt dingen op die geen trefwoordzoekactie kan vinden: een oprichter die "Datadog voor AI-agenten" zegt maar wiens GitHub-commits voor 80% uit factureringscode bestaan. Ze bouwt een FinOps-tool vermomd als observability. Dat verschil tussen "zegt" en "bouwt feitelijk" vereist het gelijktijdig lezen van de commitgeschiedenis, de aanvraag en het adviseurstranscript. Geen embedding-similariteitszoekactie vindt dat.

5. Permanente upgrades

Tan's instructie aan zijn AI: "Als ik u vraag iets te doen en het is het soort dat vaker zal moeten gebeuren, codificeer het dan in een skillbestand. Als het automatisch moet lopen, zet het dan op een cron. Als ik u twee keer om iets moet vragen, heeft u gefaald." Elke geschreven skill is een permanente upgrade. Die degradeert nooit. Wanneer het volgende model uitkomt, verbetert elke skill automatisch mee. Het systeem groeit in waarde.

Vijf Frameworks Gepubliceerd in Één Week Zeggen Hetzelfde

De convergentie is het sterkste signaal. Deze vijf kenniscorpora verschenen onafhankelijk van elkaar tussen 12 en 15 april 2026. Geen van deze builders werkt samen. Ze kwamen vanuit verschillende uitgangspunten bij dezelfde architectuur uit.

Framework	Waar Intelligentie Leeft	Wat Dun Blijft
Tan (dikke skills)	Markdown-skillbestanden, SOUL.md	Het harnas: dirigent, geen brein
Karpathy (CLAUDE.md)	Gedragsinstructiebestanden	Geen framework nodig. Één .md-bestand
Trivedy (contextfragmenten)	Geëxternaliseerd geheugen, ophaallaag	Harnas beheert context, bezit kennis niet
Miessler (bittere les)	Context over identiteit, doelen, smaak	Instructies over hoe uit te voeren
Community (19.700-sterren repo)	Skills, slash-commands, CLAUDE.md-regels	Subagenten vervangen compactie. Grep vervangt RAG

Tan kwam hier uit na het verzenden van een hoog volume productiecode in twee maanden — regelaantallen zijn geen kwaliteitsmaatstaf, maar de doorvoer is ongebruikelijk met gstack (23.000+ GitHub-sterren in zijn eerste week; steraantallen meten zichtbaarheid, niet geschiktheid voor productie). Karpathy kwam hier uit na het debuggen van de drie persistente faalwijzen van AI-coderingassistenten. Trivedy kwam hier uit na het itereren op harnesontwerp via 30+ versies. Miessler kwam hier uit na het toepassen van Richard Sutton's bittere les op AI-tooling.

Convergentie van meerdere onafhankelijke bronnen is één van de signalen dat een architectuurpatroon deugdelijk is.

LangChain Is Het Oneens en Heeft Benchmarks om Dat te Bewijzen

Harrison Chase (CEO van LangChain) publiceerde Deep Agents in dezelfde week en betoogde het tegenovergestelde: het harnas IS het product. Ingebouwde taakplanning, subagentspawning, middleware, hooks, volledige orkestratie-infrastructuur. Zijn bewijs: alleen het harnas wijzigen bracht LangChain's DeepAgent van buiten de top 30 naar de top 5 op TerminalBench 2.0.

Dit is geen marginaal bezwaar. LangChain verwerkt dagelijks miljoenen agentaanroepen. Hun benchmarks zijn openbaar. De echte verdeling: Tan's standpunt is dat elk stukje logica in het harnas het redeneren dat het model had kunnen doen beperkt. Hoe beter het model wordt, hoe dunner het harnas moet zijn. Chase's standpunt is dat harnasengineering de modelcapaciteit uitbreidt in plaats van vervangt.

Beide standpunten kunnen correct zijn voor verschillende contexten. Consumenten- en persoonlijke agenten (waar draagbaarheid en levensduur belangrijk zijn) geven de voorkeur aan een dun harnas. Enterprise-pipelines (waar betrouwbaarheid en controleerbaarheid belangrijk zijn) kunnen een dik harnas rechtvaardigen. Geen van beide partijen betwist dat skills dik moeten zijn. De vraag voor uw project is niet welk kamp gelijk heeft. Het is aan welke kant van de lijn uw use case valt.

De meeste bedrijven die voor het eerst AI-functies bouwen, doen er verstandig aan dun te beginnen en infrastructuur alleen toe te voegen wanneer ze specifieke betrouwbaarheidsdrempels bereiken. Weet u niet zeker waar uw project valt? Praat met ons team over welke architectuur past.

Uw Instructies Verlopen. Uw Context Niet.

Daniel Miessler publiceerde de scherpste diagnose van de week. Hij noemt het de bittere-les-engineeringaudit, naar Richard Sutton's observatie uit 2019 dat algemene benaderingen die meeschalen met rekenkracht op de lange termijn consequent beter presteren dan handgecodeerde benaderingen.

Toegepast op AI-tools: slechte harnasengineering zijn voorschrijvende instructies. "Kopieer eerst dit bestand, laad dan dit, doe dan dat, doe dan dat." Stap-voor-stap micromanagement van de uitvoering door de AI. Deze aanpak degradeert naarmate modellen slimmer worden. Overdreven rigide stappen verhinderen het model zijn eigen redenering toe te passen.

Goede harnasengineering is contextueel. Wie u bent, waaraan u werkt, wat u probeert te bereiken, hoe goed en slecht eruitzien. Identiteit, smaak, standaarden, doelen. Het model bepaalt zelf de aanpak.

Miessler's diagnose is eenvoudig. Als uw configuratie leest als een recept (stap 1, stap 2, stap 3), doet u slechte harnasengineering. Als het leest als een briefingdocument (hier is wie ik ben, hier is wat belangrijk is, hier zijn de tools), doet u goede harnasengineering. Context over wie u bent verloopt nooit. Voorschrijvende instructies verouderen bij elke modelverbetering.

De architectuur is niet ingewikkeld. Dikke skills, dun harnas, meedogenloze scheiding van latent en deterministisch werk. Het moeilijke deel is discipline: oordeel vastleggen in herbruikbare skills in plaats van eenmalig werk doen, het harnas dun houden wanneer de verleiding is om functies toe te voegen, en het model vertrouwen het "hoe" te bepalen wanneer u het de juiste "wat" en "waarom" geeft.

Bij webvise bouwen we AI-gestuurde systemen volgens deze architectuurprincipes. Of u nu een agentworkflow, een geautomatiseerde pipeline of een productie-AI-integratie nodig heeft: de architectuur telt zwaarder dan het model.

De werkwijzen van webvise zijn afgestemd op de ISO 27001- en ISO 42001-normen.

Vorig artikel

De AI knowledge layer: 127 pagina's, geen vector database, en wat we fout hadden

Karpathy's LLM wiki gist haalde in een week 99.000 bladwijzers. Het sloeg aan omdat het benoemt wat elke AI-gebruiker voelt: je agents hebben geen geheugen. Wij draaien een knowledge layer in productie. Dit is wat werkt, wat niet werkt, en hoe je er in 20 minuten een bouwt.

Volgend artikel

Hermes Agent in productie: de day-30 operator layer

De meeste Hermes Agent-teams met 4 profiles werken goed op dag één en tonen tekenen van stemconvergentie tegen dag 30 in productiedeployments. De operator layer die dat voorkomt: handoff contracts, memory-KPI-audits en policy gates per rol.