Waarom We Geen AI Agents Bouwen Die het Open Web Lezen
Op 5 april 2026 publiceerde Google DeepMind het grootste empirische onderzoek naar manipulatie van AI agents ooit uitgevoerd. 502 deelnemers, 8 landen, 23 aanvalstypes, elk beschikbaar verdedigingsmechanisme beoordeeld als onvoldoende. Dit is het technische standpunt dat Webvise de volgende ochtend innam.
Onderwerpen
Op 5 april 2026 publiceerde Google DeepMind het grootste empirische onderzoek naar manipulatie van AI agents ooit uitgevoerd: 502 echte deelnemers uit 8 landen, 23 verschillende aanvalstypes, frontiermodellen waaronder GPT-4o, Claude, en Gemini. De ene zin die we eruithaaldden en de volgende ochtend vastpinden in ons engineeringkanaal is de enige die ertoe doet voor iedereen die in 2026 een zakelijke chatbot lanceert: als uw AI agent tekst leest die door een aanvaller wordt beheerd en daarna acties uitvoert met gebruikersrechten, heeft u al een kwetsbaarheid voor data-exfiltratie opgeleverd. Dit is de reden dat webvise voor geen enkele klant, tegen geen enkele prijs, een AI agent bouwt die het open web doorzoekt.
Wat DeepMind Daadwerkelijk Mat
De meeste persberichten over het onderzoek vermeldden het hoofdgetal, 23 aanvalstypes, en gingen verder. De onderliggende cijfers zijn wat telt voor iedereen die een AI-functie in productie draait:
- 502 deelnemers in echte omstandigheden, geen gesimuleerde laboratoriumtests
- 8 landen, zodat de aanvallen niet geoptimaliseerd waren voor één culturele of taalkundige context
- 23 aanvalstypes verdeeld over 10 categorieën, waaronder directe prompt injection, indirecte injectie via webcontent, multimodale pixelinjectie, documentinjectie, omgevingsmanipulatie, jailbreak-inbedding, geheugenvergiftiging, doelomleding, exfiltratie en cross-agent injectie
- Alle vier klassen van verdediging (invoersanering, prompt-niveau beveiliging, sandboxing, menselijk toezicht) beoordeeld als onvoldoende op schaal
De categorie waar we steeds op terugkomen is de achtste, *doelomleding door geleidelijke instructiedrift over interacties heen.* Elke demo van een agentsysteem die u ooit heeft gezien, overleeft één gerichte aanvalsprompt. Geen enkele overleeft er honderd, zorgvuldig gespreid.
Het Cascade-inzicht Dat de Meeste Berichtgeving Miste
Verborgen in het onderzoek ligt de bevinding die bepaalt of multi-agent producten veilig te lanceren zijn. In elke pipeline waarbij agent A content ophaalt, agent B die verwerkt en agent C een actie uitvoert, verspreidt een enkele injectie in de datafeed van agent A zich door alle stroomafwaartse agents. Agent B vertrouwt de uitvoer van A. Agent C vertrouwt de uitvoer van B. De aanvaller hoefde het model niet te compromitteren. Ze hoefden slechts eenmalig de data te compromitteren die het model consumeerde.
We draaien intern een multi-agent systeem genaamd Hermes, een NousResearch agent op Telegram die 14 cron jobs aanstuurt voor dagelijks nieuws, medische richtlijnsamenvattingen en persoonlijke logistiek. Elk van die 14 jobs leest uitsluitend uit bronnen die we expliciet vertrouwen en handmatig hebben samengesteld. Geen van hen volgt links. Geen van hen voert externe instructies uit. Na het verschijnen van het DeepMind-paper hebben we elke cron geauditeerd en de regel hield stand. Dat lukte omdat we die twee jaar geleden hebben opgeschreven en weigerden hem los te laten. De meeste productie-agentstacks die we zien in klantbriefings hebben deze regel niet, en de engineers die ze bouwen zijn nooit gevraagd hem op te schrijven.
Hoe 'Het Open Web Lezen' Eruitziet in een Klantbriefing
We zien elke maand drie varianten van hetzelfde verzoek:
- 'Laat de chatbot vragen beantwoorden door de website van mijn concurrent te doorzoeken.' Vertaling: geef een aanvaller die een blogpost van een concurrent beheert een schrijfbaar kanaal naar de sessie van onze klant.
- 'Laat gebruikers een URL plakken en de agent die laten samenvatten.' Vertaling: laat elke gebruiker, waar dan ook, een URL plakken waarvan de HTML verborgen instructies bevat die de volgende tien berichten van het gesprek exfiltreren.
- 'Voeg RAG toe over de documentatie van een externe leverancier die wij niet hosten.' Vertaling: geef de tool-aanroepmachtigingen van onze agent aan de marketingstage van de leverancier die de volgende keer een documentatiepagina bewerkt.
Elk van deze opties verbindt een door aanvallers beheerd tekstkanaal rechtstreeks met een systeem dat gebruikersdata, tool-aanroepen en uitgaand netwerktoegang aan dezelfde kant van de vertrouwensgrens heeft. Geen ervan is kwaadaardig van de kant van de klant. Elk ervan is een verdedigbaar productidee. Ze zijn allemaal, na 5 april 2026, ook onleverbaar.
Elk Beschikbaar Verdedigingsmechanisme Faalt
DeepMind testte alle vier voor de hand liggende verdedigingsfamilies. Dit is hun beoordeling, met onze toelichting bij elk:
| Verdediging | DeepMind-oordeel | Waarom het in de praktijk faalt |
|---|---|---|
| Invoersanering | Onvoldoende | U kunt afbeeldingspixels, documentmetadata of sprekersnotities in een PDF niet saneren tijdens inferentie. Het aanvalsoppervlak is tekst en elke andere modaliteit die de agent inneemt. |
| Prompt-niveau beveiliging | Onvoldoende | Geinjecteerde content is ontworpen om eruit te zien als een legitiem onderdeel van de pagina. Tegen de tijd dat het model het ziet, heeft de beveiliging het al vertrouwd. |
| Sandboxing | Verkleint de impact, voorkomt geen injectie | Sandboxing helpt als het resultaat van de aanval ingekapseld is. Het helpt niet wanneer het doel van de aanval is om gebruikersdata te lezen en terug te schrijven via een legaal ogende API-aanroep. |
| Menselijk toezicht | Onvoldoende op schaal | Een operator die een agent laat draaien over 50 bronnen kan niet elke pagina controleren op verborgen instructies. Het hele punt van de agent was dat de mens buiten de loop trad. |
Als u de tabel serieus neemt, is er geen verantwoorde manier om een agent te lanceren die door aanvallers beheerde tekst leest en ook acties uitvoert met gebruikersrechten. De enige beschikbare stap is een van die twee eigenschappen te verwijderen.
Wat We Wel Bouwen
Webvise heeft AI-functies in productie gebracht bij klanten, waaronder de MP Bau constructielandingspagina, die modelaanroepen routeert via de Vercel AI Gateway voor providerkeuze en observability. De vijf regels hieronder zijn wat die build verdedigbaar maakte, en ze zijn nu harde randvoorwaarden voor elk AI-project dat we aannemen:
- Alleen agents met gesloten invoer. De agent leest uit een eindige, handmatig samengestelde set bronnen die wij beheren. Geen open web. Geen door gebruikers geplakte URL's. Geen externe RAG over onbeheerde documentatie.
- Standaard alleen-lezen. Als de agent iets moet lezen wat we niet volledig vertrouwen, mag hij in dezelfde sessie geen tools aanroepen, e-mail verzenden, naar een database schrijven of uitgaande netwerkverzoeken genereren. U krijgt het een of het ander, nooit beide tegelijk.
- Cross-agent isolatie. Wanneer de uitvoer van agent A doorstroomt naar agent B, behandelt B de uitvoer van A als gebruikersinvoer, niet als systeeminstructies. Dit is één regel code in de prompt en het is de volledige verdediging tegen de cascade-aanval.
- Capaciteitsbudgetten per agent. Elke agent heeft een vaste lijst van tools en een tokenlimiet. De limiet is klein genoeg dat zelfs een succesvolle injectie niet meer dan één kort bericht kan exfiltreren.
- Providerisolatie via een gateway. We routeren elke modelaanroep via Vercel AI Gateway zodat we providers kunnen wisselen, elke prompt en voltooiing kunnen loggen en een sleutel binnen seconden kunnen intrekken. Als er iets verdachts in de logs staat, kunnen we het bloeden stoppen in dezelfde minuut dat we het opmerken.
Dit is niet bijzonder ingewikkeld. Het kost een paar uur ontwerpwerk, voordat er ook maar één regel code wordt geschreven. De reden dat de meeste agentproducten in 2026 dit niet hebben, is dat niemand in het team betaald werd om de vertrouwensgrens te tekenen.
Dit Is een Verkooppositie, Geen Bescheidenheidsvertoon
Het is verleidelijk om dit artikel te lezen als een bureau dat zegt *we zijn te voorzichtig om uw geld aan te nemen.* Het tegendeel is waar. Het DeepMind-paper geeft elk team dat voor de agent-hausse al technische geloofwaardigheid had opgebouwd een oneerlijk voordeel: we mogen *nee* zeggen tegen specifieke functieverzoeken, schriftelijk, met een bronvermelding, en de klant bedankt ons ervoor. De bureaus die geen nee zeggen, zijn degenen die eind 2026 in het nieuws komen wanneer het eerste datalek van een zakelijke chatbot een naam krijgt.
Dezelfde kans die op dit moment in contentmarketing bestaat, bestaat ook in agent engineering. De markt staat op het punt overspoeld te worden met kaapbare chatbots, op dezelfde manier waarop de markt wordt overspoeld met door LLM gegenereerde SEO-slop. De premie gaat naar de teams die vooraf kunnen aantonen dat die van hen dat niet is.
Waar We de Grens Trekken
De kortste versie van de regel, de versie die we nu opnemen in elk project-startdocument, is deze: een agent kan onbetrouwbare content lezen, of hij kan handelen met gebruikersrechten, maar niet in dezelfde sessie. Al het andere volgt daaruit. Als een functieverzoek de grens overschrijdt, wordt het niet gebouwd. Als het omgevormd kan worden zodat het aan één kant blijft, vormen we het samen met de klant om en leveren we de aangepaste versie. Het DeepMind-paper heeft deze discipline niet uitgevonden. Het heeft alleen elke reden weggenomen om die niet te hebben.
Bij webvise bouwen we AI-functies voor bedrijven waar de kosten van één gelekt klantbericht hoger zijn dan de kosten van het weigeren van een functieverzoek. Als dat uw project beschrijft, neem dan contact op en we tekenen samen de vertrouwensgrens voordat er ook maar één regel code wordt geschreven.