24 april 2026 · 10 min lezen

OpenAI Privacy Filter: Het Open-Weight PII-model Dat in Uw Browser Draait (En Waar Het Thuishoort in een Agent Stack)

OpenAI's nieuwe open-weight PII-classifier draait in uw browser en vult de governance-laag die de meeste agent stacks overslaan. Zo werkt het model, waar het past, en wat het verstoort.

Onderwerpen

AI AgentsSecurityOpen SourceSelf-Hosted

OpenAI heeft zojuist een tool uitgebracht, geen model. openai/privacy-filter is een bidirectionele token-classifier met 1,5 miljard parameters, gepubliceerd onder Apache 2.0, die in uw browser draait, acht categorieën persoonsgegevens detecteert in één forward pass en de governance-laag vult die de meeste agent stacks overslaan.

Als u de release notes leest als een gewone model-drop, mist u het eigenlijke signaal.

Als u vandaag agents laat werken op klantdata, is PII-redactie waarschijnlijk een regex-bibliotheek die u zelf onderhoudt of een LLM-aanroep waarvoor u liever niet betaalt. Dit artikel bespreekt wat openai/privacy-filter werkelijk is, de architectuurkeuzes die ertoe doen en waar het thuishoort in een serieuze agent governance stack. We leggen ook uit waarom deze release ons standpunt bijstelt over agents die onbetrouwbare invoer verwerken, en wat u daarmee doet als u gereguleerde workloads in productie brengt.

Kernpunten

openai/privacy-filter is een doelgericht getrainde classifier, geen algemene LLM. 1,5 miljard totale parameters, 50 miljoen actief via MoE-routing, 128.000 tokens context, Apache 2.0-licentie.
De architectuur is afgeleid van de gpt-oss-lijn. De language-model head is vervangen door een 33-klasse BIOES token-classification head. Gedecodeerd met constrained Viterbi voor span-coherentie.
Draait in een browsertabblad via Transformers.js en WebGPU. Geen API-rondreis, geen server-egress, geen OpenAI-account vereist tijdens uitvoering.
Detecteert acht PII-categorieën: private_person, private_email, private_phone, private_address, private_url, private_date, account_number, secret.
Geen anonimisering. Engels als primaire taal met verminderde recall op niet-Latijnse schriften. Statische labeltaxonomie waarvoor fine-tuning nodig is om uit te breiden.

OpenAI heeft een tool uitgebracht, geen model. Dat is het nieuws.

De meeste media zullen dit rapporteren als een gewone OpenAI-drop op Hugging Face. Het architectuursignaal is anders. Dit is een bidirectionele classifier die na-getraind is vanuit een gpt-oss-gevormd autoregressive checkpoint, waarbij de language-model head is vervangen door een 33-klasse token-classification head over acht privacy span-categorieën plus een achtergrondklasse.

OpenAI brengt geen model uit om mee te chatten. Ze hebben een tool uitgebracht om invoer en uitvoer naar andere modellen te bewaken.

Dat is van belang omdat het vakgebied drie jaar lang generatieve LLMs heeft behandeld als het standaard primitief voor elk tekstprobleem, inclusief problemen waarvoor LLMs slecht geschikt zijn. PII-redactie is een classificatieprobleem. Een generiek model van 70 miljard parameters uitvoeren op elk inkomend verzoek om het vriendelijk te vragen e-mailadressen te maskeren, is een kostbaar noodmiddel. Een classifier met 1,5 miljard parameters en 50 miljoen actieve MoE-parameters voert dezelfde taak uit in één forward pass, draait op een laptop en kan geen nieuwe e-mailadressen hallucineren.

De keuze om dit af te leiden van gpt-oss is het onderdeel dat onderbelicht blijft. OpenAI geeft aan dat de gpt-oss-familie geen eenmalige PR-zet is. Het wordt een basis voor doelgerichte hulpmodellen die bureaus en engineeringteams lokaal worden geacht te draaien. Verwacht meer van dit soort releases.

Als u een agent governance stack evalueert voor een gereguleerde workload, ontwerpt webvise compliance-conforme stacks van de grond af aan.

De architectuur, in gewone taal

Privacy Filter is een pre-norm encoder stack van acht blokken met grouped-query attention (14 query heads, 2 KV heads, groepsgrootte 7), rotary positional embeddings en een 128-expert sparse MoE feed-forward blok met top-4-routing. De breedte van de residual stream bedraagt 640. Het totale aantal parameters komt uit op 1,5 miljard, de actieve parameters per token op 50 miljoen.

Het model gebruikt banded attention met een bandgrootte van 128, wat een effectief venster van 257 tokens oplevert. De contextlengte loopt op tot 128.000 tokens, waardoor chunking voor typische langdocument-workloads overbodig wordt.

De labeling head geeft 33 logits per token: één achtergrondlabel plus acht span-categorieën uitgebreid naar BIOES-tags (Begin, Inside, End, Single). Inferentie maakt gebruik van een constrained Viterbi-decoder met linear-chain transitiescoring over volledige labeltrajecten. Zes transitie-biasparameters sturen de persistentie van de achtergrond, span-entry, -voortgang, -sluiting en grens-naar-grens-overdracht. Het praktische effect is dat spangrenzen coherent blijven in gemengd opgemaakte tekst waar onafhankelijke argmax-decodering fragmenteert.

Runtime-operatiepunten laten u de afweging tussen precisie en recall aanpassen zonder opnieuw te trainen. Bias richting span-entry en -voortgang voor over-redactie (compliance-vriendelijk, meer ruis). Bias richting achtergrondpersistentie voor under-redactie (behoudt context, risico op lekkage). De volledige model card, inclusief evaluatiemethodologie, staat op huggingface.co/openai/privacy-filter.

Waarom uitvoerbaarheid in de browser de plaatsingsbeslissing verandert

De meeste PII-redactiemiddleware draait server-side. Data gaat in plaintext over het netwerk, bereikt een redactieservice, wordt gesaneerd en gaat vervolgens verder naar de model-API. Elke stap voegt latentie, kosten en een punt toe waar de plaintext-versie in logs terechtkomt.

Privacy Filter draait in een browsertabblad via Transformers.js met WebGPU en q4-kwantisatie. De implicatie: u kunt de invoer van de gebruiker in hun eigen browser redigeren voordat de tekst het apparaat verlaat.

De server ontvangt een geredigeerde versie. De logopslag ontvangt een geredigeerde versie. De LLM-provider ontvangt een geredigeerde versie. U hoeft uw eigen infrastructuur niet perfect te vertrouwen, omdat de plaintext die nooit bereikt.

Dit verandert de plaatsingsberekening op drie manieren. Client-side inferentie verschuift de vertrouwensgrens buiten uw datacenter. Een model met 50 miljoen actieve parameters is klein genoeg om als onderdeel van een standaardbundel te verzenden zonder het laadbudget van een moderne webapplicatie te overschrijden. En de Apache 2.0-licentie betekent dat u kunt fine-tunen op uw eigen domeindata en gewichten opnieuw kunt hosten zonder een commerciële overeenkomst te onderhandelen.

Er zijn reële kosten. WebGPU-ondersteuning is inconsistent buiten Chromium-browsers, modelgewichten moeten eenmaal per cache-vernietiging worden gedownload, en het inferentievenster wordt begrensd door het beschikbare geheugen van het apparaat. Voor een compliance-workflow in een desktop-webapplicatie zijn die kosten aanvaardbaar. Voor een mobiele webview met agressieve cache-evictie zijn ze dat doorgaans niet.

Waar dit thuishoort in een agent governance stack

Een serieuze agent governance stack heeft afzonderlijke lagen. Het werkmodel dat we bij webvise hanteren, ziet er als volgt uit:

Laag 1: Ingressauthenticatie en rate limiting
Laag 2: Dataminimalisatie (invoerredactie)
Laag 3: Prompt-samenstelling en contextopbouw
Laag 4: Model-inferentie
Laag 5: Uitvoerfiltering (PII, veiligheid, beleid)
Laag 6: Egress naar actiehandlers, opslag, third-party API's

openai/privacy-filter past naadloos op Laag 2 en, met een andere kalibratie van het operatiepunt, op Laag 5. Het vervangt geen veiligheidsmodellen, prompt injection-detectoren of agent-niveau beleidsengines. Het vervangt wel de regex-bibliotheek die u tot nu toe onderhield, en doet dat met architectuureigenschappen die op regels gebaseerde benaderingen niet kunnen evenaren.

Plaatsing	Vertrouwensgrens	Wanneer te gebruiken
Client-side (browser + WebGPU)	Plaintext verlaat het apparaat nooit	Compliance-first webapplicaties, gereguleerde sectoren, interne tools
Server middleware (Node + Transformers)	Vertrouwde server, geauditeerde logs	API's, backend agents, batchpipelines
Uitvoerfilter (post-response)	Modeluitvoer bereikt de client nooit onbewerkt	Chat agents, gegenereerde content, gebruikersgerichte RAG-flows

Voor de meeste client stacks die wij ontwerpen, is het antwoord Laag 2 en Laag 5 in combinatie. De browser-lokale controle voorkomt dat onbedoelde PII de context window binnenkomt. De server-side uitvoercontrole onderschept alles wat het model genereert of lekt in zijn antwoord. Defense in depth is het doel.

Als u vandaag uw datastromen in kaart brengt tegen een governance-laag, praat u met webvise over stack-ontwerp voordat u vastlegt.

De acht categorieën, en waar dit faalt

De labeltaxonomie van Privacy Filter is statisch. Acht categorieën plus een achtergrondklasse, met BIOES-grenslabels per categorie.

Categorie	Wat wordt gedetecteerd	Bekende faalwijze
private_person	Persoonsnamen	Ongewone regionale namen, initialen en referenties met veel aanspreektitels worden ondergedetecteerd
private_email	E-mailadressen	Sterke dekking. Verhulde formaten ("naam bij domein") kunnen worden gemist
private_phone	Telefoonnummers	Internationale formaten solide. Niet-standaard scheidingstekens fragmenteren soms
private_address	Postadressen	Meerregelige adressen in dichte opmaak fragmenteren op grenzen
private_url	Identificerende URL's	Over-redacteert publieke entiteits-URL's wanneer de lokale context ambigu is
private_date	Geboortedatums, afspraken	Contextgevoelig. Kalenderdatums in planteksten worden soms over-geredigeerd
account_number	Bank-, klant- en patiëntnummers	Domeinspecifieke identifier-patronen worden ondergedetecteerd
secret	API-sleutels, inloggegevens, tokens	Nieuwe inloggegevensformaten en gesplitste geheimen worden gemist

Als uw domein categorieën heeft buiten deze lijst, voert u fine-tuning uit. De model card vermeldt expliciet dat u het labelbeleid niet tijdens runtime kunt wijzigen. Dat is de prijs van een classifier met 50 miljoen actieve parameters: de taxonomie is ingebakken. Voor teams die opties vergelijken, behandelt onze gids over de beste lokale AI-modellen voor compliant bedrijven in 2026 de algemene LLM-kant van dezelfde beslissing.

De model card van OpenAI is ongewoon direct. Drie beperkingen die serieus genomen moeten worden voordat u in productie gaat.

Engels als primaire taal, niet meertalig

Het model is getest op geselecteerde meertalige benchmarks, maar de nauwkeurigheid daalt bij niet-Latijnse schriften en naamconventies van beschermde groepen. Als u levert aan een klant met Duits, Pools of Italiaans persoonsgegevens, verwacht dan dat de recall afneemt. Voer fine-tuning uit op in-domein voorbeelden of draai een tweede-pass regex-fallback voor de categorieën die het meest relevant zijn.

Geen anonimisering

Dit is een hulpmiddel voor redactie, geen anonimiseringsgarantie. Het verwijderen van oppervlakkige PII elimineert het risico op heridentificatie niet wanneer quasi-identifiers (postcode, leeftijd, zeldzame diagnose) samenkomen. Als uw compliance-verplichting GDPR-anonimisering of HIPAA-de-identificatie onder de Safe Harbor-methode is, heeft u een toegewijde pipeline bovenop dit nodig, niet dit alleen. Onze analyse over AI-regelgeving en certificeringen in Duitsland en Europa brengt de regelgevingsstack gedetailleerd in kaart.

Gevoelige workflows vereisen mensen in de loop

Medisch, juridisch, financieel, HR, onderwijs, overheid. In deze sectoren stellen false negatives data bloot en ontnemen false positives reviewers de context die zij nodig hebben om beslissingen te nemen. Privacy Filter is in deze omgevingen invoer voor een beoordelingsproces, geen vervanging ervoor.

Onze regel: Privacy Filter staat in een stack met ten minste één andere controle stroomafwaarts. Als het de enige laag is, bent u één modelupdate verwijderd van een regressie die niemand opmerkt.

Bijstelling van ons standpunt over "geen agents op het open web"

Eerder deze maand publiceerden we een standpunt: webvise brengt geen AI-agents in productie die het open web lezen voor klanten. De reden was concreet. Door aanvallers gecontroleerde invoer (een gescrapete pagina, een door gebruikers ingediende URL, een derde-partij feed) geeft de agent PII, inloggegevens of prompt-injection payloads die via downstreamacties lekken.

openai/privacy-filter verandert die berekening gedeeltelijk. Aan de kant van invoerlekkage dempt het uitvoeren van een browser-lokale classifier over gescrapete content voordat die de promptcontext binnenkomt twee specifieke patronen: blootstelling van gevoelige data en contextvergiftiging via ingebedde PII.

Het raakt de prompt injection-vector niet. Het verhindert niet dat een zorgvuldig samengestelde pagina de agent instrueert zijn geheugeninhoud te e-mailen. Het verhindert wel dat die pagina per ongeluk het huisadres van een klant in het contextvenster van het model meeneemt.

De bijgestelde positie: we brengen nu smalle open-web-lezers in productie voor niet-gevoelige workflows (aggregatie van publieke data, concurrentie-inlichtingen, marktonderzoek) als Privacy Filter op beide zijden van de model-aanroep is gekoppeld. We brengen ze nog steeds niet in productie voor workflows die klantdossiers, interne documenten of geauthenticeerde acties raken zonder eerst een toegewijde red-team-doorloop.

Hoe u het integreert

Twee gangbare patronen, beide rechtstreeks uit de model card. De Python-pipeline voor server-side redactie:

`from transformers import pipeline; classifier = pipeline(task="token-classification", model="openai/privacy-filter"); classifier("My name is Alice Smith")`

En de Transformers.js-pipeline voor browser-side redactie via WebGPU:

`import { pipeline } from "@huggingface/transformers"; const classifier = await pipeline("token-classification", "openai/privacy-filter", { device: "webgpu", dtype: "q4" }); await classifier(input, { aggregation_strategy: "simple" });`

Plaats de browserpipeline in een Web Worker zodat inferentie de main thread niet blokkeert. Cache de modelgewichten met een service worker zodat de first-visit-straf slechts eenmaal per cache-vernietiging wordt betaald. Stem het operatiepunt af in staging met representatieve data voordat u productie aanraakt. De officiële repository bevat de volledige model card, de demo-omgeving en fine-tuning-richtlijnen.

De privacy-filter-release van OpenAI is geen model. Het is een these over de richting waarin de sector beweegt: doelgerichte, in de browser uitvoerbare, Apache 2.0-classifiers die aan de randen van uw stack draaien en bewaken wat uw LLMs te zien krijgen en wat ze teruggeven. Dat is de vorm van het compliance-werk dat we bij webvise uitvoeren, en het is de vorm van de governance-laag die de meeste agents vandaag missen.

Als uw agent stack geen dataminimalisatielaag heeft, is dit de release om die laag op te bouwen. Als u hulp wilt bij de integratie ervan in iets waarop klanten daadwerkelijk kunnen vertrouwen in productie, bouwt webvise dat.

De werkwijzen van webvise zijn afgestemd op de ISO 27001- en ISO 42001-normen.

Vorig artikel

Wanneer klanten om RAG vragen in 2026: onze beslisboom (en waarom we daar zelden mee beginnen)

We bouwen nog steeds RAG-pipelines wanneer klanten erop staan, maar we raden ze in 2026 zelden als eerste aan. Het grootste deel van de LLM-tooling-stack uit 2024 werd tussen januari en april overbodig. Dit is de beslisboom die we met elke prospect doorlopen, en wat we opleveren wanneer de boom van RAG afwijst.