OpenAI Privacy Filter: Het Open-Weight PII-model Dat in Uw Browser Draait (En Waar Het Thuishoort in een Agent Stack)
OpenAI's nieuwe open-weight PII-classifier draait in uw browser en vult de governance-laag die de meeste agent stacks overslaan. Zo werkt het model, waar het past, en wat het verstoort.
OpenAI heeft zojuist een tool uitgebracht, geen model. openai/privacy-filter is een bidirectionele token-classifier met 1,5 miljard parameters, gepubliceerd onder Apache 2.0, die in uw browser draait, acht categorieën persoonsgegevens detecteert in één forward pass en de governance-laag vult die de meeste agent stacks overslaan.
Als u de release notes leest als een gewone model-drop, mist u het eigenlijke signaal.
Als u vandaag agents laat werken op klantdata, is PII-redactie waarschijnlijk een regex-bibliotheek die u zelf onderhoudt of een LLM-aanroep waarvoor u liever niet betaalt. Dit artikel bespreekt wat openai/privacy-filter werkelijk is, de architectuurkeuzes die ertoe doen en waar het thuishoort in een serieuze agent governance stack. We leggen ook uit waarom deze release ons standpunt bijstelt over agents die onbetrouwbare invoer verwerken, en wat u daarmee doet als u gereguleerde workloads in productie brengt.
Kernpunten
openai/privacy-filter is een doelgericht getrainde classifier, geen algemene LLM. 1,5 miljard totale parameters, 50 miljoen actief via MoE-routing, 128.000 tokens context, Apache 2.0-licentie.
De architectuur is afgeleid van de gpt-oss-lijn. De language-model head is vervangen door een 33-klasse BIOES token-classification head. Gedecodeerd met constrained Viterbi voor span-coherentie.
Draait in een browsertabblad via Transformers.js en WebGPU. Geen API-rondreis, geen server-egress, geen OpenAI-account vereist tijdens uitvoering.
Detecteert acht PII-categorieën: private_person, private_email, private_phone, private_address, private_url, private_date, account_number, secret.
Geen anonimisering. Engels als primaire taal met verminderde recall op niet-Latijnse schriften. Statische labeltaxonomie waarvoor fine-tuning nodig is om uit te breiden.
OpenAI heeft een tool uitgebracht, geen model. Dat is het nieuws.
De meeste media zullen dit rapporteren als een gewone OpenAI-drop op Hugging Face. Het architectuursignaal is anders. Dit is een bidirectionele classifier die na-getraind is vanuit een gpt-oss-gevormd autoregressive checkpoint, waarbij de language-model head is vervangen door een 33-klasse token-classification head over acht privacy span-categorieën plus een achtergrondklasse.
OpenAI brengt geen model uit om mee te chatten. Ze hebben een tool uitgebracht om invoer en uitvoer naar andere modellen te bewaken.
Dat is van belang omdat het vakgebied drie jaar lang generatieve LLMs heeft behandeld als het standaard primitief voor elk tekstprobleem, inclusief problemen waarvoor LLMs slecht geschikt zijn. PII-redactie is een classificatieprobleem. Een generiek model van 70 miljard parameters uitvoeren op elk inkomend verzoek om het vriendelijk te vragen e-mailadressen te maskeren, is een kostbaar noodmiddel. Een classifier met 1,5 miljard parameters en 50 miljoen actieve MoE-parameters voert dezelfde taak uit in één forward pass, draait op een laptop en kan geen nieuwe e-mailadressen hallucineren.
De keuze om dit af te leiden van gpt-oss is het onderdeel dat onderbelicht blijft. OpenAI geeft aan dat de gpt-oss-familie geen eenmalige PR-zet is. Het wordt een basis voor doelgerichte hulpmodellen die bureaus en engineeringteams lokaal worden geacht te draaien. Verwacht meer van dit soort releases.
Als u een agent governance stack evalueert voor een gereguleerde workload, ontwerpt webvise compliance-conforme stacks van de grond af aan.
De architectuur, in gewone taal
Privacy Filter is een pre-norm encoder stack van acht blokken met grouped-query attention (14 query heads, 2 KV heads, groepsgrootte 7), rotary positional embeddings en een 128-expert sparse MoE feed-forward blok met top-4-routing. De breedte van de residual stream bedraagt 640. Het totale aantal parameters komt uit op 1,5 miljard, de actieve parameters per token op 50 miljoen.
Het model gebruikt banded attention met een bandgrootte van 128, wat een effectief venster van 257 tokens oplevert. De contextlengte loopt op tot 128.000 tokens, waardoor chunking voor typische langdocument-workloads overbodig wordt.
De labeling head geeft 33 logits per token: één achtergrondlabel plus acht span-categorieën uitgebreid naar BIOES-tags (Begin, Inside, End, Single). Inferentie maakt gebruik van een constrained Viterbi-decoder met linear-chain transitiescoring over volledige labeltrajecten. Zes transitie-biasparameters sturen de persistentie van de achtergrond, span-entry, -voortgang, -sluiting en grens-naar-grens-overdracht. Het praktische effect is dat spangrenzen coherent blijven in gemengd opgemaakte tekst waar onafhankelijke argmax-decodering fragmenteert.
Runtime-operatiepunten laten u de afweging tussen precisie en recall aanpassen zonder opnieuw te trainen. Bias richting span-entry en -voortgang voor over-redactie (compliance-vriendelijk, meer ruis). Bias richting achtergrondpersistentie voor under-redactie (behoudt context, risico op lekkage). De volledige model card, inclusief evaluatiemethodologie, staat op huggingface.co/openai/privacy-filter.
Waarom uitvoerbaarheid in de browser de plaatsingsbeslissing verandert
De meeste PII-redactiemiddleware draait server-side. Data gaat in plaintext over het netwerk, bereikt een redactieservice, wordt gesaneerd en gaat vervolgens verder naar de model-API. Elke stap voegt latentie, kosten en een punt toe waar de plaintext-versie in logs terechtkomt.
Privacy Filter draait in een browsertabblad via Transformers.js met WebGPU en q4-kwantisatie. De implicatie: u kunt de invoer van de gebruiker in hun eigen browser redigeren voordat de tekst het apparaat verlaat.
De server ontvangt een geredigeerde versie. De logopslag ontvangt een geredigeerde versie. De LLM-provider ontvangt een geredigeerde versie. U hoeft uw eigen infrastructuur niet perfect te vertrouwen, omdat de plaintext die nooit bereikt.
Dit verandert de plaatsingsberekening op drie manieren. Client-side inferentie verschuift de vertrouwensgrens buiten uw datacenter. Een model met 50 miljoen actieve parameters is klein genoeg om als onderdeel van een standaardbundel te verzenden zonder het laadbudget van een moderne webapplicatie te overschrijden. En de Apache 2.0-licentie betekent dat u kunt fine-tunen op uw eigen domeindata en gewichten opnieuw kunt hosten zonder een commerciële overeenkomst te onderhandelen.
Er zijn reële kosten. WebGPU-ondersteuning is inconsistent buiten Chromium-browsers, modelgewichten moeten eenmaal per cache-vernietiging worden gedownload, en het inferentievenster wordt begrensd door het beschikbare geheugen van het apparaat. Voor een compliance-workflow in een desktop-webapplicatie zijn die kosten aanvaardbaar. Voor een mobiele webview met agressieve cache-evictie zijn ze dat doorgaans niet.
Waar dit thuishoort in een agent governance stack
Een serieuze agent governance stack heeft afzonderlijke lagen. Het werkmodel dat we bij webvise hanteren, ziet er als volgt uit:
Laag 1: Ingressauthenticatie en rate limiting
Laag 2: Dataminimalisatie (invoerredactie)
Laag 3: Prompt-samenstelling en contextopbouw
Laag 4: Model-inferentie
Laag 5: Uitvoerfiltering (PII, veiligheid, beleid)
Laag 6: Egress naar actiehandlers, opslag, third-party API's
openai/privacy-filter past naadloos op Laag 2 en, met een andere kalibratie van het operatiepunt, op Laag 5. Het vervangt geen veiligheidsmodellen, prompt injection-detectoren of agent-niveau beleidsengines. Het vervangt wel de regex-bibliotheek die u tot nu toe onderhield, en doet dat met architectuureigenschappen die op regels gebaseerde benaderingen niet kunnen evenaren.
| Plaatsing | Vertrouwensgrens | Wanneer te gebruiken |
|---|---|---|
| Client-side (browser + WebGPU) | Plaintext verlaat het apparaat nooit | Compliance-first webapplicaties, gereguleerde sectoren, interne tools |
| Server middleware (Node + Transformers) | Vertrouwde server, geauditeerde logs | API's, backend agents, batchpipelines |
| Uitvoerfilter (post-response) | Modeluitvoer bereikt de client nooit onbewerkt | Chat agents, gegenereerde content, gebruikersgerichte RAG-flows |
Voor de meeste client stacks die wij ontwerpen, is het antwoord Laag 2 en Laag 5 in combinatie. De browser-lokale controle voorkomt dat onbedoelde PII de context window binnenkomt. De server-side uitvoercontrole onderschept alles wat het model genereert of lekt in zijn antwoord. Defense in depth is het doel.
Als u vandaag uw datastromen in kaart brengt tegen een governance-laag, praat u met webvise over stack-ontwerp voordat u vastlegt.
De acht categorieën, en waar dit faalt
De labeltaxonomie van Privacy Filter is statisch. Acht categorieën plus een achtergrondklasse, met BIOES-grenslabels per categorie.
| Categorie | Wat wordt gedetecteerd | Bekende faalwijze |
|---|---|---|
| private_person | Persoonsnamen | Ongewone regionale namen, initialen en referenties met veel aanspreektitels worden ondergedetecteerd |
| private_email | E-mailadressen | Sterke dekking. Verhulde formaten ("naam bij domein") kunnen worden gemist |
| private_phone | Telefoonnummers | Internationale formaten solide. Niet-standaard scheidingstekens fragmenteren soms |
| private_address | Postadressen | Meerregelige adressen in dichte opmaak fragmenteren op grenzen |
| private_url | Identificerende URL's | Over-redacteert publieke entiteits-URL's wanneer de lokale context ambigu is |
| private_date | Geboortedatums, afspraken | Contextgevoelig. Kalenderdatums in planteksten worden soms over-geredigeerd |
| account_number | Bank-, klant- en patiëntnummers | Domeinspecifieke identifier-patronen worden ondergedetecteerd |
| secret | API-sleutels, inloggegevens, tokens | Nieuwe inloggegevensformaten en gesplitste geheimen worden gemist |
Als uw domein categorieën heeft buiten deze lijst, voert u fine-tuning uit. De model card vermeldt expliciet dat u het labelbeleid niet tijdens runtime kunt wijzigen. Dat is de prijs van een classifier met 50 miljoen actieve parameters: de taxonomie is ingebakken. Voor teams die opties vergelijken, behandelt onze gids over de beste lokale AI-modellen voor compliant bedrijven in 2026 de algemene LLM-kant van dezelfde beslissing.
De model card van OpenAI is ongewoon direct. Drie beperkingen die serieus genomen moeten worden voordat u in productie gaat.
Engels als primaire taal, niet meertalig
Het model is getest op geselecteerde meertalige benchmarks, maar de nauwkeurigheid daalt bij niet-Latijnse schriften en naamconventies van beschermde groepen. Als u levert aan een klant met Duits, Pools of Italiaans persoonsgegevens, verwacht dan dat de recall afneemt. Voer fine-tuning uit op in-domein voorbeelden of draai een tweede-pass regex-fallback voor de categorieën die het meest relevant zijn.
Geen anonimisering
Dit is een hulpmiddel voor redactie, geen anonimiseringsgarantie. Het verwijderen van oppervlakkige PII elimineert het risico op heridentificatie niet wanneer quasi-identifiers (postcode, leeftijd, zeldzame diagnose) samenkomen. Als uw compliance-verplichting GDPR-anonimisering of HIPAA-de-identificatie onder de Safe Harbor-methode is, heeft u een toegewijde pipeline bovenop dit nodig, niet dit alleen. Onze analyse over AI-regelgeving en certificeringen in Duitsland en Europa brengt de regelgevingsstack gedetailleerd in kaart.
Gevoelige workflows vereisen mensen in de loop
Medisch, juridisch, financieel, HR, onderwijs, overheid. In deze sectoren stellen false negatives data bloot en ontnemen false positives reviewers de context die zij nodig hebben om beslissingen te nemen. Privacy Filter is in deze omgevingen invoer voor een beoordelingsproces, geen vervanging ervoor.
Onze regel: Privacy Filter staat in een stack met ten minste één andere controle stroomafwaarts. Als het de enige laag is, bent u één modelupdate verwijderd van een regressie die niemand opmerkt.
Bijstelling van ons standpunt over "geen agents op het open web"
Eerder deze maand publiceerden we een standpunt: webvise brengt geen AI-agents in productie die het open web lezen voor klanten. De reden was concreet. Door aanvallers gecontroleerde invoer (een gescrapete pagina, een door gebruikers ingediende URL, een derde-partij feed) geeft de agent PII, inloggegevens of prompt-injection payloads die via downstreamacties lekken.
openai/privacy-filter verandert die berekening gedeeltelijk. Aan de kant van invoerlekkage dempt het uitvoeren van een browser-lokale classifier over gescrapete content voordat die de promptcontext binnenkomt twee specifieke patronen: blootstelling van gevoelige data en contextvergiftiging via ingebedde PII.
Het raakt de prompt injection-vector niet. Het verhindert niet dat een zorgvuldig samengestelde pagina de agent instrueert zijn geheugeninhoud te e-mailen. Het verhindert wel dat die pagina per ongeluk het huisadres van een klant in het contextvenster van het model meeneemt.
De bijgestelde positie: we brengen nu smalle open-web-lezers in productie voor niet-gevoelige workflows (aggregatie van publieke data, concurrentie-inlichtingen, marktonderzoek) als Privacy Filter op beide zijden van de model-aanroep is gekoppeld. We brengen ze nog steeds niet in productie voor workflows die klantdossiers, interne documenten of geauthenticeerde acties raken zonder eerst een toegewijde red-team-doorloop.
Hoe u het integreert
Twee gangbare patronen, beide rechtstreeks uit de model card. De Python-pipeline voor server-side redactie:
`from transformers import pipeline; classifier = pipeline(task="token-classification", model="openai/privacy-filter"); classifier("My name is Alice Smith")`
En de Transformers.js-pipeline voor browser-side redactie via WebGPU:
`import { pipeline } from "@huggingface/transformers"; const classifier = await pipeline("token-classification", "openai/privacy-filter", { device: "webgpu", dtype: "q4" }); await classifier(input, { aggregation_strategy: "simple" });`
Plaats de browserpipeline in een Web Worker zodat inferentie de main thread niet blokkeert. Cache de modelgewichten met een service worker zodat de first-visit-straf slechts eenmaal per cache-vernietiging wordt betaald. Stem het operatiepunt af in staging met representatieve data voordat u productie aanraakt. De officiële repository bevat de volledige model card, de demo-omgeving en fine-tuning-richtlijnen.
De privacy-filter-release van OpenAI is geen model. Het is een these over de richting waarin de sector beweegt: doelgerichte, in de browser uitvoerbare, Apache 2.0-classifiers die aan de randen van uw stack draaien en bewaken wat uw LLMs te zien krijgen en wat ze teruggeven. Dat is de vorm van het compliance-werk dat we bij webvise uitvoeren, en het is de vorm van de governance-laag die de meeste agents vandaag missen.
Als uw agent stack geen dataminimalisatielaag heeft, is dit de release om die laag op te bouwen. Als u hulp wilt bij de integratie ervan in iets waarop klanten daadwerkelijk kunnen vertrouwen in productie, bouwt webvise dat.
De werkwijzen van webvise zijn afgestemd op de ISO 27001- en ISO 42001-normen.