Alle termenData, evaluatie & metrics

Wat is Pseudo-Labeling?

Een techniek waarbij een AI-model zelf labels toekent aan ongelabelde data, zodat die data vervolgens gebruikt kan worden om het model verder te trainen — een slimme manier om uit beperkte gelabelde data meer te halen.

Wat is pseudo-labeling eigenlijk?

Stel je voor: je hebt 1.000 foto's van honden en katten die je netjes hebt gelabeld ("dit is een hond", "dit is een kat"). Maar je hebt ook nog 100.000 foto's zonder label liggen. Die handmatig labelen kost je weken werk. Pseudo-labeling is een truc waarbij je AI-model zélf labels verzint voor die ongelabelde foto's — en die labels vervolgens gebruikt om zichzelf verder te trainen.

Het werkt zo: je traint eerst een model op je 1.000 gelabelde foto's. Dat model maakt vervolgens voorspellingen voor de 100.000 ongelabelde foto's. Bij foto's waar het model heel zeker van is (bijvoorbeeld "ik ben 95% zeker dat dit een hond is"), krijgt die foto een pseudo-label: "hond". Die nieuw-gelabelde foto's voeg je toe aan je trainingsdata, en je traint het model opnieuw — nu met veel meer voorbeelden.

Het klinkt een beetje als de baron van Münchhausen die zichzelf aan zijn eigen haren uit het moeras trekt. Maar het werkt verrassend goed, vooral als je model al redelijk capabel is en je heel selectief bent: alleen de meest zekere voorspellingen krijgen een pseudo-label.

Waarom zou je het gebruiken?

Labelen is duur en tijdrovend. Een radioloog die duizenden röntgenfoto's moet annoteren voor een AI-systeem dat longontsteking moet herkennen, kost honderden uren. Pseudo-labeling helpt je om uit een kleine set hoogwaardige labels — die je wél handmatig hebt laten maken — veel meer trainingsdata te persen.

De techniek wordt vaak ingezet in semi-supervised learning: je combineert een beetje gelabelde data met véél ongelabelde data. Dat is realistisch, want in de praktijk heb je vaak bergen ruwe data (teksten, foto's, geluidsopnames) maar slechts een fractie daarvan is gelabeld.

Een ander voordeel: pseudo-labeling kan je model helpen om patronen te ontdekken die je zelf niet had gezien. Als het model consistent een bepaald type beeld als "kat" labelt, terwijl jij dat type nog niet in je oorspronkelijke set had, leert het model nieuwe variaties bij.

Een praktijkvoorbeeld

Een online winkel wil een chatbot trainen die klantvragen classificeert: "retour", "bezorging", "productinformatie". Ze hebben 500 vragen handmatig gelabeld, maar ze hebben 50.000 oude chatgesprekken zonder label. Ze trainen een eerste model op die 500 vragen. Dat model maakt voorspellingen voor de 50.000 oude gesprekken. Bij gesprekken waar het model meer dan 90% zekerheid heeft, krijgt de vraag een pseudo-label. Die 10.000 nieuw-gelabelde vragen worden toegevoegd aan de trainingsset, en het model wordt opnieuw getraind — nu met veel meer voorbeelden, zonder dat iemand handmatig extra werk heeft moeten doen.

Natuurlijk kunnen er fouten insluipen: als het model een verkeerde voorspelling doet en die voorspelling vervolgens als pseudo-label gebruikt, versterkt het zijn eigen fout. Daarom is een hoge zekerheidsdrempel cruciaal: liever 10.000 héél zekere pseudo-labels dan 50.000 twijfelachtige.

Waar kom je het tegen?

Pseudo-labeling wordt toegepast in veel AI-projecten waar gelabelde data schaars is:

Medische beeldanalyse — waar specialisten schaars en duur zijn
Spraakherkenning — met miljoenen audio-opnames maar weinig transcripties
Tekst-classificatie — bijvoorbeeld sentiment-analyse op productreviews
Objectdetectie — zelfrijdende auto's die miljoenen uren dashcam-beelden hebben
Fraudedetectie — met bergen transacties waarvan slechts een fractie gelabeld is

In frameworks zoals scikit-learn en TensorFlow kun je pseudo-labeling zelf implementeren door een trainingsloop te bouwen die na elke iteratie nieuwe voorspellingen maakt en selectief pseudo-labels toevoegt. Er zijn ook specifieke bibliotheken zoals semi-supervised learning toolkits die dit proces automatiseren.

Wat kun je ermee?

Als je een AI-project start en merkt dat labelen je bottleneck is, overweeg dan pseudo-labeling. Begin met een kleine, zorgvuldig gelabelde dataset — kwaliteit boven kwantiteit. Train een eerste model, laat het voorspellingen doen op ongelabelde data, en gebruik alleen de meest zekere voorspellingen als pseudo-labels. Herhaal dit proces een paar keer, en je zult zien dat je model stap voor stap beter wordt — zonder dat je duizenden extra uren in handmatig labelen hoeft te steken. Het is een krachtige manier om data-schaarste te omzeilen en toch robuuste modellen te bouwen.