Direct naar inhoud
Alle termenFundamenten & kernconcepten

Wat is Semi-Supervised Learning?

Een leermethode waarbij AI leert van een klein beetje gelabelde data (met het goede antwoord) en veel ongelabelde data (zonder antwoord) — handig als labels maken duur of tijdrovend is.

Wat is Semi-Supervised Learning

Wat is Semi-Supervised Learning?

Stel je voor dat je een kind leert om fruit te herkennen. Je wijst eerst tien appels en tien peren aan en zegt erbij wat het is — dat zijn je gelabelde voorbeelden. Daarna geef je het kind een enorme mand met honderden stukken fruit zonder iets te zeggen. Het kind gaat zelf patronen zoeken: deze zijn rond en rood, die zijn langwerpig en groen. Door die combinatie — een beetje begeleiding en veel zelfstandig observeren — wordt het kind steeds beter in fruit herkennen.

Dat principe is Semi-Supervised Learning: een AI-model krijgt een kleine hoeveelheid data waar het goede antwoord bij staat (bijvoorbeeld 100 foto's met labels "kat" of "hond"), en een grote berg data zonder labels (bijvoorbeeld 10.000 foto's zonder uitleg). Het model gebruikt die paar gelabelde voorbeelden als anker en probeert de rest zelf te begrijpen door patronen te ontdekken.

Waarom zou je hiervoor kiezen?

Labels maken is duur, saai en tijdrovend. Als je een AI wilt trainen om medische scans te beoordelen, heb je radiologen nodig die duizenden beelden handmatig controleren — dat kost veel tijd en geld. Maar ongelabelde scans heb je in overvloed.

Met Semi-Supervised Learning krijg je het beste van twee werelden: je hebt de precisie van Supervised Learning (met labels) en de schaal van Unsupervised Learning (zonder labels). Het model leert structuur en patronen uit de grote ongelabelde dataset, en gebruikt de gelabelde data om die patronen de goede richting op te sturen.

Hoe werkt het in de praktijk?

Er zijn verschillende manieren waarop een model gelabelde en ongelabelde data combineert:

  • Self-training: Het model traint eerst op de gelabelde data, voorspelt dan labels voor de ongelabelde data, en gebruikt de meest zekere voorspellingen als nieuwe trainingsvoorbeelden.

  • Co-training: Twee modellen kijken naar dezelfde data vanuit verschillende invalshoeken (bijvoorbeeld één naar de tekst, één naar de context) en leren elkaar bij.

  • Graph-based methods: Het model bouwt een netwerk van relaties tussen datapunten — vergelijkbare voorbeelden krijgen vergelijkbare labels.

  • Generative models: Het model leert eerst hoe de data er in het algemeen uitziet (ongelabeld), en gebruikt dan de labels om die kennis te verfijnen.

Een voorbeeld uit de praktijk

Stel: je bouwt een spamfilter. Je hebt 500 e-mails die je handmatig hebt gelabeld als "spam" of "geen spam", maar je mailserver ontvangt dagelijks duizenden mails die je niet allemaal kunt nakijken.

Een Semi-Supervised model traint eerst op die 500 gelabelde voorbeelden en leert basispatronen (woorden als "winnen", "gratis", uitroeptekens). Dan kijkt het naar de duizenden ongelabelde mails en ontdekt subtielere patronen — bijvoorbeeld dat spammails vaak dezelfde afzenderstructuur hebben of op vreemde tijdstippen worden verstuurd. Zo wordt het model veel nauwkeuriger dan wanneer het alleen op die 500 voorbeelden had getraind.

Waar kom je het tegen?

  • Beeldherkenning bij Google Photos of Apple Foto's — je tagt een paar gezichten, de AI leert de rest

  • Spraakherkenning — systemen trainen op uren ongelabelde audio, met kleine stukjes transcript

  • Tekstclassificatie — sentiment-analyse met een handvol beoordeelde reviews en duizenden ongelabelde

  • Medische AI — modellen voor scan-analyse met beperkt aantal door specialisten beoordeelde beelden

  • Fraudedetectie — banken hebben weinig bevestigde fraudegevallen, maar miljoenen normale transacties

Wat kun je ermee?

Als je zelf een AI-project overweegt maar labels verzamelen lijkt onhaalbaar (te duur, te tijdrovend, te weinig experts beschikbaar), kijk dan of Semi-Supervised Learning een optie is. Vaak kun je met 5-10% gelabelde data al verrassend goede resultaten behalen — zeker als je ongelabelde data in overvloed hebt. Het scheelt enorm in kosten en doorlooptijd, zonder dat je de nauwkeurigheid volledig opgeeft.

FAQ

Veelgestelde vragen over Semi-Supervised Learning

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Semi-Supervised Learning?

Een leermethode waarbij AI leert van een klein beetje gelabelde data (met het goede antwoord) en veel ongelabelde data (zonder antwoord) — handig als labels maken duur of tijdrovend is.

Waarom is Semi-Supervised Learning belangrijk?

Stel je voor dat je een kind leert om fruit te herkennen. Je wijst eerst tien appels en tien peren aan en zegt erbij wat het is — dat zijn je gelabelde voorbeelden. Daarna geef je het kind een enorme mand met honderden stukken fruit zonder iets te zeggen. Het kind gaat zelf patronen zoeken: deze zijn rond en rood, die zijn langwerpig en groen. Door die combinatie — een beetje begeleiding en veel zelfstandig observeren — wordt het kind steeds beter in fruit herkennen.

Hoe wordt Semi-Supervised Learning toegepast?

Dat principe is Semi-Supervised Learning: een AI-model krijgt een kleine hoeveelheid data waar het goede antwoord bij staat (bijvoorbeeld 100 foto's met labels "kat" of "hond"), en een grote berg data zonder labels (bijvoorbeeld 10.000 foto's zonder uitleg). Het model gebruikt die paar gelabelde voorbeelden als anker en probeert de rest zelf te begrijpen door patronen te ontdekken.

Deel: