Alle termenFundamenten & kernconcepten

Wat is Generalization?

Het vermogen van een AI-model om wat het heeft geleerd ook toe te passen op nieuwe situaties die het nog nooit gezien heeft — zoals een kind dat leert fietsen en dat daarna ook op een andere fiets kan.

Ook bekend als: generalization, generalisatie

Wat is generalisatie eigenlijk?

Stel je voor: je leert een kind wat een hond is door tien foto's te laten zien. Labrador, poedel, herder — allemaal verschillende. Als dat kind daarna een chihuahua ziet en zegt "hond!", dan heeft het gegeneraliseerd. Het heeft een patroon geleerd dat breder werkt dan alleen die tien voorbeelden.

Precies dat doet een AI-model ook. Generalisatie is het vermogen om geleerde patronen toe te passen op nieuwe data die het model tijdens de training nog nooit gezien heeft. Een model dat goed generaliseert, werkt niet alleen op de trainingsdata, maar ook in de echte wereld.

Dat klinkt vanzelfsprekend, maar het is misschien wel het allerbelangrijkste waar je bij machine learning op let. Want een model dat alleen zijn huiswerk uit het hoofd kent, heb je in de praktijk niks aan.

Hoe werkt het?

Tijdens de training leert een model patronen uit voorbeelden. Maar er zijn altijd twee dingen die het kan leren:

Echte patronen — "afbeeldingen met vier poten en een snuit zijn meestal honden"
Ruis — "die ene foto had een blauwe achtergrond, dus misschien horen alle honden bij blauw"

Een model dat te veel op details let (inclusief de ruis), wordt te specifiek. Het leert de trainingsdata uit z'n hoofd in plaats van het onderliggende patroon. Dat heet overfitting — het tegenovergestelde van goede generalisatie.

Een model dat te weinig leert, mist juist belangrijke patronen. Dat heet underfitting — het generaliseert wel, maar oppervlakkig.

Goede generalisatie zit ertussenin: het model vangt de essentie, maar houdt rekening met variatie.

Hoe test je of een model generaliseert?

Dat doe je met data die het model nog nooit heeft gezien. In de praktijk splits je je dataset meestal in drie delen:

Trainingsdata — hierop leert het model
Validatiedata — hiermee tune je tijdens het trainen (bijvoorbeeld: wanneer stop je?)
Testdata — dit gebruik je pas helemaal op het eind, om te checken of het model echt generaliseert

Als een model 98% scoort op trainingsdata maar 65% op testdata, dan generaliseert het slecht. Het heeft de training uit z'n hoofd geleerd in plaats van het patroon te begrijpen.

Een voorbeeld uit de praktijk

Stel: je traint een model om spammail te herkennen. Je hebt 10.000 voorbeelden, allemaal uit 2023. Het model leert dat mails met "crypto" en "jackpot" vaak spam zijn.

Maar komt er in 2024 ineens een nieuwe spam-trend met andere woorden? Dan moet je model ook díe mails kunnen herkennen — op basis van het patroon (opdringerig taalgebruik, verdachte links) en niet alleen op basis van letterlijke woorden.

Dat is generalisatie: het model past z'n kennis toe op situaties die nét anders zijn dan de training.

Waar kom je het tegen?

Generalisatie is geen tool of techniek — het is een eigenschap van elk machine learning-model. Je komt het idee overal tegen:

Bij het trainen van ChatGPT, Claude, Gemini — die modellen leren van miljarden tekstvoorbeelden, maar moeten daarna ook nieuwe zinnen begrijpen die ze nooit exact zo gezien hebben
Bij beeldherkenning (Google Lens, gezichtsherkenning) — het model moet objecten herkennen ongeacht camera, belichting of hoek
Bij aanbevelingssystemen (Netflix, Spotify) — het model leert van je eerdere keuzes, maar moet ook nieuwe films of nummers kunnen voorspellen die je leuk vindt
Bij fraude-detectie bij banken — het model leert van oude fraude-voorbeelden, maar moet ook nieuwe trucjes kunnen herkennen

Hoe zorg je voor goede generalisatie?

Er zijn een paar standaardtechnieken:

Meer diverse trainingsdata — hoe breder je voorbeelden, hoe beter het model leert wat écht relevant is
Regularisatie — technieken die het model ontmoedigen om te specifiek te worden (zoals Dropout of L2-regularisatie)
Early stopping — stop met trainen vóórdat het model de data uit z'n hoofd leert
Cross-validatie — test het model op meerdere verschillende stukjes data om te checken of het consistent presteert

Wat kun je er nu mee?

Als je zelf met AI werkt of een model laat bouwen, is generalisatie je belangrijkste graadmeter. Een model dat niet generaliseert, is niet bruikbaar — hoe goed het ook lijkt te presteren op papier.

Vraag dus altijd: "Hoe presteert dit model op data die het nog nooit gezien heeft?" En zorg dat je testdata zo realistisch mogelijk is: liefst uit dezelfde context als waar je het model straks gaat inzetten. Want een model dat perfect werkt in het lab maar faalt in de praktijk, heeft niet geleerd te generaliseren naar jouw werkelijkheid.