Alle termenKlassieke Machine Learning

Wat is Gaussian Mixture Model?

Een statistische techniek die complexe datasets opsplitst in meerdere groepen door te veronderstellen dat elk groepje punten voortkomt uit een andere 'klok-verdeling' — handig voor clustering en patroonherkenning.

Wat is een Gaussian Mixture Model eigenlijk?

Stel je voor dat je naar een drukke supermarkt kijkt en wilt begrijpen welke soorten klanten er rondlopen. Je ziet misschien jonge gezinnen die veel boodschappen doen, ouderen die vooral vers eten kopen, en studenten die vooral snacks halen. Elk van die groepen heeft een eigen 'gemiddelde' gedrag, maar binnen zo'n groep zitten ook verschillen.

Een Gaussian Mixture Model (GMM) werkt op een vergelijkbare manier. Het is een wiskundige techniek die ervan uitgaat dat je data bestaat uit meerdere verborgen groepen, waarbij elk groepje zijn eigen 'spreiding' heeft. Die spreiding heet in de statistiek een Gaussiaanse verdeling — vernoemd naar wiskundige Carl Friedrich Gauss — en dat is gewoon de bekende klokvorm die je misschien nog kent van schoolresultaten: de meeste punten zitten rond het gemiddelde, en hoe verder je van dat gemiddelde af gaat, hoe minder punten je vindt.

Hoe werkt het?

Een GMM gaat niet op zoek naar harde grenzen tussen groepen. In plaats daarvan zegt het: "Elk datapunt heeft een bepaalde kans om bij groep A te horen, en een andere kans om bij groep B te horen." Het model combineert meerdere van die klokvormen — vandaar 'mixture' — en schuift ze net zo lang heen en weer tot ze samen de data zo goed mogelijk verklaren.

Concreet:

Je geeft het model je data en zegt: "Ik denk dat hier drie groepen in zitten"
Het algoritme begint met drie willekeurige klokvormen
Stap voor stap past het die klokken aan: waar ligt het midden? Hoe breed zijn ze? Hoeveel punten horen erbij?
Uiteindelijk krijg je drie mooie verdelingen die samen je data beschrijven

Het verschil met simpelere clustermethodes zoals K-means: een GMM geeft elk punt een waarschijnlijkheidsscore voor elke groep, in plaats van het hardhandig in één hokje te stoppen. Dat maakt het flexibeler bij overlappende groepen.

Een voorbeeld uit de praktijk

Stel, je bent marketing-analist bij een webshop. Je hebt data over hoe lang bezoekers op je site blijven en hoeveel pagina's ze bekijken. Als je die punten plot, zie je geen duidelijke lijnen, maar wel vage wolkjes.

Met een GMM ontdek je misschien drie groepen:

Snelle scanners: blijven kort, bekijken weinig pagina's (kijkers)
Geïnteresseerde browsers: blijven langer, bekijken meerdere categorieën (potentiële kopers)
Actieve kopers: bladeren veel, lange sessies (waarschijnlijk aan het vergelijken voor aankoop)

Dat inzicht kun je direct vertalen naar bijvoorbeeld gepersonaliseerde aanbiedingen of e-mailcampagnes per groep.

Waar kom je het tegen?

Gaussian Mixture Models worden toegepast in:

Klantsegmentatie — webshops, banken en verzekeraars gebruiken GMM's om klanten automatisch te groeperen op basis van gedrag
Beeldverwerking — voor het herkennen van objecten of gezichten, waarbij pixels gegroepeerd worden op kleur en positie
Spraakherkenning — om klanken te clusteren en fonemen te identificeren
Anomaly detection — punten die in geen enkele klok passen, zijn mogelijk afwijkend gedrag of fouten

In Python werk je met GMM's via de scikit-learn bibliotheek. Ook in R zijn er standaard packages beschikbaar.

Waarom zou je hier iets aan hebben?

GMM's zijn bijzonder nuttig als je vermoedt dat je data uit meerdere 'soorten' bestaat, maar je geen labels hebt om die soorten van tevoren aan te wijzen. Het is dus een vorm van unsupervised learning — het model ontdekt zelf de groepen.

Daarnaast geeft een GMM je meer nuance dan harde clustering: het erkent dat sommige datapunten op de grens tussen twee groepen kunnen zitten. Dat maakt het geschikt voor situaties waar de werkelijkheid niet zwart-wit is.

Wil je zelf aan de slag? Probeer eens een kleine dataset te clusteren met scikit-learn's GaussianMixture-klasse. Begin met een simpele 2D-plot (bijvoorbeeld leeftijd vs. uitgaven), kies twee of drie componenten, en kijk hoe het model jouw data opsplitst. Zo krijg je snel gevoel voor hoe GMM's denken — en waar ze nuttiger zijn dan simpelere methodes.