Alle termenData, evaluatie & metrics

Wat is Class Imbalance?

Het probleem dat je AI-model veel meer voorbeelden heeft van het ene type situatie dan van het andere — waardoor het vaak alleen leert herkennen wat het het vaakst ziet.

Wat is class imbalance eigenlijk?

Stel je voor dat je een AI-model leert om kwaadaardige huidkanker te herkennen op foto's. Je hebt 10.000 foto's van gewone moedervlekjes, maar slechts 100 foto's van daadwerkelijke kanker. Dat verschil — dat enorme onevenwicht — noemen we class imbalance.

Het probleem: jouw AI kan 99% accuraatheid halen door simpelweg bij élke foto te zeggen "geen kanker". Technisch klopt dat meestal, maar de 1% waar het wél kanker is — juist de gevallen die ertoe doen — mist het model compleet. En dat is precies waar class imbalance zo verraderlijk wordt.

In de praktijk komt dit overal voor: fraudedetectie (heel veel normale transacties, weinig fraude), kwaliteitscontrole (veel goede producten, weinig defecten), spam-filters (veel normale mail, relatief weinig spam). Telkens heeft je dataset veel meer voorbeelden van de ene categorie (de "majority class") dan van de andere (de "minority class").

Waarom is dit zo'n probleem?

AI-modellen leren door patronen te herkennen in data. Als ze iets 100 keer zien en iets anders maar 1 keer, gaan ze automatisch meer gewicht toekennen aan wat ze vaker tegenkomen. Dat is efficiënt — maar niet altijd wat je wilt.

Bij class imbalance gebeuren drie dingen:

Het model wordt lui: het leert gewoon "voorspel altijd de meest voorkomende categorie" — dat scoort immers goed op traditionele metrieken zoals accuraatheid
De zeldzame gevallen worden genegeerd: juist de uitzonderingen — de fraude, de kanker, het defecte product — zijn vaak het belangrijkst om te detecteren
Verkeerde evaluatie: een model met 99% accuraatheid klinkt geweldig, maar als het alle zeldzame gevallen mist, is het waardeloos

Denk aan een brandmelder die in 99,9% van de tijd correct is omdat er vrijwel nooit brand is — maar juist die ene keer dat het wel brandt, niets doet. Technisch accuraat, praktisch nutteloos.

Hoe pak je het aan?

Er zijn verschillende manieren om met class imbalance om te gaan:

Meer data verzamelen van de zeldzame categorie — klinkt voor de hand liggend, maar is vaak lastig. Als fraude zeldzaam is, kun je niet zomaar meer fraude creëren.

Oversampling: de minderheidsklasse kunstmatig vaker laten terugkomen in je trainingsdata. Je kopieert bestaande voorbeelden of maakt synthetische nieuwe voorbeelden (bijvoorbeeld met een techniek als SMOTE).

Undersampling: juist minder voorbeelden uit de meerderheidsklasse gebruiken, zodat het evenwicht beter wordt. Nadeel: je gooit informatie weg.

Gewogen loss functions: het model straffen als het een zeldzaam geval mist. Technisch gezegd: je geeft fouten op de minderheidsklasse meer gewicht tijdens de training.

Andere evaluatiemetrieken gebruiken: accuraatheid is misleidend bij imbalance. Betere metrics zijn precision, recall, F1-score of de Area Under the Curve (AUC) — die kijken specifiek hoe goed het model de zeldzame gevallen vindt.

Een voorbeeld uit de praktijk

Een bank wil creditcardfraude detecteren. Van de 1 miljoen transacties per dag is 0,1% frauduleus — dus 1.000 fraudegevallen tussen 999.000 normale betalingen. Train je een AI-model zonder rekening te houden met die imbalance, dan leert het: "zeg altijd 'geen fraude'". Accuraatheid: 99,9%. Nuttig? Nee.

De bank past daarom gewogen training toe: fouten op fraudegevallen tellen 100 keer zwaarder. Ook combineren ze dit met oversampling van bekende fraudepatronen. Het model leert nu wél de subtiele signalen van fraude herkennen — ten koste van iets meer valse alarmen, maar dat is acceptabel.

Waar kom je het tegen?

Class imbalance speelt overal waar je zeldzame gebeurtenissen wilt voorspellen:

Medische diagnostiek — ziektes zijn gelukkig zeldzamer dan gezondheid, maar dat maakt training lastig
Fraudedetectie — bij banken, verzekeraars, webshops
Kwaliteitscontrole in productie — defecte producten zijn de uitzondering
Churn prediction — de meeste klanten blijven, een kleine groep stopt
Spamfilters — meer normale mail dan spam (hoewel dat verschil kleiner wordt)
Zeldzame gebeurtenissen detecteren — denk aan aardbevingen voorspellen uit sensordata

Als je een AI-systeem bouwt of koopt voor dit soort toepassingen, vraag dan altijd: hoe is de data verdeeld? En hoe gaat het model om met imbalance?

Wat kun je ermee?

Begrijp je class imbalance, dan weet je waarom sommige AI-projecten falen ondanks "goede cijfers". Je leert kritischer kijken naar accuraatheid-claims en vraagt door naar precision en recall. Bij het bouwen of inkopen van AI-oplossingen voor zeldzame gebeurtenissen weet je nu dat je specifiek moet vragen: hoe gaan jullie om met imbalance?

Voor wie AI toepast in risico's, fraude of diagnostiek is dit geen technisch detail — het is het verschil tussen een systeem dat werkt en één dat alleen op papier goed scoort.

FAQ

Veelgestelde vragen over Class Imbalance

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Class Imbalance?

Het probleem dat je AI-model veel meer voorbeelden heeft van het ene type situatie dan van het andere — waardoor het vaak alleen leert herkennen wat het het vaakst ziet.

Waarom is Class Imbalance belangrijk?

Hoe wordt Class Imbalance toegepast?

Deel:

Laatst bijgewerkt 3 mei 2026