Direct naar inhoud
Alle termenFundamenten & kernconcepten

Wat is Curse of Dimensionality?

Hoe meer kenmerken je gebruikt om iets te analyseren, hoe moeilijker patronen te vinden zijn — alsof je zoekt in steeds grotere ruimtes waar alles verder van elkaar af ligt.

Wat is Curse of Dimensionality

Waarom meer niet altijd beter is

Je zou denken: hoe meer informatie, hoe beter een AI-model kan leren. Maar in de praktijk gebeurt er iets geks. Stel je voor dat je klanten wilt groeperen op basis van hun gedrag. Je begint met 2 kenmerken: leeftijd en besteedpatroon. Dat kun je makkelijk op papier zetten, als puntjes in een vlak. Patronen zie je vrij snel.

Nu voeg je er 10 kenmerken bij: locatie, tijd van bezoek, apparaattype, scrollgedrag, klikfrequentie, enzovoort. Opeens leef je niet meer in een plat vlak, maar in een ruimte met 12 dimensies. En hier wordt het vreemd: hoe meer dimensies je toevoegt, hoe verder al je datapunten van elkaar af komen te liggen. Het wordt steeds moeilijker om te zeggen: "die twee klanten lijken op elkaar". Alles lijkt even ver weg.

Dat is de Curse of Dimensionality — een wiskundig fenomeen dat ervoor zorgt dat data-analyse in hoge dimensies fundamenteel anders werkt dan in lage dimensies. Intuïties die werken in 2D of 3D gaan volledig op de schop.

Wat gebeurt er precies?

In een plat vlak (2 dimensies) kun je een cirkel tekenen om een cluster punten heen. Als je naar 3 dimensies gaat, wordt dat een bol. Klinkt logisch. Maar naarmate je meer dimensies toevoegt, gebeuren er contra-intuitieve dingen:

  • Afstanden worden betekenisloos: in hoge dimensies ligt bijna elk punt ongeveer even ver van elk ander punt. Het verschil tussen "dichtbij" en "ver weg" verdwijnt.

  • Je hebt exponentieel meer data nodig: wil je dezelfde "dichtheid" aan voorbeelden behouden als in 2D, dan heb je in 10 dimensies miljoenen keer meer voorbeelden nodig. Anders zitten er enorme gaten in je data.

  • Hoeken worden recht: in hoge dimensies staan vectoren (richtingen) bijna altijd ongeveer loodrecht op elkaar, wat patronen moeilijker detecteerbaar maakt.

  • Volumes concentreren zich raar: in een 100-dimensionale kubus zit bijna al het volume in de hoeken, niet in het midden — totaal anders dan in 3D.

Het gevolg: modellen die afhankelijk zijn van afstandsmaten (zoals k-nearest neighbors) of die patronen zoeken in de ruimte (zoals clustering) krijgen het steeds moeilijker. Ze zien overal ruis in plaats van structuur.

Een voorbeeld uit de praktijk

Een webshop wil aanbevelingen doen. Ze verzamelen 200 kenmerken per gebruiker: welke pagina's bekeken, hoe lang, op welk moment, met welk apparaat, welke zoektermen, welke producten in winkelwagen, welke verwijderd, enzovoort. Klinkt ideaal — zoveel detail!

Maar het model presteert slechter dan verwacht. Waarom? Omdat het nu in een 200-dimensionale ruimte werkt waar elke gebruiker zo uniek lijkt dat er geen vergelijkbare gebruikers meer te vinden zijn. De "nabije buren" zijn niet echt nabij — ze zijn gewoon willekeurige gebruikers die toevallig op een paar van die 200 dimensies lijken.

De oplossing: dimensionaliteitsreductie. Door slimme technieken (zoals PCA of autoencoders) reduceer je die 200 kenmerken naar bijvoorbeeld 20 belangrijke patronen. Nu zijn afstanden weer betekenisvol, clusters worden zichtbaar, en het model leert beter.

Hoe ga je ermee om?

De kunst is om selectief te zijn met kenmerken:

  • Feature selection: kies alleen kenmerken die echt informatief zijn, gooi de rest weg

  • Feature extraction: combineer kenmerken tot nieuwe, compactere representaties (zoals bij embeddings)

  • Regularisatie: bouw modellen die automatisch minder belangrijke dimensies negeren

  • Meer data verzamelen: als je toch veel dimensies nodig hebt, zorg dan voor exponentieel meer voorbeelden — al is dat vaak onhaalbaar

Moderne deep learning-modellen zijn hier deels immuun voor, omdat ze tijdens het leren zelf feature extraction doen in de verborgen lagen. Maar ook daar speelt de curse mee: te veel input-features zonder genoeg data leidt tot overfitting.

Waar kom je het tegen?

Je merkt de curse vaak indirect:

  • Aanbevelingssystemen die verslechteren als je teveel gebruikersdata toevoegt

  • Medische diagnostiek met honderden biomarkers, waar simpelere modellen soms beter presteren

  • Computer vision voordat deep learning populair werd — handgemaakte features leidden tot hoge dimensies met weinig structuur

  • Tekstanalyse met bag-of-words: elk uniek woord is een dimensie, dus grote vocabulaires creëren enorme, ijle ruimtes

  • Clustering-tools die rare groepen maken omdat afstanden niet meer kloppen

Ook bij het trainen van eigen modellen: als je modelperformance stagneert ondanks meer features, kan de curse de boosdoener zijn.

Wat kun je ermee?

Begrijpen dat "meer data" niet altijd betekent "meer kenmerken". Als je met AI-projecten bezig bent, vraag je af: dragen al deze features echt bij, of verdunnen ze juist het signaal? Test eens een versie met minder, goed gekozen kenmerken. Vaak zijn 10 sterke features beter dan 100 zwakke.

De curse is ook een reminder dat onze intuïtie — getraind in 3D-ruimtes — ons in de steek laat bij data-analyse. Wat logisch lijkt ("meer is beter") klopt wiskundig niet altijd. Dat maakt dimensionaliteit een van de meest fundamentele uitdagingen in machine learning — en een van de meest onderschatte.

FAQ

Veelgestelde vragen over Curse of Dimensionality

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Curse of Dimensionality?

Hoe meer kenmerken je gebruikt om iets te analyseren, hoe moeilijker patronen te vinden zijn — alsof je zoekt in steeds grotere ruimtes waar alles verder van elkaar af ligt.

Waarom is Curse of Dimensionality belangrijk?

Je zou denken: hoe meer informatie, hoe beter een AI-model kan leren. Maar in de praktijk gebeurt er iets geks. Stel je voor dat je klanten wilt groeperen op basis van hun gedrag. Je begint met 2 kenmerken: leeftijd en besteedpatroon. Dat kun je makkelijk op papier zetten, als puntjes in een vlak. Patronen zie je vrij snel.

Hoe wordt Curse of Dimensionality toegepast?

Nu voeg je er 10 kenmerken bij: locatie, tijd van bezoek, apparaattype, scrollgedrag, klikfrequentie, enzovoort. Opeens leef je niet meer in een plat vlak, maar in een ruimte met 12 dimensies. En hier wordt het vreemd: hoe meer dimensies je toevoegt, hoe verder al je datapunten van elkaar af komen te liggen. Het wordt steeds moeilijker om te zeggen: "die twee klanten lijken op elkaar". Alles lijkt even ver weg.

Deel: