Alle termenData, evaluatie & metrics

Wat is Rand Index?

Een getal tussen 0 en 1 dat aangeeft hoe goed een clustering-algoritme vergelijkbare dingen bij elkaar heeft gezet — door te kijken of punten die samen horen ook samen zijn gegroepeerd.

Wat is de Rand Index eigenlijk?

Stel je voor dat je een grote stapel foto's moet sorteren in albums: vakanties, verjaardagen, werk, huisdieren. Je maakt groepjes, maar hoe weet je of je sortering klopt? De Rand Index helpt je dat te meten — door jouw groepjes te vergelijken met een ideale indeling (als die bestaat).

In AI-land gebeurt hetzelfde met data. Een clustering-algoritme — dat is software die automatisch patronen zoekt en vergelijkbare dingen groepeert — maakt bijvoorbeeld groepen van klanten, nieuwsartikelen of medische scans. Maar zijn die groepen zinvol? De Rand Index geeft daar een cijfer aan: 0 betekent dat de groepering totaal willekeurig is, 1 betekent perfect.

Hoe werkt het eigenlijk?

De Rand Index kijkt naar alle mogelijke paren in je dataset. Voor elk paar vraagt hij:

Horen ze samen? In de ideale groepering én in de groepering van het algoritme?
Zijn ze gescheiden? In beide indelingen?

Elk paar waar beide indelingen het eens zijn (samen óf gescheiden) telt als punt. Het totaal deel je door het aantal paren, en je krijgt een score tussen 0 en 1.

Een voorbeeld: je hebt 100 klanten die het algoritme in 5 groepen stopt. De Rand Index vergelijkt die met een handmatige indeling door een expert. Als 85% van alle paren op dezelfde manier is behandeld (beide keer samen, of beide keer apart), is de Rand Index 0,85.

Een praktisch voorbeeld

Een webshop wil klanten groeperen op koopgedrag: budget-shoppers, impulskopers, luxe-liefhebbers. Een clustering-algoritme draait, en je krijgt drie groepen. Maar kloppen ze?

Je hebt gelukkig een klein testsetje waar je zelf labels hebt gegeven. De Rand Index vergelijkt: zitten klanten die jij als "budget" markeerde ook bij elkaar in de automatische groep? En staan "luxe" en "budget" netjes gescheiden? Een score van 0,75 zegt: redelijk, maar niet perfect — misschien zitten impulskopers nog door elkaar.

Waar kom je het tegen?

De Rand Index wordt vooral gebruikt bij onbegeleide leertechnieken — situaties waar je geen labels hebt, maar achteraf wél wilt checken of de groepen zinvol zijn:

Klantsegmentatie in marketing-tools
Tekstclustering bij nieuwsaggregators of documentbeheer
Beeldanalyse in medische AI, om laesies of celtypes te groeperen
Fraud detection, om verdachte transacties automatisch te identificeren

In Python-libraries als scikit-learn vind je de Rand Index terug als sklearn.metrics.rand_score. Ook de Adjusted Rand Index (ARI) is populair — die corrigeert voor toeval, zodat willekeurige clusteringen geen onverdiend hoge score krijgen.

Waarom zou jij hier iets aan hebben?

Als je AI inzet om data automatisch te ordenen — van klantsegmenten tot productcategorieën — wil je weten of het algoritme zinvolle groepen maakt of gewoon lukraak deelt. De Rand Index geeft je een objectief cijfer, zodat je modellen kunt vergelijken of parameters kunt bijstellen.

Het is geen magische waarheid: een hoge score betekent niet automatisch dat de groepen bruikbaar zijn voor jouw doel. Maar het helpt je wél om te zien of het algoritme structuur vindt die overeenkomt met wat mensen herkennen — en dat is vaak een goed startpunt.

FAQ

Veelgestelde vragen over Rand Index

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Rand Index?

Een getal tussen 0 en 1 dat aangeeft hoe goed een clustering-algoritme vergelijkbare dingen bij elkaar heeft gezet — door te kijken of punten die samen horen ook samen zijn gegroepeerd.

Waarom is Rand Index belangrijk?

Hoe wordt Rand Index toegepast?

Deel:

Laatst bijgewerkt 3 mei 2026