Direct naar inhoud
Alle termenKlassieke Machine Learning

Wat is K-Medoids?

Een clustering-methode die datagroepen vormt rond echte datapunten in plaats van gemiddelden, waardoor het robuuster is tegen uitschieters dan K-Means.

Wat is K-Medoids

Wat is K-Medoids eigenlijk?

Stel je voor dat je een klas vol leerlingen moet verdelen in groepjes voor een projectweek. Bij K-Means zou je per groep een "gemiddelde leerling" berekenen — iemand die misschien helemaal niet bestaat, maar wel het middelpunt van de groep vormt. K-Medoids doet het anders: het kiest per groep een échte leerling als vertegenwoordiger, degene die het meest centraal staat tussen zijn of haar groepsgenoten.

K-Medoids is een clustering-algoritme, net als K-Means. Het doel is hetzelfde: een verzameling datapunten automatisch opdelen in K groepen (clusters) op basis van gelijkenis. Het verschil zit in hoe het die groepen vormt. Waar K-Means werkt met denkbeeldige middelpunten (gemiddelden), kiest K-Medoids altijd een bestaand datapunt als middelpunt — de zogenaamde "medoid". Dat maakt het algoritme robuuster: als er één extreem afwijkend punt tussen zit, sleurt dat niet het hele middelpunt mee.

Hoe werkt het?

Het algoritme doorloopt een paar stappen:

  • Kies willekeurig K medoids — echte punten uit je dataset die als startpunt dienen

  • Wijs elk punt toe aan de dichtstbijzijnde medoid, waardoor K clusters ontstaan

  • Probeer betere medoids — voor elk cluster bekijk je of een ander punt uit dat cluster een beter middelpunt zou zijn (= kortere gemiddelde afstand tot alle andere punten in het cluster)

  • Herhaal tot er niks meer verbetert

De truc zit in die derde stap: K-Medoids probeert systematisch alle mogelijke verwisselingen uit en kiest steeds de optie die de totale afstand binnen clusters het kleinst maakt. Dat kost meer rekenkracht dan K-Means, maar levert vaak betere resultaten op bij rommelige data.

Waarom zou je dit gebruiken?

K-Medoids speelt zijn troeven uit wanneer je:

  • Uitschieters hebt — extreme waarden die K-Means ontregelen, maar K-Medoids nauwelijks beïnvloeden

  • Geen gemiddelde kunt berekenen — bijvoorbeeld bij categorische data of complexe objecten waar "het gemiddelde" geen zin heeft

  • Interpreteerbare middelpunten wilt — een échte klant als representant van een segment is makkelijker te communiceren dan een denkbeeldig gemiddelde

Denk aan klantsegmentatie waarbij je per segment een typische klant wilt aanwijzen, of productaanbevelingen waarbij je vergelijkbare producten groepeert en per groep één representatief exemplaar kiest.

Een voorbeeld uit de praktijk

Een webwinkel wil zijn klantenbestand opdelen in vijf segmenten om gerichte marketingcampagnes te maken. Met K-Medoids krijg je niet alleen vijf segmenten, maar ook vijf échte klanten die elk segment vertegenwoordigen — inclusief hun complete aankoopgeschiedenis, voorkeuren en gedrag. Die "medoid-klanten" kun je gebruiken om persona's te bouwen: "Dit is Marieke, representatief voor segment 3 — hoogfrequente kopers van duurzame producten onder de €50."

Of neem een ziekenhuis dat patiënten wil clusteren op basis van symptomen en behandelgeschiedenis. K-Medoids levert per cluster een échte patiënt op wiens dossier artsen kunnen bestuderen als typisch voorbeeld — veel inzichtelijker dan een abstracte reeks gemiddelde waardes.

Waar kom je het tegen?

K-Medoids is vooral populair in de wetenschappelijke wereld en bij bedrijven die met complexe, rommelige datasets werken. Je vindt het in:

  • Data-analysepakketten zoals scikit-learn (Python), waar het vaak PAM (Partitioning Around Medoids) heet

  • Bioinformatica — voor het groeperen van genen of eiwitten op basis van functie

  • Marketing-analytics — klantsegmentatie met interpreteerbare representanten per segment

  • Aanbevelingssystemen — producten of content clusteren waarbij je per cluster een echt item als "representant" wilt

In commerciële AI-tools zie je K-Medoids minder expliciet terug dan K-Means, maar onder de motorkap gebruiken veel geavanceerde clustering-systemen het wel als onderdeel van hun pipeline.

Wat kun je ermee?

Als je met data werkt die niet perfect netjes is — en dat is eigenlijk altijd het geval — is K-Medoids een handige techniek om in je gereedschapskist te hebben. Het vraagt iets meer rekenkracht dan K-Means, maar levert robuustere clusters op en geeft je per cluster een concreet voorbeeld om mee te werken. Vooral als je je resultaten moet uitleggen aan mensen zonder data-achtergrond, helpt het enorm dat je kunt wijzen naar een échte klant, een echt product of een echte situatie in plaats van naar een abstract gemiddelde.

FAQ

Veelgestelde vragen over K-Medoids

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is K-Medoids?

Een clustering-methode die datagroepen vormt rond echte datapunten in plaats van gemiddelden, waardoor het robuuster is tegen uitschieters dan K-Means.

Waarom is K-Medoids belangrijk?

Stel je voor dat je een klas vol leerlingen moet verdelen in groepjes voor een projectweek. Bij K-Means zou je per groep een "gemiddelde leerling" berekenen — iemand die misschien helemaal niet bestaat, maar wel het middelpunt van de groep vormt. K-Medoids doet het anders: het kiest per groep een échte leerling als vertegenwoordiger, degene die het meest centraal staat tussen zijn of haar groepsgenoten.

Hoe wordt K-Medoids toegepast?

K-Medoids is een clustering-algoritme, net als K-Means. Het doel is hetzelfde: een verzameling datapunten automatisch opdelen in K groepen (clusters) op basis van gelijkenis. Het verschil zit in hoe het die groepen vormt. Waar K-Means werkt met denkbeeldige middelpunten (gemiddelden), kiest K-Medoids altijd een bestaand datapunt als middelpunt — de zogenaamde "medoid". Dat maakt het algoritme robuuster: als er één extreem afwijkend punt tussen zit, sleurt dat niet het hele middelpunt mee.

Deel: