Alle termenKlassieke Machine Learning

Wat is t-SNE?

Een techniek om complexe datasets met honderden variabelen te versimpelen tot een 2D-plaatje, zodat je patronen en clusters in je data kunt zien — alsof je van een wirwar aan draadjes naar een overzichtelijke plattegrond gaat.

Wat is t-SNE eigenlijk?

t-SNE (staat voor t-Distributed Stochastic Neighbor Embedding) is een techniek die hoogdimensionale data omzet naar een visuele kaart. Stel je voor: je hebt een dataset met 500 verschillende eigenschappen per datapunt — bijvoorbeeld medische metingen, gedragsdata of kenmerken van klanten. Als mens kun je zo'n veelheid aan informatie niet overzien. t-SNE pakt al die dimensies en probeert de belangrijkste structuur te behouden terwijl het alles platdrukt tot een 2D-grafiek die je op je scherm kunt bekijken.

De kracht zit 'm in het feit dat punten die in de originele data dicht bij elkaar lagen (dus op elkaar lijken), ook in de visualisatie dicht bij elkaar komen te staan. Zo worden clusters — groepen datapunten die op elkaar lijken — ineens zichtbaar. Het is een beetje zoals een stadsplattegrond tekenen vanuit een wirwar van straten: je verliest details, maar de wijken en hun onderlinge ligging blijven herkenbaar.

Hoe werkt het eigenlijk?

t-SNE werkt in twee stappen. Eerst berekent het voor elk datapunt: wie zijn mijn buren in de hoogdimensionale ruimte? Het geeft elk paar punten een score die aangeeft hoe waarschijnlijk het is dat ze 'buren' zijn — punten die dicht bij elkaar liggen krijgen een hoge score, punten die ver weg liggen een lage.

Vervolgens plaatst t-SNE al die punten willekeurig op een 2D-vlak en begint het ze te verschuiven. Het doel: de burenrelaties uit de originele data zo goed mogelijk nabootsen op het platte vlak. Punten die oorspronkelijk dicht bij elkaar hoorden, worden naar elkaar toe getrokken. Punten die ver van elkaar af stonden, worden weggeduwd. Dit schuifproces gaat door totdat de visualisatie zo goed mogelijk overeenkomt met de oorspronkelijke structuur.

Het resultaat is een soort landkaart waarin vergelijkbare datapunten bij elkaar in de buurt liggen en verschillende groepen gescheiden zijn.

Waarom zou jij hier iets aan hebben?

Als je werkt met datasets waarin veel variabelen zitten — bijvoorbeeld klantsegmentatie, medische scans, tekstanalyse of productdata — dan helpt t-SNE je om patronen te ontdekken die anders onzichtbaar blijven. Je ziet in één oogopslag of er natuurlijke groepen in je data zitten, of er uitschieters zijn, of bepaalde categorieën door elkaar lopen.

Dat maakt t-SNE vooral waardevol in verkennende fases: voordat je een model gaat trainen of een strategie bepaalt, wil je eerst weten hoe je data eruitziet. t-SNE geeft je dat overzicht.

Een voorbeeld uit de praktijk

Stel: een webshop heeft data over duizenden klanten, met voor elke klant 200 kenmerken (leeftijd, aankoopgeschiedenis, surfgedrag, bestedingspatroon, apparaattype, enzovoort). De marketingafdeling wil weten of er natuurlijke klantsegmenten zijn.

Zonder t-SNE zou je door 200 kolommen in een spreadsheet moeten turen — onmogelijk. Met t-SNE plot je alle klanten als puntjes op een 2D-kaart. Ineens zie je drie duidelijke clusters: een groep jonge shoppers die vooral via mobiel koopt, een groep oudere klanten met grote aankopen, en een tussensegment dat vooral in de uitverkoop actief is. Die visuele inzichten helpen om gerichte campagnes te ontwerpen.

Waar kom je het tegen?

t-SNE wordt gebruikt in allerlei data-analyse tools en omgevingen:

Python-bibliotheken zoals scikit-learn en TensorBoard (voor het visualiseren van embeddings uit neurale netwerken)
R-pakketten voor statistische analyse
Tableau en Power BI (via plugins of custom scripts) voor business intelligence
Onderzoeksomgevingen in biologie, geneeskunde, psychologie — overal waar onderzoekers complexe datasets willen verkennen
AI-ontwikkeling: bij het trainen van modellen voor beeldherkenning of taalverwerking gebruiken engineers t-SNE om te zien of het model vergelijkbare concepten ook echt bij elkaar plaatst

Wat t-SNE níet is: een voorspelmodel. Het voorspelt niks en neemt geen beslissingen. Het is puur een verkenningsinstrument.

Let op deze valkuil

t-SNE-visualisaties zien er vaak spectaculair uit — mooie, heldere clusters. Maar let op: de afstanden tussen clusters betekenen niet per se iets. Twee clusters die ver uit elkaar staan op de kaart kunnen in de originele data best dicht bij elkaar liggen. Ook kunnen dezelfde data bij meerdere runs net iets andere plaatjes opleveren, omdat het algoritme met toeval werkt. Gebruik t-SNE dus vooral om structuur te ontdekken, niet om harde conclusies te trekken over afstanden.

Wat kun je er nu mee?

Als je werkt met complexe datasets — of dat nu klantgegevens, producten, medische metingen of tekstdata zijn — dan geeft t-SNE je een eerste, visueel inzicht in wat er speelt. Het helpt je vragen te stellen die je anders niet had bedacht: waarom zitten díe groepen bij elkaar? Wat maakt dat cluster anders? En wat zijn die uitschieters daar in de hoek? Dat maakt t-SNE een krachtig startpunt voor diepere analyses, segmentaties of modelkeuzes.