Direct naar inhoud
Alle termenData, evaluatie & metrics

Wat is Outlier?

Een datapunt dat sterk afwijkt van de rest — zoals een 2-meter-lange leerling in een klas van basisschoolleerlingen. Kan een fout zijn, of juist een interessante uitzondering.

Wat is Outlier

Wat is een outlier eigenlijk?

Stel je voor dat je de inkomens van alle gezinnen in een wijk verzamelt. De meeste gezinnen verdienen tussen de €30.000 en €60.000 per jaar. Maar er woont één familie met een inkomen van €5 miljoen. Dat is een outlier: een datapunt dat zo afwijkt van de rest dat het opvalt als een vreemde eend in de bijt.

In AI-context kom je outliers voortdurend tegen. Ze zijn datapunten die niet passen in het patroon dat de rest van je gegevens laat zien. Soms zijn het fouten — iemand heeft per ongeluk een komma verkeerd gezet en nu staat er €50.000.000 in plaats van €50.000. Maar soms zijn het juist de interessantste gevallen: frauduleuze transacties, zeldzame ziektes, of klanten met uniek gedrag.

Waarom zijn outliers belangrijk voor AI?

AI-modellen leren patronen uit data. Als je een model traint om huizenprijzen te voorspellen, kijkt het naar alle huizen in je dataset en zoekt verbanden tussen kenmerken (oppervlakte, locatie, aantal kamers) en prijs. Maar wat als er één villa van €10 miljoen tussen zit, terwijl de rest tussen de €200.000 en €500.000 kost?

Die ene villa kan je hele model verstoren. Het gaat proberen om ook dat extreme geval te verklaren, en trekt daardoor de voorspellingen voor normale huizen scheef. Het is alsof je je dieet baseert op wat topsporters eten — je bent geen topsporter, dus dat werkt niet.

Aan de andere kant: soms wíl je juist outliers vinden. Bij fraudedetectie zoek je specifiek naar transacties die afwijken van normaal gedrag. Bij medische diagnose kunnen zeldzame symptoomcombinaties cruciaal zijn. Dan is de outlier niet het probleem, maar juist het signaal waar je naar op zoek bent.

Een voorbeeld uit de praktijk

Een webwinkel analyseert het aankoopgedrag van klanten. De meeste mensen bestellen 1 tot 3 artikelen per maand. Maar er is één klant die ineens 200 smartphones bestelt. Dat is een outlier.

Nu zijn er twee mogelijkheden:

  • Het is een fout of fraude (gestolen creditcard, bot-aanval)

  • Het is een zakelijke klant die je model niet heeft voorzien

Een goed AI-systeem moet kunnen onderscheiden wanneer een outlier een waarschuwingssignaal is, en wanneer het gewoon een nieuwe categorie vertegenwoordigt die je moet toevoegen aan je model.

Hoe ga je ermee om?

Er zijn grofweg drie strategieën:

Verwijderen — Als je zeker weet dat het een fout is (iemand heeft 300 jaar als leeftijd ingevuld), gooi je het eruit. Anders vervuil je je training.

Apart behandelen — Je kunt outliers in een aparte groep stoppen en daar specifieke regels voor maken. Zo train je je hoofdmodel op normale gevallen, en heb je een extra laag voor uitzonderingen.

Robuuste methoden — Sommige AI-technieken zijn van nature minder gevoelig voor outliers. In plaats van het gemiddelde te gebruiken (wat sterk beïnvloed wordt door extremen), kun je de mediaan gebruiken. Of je kiest algoritmes die minder gewicht geven aan rare punten.

Waar kom je het tegen?

Outlier-detectie zit in vrijwel elk AI-systeem dat met echte data werkt:

  • Fraude-detectie bij banken (ING, Rabobank) — ongebruikelijke transacties spotten

  • Kwaliteitscontrole in fabrieken — producten die buiten de norm vallen

  • Medische AI — zeldzame combinaties van symptomen herkennen

  • Cybersecurity-tools — abnormaal netwerkverkeer detecteren

  • E-commerce — bots of misbruik identificeren tussen normale klanten

Ook bij het trainen van grote taalmodellen worden datasets eerst geschoond van outliers: teksten die te kort, te lang, of te raar zijn om zinvol te leren.

Wat kun jij ermee?

Als je met AI-projecten werkt, vraag jezelf altijd af: wat zijn de rare gevallen in mijn data? Zijn het fouten die ik moet opruimen, of juist signalen die ik moet koesteren?

Bij het inkopen van AI-oplossingen: vraag hoe het systeem omgaat met uitzonderingen. Een systeem dat stuk gaat zodra er iets onverwachts langskomt, is in de echte wereld niet bruikbaar. En als je zelf data analyseert: kijk altijd eerst naar de extremen — daar zitten vaak de interessantste verhalen, of de grootste fouten die je hele analyse kunnen verpesten.

FAQ

Veelgestelde vragen over Outlier

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Outlier?

Een datapunt dat sterk afwijkt van de rest — zoals een 2-meter-lange leerling in een klas van basisschoolleerlingen. Kan een fout zijn, of juist een interessante uitzondering.

Waarom is Outlier belangrijk?

Stel je voor dat je de inkomens van alle gezinnen in een wijk verzamelt. De meeste gezinnen verdienen tussen de €30.000 en €60.000 per jaar. Maar er woont één familie met een inkomen van €5 miljoen. Dat is een outlier: een datapunt dat zo afwijkt van de rest dat het opvalt als een vreemde eend in de bijt.

Hoe wordt Outlier toegepast?

In AI-context kom je outliers voortdurend tegen. Ze zijn datapunten die niet passen in het patroon dat de rest van je gegevens laat zien. Soms zijn het fouten — iemand heeft per ongeluk een komma verkeerd gezet en nu staat er €50.000.000 in plaats van €50.000. Maar soms zijn het juist de interessantste gevallen: frauduleuze transacties, zeldzame ziektes, of klanten met uniek gedrag.

Deel: