Wat is Data Drift?
Het verschijnsel dat de gegevens waarop een AI-model is getraind na verloop van tijd niet meer lijken op de nieuwe data uit de echte wereld, waardoor de voorspellingen minder betrouwbaar worden.

Wat is Data Drift eigenlijk?
Stel je voor: je traint een AI-model om te voorspellen hoeveel ijsjes je volgende week verkoopt. Je gebruikt data van de afgelopen jaren — weer, temperatuur, vakanties. Het model leert: "Bij 25 graden en zomervakantie verkoop je veel ijsjes." Dat werkt perfect.
Maar dan komt er een nieuwe trend: plotseling zijn plantaardige ijsjes enorm populair, en je assortiment is daar niet op aangepast. Of: door klimaatverandering zijn de zomers nóg warmer dan in je trainingsdata. Opeens kloppen je voorspellingen niet meer — niet omdat je model slecht is, maar omdat de wereld is veranderd. Dat is Data Drift.
Data Drift betekent letterlijk: de data "drijft af" van wat het model ooit heeft geleerd. De patronen in de echte wereld verschuiven, maar het model blijft uitgaan van oude aannames. Het resultaat? Voorspellingen die steeds minder accuraat zijn.
Hoe ontstaat het?
Er zijn twee hoofdoorzaken:
De wereld verandert — Consumentengedrag, economische omstandigheden, seizoenen, trends, technologie. Een model getraind vóór de pandemie snapt thuiswerken misschien niet. Een fraudedetectie-model kan nieuwe oplichttrucs missen.
Je eigen data verandert — Je bedrijf lanceert een nieuw product, je website krijgt een andere doelgroep, je meetinstrumenten worden vervangen. Opeens meet je andere dingen of op een andere manier.
Soms is het subtiel: een chatbot die steeds vaker vragen krijgt over onderwerpen die niet in de trainingsdata zaten. Of een kredietmodel dat opeens veel jongere aanvragers ziet dan vroeger. Het model is niet "kapot" — het is gewoon niet meer up-to-date.
Waarom is dit een probleem?
Als je Data Drift niet opmerkt, blijf je beslissingen nemen op basis van verouderde inzichten. Een prijsvoorspelling kan te hoog of te laag zijn. Een aanbevelingssysteem kan irrelevante producten pushen. Een fraudedetector kan echte fraude over het hoofd zien.
Het vervelende: het model zélf merkt niks. Het blijft vrolijk voorspellingen doen, ook al zijn die steeds minder betrouwbaar. Daarom monitoren bedrijven hun modellen actief — ze vergelijken de nieuwe data met de oude trainingsdata en checken of de voorspellingen nog kloppen.
Een voorbeeld uit de praktijk
Een webshop gebruikt een model om te voorspellen welke klanten waarschijnlijk iets kopen. Dat model is getraind op data van 2020-2022. In 2023 stijgen de energieprijzen, en mensen gaan ineens heel anders winkelen: minder impulsaankopen, meer budgetbewust. Het model herkent die nieuwe patronen niet — het blijft uitgaan van het oude koopgedrag. Resultaat: het stuurt aanbiedingen naar de verkeerde mensen, en de conversie zakt.
De oplossing? Het model opnieuw trainen met recente data, zodat het leert herkennen hoe klanten nu kopen. Dat heet "retraining" of "model refresh".
Waar kom je het tegen?
Data Drift speelt overal waar AI-modellen in de echte wereld draaien:
Webshops en aanbevelingssystemen — Trends, seizoenen en assortiment veranderen.
Fraudedetectie bij banken — Criminelen verzinnen steeds nieuwe trucs.
Voorspellend onderhoud in fabrieken — Machines slijten, processen veranderen.
Chatbots en klantenservice — Vragen veranderen als je diensten of beleid wijzigt.
Marketing- en sales-modellen — Doelgroepen en campagnes evolueren.
Platforms zoals AWS SageMaker, Azure Machine Learning, Google Vertex AI, Datadog, Evidently AI en Fiddler hebben ingebouwde tools om Data Drift te detecteren. Ze waarschuwen je als de statistieken van je nieuwe data te veel afwijken van je trainingsdata.
Wat kun je ertegen doen?
Data Drift is niet te voorkomen — de wereld blijft veranderen. Maar je kunt het wél in de gaten houden:
Monitor actief — Stel dashboards in die je waarschuwen als data-patronen verschuiven.
Train regelmatig opnieuw — Update je model met nieuwe data, bijvoorbeeld elke maand of elk kwartaal.
Test voorspellingen — Vergelijk wat je model voorspelt met wat er echt gebeurt. Als het verschil groeit, is dat een signaal.
Bouw robuuste modellen — Sommige modellen zijn beter bestand tegen lichte verschuivingen dan andere.
Denk aan Data Drift als aan onderhoud: je auto heeft ook regelmatig een beurt nodig om goed te blijven rijden. Hetzelfde geldt voor AI-modellen. Houd je data en prestaties in de gaten, dan blijft je model relevant en betrouwbaar — ook als de wereld om je heen verandert.
Veelgestelde vragen over Data Drift
De drie meest gestelde vragen over dit onderwerp, kort beantwoord.
Wat is Data Drift?
Het verschijnsel dat de gegevens waarop een AI-model is getraind na verloop van tijd niet meer lijken op de nieuwe data uit de echte wereld, waardoor de voorspellingen minder betrouwbaar worden.
Waarom is Data Drift belangrijk?
Stel je voor: je traint een AI-model om te voorspellen hoeveel ijsjes je volgende week verkoopt. Je gebruikt data van de afgelopen jaren — weer, temperatuur, vakanties. Het model leert: "Bij 25 graden en zomervakantie verkoop je veel ijsjes." Dat werkt perfect.
Hoe wordt Data Drift toegepast?
Maar dan komt er een nieuwe trend: plotseling zijn plantaardige ijsjes enorm populair, en je assortiment is daar niet op aangepast. Of: door klimaatverandering zijn de zomers nóg warmer dan in je trainingsdata. Opeens kloppen je voorspellingen niet meer — niet omdat je model slecht is, maar omdat de wereld is veranderd. Dat is Data Drift.