Direct naar inhoud
Alle termenData, evaluatie & metrics

Wat is Imputation?

Een techniek om ontbrekende waarden in datasets op te vullen met schattingen, zodat AI-modellen toch met de data kunnen werken.

Wat is Imputation

Wat is imputation eigenlijk?

Stel je voor: je hebt een Excel-sheet met gegevens van duizend klanten, maar bij 150 mensen ontbreekt de leeftijd. Je AI-model kan daar niet mee werken — het heeft voor elk vakje een waarde nodig. Imputation is de techniek waarmee je die lege vakjes opvult met een slimme schatting.

Dat kan op verschillende manieren. De simpelste is het gemiddelde gebruiken: als de gemiddelde leeftijd 42 is, vul je overal 42 in waar het ontbreekt. Iets slimmer is kijken naar vergelijkbare mensen: als iemand dezelfde postcode en hetzelfde inkomen heeft als jij, pak je diens leeftijd. De meest geavanceerde methodes gebruiken machine learning om patronen in de data te vinden en zo te voorspellen wat er zou moeten staan.

De term komt uit de statistiek en betekent letterlijk 'toerekenen' — je rekent een waarde toe aan iets wat je niet weet.

Waarom is dit belangrijk?

AI-modellen zijn kieskeurig. Ze willen geen lege vakjes, geen vraagtekens, geen "onbekend". Een dataset met gaten levert fouten op of wordt simpelweg geweigerd. Imputation maakt onvolmaakte data bruikbaar.

Maar er zit een risico aan: verkeerd imputeren kan nieuwe problemen creëren. Als je overal het gemiddelde invult, maak je je data kunstmatig gladder — extreme waarden verdwijnen. Als je een patroon gebruikt dat er niet echt is, train je je model op verzonnen informatie. Het is een beetje alsof je een puzzel afmaakt door zelf stukjes te tekenen: handig, maar alleen als je tekening klopt.

Daarom kiezen data scientists zorgvuldig welke methode ze gebruiken, afhankelijk van hoeveel data ontbreekt en waarom het ontbreekt.

Een voorbeeld uit de praktijk

Een zorgverzekeraar wil voorspellen welke klanten volgend jaar veel zorg zullen gebruiken. In hun dataset ontbreekt bij 20% van de mensen de BMI (body mass index), omdat niet iedereen dat heeft laten meten. Simpelweg het gemiddelde invullen zou betekenen dat iedereen 'normaal' lijkt — terwijl juist de afwijkende waarden interessant zijn.

De data scientist gebruikt daarom een geavanceerdere methode: ze traint een klein hulpmodel dat BMI voorspelt op basis van leeftijd, geslacht, bloeddruk en andere bekende waarden. Zo krijgt iemand van 65 met hoge bloeddruk een hogere geschatte BMI dan iemand van 30 met lage bloeddruk. Het blijft een schatting, maar wel een die rekening houdt met wat je wél weet.

Verschillende soorten imputation

Er zijn grofweg vier niveaus:

  • Mean/median imputation — vul het gemiddelde of de mediaan in. Simpel, maar maakt data vlakker.

  • Mode imputation — bij categorieën (bijvoorbeeld 'kleur') vul je de meest voorkomende waarde in.

  • Regression imputation — gebruik andere kolommen om de ontbrekende waarde te voorspellen via een wiskundig model.

  • KNN imputation — zoek de K meest vergelijkbare rijen en neem het gemiddelde van hun waarden. Werkt goed als er duidelijke patronen zijn.

  • Multiple imputation — maak meerdere versies van de dataset met verschillende schattingen, train je model op allemaal, en combineer de resultaten. Geeft betrouwbaarder uitkomsten.

Welke je kiest hangt af van hoeveel tijd je hebt, hoeveel data ontbreekt, en hoe belangrijk precisie is.

Waar kom je het tegen?

Imputation gebeurt meestal achter de schermen in de data-voorbereidingsfase. Tools die het gebruiken:

  • Python-bibliotheken zoals scikit-learn (SimpleImputer, KNNImputer), pandas (fillna, interpolate), en fancyimpute

  • R-packages zoals mice, Amelia, missForest

  • AutoML-platforms zoals DataRobot, H2O.ai — die automatisch imputation toepassen als onderdeel van hun pipeline

  • Business intelligence tools zoals Tableau Prep, Alteryx — met visuele interfaces voor data-opschoning

  • Spreadsheets — zelfs Excel heeft basale invulfuncties, al zijn die niet zo slim

Als je met AI-modellen werkt op echte data (en niet op schoolvoorbeelden), kom je imputation vrijwel altijd tegen.

Wat kun je ermee?

Als je zelf met data werkt, is het goed om te weten dat imputation bestaat en dat het keuzes vraagt. Vraag bij een AI-project gerust: "Hoe zijn ontbrekende waarden opgevuld?" Want die keuze beïnvloedt wat het model leert.

En als je een dataset hebt met gaten: gooi hem niet meteen weg. Met de juiste imputation-techniek kun je die data alsnog bruikbaar maken — al blijft het altijd een schatting waar je rekening mee moet houden.

FAQ

Veelgestelde vragen over Imputation

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Imputation?

Een techniek om ontbrekende waarden in datasets op te vullen met schattingen, zodat AI-modellen toch met de data kunnen werken.

Waarom is Imputation belangrijk?

Stel je voor: je hebt een Excel-sheet met gegevens van duizend klanten, maar bij 150 mensen ontbreekt de leeftijd. Je AI-model kan daar niet mee werken — het heeft voor elk vakje een waarde nodig. Imputation is de techniek waarmee je die lege vakjes opvult met een slimme schatting.

Hoe wordt Imputation toegepast?

Dat kan op verschillende manieren. De simpelste is het gemiddelde gebruiken: als de gemiddelde leeftijd 42 is, vul je overal 42 in waar het ontbreekt. Iets slimmer is kijken naar vergelijkbare mensen: als iemand dezelfde postcode en hetzelfde inkomen heeft als jij, pak je diens leeftijd. De meest geavanceerde methodes gebruiken machine learning om patronen in de data te vinden en zo te voorspellen wat er zou moeten staan.

Deel: