Direct naar inhoud
Alle termenData, evaluatie & metrics

Wat is Missing Value?

Een ontbrekende waarde in een dataset — zoals een lege cel in een Excel-bestand — die je moet opvangen voordat je AI-model ermee aan de slag kan.

Wat is Missing Value

Wat is een missing value eigenlijk?

Stel je voor: je hebt een Excel-bestand met klantgegevens. Bij sommige klanten staat geen geboortedatum, bij anderen ontbreekt het telefoonnummer. Die lege cellen? Dat zijn missing values — letterlijk: ontbrekende waarden.

In de wereld van AI en data is dit een veelvoorkomend probleem. Datasets zijn zelden perfect compleet. Sensoren vallen uit, mensen slaan vragen over in enquêtes, systemen crashen tijdens het opslaan. Het resultaat: gaten in je data.

Waarom is dat een probleem? Omdat de meeste AI-modellen niet kunnen rekenen met "niks". Ze verwachten een getal, een categorie, een antwoord. Een leeg veld leidt tot errors of verkeerde conclusies. Daarom moet je missing values opsporen en aanpakken voordat je je model traint.

Hoe ontstaan ze?

Missing values hebben allerlei oorzaken:

  • Menselijke fouten — iemand vergeet een veld in te vullen

  • Technische problemen — een sensor meet niet, een API geeft geen response

  • Privacy — mensen willen bepaalde informatie niet delen

  • Dataverzameling over tijd — oude records missen velden die later zijn toegevoegd

  • Samenvoegen van datasets — twee bronnen hebben niet dezelfde kolommen

Soms is een missing value betekenisvol: "geen antwoord" kan zelf informatie bevatten. Iemand die zijn inkomen niet invult, verdient misschien juist veel of juist weinig. Dat noem je "informative missingness".

Wat doe je ermee?

Je hebt drie hoofdstrategieën:

1. Weggooien Verwijder rijen of kolommen met ontbrekende waarden. Simpel, maar je verliest data. Alleen verstandig als het om een klein percentage gaat (bijvoorbeeld minder dan 5%).

2. Invullen (imputatie) Vervang de missing value door een geschatte waarde:

  • Het gemiddelde van de kolom (bij getallen)

  • De meest voorkomende waarde (bij categorieën)

  • Een voorspelling op basis van andere kolommen

  • Een vaste waarde zoals 0 of "onbekend"

3. Apart markeren Maak een extra kolom die aangeeft óf er data ontbrak. Bijvoorbeeld: naast "leeftijd" ook "leeftijd_ontbrak" (ja/nee). Zo kan je model leren dat het ontbreken zelf betekenis heeft.

Een voorbeeld uit de praktijk

Een webshop wil voorspellen welke klanten waarschijnlijk iets gaan retourneren. In de dataset ontbreekt bij 20% van de klanten het veld "eerdere retours" — nieuwe klanten hebben namelijk nog nooit iets geretourneerd.

Als je die rijen weggooit, verlies je juist waardevolle info over nieuwe klanten. Beter: vul "0" in (ze hebben niks geretourneerd) en voeg een kolom "is_nieuwe_klant" toe. Nu kan je model het verschil leren tussen "0 retours omdat ze nieuw zijn" en "0 retours omdat ze tevreden zijn".

Waar kom je het tegen?

  • Excel en Google Sheets — lege cellen die je handmatig moet opsporen

  • Python-bibliotheken zoals Pandas — met functies als .isna() en .fillna()

  • Data-analysesoftware zoals Tableau, Power BI — waarschuwingen bij incomplete data

  • Machine learning platforms — vaak een voorbereidingsstap in de workflow

  • SQL-databasesNULL-waarden die je moet filteren of vervangen

Elke professionele dataset heeft missing values. Het verschil tussen een goed en slecht AI-project zit vaak in hoe zorgvuldig je hiermee omgaat.

Wat kun je er nu mee?

Check voordat je een AI-model gaat trainen altijd eerst je data op ontbrekende waarden. In Python doe je dat met een paar regels code, in Excel zie je het vaak meteen. Maak een bewuste keuze: weggooien, invullen of markeren. En documenteer wat je gedaan hebt — toekomstige collega's (of jijzelf over drie maanden) willen weten waarom die kolom ineens vol nullen staat.

Besef dat missing values geen technisch detail zijn, maar een kwaliteitsvraagstuk. Ze vertellen iets over hoe je data verzameld is. En vaak is de manier waarop je ermee omgaat net zo belangrijk als het model dat je daarna bouwt.

FAQ

Veelgestelde vragen over Missing Value

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Missing Value?

Een ontbrekende waarde in een dataset — zoals een lege cel in een Excel-bestand — die je moet opvangen voordat je AI-model ermee aan de slag kan.

Waarom is Missing Value belangrijk?

Stel je voor: je hebt een Excel-bestand met klantgegevens. Bij sommige klanten staat geen geboortedatum, bij anderen ontbreekt het telefoonnummer. Die lege cellen? Dat zijn missing values — letterlijk: ontbrekende waarden.

Hoe wordt Missing Value toegepast?

In de wereld van AI en data is dit een veelvoorkomend probleem. Datasets zijn zelden perfect compleet. Sensoren vallen uit, mensen slaan vragen over in enquêtes, systemen crashen tijdens het opslaan. Het resultaat: gaten in je data.

Deel: