Alle termenFundamenten & kernconcepten

Wat is Standardization?

Een manier om data om te rekenen zodat het gemiddelde 0 wordt en de spreiding 1, waardoor verschillende variabelen beter vergelijkbaar worden voor AI-modellen.

Ook bekend als: standardization, standaardisatie

Wat is standardization eigenlijk?

Stel je voor dat je een recept hebt waarin ingrediënten in verschillende eenheden staan: 500 gram meel, 2 eetlepels suiker, 300 milliliter melk. Als je die getallen zo in een AI-model stopt, denkt het model dat 500 (meel) veel belangrijker is dan 2 (suiker) — puur omdat het getal groter is. Standardization lost dit op door alle getallen om te rekenen naar dezelfde schaal.

Bij standardization wordt elke variabele in je dataset zo aangepast dat het gemiddelde precies 0 wordt en de spreiding (standaarddeviatie) 1. Het is alsof je van elk ingrediënt zegt: "Hoeveel afwijkt dit van het gemiddelde gebruik?" in plaats van de letterlijke hoeveelheid.

Het werkt zo: van elke waarde trek je het gemiddelde af (dan wordt het gemiddelde 0), en daarna deel je door de standaarddeviatie (dan wordt de spreiding 1). Een waarde die precies gemiddeld is wordt 0, een waarde die hoger is wordt positief, en een lagere waarde wordt negatief.

Waarom zou jij hier iets aan hebben?

AI-modellen zoals neural networks zijn gevoelig voor de schaal waarop data wordt aangeleverd. Als je leeftijd (tussen 18-65) combineert met inkomen (tussen 20.000-150.000), gaat het model automatisch meer gewicht toekennen aan inkomen — niet omdat het belangrijker is, maar gewoon omdat de getallen groter zijn.

Door standardization worden beide variabelen herschaald naar dezelfde spreiding rond 0, zodat het model ze eerlijk kan vergelijken. Het leert dan sneller en beter.

Nog een voordeel: veel machine learning-algoritmes werken met afstanden tussen datapunten. Als één variabele veel grotere getallen heeft dan een ander, domineert die de berekening. Standardization voorkomt dat.

Een voorbeeld uit de praktijk

Stel: je traint een model dat huizenprijzen voorspelt op basis van woonoppervlakte (50-250 m²) en aantal kamers (1-8). Zonder standardization zou het model vooral kijken naar oppervlakte, omdat die getallen veel groter zijn.

Na standardization wordt bijvoorbeeld:

Een huis van 150 m² (gemiddeld) → 0
Een huis van 200 m² (boven gemiddeld) → +1,5
Een huis van 100 m² (onder gemiddeld) → -1,5

En tegelijk:

4 kamers (gemiddeld) → 0
6 kamers (boven gemiddeld) → +1,2
2 kamers (onder gemiddeld) → -1,2

Nu kan het model beide factoren even zwaar laten meewegen in zijn voorspelling.

Waar kom je het tegen?

Standardization is een standaard-stap in bijna alle machine learning-projecten, vooral bij:

Scikit-learn (Python) — met de StandardScaler
TensorFlow en PyTorch — vaak als preprocessing voor neural networks
Data science notebooks — in Jupyter of Google Colab wordt het vaak als eerste stap toegepast
AutoML-platforms zoals Google AutoML of H2O.ai — doen dit automatisch
Excel of Google Sheets — je kunt het handmatig met formules ((waarde - gemiddelde) / standaarddeviatie)

Bij modellen zoals logistische regressie, support vector machines en neural networks is het bijna altijd nodig. Bij decision trees daarentegen maakt het vaak niet uit, omdat die modellen werken met splitsingen en niet met afstanden.

Nog even dit: het verschil met andere normalisatie

Standardization is één specifieke vorm van normalisatie. Een andere veelgebruikte vorm is min-max scaling, waarbij je alle waarden omrekent naar een bereik tussen 0 en 1. Het verschil: bij min-max scaling blijven extreme uitschieters (outliers) invloed houden op de schaal, terwijl standardization daar minder gevoelig voor is.

Welke je gebruikt hangt af van je data en je model — maar voor neural networks is standardization vaak de veiligste keuze.

Wat kun je hier nu mee?

Als je zelf aan de slag gaat met machine learning, maak standardization een automatische eerste stap. Kijk in je dataset naar variabelen met verschillende eenheden of groottes — leeftijd versus inkomen, meters versus aantallen — en standaardiseer ze voordat je gaat trainen. Je model leert er sneller en nauwkeuriger door. De meeste Python-bibliotheken hebben hier kant-en-klare functies voor, dus het kost je letterlijk één regel code.

FAQ

Veelgestelde vragen over Standardization

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Standardization?

Een manier om data om te rekenen zodat het gemiddelde 0 wordt en de spreiding 1, waardoor verschillende variabelen beter vergelijkbaar worden voor AI-modellen.

Waarom is Standardization belangrijk?

Hoe wordt Standardization toegepast?

Deel:

Laatst bijgewerkt 3 mei 2026