Direct naar inhoud
Alle termenWiskundige & statistische basis

Wat is Pearson Correlation?

Een getal tussen -1 en 1 dat aangeeft hoe sterk twee dingen met elkaar samenhangen — bijvoorbeeld: hoe meer trainingsdata, hoe lager de foutenmarge.

Wat is Pearson Correlation

Wat is het eigenlijk?

Stel je voor dat je twee dingen hebt die allebei kunnen veranderen. Bijvoorbeeld: het aantal uren dat je AI-model traint, en hoe goed het daarna presteert. Of: de leeftijd van je klanten en hun interesse in een bepaald product. Pearson Correlation is een simpel getal dat uitdrukt of die twee dingen met elkaar meebewegen.

Dat getal ligt altijd tussen -1 en 1:

  • +1 betekent: perfecte samenloop. Als het ene stijgt, stijgt het andere precies mee. Zoals kilometers rijden en brandstof verbruiken.

  • 0 betekent: geen samenloop. De twee dingen hebben niets met elkaar te maken. Zoals jouw schoenmaatje en de benzineprijs.

  • -1 betekent: perfecte tegengestelde beweging. Als het ene stijgt, daalt het andere. Zoals de temperatuur buiten en je stookkosten.

In de praktijk zie je vooral getallen ergens tussenin. Een correlatie van 0,7 is bijvoorbeeld een sterke positieve samenloop, maar niet perfect.

Hoe kom je het tegen in AI?

Bij het bouwen en trainen van AI-modellen wil je vaak weten welke factoren (we noemen dat 'features') echt invloed hebben op wat je voorspelt. Pearson Correlation helpt daarbij.

Een voorbeeld: je traint een model dat huizenprijzen voorspelt. Je hebt data over de grootte van huizen, aantal kamers, bouwjaar, afstand tot een station. Met Pearson Correlation kun je in één oogopslag zien welke variabelen sterk samenhangen met de prijs. Blijkt dat vierkante meters een correlatie van 0,85 hebben met de prijs? Dan weet je: dit is een belangrijke voorspeller. Blijkt dat de kleur van de voordeur een correlatie van 0,02 heeft? Dan kun je die waarschijnlijk negeren.

Dat scheelt enorm veel tijd en rekenwerk — je hoeft niet alle mogelijke combinaties uit te proberen.

Waar moet je op letten?

Er is één groot misverstand: correlatie is geen oorzaak. Als twee dingen samen bewegen, wil dat niet zeggen dat het ene het andere veroorzaakt.

Een klassiek voorbeeld: het aantal verkochte ijsjes en het aantal verdrinkingen in zwembaden bewegen samen (hoge correlatie). Maar ijsjes eten zorgt niet voor verdrinkingen. De échte oorzaak is een derde factor: warm weer. Dan eten mensen meer ijs én gaan ze vaker zwemmen.

In AI-termen: als je een sterke correlatie vindt, is dat een signaal om verder te kijken — maar je moet niet blindelings aannemen dat je de oorzaak hebt gevonden.

Waar kom je het tegen?

Pearson Correlation zit ingebakken in vrijwel alle data-analyse en machine learning tools:

  • Python-bibliotheken als pandas, NumPy en SciPy hebben ingebouwde functies om correlaties te berekenen

  • Excel heeft een CORRELATIE-functie

  • Datavisualisatie-tools als Tableau en Power BI tonen correlatiematrices

  • AutoML-platformen (zoals Google AutoML, H2O.ai) gebruiken correlatie automatisch om features te selecteren

  • In Jupyter Notebooks zie je vaak heatmaps met correlaties tussen alle variabelen in je dataset

Als je ooit een kleurrijk grid ziet met getallen tussen -1 en 1, en donkere/lichte vlakken — dat is waarschijnlijk een correlatiematrix.

Wat kun je ermee?

Begrijpen welke Pearson Correlation is, helpt je slimmer te werken met data. Voor je een complex AI-model gaat trainen, kun je eerst even checken: welke variabelen bewegen mee met wat ik wil voorspellen? Dat geeft richting. Het scheelt reken-energie, verkleint de kans op ruis in je model, en maakt je resultaten makkelijker uit te leggen aan anderen.

En even zo belangrijk: als iemand je een 'significant verband' presenteert, weet je nu dat je moet doorvragen. Hoe sterk is die correlatie eigenlijk? En hebben we echt een oorzakelijk verband, of lopen we achter een ijsje-verdrinking-situatie aan?

FAQ

Veelgestelde vragen over Pearson Correlation

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Pearson Correlation?

Een getal tussen -1 en 1 dat aangeeft hoe sterk twee dingen met elkaar samenhangen — bijvoorbeeld: hoe meer trainingsdata, hoe lager de foutenmarge.

Waarom is Pearson Correlation belangrijk?

Stel je voor dat je twee dingen hebt die allebei kunnen veranderen. Bijvoorbeeld: het aantal uren dat je AI-model traint, en hoe goed het daarna presteert. Of: de leeftijd van je klanten en hun interesse in een bepaald product. Pearson Correlation is een simpel getal dat uitdrukt of die twee dingen met elkaar meebewegen.

Hoe wordt Pearson Correlation toegepast?

Dat getal ligt altijd tussen -1 en 1:

Deel: