Alle termenKlassieke Machine Learning

Wat is Logistic Regression?

Een wiskundige techniek die computers leert om 'ja of nee'-beslissingen te nemen, zoals: is deze e-mail spam of niet? Ondanks de naam doet het geen voorspellingen maar maakt het keuzes tussen twee opties.

Wat is Logistic Regression eigenlijk?

Stel je voor: je wilt een computer leren om automatisch te bepalen of een e-mail spam is of niet. Of je wilt voorspellen of iemand een product wel of niet gaat kopen. Dan heb je een techniek nodig die naar alle beschikbare informatie kijkt (onderwerp, afzender, lengte van de mail) en vervolgens één simpele vraag beantwoordt: ja of nee?

Dat is precies waar Logistic Regression voor dient. Het is een van de oudste en meest beproefde machine learning-methoden — al decennia lang de gangbare keuze voor dit soort ja/nee-vragen. De naam is verwarrend: ondanks het woord 'regression' gaat het niet om het voorspellen van getallen (zoals een huisprijs), maar om het maken van een keuze tussen twee categorieën.

Het werkt zo: de computer krijgt voorbeelden te zien van e-mails die wél spam waren en e-mails die dat niet waren. Hij leert patronen herkennen — bijvoorbeeld dat bepaalde woorden, afzenders of opmaak typisch zijn voor spam. Vervolgens zet hij al die signalen om in één getal tussen 0 en 1: hoe dichter bij 1, hoe zekerder het systeem is dat het spam is. Bij 0,9 bijvoorbeeld beslist hij: dit is spam.

Hoe werkt het in de praktijk?

De techniek rekent met gewichten. Elk kenmerk van je data krijgt een score: hoe belangrijk is dit voor de beslissing? Bij spam-detectie krijgt het woord 'gratis' misschien een hoog gewicht (sterk signaal voor spam), terwijl de lengte van de mail een lager gewicht heeft.

Al die gewichten worden door elkaar gegooid in een wiskundige formule die ervoor zorgt dat het eindresultaat altijd tussen 0 en 1 blijft — een soort kanspercentage. Jij stelt een grens in, bijvoorbeeld 0,5: alles daarboven is spam, alles daaronder niet. Die grens kun je verschuiven afhankelijk van wat je belangrijk vindt: liever te voorzichtig (veel vals alarm) of liever te laks (soms mist hij spam)?

Het mooie van Logistic Regression is dat het relatief simpel en transparant is. Je kunt precies zien welke kenmerken het zwaarst wegen in de beslissing — dat maakt het makkelijker uit te leggen waarom het systeem een bepaalde keuze heeft gemaakt. Dat is een groot verschil met moderne neurale netwerken, die vaak een 'black box' zijn.

Waarom zou jij hier iets aan hebben?

Logistic Regression wordt nog steeds overal gebruikt, juist omdat het zo betrouwbaar en overzichtelijk is:

Medische diagnostiek: bepalen of een patiënt wel of geen ziekte heeft op basis van symptomen en testresultaten
Kredietbeoordeling: beslissen of iemand een lening krijgt of niet
Marketing: voorspellen of iemand op een advertentie zal klikken
Fraudedetectie: signaleren of een transactie verdacht is

De techniek is snel, werkt goed met minder data dan deep learning, en vraagt weinig rekenkracht. Voor veel praktische toepassingen is het nog steeds de eerste keuze — of in elk geval het startpunt voordat je zwaardere methoden inzet.

Waar kom je het tegen?

Logistic Regression zit ingebakken in vrijwel alle data-analyse tools en machine learning-platforms. Je vindt het in Python-bibliotheken zoals scikit-learn, in Excel-plugins voor data-analyse, in de achtergrond van spam-filters, en in bedrijfssoftware voor risico-inschatting en klantsegmentatie. Ook bij het analyseren van A/B-tests wordt het vaak gebruikt.

Als je ooit een online formulier hebt ingevuld waarbij een systeem direct aangaf of je aanvraag waarschijnlijk wordt goedgekeurd — grote kans dat er Logistic Regression achter zat.

Begin er zelf mee

Wil je zelf experimenteren? Pak een dataset met ja/nee-uitkomsten (bijvoorbeeld: klanten die wel of niet iets kochten) en probeer scikit-learn in Python. Je hoeft geen wiskundig genie te zijn — de tool doet het zware werk. Het helpt je te begrijpen hoe machine learning werkt zonder dat je meteen in ingewikkelde neurale netwerken duikt. En wie weet ontdek je patronen in je eigen data die je nog niet zag.