Direct naar inhoud
Alle termenWiskundige & statistische basis

Wat is Information Gain?

Maat voor hoeveel 'nieuwe info' je krijgt als je een dataset opsplitst — cruciaal voor decision trees om te bepalen welke vraag het beste eerst gesteld kan worden.

Wat is Information Gain

Wat is Information Gain eigenlijk?

Information Gain is een berekeningsmanier die AI-modellen — vooral decision trees — gebruiken om te bepalen welke vraag ze het beste eerst kunnen stellen. Stel je voor dat je het spel 'Wie is het?' speelt: je wilt bij elke beurt de vraag stellen die je het snelst naar het juiste antwoord brengt. "Draagt je persoon een bril?" is een goede vraag als daarmee de helft van de gezichten wegvalt. "Heeft je persoon één sproet op de linkerwang?" helpt veel minder, want dat geldt maar voor één gezicht.

Information Gain meet precies dat: hoeveel zekerder word je door een bepaalde vraag te stellen? Hoe meer 'ruis' of 'wanorde' (entropie) je wegneemt, hoe hoger de Information Gain.

Hoe werkt het in de praktijk?

Een decision tree moet vaak uit tientallen mogelijke kenmerken kiezen om een dataset op te splitsen. Stel: je wilt voorspellen of iemand een lening terugbetaalt. Je hebt data over leeftijd, inkomen, aantal kinderen, postcode, beroep, noem maar op.

Het model berekent voor elk kenmerk: "Als ik hier op splits, hoeveel duidelijker wordt het beeld?" Bij elke split kijk je naar de verdeling vóór de split (hoeveel chaos zit er in de hele groep?) en erna (hoeveel chaos blijft er over in de twee subgroepen?). Het verschil is de Information Gain.

Het kenmerk met de hoogste Information Gain wordt de eerste split. Daarna herhaalt het proces zich voor elke tak van de boom, tot je groepen hebt die 'zuiver' genoeg zijn — groepen waarin bijna iedereen hetzelfde label heeft.

Een alledaags voorbeeld

Stel je hebt een doos met 50 rode en 50 blauwe ballen, helemaal door elkaar. Je weet dat de rode ballen uit fabriek A komen en de blauwe uit fabriek B, maar ze zijn niet gelabeld. Je wilt ze sorteren.

Je ontdekt dat alle ballen uit fabriek A een ruw oppervlak hebben, en die uit fabriek B glad. Als je de ballen split op "oppervlak: ruw of glad?", krijg je twee groepen die elk volledig zuiver zijn. De Information Gain van die split is enorm — je ging van maximale chaos naar volledige duidelijkheid.

Als je daarentegen had gesplitst op "groter dan 5 cm?", en beide fabrieken maken ballen van alle maten, dan blijven beide groepen gemengd. Die split heeft lage Information Gain — je wordt er nauwelijks wijzer van.

Waar kom je het tegen?

Information Gain is ingebakken in veel klassieke machine learning-algoritmes:

  • Decision trees (zoals ID3, C4.5) gebruiken het standaard om splits te kiezen

  • Random Forests — verzamelingen van decision trees — bouwen voort op hetzelfde principe

  • Gradient Boosting-modellen (XGBoost, LightGBM) gebruiken varianten van dit idee

  • Feature selection: als je wilt weten welke kenmerken in je dataset het meest informatief zijn, helpt Information Gain je de nutteloze te filteren

Je ziet het dus vooral in situaties waar je grote datasets hebt met veel kenmerken, en je wilt weten: welke vragen moet ik stellen om snel tot een voorspelling te komen?

Waarom is het belangrijk?

Zonder een maat zoals Information Gain zou een decision tree willekeurig splits kiezen, of altijd dezelfde volgorde aanhouden. Dat leidt tot inefficiënte modellen die slecht presteren. Information Gain zorgt ervoor dat het model de meest onderscheidende kenmerken naar voren haalt — de vragen die er echt toe doen.

Dat maakt decision trees snel, interpreteerbaar en krachtig voor gestructureerde data. En omdat veel moderne ensemble-methodes voortbouwen op decision trees, is Information Gain indirect ook de motor achter veel van de AI die je vandaag in productie ziet — van kredietbeoordelingen tot fraudedetectie tot medische diagnostiek.

Wat kun je ermee?

Als je zelf met data werkt, helpt begrip van Information Gain je om te zien welke variabelen in je dataset echt voorspellend zijn. In tools zoals scikit-learn (Python) kun je de 'feature importance' van een decision tree of Random Forest opvragen — dat is in de kern gebaseerd op hoeveel Information Gain elk kenmerk heeft opgeleverd. Zo ontdek je welke factoren je model echt gebruikt, en welke je misschien zelfs kunt weglaten om het eenvoudiger en sneller te maken.

FAQ

Veelgestelde vragen over Information Gain

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Information Gain?

Maat voor hoeveel 'nieuwe info' je krijgt als je een dataset opsplitst — cruciaal voor decision trees om te bepalen welke vraag het beste eerst gesteld kan worden.

Waarom is Information Gain belangrijk?

Information Gain is een berekeningsmanier die AI-modellen — vooral decision trees — gebruiken om te bepalen welke vraag ze het beste eerst kunnen stellen. Stel je voor dat je het spel 'Wie is het?' speelt: je wilt bij elke beurt de vraag stellen die je het snelst naar het juiste antwoord brengt. "Draagt je persoon een bril?" is een goede vraag als daarmee de helft van de gezichten wegvalt. "Heeft je persoon één sproet op de linkerwang?" helpt veel minder, want dat geldt maar voor één gezicht.

Hoe wordt Information Gain toegepast?

Information Gain meet precies dat: hoeveel zekerder word je door een bepaalde vraag te stellen? Hoe meer 'ruis' of 'wanorde' (entropie) je wegneemt, hoe hoger de Information Gain.

Deel: