Alle termenKlassieke Machine Learning

Wat is FP-Growth?

Een slimme rekenmethode die patronen ontdekt in grote datasets door niet alles één voor één te bekijken, maar slim te groeperen — zoals een kassamedewerker die ziet welke producten vaak samen worden gekocht.

Wat is FP-Growth eigenlijk?

Stel je voor dat je eigenaar bent van een supermarkt en je wilt weten welke producten klanten vaak samen kopen. Je zou elke kassabon één voor één kunnen doorlopen en alle mogelijke combinaties uitproberen — maar bij duizenden boodschappen per dag duurt dat véél te lang. FP-Growth is een slimme manier om dit soort patronen veel sneller te vinden.

De afkorting staat voor 'Frequent Pattern Growth', wat betekent: patronen die vaak voorkomen, laten groeien. In plaats van elke mogelijke combinatie apart te bekijken, bouwt FP-Growth eerst een soort beslisboom (een 'FP-tree') waarin alle aankopen zijn gegroepeerd. Daarna zoekt het algoritme in die boom naar paden die vaak voorkomen — zonder de originele data steeds opnieuw te moeten doorspitten.

Het werkt in twee stappen: eerst telt het welke losse items vaak voorkomen ("brood komt 847 keer voor"), en gooit het zeldzame dingen weg. Daarna bouwt het een compacte boomstructuur waarin je in één oogopslag ziet welke combinaties populair zijn. Die boom is veel kleiner dan de originele data, waardoor het algoritme razendsnel kan werken.

Hoe werkt het in de praktijk?

Een klassiek voorbeeld: een webwinkel wil weten welke producten vaak samen in het winkelmandje belanden. Met FP-Growth analyseer je miljoenen transacties en ontdekt je bijvoorbeeld dat mensen die een laptop kopen, vaak ook een laptoptas en muis kopen. Die kennis gebruik je dan voor aanbevelingen ("anderen kochten ook...") of voor slimme kortingsacties.

Het verschil met oudere methodes zoals Apriori (een ander klassiek algoritme voor hetzelfde doel) is dat FP-Growth de data maar één keer hoeft te scannen om de boom te bouwen. Apriori moet de database steeds opnieuw doorlopen voor elke nieuwe combinatie die het test — dat is bij grote datasets veel trager.

Ander voorbeeld: een ziekenhuis wil patronen vinden in patiëntgegevens. Welke combinaties van symptomen leiden vaak tot een bepaalde diagnose? FP-Growth kan snel door enorme medische databases zoeken zonder dat een arts handmatig alle dossiers moet doorlopen.

Waarom zou jij hier iets aan hebben?

FP-Growth is vooral interessant als je met grote hoeveelheden transactiedata werkt: aankopen, klikgedrag, logbestanden, sensor-metingen. Overal waar je wilt ontdekken wat vaak samen voorkomt, is dit algoritme je vriend.

Het grote voordeel is snelheid. Waar andere methodes vastlopen bij miljoenen transacties, blijft FP-Growth soepel doorrekenen. Dat komt doordat het de data samendrukt tot die compacte boom, en vervolgens alleen nog in die boom hoeft te zoeken.

Een nadeel: FP-Growth heeft wel geheugen nodig om die boom op te bouwen. Bij héél grote datasets kan dat een uitdaging zijn. En het algoritme vertelt je alleen wat vaak voorkomt — niet waarom. Het zegt "laptops en muizen worden vaak samen gekocht", maar niet of dat komt doordat mensen ze echt samen nodig hebben, of omdat ze toevallig naast elkaar in de winkel staan.

Waar kom je het tegen?

FP-Growth is een klassieker uit 2000 (bedacht door Han, Pei en Yin) en zit in veel data-analyse toolkits:

Python-bibliotheken zoals MLxtend en PyFIM bevatten kant-en-klare FP-Growth functies
Apache Spark MLlib heeft het ingebouwd voor big data-toepassingen
R-packages zoals arules gebruiken het voor 'market basket analysis'
Wetenschappelijk onderzoek in biologie, medicijnen en marketing past het regelmatig toe

In moderne AI wordt FP-Growth minder vaak genoemd dan deep learning-technieken, maar het is nog steeds waardevol voor situaties waar je geen neural network nodig hebt — gewoon snel patronen vinden in data. Vooral in e-commerce en retail zie je het nog regelmatig terug.

Wat kun je ermee?

Als je een webshop hebt, een databank met klantgedrag, of gewoon nieuwsgierig bent naar patronen in data: FP-Growth is een toegankelijke methode die je met relatief weinig technische kennis kunt toepassen. De meeste data-analyse tools hebben het al ingebouwd, dus je hoeft het niet zelf te programmeren.

Bedenk wel: het algoritme vindt correlaties, geen oorzaken. Als het zegt dat mensen die luiers kopen ook vaak bier kopen (een beroemd voorbeeld uit de retail-literatuur), weet je nog niet of dat toeval is of dat er een verband is. Maar als startpunt om interessante patronen te ontdekken, is FP-Growth een snelle en betrouwbare keuze.