Wat is Law of Large Numbers?
Het principe dat voorspellingen betrouwbaarder worden naarmate je meer data hebt — net zoals het gemiddelde van 1000 dobbelsteenworp dichter bij 3,5 komt dan van 10 worpen.

Wat is de Law of Large Numbers?
De Law of Large Numbers — of wet van grote aantallen — is een fundamenteel statistisch principe dat zegt: hoe meer gegevens je verzamelt, hoe dichter het gemiddelde bij de werkelijke waarde komt. Stel je voor dat je wilt weten hoe lang Nederlanders gemiddeld zijn. Meet je 10 mensen? Dan kan je gemiddelde behoorlijk afwijken — misschien tref je toevallig alleen basketballers of juist alleen kinderen. Maar meet je 10.000 mensen? Dan krijg je een gemiddelde dat veel dichter bij de werkelijkheid ligt.
Dit principe is de reden waarom AI-modellen steeds beter worden naarmate ze meer trainingsdata krijgen. Een taalmodel dat op 100 zinnen getraind is, zal rommelige voorspellingen doen. Train datzelfde model op miljarden zinnen? Dan herkent het patronen die echt kloppen met hoe taal werkt.
Hoe werkt het eigenlijk?
De wet van grote aantallen werkt volgens een simpel maar krachtig mechanisme:
Bij weinig waarnemingen spelen toevalligheden een grote rol. Gooi je 10 keer met een munt? Dan is 7 keer kop geen verrassing.
Bij veel waarnemingen heffen toevalligheden elkaar op. Gooi je 10.000 keer? Dan kom je vrijwel zeker uit op ongeveer 50% kop.
Het gemiddelde stabiliseert — niet omdat individuele waarnemingen veranderen, maar omdat extreme uitschieters steeds minder gewicht krijgen.
In AI-context betekent dit: een model leert patronen door duizenden voorbeelden te zien waarin die patronen voorkomen. Eén voorbeeld is een toevalligheid. Duizend voorbeelden tonen een patroon. Een miljoen voorbeelden bevestigen een wetmatigheid.
Waarom is dit zo belangrijk voor AI?
AI-systemen zijn in feite patroonherkenners die op basis van grote hoeveelheden data voorspellingen doen. De wet van grote aantallen verklaart waarom ze daarin zo goed zijn geworden:
Training: GPT-4 is niet getraind op een handvol boeken, maar op praktisch het hele internet. Daardoor 'weet' het hoe taal normaal gesproken werkt — niet omdat het taal begrijpt, maar omdat het miljoenen voorbeelden heeft gezien.
Betrouwbaarheid: Een gezichtsherkenningssysteem dat op 500 foto's is getraind, maakt meer fouten dan één dat 50 miljoen gezichten heeft gezien. Meer data = minder toevallige afwijkingen = betrouwbaardere voorspellingen.
Generalisatie: Door veel voorbeelden te zien, leert een model het algemene patroon in plaats van individuele eigenaardigheden. Het onderscheidt 'dit komt vaak voor' van 'dit was toevallig'.
Maar er zit ook een addertje onder het gras: de wet werkt alleen als je data representatief is. Train je een model op miljoen foto's van alleen witte gezichten? Dan helpt de wet van grote aantallen je niet bij het herkennen van andere huidskleuren — je hebt dan veel data, maar geen diverse data.
Een voorbeeld uit de praktijk
Stel: je wilt een AI bouwen die spammail herkent. Je begint met 50 voorbeeldmails. Het model ziet toevallig vooral Engelse spam over Viagra. Het leert: 'Engels + Viagra = spam'. Komt er nu Nederlandse phishing binnen over pakketbezorging? Het model slaat de plank mis.
Train je datzelfde model op 10 miljoen emails uit diverse landen, talen en periodes? Dan herkent het algemene spamkenmerken: bepaalde woordcombinaties, verdachte linkstructuren, typische urgentie-taal. De wet van grote aantallen zorgt ervoor dat toevallige patronen uit die 50 mails verdwijnen, en echte spamkenmerken overblijven.
Netflix werkt volgens hetzelfde principe: met data van 200 miljoen abonnees kan het veel betrouwbaarder voorspellen wat jij leuk vindt dan wanneer het alleen jouw 20 bekeken films zou gebruiken.
Waar kom je het tegen?
Je merkt de wet van grote aantallen in vrijwel elke AI-toepassing:
Aanbevelingssystemen (Spotify, YouTube, Amazon) worden nauwkeuriger naarmate meer mensen ze gebruiken
Vertalers zoals DeepL zijn getraind op miljarden vertaalde zinnen — niet op een handvol woordenboeken
Zelfrijdende auto's van Waymo hebben miljarden kilometers aan data nodig om zeldzame situaties betrouwbaar te herkennen
Medische AI voor het analyseren van röntgenfoto's is pas veilig na training op honderdduizenden geannoteerde beelden
Weersvoorspellingen en klimaatmodellen worden betrouwbaarder door decennia aan meetdata
Maar ook buiten AI: verzekeringen berekenen premies op basis van miljoenen klanten. Opinion polls worden betrouwbaarder met meer respondenten. Elk systeem dat uit data leert, dankt zijn betrouwbaarheid aan dit principe.
Wat betekent dit voor jou?
Begrijp je de wet van grote aantallen, dan snap je ook waarom AI-bedrijven zo obsessief zijn met dataverzameling — en waarom 'meer data' niet altijd beter is als die data niet divers of representatief is. Het helpt je ook om kritisch te zijn: een AI-tool die claimt iets te kunnen op basis van weinig data? Wees op je hoede. Betrouwbare AI vraagt om grote, diverse datasets.
Als je zelf met AI werkt: klein beginnen kan, maar verwacht geen wonderen. Naarmate je meer voorbeelden verzamelt — of gebruikmaakt van modellen die op enorme datasets zijn getraind — worden je resultaten voorspelbaarder en betrouwbaarder. Dat is geen magie, dat is wiskunde.
Veelgestelde vragen over Law of Large Numbers
De drie meest gestelde vragen over dit onderwerp, kort beantwoord.
Wat is Law of Large Numbers?
Het principe dat voorspellingen betrouwbaarder worden naarmate je meer data hebt — net zoals het gemiddelde van 1000 dobbelsteenworp dichter bij 3,5 komt dan van 10 worpen.
Waarom is Law of Large Numbers belangrijk?
De Law of Large Numbers — of wet van grote aantallen — is een fundamenteel statistisch principe dat zegt: hoe meer gegevens je verzamelt, hoe dichter het gemiddelde bij de werkelijke waarde komt. Stel je voor dat je wilt weten hoe lang Nederlanders gemiddeld zijn. Meet je 10 mensen? Dan kan je gemiddelde behoorlijk afwijken — misschien tref je toevallig alleen basketballers of juist alleen kinderen. Maar meet je 10.000 mensen? Dan krijg je een gemiddelde dat veel dichter bij de werkelijkheid ligt.
Hoe wordt Law of Large Numbers toegepast?
Dit principe is de reden waarom AI-modellen steeds beter worden naarmate ze meer trainingsdata krijgen. Een taalmodel dat op 100 zinnen getraind is, zal rommelige voorspellingen doen. Train datzelfde model op miljarden zinnen? Dan herkent het patronen die echt kloppen met hoe taal werkt.