Wat is Common Crawl?
Een gigantische openbare verzameling van miljarden webpagina's die maandelijks wordt bijgewerkt en vaak als trainingsdata voor AI-modellen dient.

Wat is Common Crawl eigenlijk?
Common Crawl is een non-profitorganisatie die maandelijks het internet afstruint en alles wat ze tegenkomen opslaat: nieuwsartikelen, blogposts, Wikipedia-pagina's, webshops, forums — eigenlijk alles wat publiek toegankelijk is. Die enorme berg data maken ze vervolgens gratis beschikbaar voor onderzoekers, ontwikkelaars en bedrijven.
Stel je voor: een gigantische digitale bibliotheek waar niet alleen boeken staan, maar kopieën van miljarden webpagina's. Elke maand komt er een nieuwe 'editie' bij, en iedereen mag er gratis uit putten. Dat is Common Crawl.
Waarom is dat belangrijk? Omdat AI-modellen enorme hoeveelheden tekst nodig hebben om te leren hoe taal werkt. Common Crawl bevat zoveel verschillende teksten — van kookrecepten tot wetenschappelijke artikelen, van forumposts tot productbeschrijvingen — dat het een ideale leerbron is voor taalmodellen zoals GPT, LLaMA of BERT.
Hoe werkt het eigenlijk?
Common Crawl gebruikt zogeheten 'web crawlers' — automatische programma's die van link naar link springen en alle pagina's die ze tegenkomen downloaden en opslaan. Net zoals je zelf van Wikipedia-artikel naar Wikipedia-artikel kunt klikken, doen deze crawlers dat op enorme schaal: miljarden pagina's per maand.
Die ruwe data wordt opgeslagen in een gestructureerd formaat (WARC-bestanden) en aangevuld met metadata: wanneer de pagina is gecrawld, wat de URL is, welke taal er gebruikt wordt. Onderzoekers kunnen vervolgens deze datasets downloaden en filteren op wat ze nodig hebben — bijvoorbeeld alleen Nederlandstalige pagina's, of alleen pagina's van nieuwssites.
Belangrijk: Common Crawl filtert niet op kwaliteit of waarheid. Er staat dus ook ruis tussen: spam, verouderde informatie, foute feiten. Wie de data gebruikt om een AI te trainen, moet zelf nog flink schoonmaken en filteren.
Waar kom je het tegen?
Vrijwel alle grote taalmodellen zijn minstens deels getraind op Common Crawl-data:
GPT-3 en GPT-4 (OpenAI) — een deel van de trainingsdata komt uit Common Crawl
LLaMA (Meta) — expliciet getraind op gefilterde Common Crawl-datasets
BERT (Google) — gebruikt Common Crawl voor pre-training
Falcon (Technology Innovation Institute) — volledig getraind op een gereinigde versie van Common Crawl
Mistral-modellen — maken ook gebruik van publieke webcrawl-data
Daarnaast gebruiken onderzoekers Common Crawl om trends te onderzoeken (welke onderwerpen zijn populair?), taaldatabases te bouwen of bias in webdata te analyseren.
Waarom zou jij hier iets aan hebben?
Als je begrijpt dat AI-modellen leren van wat er op het open internet staat, begrijp je ook beter waarom ze soms vreemde dingen zeggen of bepaalde onderwerpen beter kennen dan andere. Common Crawl is als een spiegel van het internet: het goede én het slechte, het accurate én het foute.
Voor bedrijven die zelf AI-modellen willen trainen of aanpassen, is Common Crawl een waardevolle gratis databron. Je hoeft niet zelf het hele internet af te struinen — dat heeft Common Crawl al voor je gedaan. Wel moet je nog investeren in het opschonen en filteren van de data, want ruwe webcrawl-data bevat veel meer dan je nodig hebt.
Wil je weten hoe actueel de kennis van een AI-model is? Check wanneer de trainingsdata is vastgesteld — modellen getraind op Common Crawl van begin 2023 weten bijvoorbeeld niets over gebeurtenissen later dat jaar.
Nieuwsgierig geworden? Je kunt de datasets van Common Crawl zelf bekijken op commoncrawl.org. Zelfs als je geen AI-model bouwt, geeft het een fascinerend inkijkje in hoe het internet eruitziet als één gigantische dataverzameling.
Veelgestelde vragen over Common Crawl
De drie meest gestelde vragen over dit onderwerp, kort beantwoord.
Wat is Common Crawl?
Een gigantische openbare verzameling van miljarden webpagina's die maandelijks wordt bijgewerkt en vaak als trainingsdata voor AI-modellen dient.
Waarom is Common Crawl belangrijk?
Common Crawl is een non-profitorganisatie die maandelijks het internet afstruint en alles wat ze tegenkomen opslaat: nieuwsartikelen, blogposts, Wikipedia-pagina's, webshops, forums — eigenlijk alles wat publiek toegankelijk is. Die enorme berg data maken ze vervolgens gratis beschikbaar voor onderzoekers, ontwikkelaars en bedrijven.
Hoe wordt Common Crawl toegepast?
Stel je voor: een gigantische digitale bibliotheek waar niet alleen boeken staan, maar kopieën van miljarden webpagina's. Elke maand komt er een nieuwe 'editie' bij, en iedereen mag er gratis uit putten. Dat is Common Crawl.