Alle termenAI-infrastructuur, MLOps & frameworks

Wat is Hadoop?

Een open-source systeem om enorme hoeveelheden data verspreid over meerdere computers op te slaan en te verwerken — de basis onder veel moderne data-analyse en AI.

Wat is Hadoop eigenlijk?

Stel je voor: je bedrijf verzamelt dagelijks miljoenen klikken, aankopen en zoekacties. Die data past niet op één computer, en verwerken zou weken duren. Hadoop lost dat op door het werk te verdelen: het verdeelt je data over tientallen of honderden computers tegelijk, en laat ze allemaal parallel rekenen. Het eindresultaat wordt weer samengevoegd. Zo verwerk je in uren wat anders maanden zou kosten.

Hadoop werd in 2006 ontwikkeld door Yahoo, geïnspireerd door hoe Google zijn enorme zoekmachine draaiende hield. De naam komt van een gele speelgoedelefant van de zoon van een van de bedenkers — geen acroniem, gewoon een leuke naam die bleef hangen.

Het systeem bestaat uit twee kernonderdelen: HDFS (Hadoop Distributed File System) voor opslag, en MapReduce voor verwerking. HDFS knipt je data in blokken en kopieert elk blok naar meerdere computers, zodat niets verloren gaat als er eentje crasht. MapReduce verdeelt de rekentaken: elke computer doet een stukje van het werk (de 'Map'-fase), en aan het eind worden alle resultaten samengevoegd (de 'Reduce'-fase).

Waarom was Hadoop zo belangrijk voor AI?

Voor machine learning heb je vaak enorme datasets nodig — miljoenen afbeeldingen, jaren aan verkoopdata, complete Wikipedia-dumps. Zonder een systeem als Hadoop kun je die data niet eens opslaan, laat staan analyseren.

Hadoop maakte het mogelijk om met relatief goedkope computers (geen dure supercomputers) toch gigantische datasets te verwerken. Bedrijven konden plots patronen ontdekken in data die ze eerder simpelweg niet konden aanraken. Denk aan Netflix dat kijkgedrag analyseert, banken die fraudepatronen zoeken in miljoenen transacties, of ziekenhuizen die duizenden patiëntdossiers doorzoeken naar behandelpatronen.

Veel vroege machine learning-experimenten draaiden op Hadoop. Het legde de basis voor hoe we nu omgaan met 'big data' — een term die mede door Hadoop gemeengoed werd.

Waar kom je het tegen?

Hadoop wordt nog steeds gebruikt door grote organisaties met historische datasets, vooral in combinatie met tools als Spark (dat bovenop Hadoop kan draaien maar sneller is). Je vindt het bij:

Cloudfour (Cloudera, Hortonworks) — bedrijven die kant-en-klare Hadoop-omgevingen aanbieden
Apache Spark — een snellere opvolger die dezelfde verdeelde aanpak gebruikt
Databricks, AWS EMR, Google Dataproc — cloudplatforms met ingebouwde Hadoop-ondersteuning
Bedrijven met legacy data-infrastructuur — banken, telecomproviders, overheden die al jaren Hadoop gebruiken

Tegenwoordig zie je een verschuiving: veel nieuwe projecten kiezen voor modernere alternatieven zoals Spark, snelle clouddatabases of gespecialiseerde data-warehouses (Snowflake, BigQuery). Maar Hadoop blijft actief in bestaande systemen — het verdwijnt niet zomaar.

Wat betekent dit voor jou?

Als je werkt met grote datasets — bijvoorbeeld klantdata voor AI-analyses, trainingsdata voor machine learning, of historische bedrijfsdata — loop je vroeg of laat tegen Hadoop-infrastructuur aan, of tegen tools die erop voortbouwen. Je hoeft het niet zelf te installeren (dat doen data-engineers), maar het helpt om te begrijpen dat 'verdeeld opslaan en parallel verwerken' de kern is van hoe moderne data-analyse schaalt.

Als je team praat over 'een Hadoop-cluster opzetten' of 'data in HDFS zetten', weet je nu: ze bouwen een systeem om grote hoeveelheden data verspreid op te slaan en efficiënt te kunnen doorzoeken — de fundering onder veel AI-toepassingen.

FAQ

Veelgestelde vragen over Hadoop

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Hadoop?

Een open-source systeem om enorme hoeveelheden data verspreid over meerdere computers op te slaan en te verwerken — de basis onder veel moderne data-analyse en AI.

Waarom is Hadoop belangrijk?

Hoe wordt Hadoop toegepast?

Deel:

Laatst bijgewerkt 4 mei 2026