Wat is Data Catalog?
Een overzichtelijk register van alle datasets in een organisatie, zodat je snel vindt welke data waar ligt, wat erin zit en wie ervoor verantwoordelijk is.

Wat is een Data Catalog eigenlijk?
Stel je een bibliotheek voor zonder catalogus — je weet dat er duizenden boeken zijn, maar je hebt geen idee waar wat staat of wat erin zit. Frustrerend, toch? Precies dat probleem los je op met een data catalog: het is een georganiseerd overzicht van alle datasets die een organisatie heeft. Het vertelt je niet alleen waar de data staat (in welke database, op welke server), maar ook wat erin zit, wie het beheert, wanneer het voor het laatst is bijgewerkt en of je het mag gebruiken.
In de context van AI is dit extra belangrijk. Machine learning-modellen zijn namelijk hongerig naar data — maar niet zomaar willekeurige data. Je wilt weten of die klantendata van drie jaar geleden nog actueel is, of die productfoto's privacy-gevoelige gezichten bevatten, en of je die verkoopdata überhaupt mag combineren met externe bronnen. Een data catalog geeft antwoord op dat soort vragen, vóórdat je begint met trainen.
Hoe werkt het in de praktijk?
Een data catalog verzamelt automatisch metadata — dat is informatie over je data. Het scant je databases, data lakes en cloudopslag, en registreert voor elke dataset:
Wat het is: tabelnaam, kolommen, datatypes
Waar het staat: welke server, welke database, welk pad
Wie het beheert: eigenaar, contactpersoon, team
Wanneer: aanmaakdatum, laatste update, versiegeschiedenis
Kwaliteit: hoeveel missende waarden, fouten, duplicaten
Gebruik: wie heeft het recent gebruikt, waarvoor
Privacy & compliance: bevat het persoonsgegevens, valt het onder AVG, wie mag erbij
Moderne catalogi hebben een zoekfunctie, vergelijkbaar met Google maar dan voor je eigen data. Je typt "klantengedrag 2024" en krijgt een lijst met relevante datasets, compleet met documentatie en kwaliteitsindicatoren.
Een voorbeeld uit de praktijk
Een e-commerce bedrijf wil een AI-model bouwen dat productaanbevelingen doet. De data scientist begint met zoeken in de data catalog en vindt:
Dataset "orders_2023_2024" — 2,3 miljoen rijen, eigenaar: verkoopteam, laatste update: gisteren
Dataset "product_images" — 45.000 foto's, eigenaar: marketing, bevat mogelijk gezichten (privacy-flag)
Dataset "customer_clicks" — 890 miljoen events, eigenaar: analytics, 12% missende waarden
In plaats van wekenlang te zoeken en bij collega's aan te kloppen, heeft de data scientist in tien minuten een compleet overzicht. Ze ziet meteen dat de product_images extra privacy-checks nodig heeft en dat customer_clicks eerst opgeschoond moet worden. De catalog vertelt ook dat die datasets al eerder gebruikt zijn voor een churn-model — inclusief link naar die code.
Waarom zou jij hier iets aan hebben?
Voor data scientists en ML-engineers: je vindt sneller de juiste trainingsdata en vermijdt dat je per ongeluk een model traint op verouderde of incomplete datasets.
Voor data engineers: je hebt eindelijk overzicht op wat er allemaal in je infrastructuur rondzwerft, en je ziet wie welke data gebruikt — handig voor optimalisatie en opruimen.
Voor compliance officers: je kunt aantonen welke persoonsgegevens waar liggen en wie erbij kan, wat cruciaal is voor AVG en andere regelgeving.
Voor leidinggevenden: je krijgt inzicht in wat je organisatie überhaupt aan data heeft — vaak een eye-opener hoeveel er onbenut blijft liggen.
Waar kom je het tegen?
Data catalogi zijn ingebouwd in grote cloudplatforms zoals AWS Glue Data Catalog, Azure Purview (nu Microsoft Purview), en Google Cloud Data Catalog. Daarnaast zijn er gespecialiseerde tools zoals Alation, Collibra, Atlan en open-source alternatieven zoals Apache Atlas en DataHub (van LinkedIn). Veel organisaties gebruiken ze als onderdeel van hun 'data governance'-strategie — het geheel aan regels en processen voor databeheer.
In AI-projecten zie je data catalogi vaak terug in de opstartfase, wanneer teams inventariseren welke data beschikbaar is voor training. Ook bij 'data discovery'-trajecten, waarbij organisaties in kaart brengen wat ze in huis hebben voordat ze met analytics of AI aan de slag gaan.
Wat kun je er nu mee?
Als je in een organisatie werkt met meerdere data-eigenaren (en dat is vrijwel elke organisatie vanaf pakweg twintig medewerkers), is een data catalog het verschil tussen zoeken in het donker en werken met een routeplanner. Heb je nog geen catalog? Begin klein: maak een spreadsheet met je belangrijkste datasets, hun locatie en eigenaar. Groeit het uit? Dan zijn bovenstaande tools de volgende stap. Het belangrijkste is dat je stopt met data te zoeken en begint met data te vinden — dat scheelt weken per project.
Veelgestelde vragen over Data Catalog
De drie meest gestelde vragen over dit onderwerp, kort beantwoord.
Wat is Data Catalog?
Een overzichtelijk register van alle datasets in een organisatie, zodat je snel vindt welke data waar ligt, wat erin zit en wie ervoor verantwoordelijk is.
Waarom is Data Catalog belangrijk?
Stel je een bibliotheek voor zonder catalogus — je weet dat er duizenden boeken zijn, maar je hebt geen idee waar wat staat of wat erin zit. Frustrerend, toch? Precies dat probleem los je op met een data catalog: het is een georganiseerd overzicht van alle datasets die een organisatie heeft. Het vertelt je niet alleen waar de data staat (in welke database, op welke server), maar ook wat erin zit, wie het beheert, wanneer het voor het laatst is bijgewerkt en of je het mag gebruiken.
Hoe wordt Data Catalog toegepast?
In de context van AI is dit extra belangrijk. Machine learning-modellen zijn namelijk hongerig naar data — maar niet zomaar willekeurige data. Je wilt weten of die klantendata van drie jaar geleden nog actueel is, of die productfoto's privacy-gevoelige gezichten bevatten, en of je die verkoopdata überhaupt mag combineren met externe bronnen. Een data catalog geeft antwoord op dat soort vragen, vóórdat je begint met trainen.