Wat is Data Lineage?
Het volgen van de herkomst en het pad van data: waar het vandaan komt, hoe het is bewerkt en waar het naartoe gaat — vergelijkbaar met een stamboom voor je trainingsdata.

Wat is Data Lineage eigenlijk?
Stel je voor dat je een appeltaart bakt. Je wilt precies weten waar elk ingredient vandaan komt: welke appels, uit welke boomgaard, hoe ze zijn gewassen, hoe je ze hebt geschild en in stukjes gesneden. Data Lineage doet hetzelfde voor data in AI-systemen: het houdt bij waar elk stukje informatie oorspronkelijk vandaan komt, welke bewerkingen erop zijn uitgevoerd, en waar het uiteindelijk terechtkomt.
In AI-context gaat het vaak om gigantische hoeveelheden trainingsdata. Een taalmodel kan getraind zijn op miljarden teksten van het internet, boeken, artikelen. Data Lineage betekent dat je precies kunt terugvolgen welke bronnen in je trainingsdataset zitten, hoe die zijn gefilterd, welke transformaties zijn toegepast (bijvoorbeeld het verwijderen van persoonlijke informatie), en hoe die data uiteindelijk in je model terechtgekomen is.
Waarom zou jij hier iets aan hebben?
Data Lineage is vooral belangrijk als je verantwoording wilt afleggen over je AI-systeem. Stel dat je model opeens rare output produceert of juridisch problematische content genereert — dan wil je kunnen achterhalen waar dat vandaan komt. Was er bijvoorbeeld auteursrechtelijk beschermd materiaal in je trainingsdataset? Zat er per ongeluk gevoelige privédata tussen?
Voor bedrijven die onder regelgeving vallen (denk aan de Europese AI Act of privacy-wetgeving) wordt dit steeds belangrijker. Je moet kunnen aantonen dat je data op een verantwoorde manier verzameld en verwerkt hebt. Data Lineage geeft je die audittrail: een compleet spoor van begin tot eind.
Daarnaast helpt het bij kwaliteitscontrole. Als je weet dat een bepaald deel van je data afkomstig is uit een minder betrouwbare bron, kun je beslissen om die weg te laten of anders te wegen. Het geeft je grip op wat er precies in je model zit.
Hoe werkt het in de praktijk?
In traditionele data-omgevingen (denk aan databases in bedrijven) wordt Data Lineage vaak geautomatiseerd bijgehouden met speciale tools. Die registreren elke keer dat data wordt gekopieerd, samengevoegd, gefilterd of getransformeerd. In AI-projecten is dit lastiger, omdat de databronnen vaak enorm divers zijn en bewerkingen complex.
Een praktijkvoorbeeld: je traint een chatbot voor klantenservice. Je gebruikt interne klantenmail, FAQ-pagina's van je website, transcripten van telefoongesprekken en algemene teksten van het internet. Met Data Lineage documenteer je:
Bron: waar kwam elke dataset vandaan? (mailserver, website-CMS, opnamesysteem, webcrawler)
Transformaties: welke bewerkingen zijn gedaan? (anonimiseren van klantnamen, verwijderen van e-mailadressen, filteren op taal, opschonen van spelfouten)
Versies: welke versie van de dataset is gebruikt voor welke trainingsrun?
Gebruik: in welk model of welke versie van je chatbot zit deze data?
Tools als MLflow, DVC (Data Version Control) of specialistische data-governance-platforms helpen hierbij. Ze maken een soort flowchart of logboek dat je later kunt raadplegen.
Waar kom je het tegen?
Data Lineage speelt vooral een rol in grotere organisaties en gereguleerde sectoren:
Financiële instellingen die AI gebruiken voor kredietbeoordeling of fraudedetectie — zij moeten kunnen uitleggen waarom een beslissing is genomen
Zorgorganisaties die modellen trainen op patiëntdata — privacy en herkomst zijn hier cruciaal
Overheidsinstanties die AI inzetten voor publieke dienstverlening — transparantie en verantwoording staan voorop
Tech-bedrijven die foundation models bouwen — zij worden steeds vaker gevraagd om openheid over hun trainingsdata
Tools die helpen met Data Lineage in AI-contexten zijn onder andere MLflow (voor experiment-tracking), DVC (voor data-versiebeheer), Apache Atlas (voor data-governance), Weights & Biases (voor model-tracking) en Collibra (voor enterprise data-governance). Deze tools bieden elk verschillende mogelijkheden om het pad van je data vast te leggen.
Wat kun je er nu mee?
Als je zelf AI-projecten opzet, begin dan vanaf dag één met het documenteren van je databronnen en bewerkingen. Zelfs een simpel spreadsheet waarin je bijhoudt waar elke dataset vandaan komt en welke filterstappen je hebt toegepast, is al waardevol. Naarmate je project groeit, kun je overstappen op gespecialiseerde tools.
Denk ook na over wat je later zou willen kunnen verantwoorden: kun je aantonen dat je geen auteursrechtelijk beschermd materiaal hebt gebruikt? Dat privacygevoelige data is geanonimiseerd? Dat je geen bias hebt geïntroduceerd via een eenzijdige databron? Data Lineage geeft je de gereedschappen om die vragen te beantwoorden — voordat een klant, toezichthouder of journalist ze stelt.
Veelgestelde vragen over Data Lineage
De drie meest gestelde vragen over dit onderwerp, kort beantwoord.
Wat is Data Lineage?
Het volgen van de herkomst en het pad van data: waar het vandaan komt, hoe het is bewerkt en waar het naartoe gaat — vergelijkbaar met een stamboom voor je trainingsdata.
Waarom is Data Lineage belangrijk?
Stel je voor dat je een appeltaart bakt. Je wilt precies weten waar elk ingredient vandaan komt: welke appels, uit welke boomgaard, hoe ze zijn gewassen, hoe je ze hebt geschild en in stukjes gesneden. Data Lineage doet hetzelfde voor data in AI-systemen: het houdt bij waar elk stukje informatie oorspronkelijk vandaan komt, welke bewerkingen erop zijn uitgevoerd, en waar het uiteindelijk terechtkomt.
Hoe wordt Data Lineage toegepast?
In AI-context gaat het vaak om gigantische hoeveelheden trainingsdata. Een taalmodel kan getraind zijn op miljarden teksten van het internet, boeken, artikelen. Data Lineage betekent dat je precies kunt terugvolgen welke bronnen in je trainingsdataset zitten, hoe die zijn gefilterd, welke transformaties zijn toegepast (bijvoorbeeld het verwijderen van persoonlijke informatie), en hoe die data uiteindelijk in je model terechtgekomen is.