Wat is DVC?
DVC (Data Version Control) is een tool waarmee je datasets en ML-modellen kunt versiebeheren, net zoals je code met Git beheert — zodat je altijd kunt zien welke data bij welk model hoort.

Wat is DVC eigenlijk?
Stel je voor: je hebt een AI-model getraind dat gezichten herkent. Het werkt prima. Een maand later train je opnieuw, met iets andere foto's, en opeens presteert het slechter. Maar welke dataset gebruikte je ook alweer de eerste keer? En welke versie van het model was dat precies?
Dat is precies waar DVC (Data Version Control) voor bedoeld is. Het is een tool die ervoor zorgt dat je niet alleen je code, maar ook je datasets en getrainde modellen kunt bijhouden in versies — net zoals Git dat doet voor code. Zo weet je altijd precies welke combinatie van data, code en model tot welk resultaat heeft geleid.
Want datasets zijn vaak enorm groot — veel te groot voor gewone Git. DVC slaat die grote bestanden slim op in een aparte opslagplek (zoals Google Drive, AWS S3 of een harde schijf) en houdt alleen lichtgewicht verwijzingen bij in je Git-repository. Zo blijft je Git snel en overzichtelijk, terwijl je toch volledige controle hebt over je data.
Hoe werkt het in de praktijk?
Stel, je bent een data scientist bij een webshop en je bouwt een aanbevelingsmodel. Je hebt een dataset met 500.000 klikpatronen. Elke week krijg je nieuwe data erbij en train je opnieuw. Met DVC doe je dit:
Je voegt de dataset toe aan DVC:
dvc add data/clicks.csvDVC maakt een lichtgewicht
.dvc-bestand dat in Git gaatDe echte dataset wordt bewaard in je opslagplek (bijvoorbeeld een S3-bucket)
Elke keer dat je de data update, maak je een nieuwe versie — precies zoals je dat bij code doet met
git commit
Wil je later een oud experiment herhalen? Dan check je gewoon die oude Git-commit uit, en met dvc pull krijg je automatisch de bijbehorende oude dataset terug. Geen gedoe meer met "was het nu model_v3_final_ECHT_final.pkl of model_v4.pkl?"
Waarom zou jij hier iets aan hebben?
Als je met AI werkt — vooral in teamverband — loop je snel tegen deze problemen aan:
Reproduceerbaarheid: je kunt niet meer achterhalen welke data bij welk resultaat hoorde
Samenwerking: collega's trainen op verschillende versies van dezelfde dataset, zonder dat ze het weten
Opslag: Git loopt vast bij grote bestanden (video's, gigabytes aan afbeeldingen)
Experimenten: je wilt vijf verschillende datasets uitproberen, maar raakt de draad kwijt
DVC lost dit op door data en modellen te behandelen als "first-class citizens" — net zo belangrijk als code. Het integreert naadloos met Git, dus je hoeft geen nieuwe workflow te leren. En omdat het open source is, kun je het gratis gebruiken met je eigen opslagoplossing.
Waar kom je het tegen?
DVC wordt veel gebruikt in MLOps-pipelines — de infrastructuur die ervoor zorgt dat ML-projecten soepel van experiment naar productie gaan. Je ziet het vaak in combinatie met:
Git-platforms zoals GitHub, GitLab of Bitbucket (voor de code)
Cloud-opslag zoals AWS S3, Google Cloud Storage, Azure Blob Storage (voor de data)
Experiment-tracking tools zoals MLflow of Weights & Biases
CI/CD-systemen die automatisch modellen opnieuw trainen bij nieuwe data
Bedrijven die serieus aan machine learning doen — van start-ups tot grote tech-teams — gebruiken DVC om grip te houden op hun data-chaos. Het is vooral populair bij teams die al met Git werken en dezelfde duidelijkheid willen voor hun datasets.
Zelf aan de slag?
Als je regelmatig met datasets werkt die veranderen, of als je merkt dat je de controle verliest over welke data bij welk model hoort, is DVC de moeite waard om uit te proberen. Het werkt het best als je al vertrouwd bent met Git — dan voelt DVC als een logische uitbreiding. Begin klein: versiebeheer één dataset, kijk hoe het werkt, en breid het uit als je de waarde ervan ziet. De officiële docs op dvc.org bieden heldere tutorials om te starten.
Veelgestelde vragen over DVC
De drie meest gestelde vragen over dit onderwerp, kort beantwoord.
Wat is DVC?
DVC (Data Version Control) is een tool waarmee je datasets en ML-modellen kunt versiebeheren, net zoals je code met Git beheert — zodat je altijd kunt zien welke data bij welk model hoort.
Waarom is DVC belangrijk?
Stel je voor: je hebt een AI-model getraind dat gezichten herkent. Het werkt prima. Een maand later train je opnieuw, met iets andere foto's, en opeens presteert het slechter. Maar welke dataset gebruikte je ook alweer de eerste keer? En welke versie van het model was dat precies?
Hoe wordt DVC toegepast?
Dat is precies waar DVC (Data Version Control) voor bedoeld is. Het is een tool die ervoor zorgt dat je niet alleen je code, maar ook je datasets en getrainde modellen kunt bijhouden in versies — net zoals Git dat doet voor code. Zo weet je altijd precies welke combinatie van data, code en model tot welk resultaat heeft geleid.