Direct naar inhoud
Alle termenAI-infrastructuur, MLOps & frameworks

Wat is Airflow?

Een open-source platform waarmee je complexe data-processen plant, bewaakt en automatiseert — vergelijkbaar met een digitale projectmanager die elke stap in de juiste volgorde uitvoert.

Wat is Airflow

Wat is Airflow eigenlijk?

Stel je voor: je wilt elke nacht automatisch data ophalen uit je webshop, deze verrijken met externe informatie, een AI-model trainen en de resultaten naar je dashboard sturen. Dat zijn vijf verschillende stappen die precies op het juiste moment en in de juiste volgorde moeten gebeuren. Airflow is het gereedschap dat dit soort werkstromen organiseert en uitvoert.

Het volledige naam is Apache Airflow, ontwikkeld door Airbnb en later overgedragen aan de Apache Software Foundation. Je programmeert je werkstroom als een serie taken (denk: losse blokkendozen) die je aan elkaar koppelt met afhankelijkheden: taak B mag pas starten als taak A klaar is. Airflow voert dit uit, houdt bij wat er misgaat, en stuurt je een seintje als iets vastloopt.

Hoe werkt het?

In Airflow schrijf je je werkstroom in Python-code als een zogenaamde DAG (Directed Acyclic Graph — klinkt ingewikkelder dan het is). Een DAG is eigenlijk een stroomdiagram zonder eindeloze lussen: elke taak wijst naar de volgende, maar er ontstaat geen cirkel.

Een voorbeeld: je hebt een taak "haal_data_op", gevolgd door "schoon_data", dan "train_model", en tot slot "stuur_rapport". In je DAG-bestand beschrijf je deze volgorde. Airflow leest dit, plant de taken in, voert ze uit op het afgesproken tijdstip (bijvoorbeeld elke dag om 2 uur 's nachts), en laat je in een webinterface zien of alles goed gaat.

Mocht een taak falen — bijvoorbeeld omdat een externe API niet bereikbaar is — dan stopt Airflow automatisch de rest van de keten, zodat je niet met halfbakken data verder werkt. Je kunt instellen dat het na een paar minuten opnieuw probeert, of dat jij een melding krijgt.

Waarom zou jij hier iets aan hebben?

Voor AI-projecten is Airflow enorm handig. Machine learning-modellen moeten regelmatig opnieuw getraind worden met verse data. Airflow automatiseert dit hele traject: data verzamelen, voorbewerken, model trainen, evalueren, en bij voldoende kwaliteit doorsturen naar productie. Dit heet MLOps, en Airflow is een van de meest gebruikte tools in dat vakgebied.

Voor data-intensieve bedrijven zonder AI is het net zo waardevol. Denk aan een marketingafdeling die dagelijks campagnedata uit vijf verschillende bronnen samenvoegt, of een financiële afdeling die elke maand rapportages genereert. Zonder Airflow doe je dit handmatig of met losse scripts die niemand meer begrijpt. Met Airflow heb je één centrale plek waar alle processen staan, inclusief planning, logboek en foutafhandeling.

Een voorbeeld uit de praktijk

Een webshop wil elke ochtend om 6 uur weten welke producten populair worden, zodat het voorraadteam hierop kan inspelen. De Airflow-workflow:

  1. Haal besteldata op uit de database (taak: "extract_orders")

  2. Combineer met externe trends van Google Shopping (taak: "fetch_trends")

  3. Draai een voorspellingsmodel dat voorspelt welke artikelen vandaag meer verkocht worden (taak: "run_forecast_model")

  4. Stuur de top-10 per e-mail naar het voorraadteam (taak: "send_email")

Als stap 2 mislukt omdat Google Shopping tijdelijk offline is, stopt Airflow automatisch bij stap 3, probeert het over 10 minuten opnieuw, en stuurt na drie pogingen een waarschuwing. Zo voorkom je dat het voorraadteam een rapport krijgt op basis van incomplete gegevens.

Waar kom je het tegen?

Airflow wordt gebruikt door honderden bedrijven wereldwijd voor data-engineering en MLOps. Je vindt het vaak in combinatie met:

  • Cloud-platforms zoals Google Cloud Composer (een beheerde Airflow-service), AWS MWAA (Managed Workflows for Apache Airflow), of Azure Data Factory

  • Data-opslagtools zoals Snowflake, BigQuery, of PostgreSQL, waar Airflow data uit haalt of naartoe schrijft

  • ML-frameworks zoals TensorFlow, PyTorch of Scikit-learn, waarbij Airflow het trainingsproces plant en bewaakt

  • Andere orchestrators zoals Prefect, Dagster of Kubeflow Pipelines — dit zijn alternatieven met vergelijkbare doelen, elk met eigen accenten (Airflow is de oudste en meest volwassen)

Je kunt Airflow zelf installeren op je eigen server, of gebruikmaken van een beheerde dienst waarbij de cloudaanbieder het onderhoud doet.

Wat kun je nu doen met deze kennis?

Als je regelmatig dezelfde datastappen handmatig uitvoert — of als je scripts hebt die 's nachts draaien maar vaak falen zonder dat je het doorhebt — is Airflow de moeite waard om te verkennen. Begin klein: automatiseer één terugkerende taak (bijvoorbeeld een wekelijks rapport), bouw daar een simpele DAG voor, en ervaar hoe fijn het is dat Airflow je bijhoudt wanneer iets misgaat. De officiële documentatie op airflow.apache.org biedt goede startgidsen, en de community is groot genoeg dat je voor bijna elk probleem voorbeelden vindt. Voor bedrijven die serieus met data en AI aan de slag gaan, is beheersing van een orchestrator als Airflow bijna een basisvaardigheid geworden.

FAQ

Veelgestelde vragen over Airflow

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Airflow?

Een open-source platform waarmee je complexe data-processen plant, bewaakt en automatiseert — vergelijkbaar met een digitale projectmanager die elke stap in de juiste volgorde uitvoert.

Waarom is Airflow belangrijk?

Stel je voor: je wilt elke nacht automatisch data ophalen uit je webshop, deze verrijken met externe informatie, een AI-model trainen en de resultaten naar je dashboard sturen. Dat zijn vijf verschillende stappen die precies op het juiste moment en in de juiste volgorde moeten gebeuren. Airflow is het gereedschap dat dit soort werkstromen organiseert en uitvoert.

Hoe wordt Airflow toegepast?

Het volledige naam is Apache Airflow, ontwikkeld door Airbnb en later overgedragen aan de Apache Software Foundation. Je programmeert je werkstroom als een serie taken (denk: losse blokkendozen) die je aan elkaar koppelt met afhankelijkheden: taak B mag pas starten als taak A klaar is. Airflow voert dit uit, houdt bij wat er misgaat, en stuurt je een seintje als iets vastloopt.

Deel: