Alle termenGeneratieve AI & multimodaal

Wat is Video Understanding?

Een AI-vaardigheid waarbij een model begrijpt wat er gebeurt in een video — niet alleen welke objecten je ziet, maar ook wat er gebeurt, waarom en wat de context is.

Wat is video understanding eigenlijk?

Stel je voor dat je een vriend een filmpje laat zien van je vakantie. Die vriend ziet niet alleen "een strand" en "een kind", maar begrijpt ook dat het kind een zandkasteel bouwt, dat de golven dichterbij komen, en dat het kind waarschijnlijk straks nat wordt. Dat is video understanding: een AI die niet alleen losse beelden herkent, maar ook snapt wat er gebeurt, waarom, en wat er waarschijnlijk gaat gebeuren.

Tot een paar jaar geleden konden AI-modellen vooral stilstaande beelden analyseren — "dit is een hond" of "dit is een auto". Maar video is veel complexer: dingen bewegen, tijd speelt een rol, context verandert. Video understanding betekent dat een AI deze tijdsdimensie begrijpt en kan redeneren over gebeurtenissen.

Hoe werkt het?

Een model met video understanding verwerkt niet één plaatje, maar een reeks beelden — soms tientallen per seconde. Het kijkt niet alleen naar wat er in elk frame staat, maar vooral naar wat er tussen frames verandert:

Beweging: Een bal die door de lucht vliegt
Actie: Iemand die een deur opent
Oorzaak en gevolg: Een glas dat omvalt en melk die stroomt
Context: Een groep mensen die applaudisseert tijdens een concert

Het model leert deze patronen door duizenden (of miljoenen) video's te analyseren waarin menselijke ondertitels of beschrijvingen staan. Net zoals je zelf hebt geleerd dat "zwaaien" betekent dat iemand hallo zegt of gedag zegt, leert de AI welke beeldenreeks bij welke gebeurtenis hoort.

Moderne modellen combineren dit vaak met spraak en geluid. Als je een video hebt waarin iemand zegt "kijk, daar gaat de trein" terwijl je een trein ziet vertrekken, leert het model die connectie.

Waarom is dit zo lastig?

Video's bevatten enorm veel informatie. Een minuut video bij 30 frames per seconde is 1.800 plaatjes — elk met miljoenen pixels. Dat is gigantisch veel data om doorheen te kammen.

Bovendien zijn bewegingen niet altijd voorspelbaar. Iemand kan halverwege een actie stoppen, iets onverwachts kan gebeuren, dezelfde handeling kan er in verschillende contexten anders uitzien. Een AI moet dus niet alleen herkennen, maar ook flexibel redeneren.

En dan is er nog de kwestie van impliciete betekenis. Als je iemand ziet fronsen tijdens een presentatie, begrijp jij misschien dat die persoon het niet eens is — maar dat staat nergens letterlijk. Dat soort subtiele sociale signalen leren is voor AI nog een flinke uitdaging.

Waar kom je het tegen?

Video understanding zit inmiddels in allerlei toepassingen:

YouTube en sociale media: Automatische ondertiteling, contentmoderatie (herkennen van geweld of andere niet-toegestane content), zoeksuggesties
Beveiligingscamera's: Detectie van verdachte bewegingen, valdetectie in ziekenhuizen of verzorgingstehuizen
Sportanalyse: Herkennen van doelpunten, overtredingen, tactieken — zonder dat iemand elk frame handmatig hoeft te taggen
Filmproductie: Automatisch vinden van specifieke scènes ("alle close-ups van hoofdpersoon"), analyseren van emoties
Autonome voertuigen: Een zelfrijdende auto moet begrijpen dat een kind op een fiets wiebelend oversteekt — niet alleen "daar is een kind"
Multimodale AI-assistenten: Tools zoals GPT-4 met Vision, Gemini, of Claude kunnen video's analyseren en er vragen over beantwoorden

Een voorbeeld uit de praktijk

Een sportzender wil alle hoogtepunten van een voetbalwedstrijd automatisch knippen. Het model met video understanding herkent:

Een speler die richting het doel sprint (actie)
De bal die wordt geschoten (beweging)
De keeper die duikt (reactie)
Het net dat beweegt (gevolg)
Spelers die juichen (context)

Het model kan nu zelf concluderen: "Dit is een doelpunt" — en die clip automatisch markeren. Geen handmatig doorspoelen meer nodig.

Wat kun je ermee?

Als je regelmatig met video werkt — of dat nu voor je bedrijf is, voor content, of gewoon omdat je nieuwsgierig bent — kan video understanding je flink helpen:

Doorzoekbaar maken: Je hele video-archief doorzoeken op "iemand die belt" of "shot van de skyline"
Automatiseren: Ondertiteling, samenvattingen, highlights zonder handmatig werk
Begrijpen: Analyseren hoe klanten door je winkel lopen, hoe leerlingen tijdens een online les betrokken zijn
Creëren: Nieuwe video's genereren op basis van wat een model heeft geleerd

De technologie is nog niet perfect — verwacht geen foutloze interpretatie van complexe emotionele scènes of subtieltjes. Maar voor herkenbare patronen en acties werkt het steeds beter. En naarmate meer multimodale modellen beschikbaar komen, wordt video understanding toegankelijker voor iedereen die ermee wil experimenteren.

FAQ

Veelgestelde vragen over Video Understanding

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Video Understanding?

Een AI-vaardigheid waarbij een model begrijpt wat er gebeurt in een video — niet alleen welke objecten je ziet, maar ook wat er gebeurt, waarom en wat de context is.

Waarom is Video Understanding belangrijk?

Hoe wordt Video Understanding toegepast?

Deel:

Laatst bijgewerkt 4 mei 2026