Wat is Image Captioning?
Een AI-techniek die automatisch beschrijvingen genereert van wat er op een foto staat — van 'een hond in het park' tot gedetailleerde verhalen over wat er te zien is.

Wat is image captioning eigenlijk?
Stel je voor: je laat een vriend een foto zien en vraagt 'wat zie je?' Die vriend beschrijft dan wat er op staat — 'een rode fiets tegen een boom', 'twee mensen die pizza eten op een terras', dat soort werk. Precies dat doet image captioning, maar dan met AI. Het is een techniek waarbij een computer automatisch een tekstbeschrijving maakt van wat er op een afbeelding te zien is.
Het bijzondere is dat de AI niet alleen losse objecten herkent ('fiets', 'boom'), maar ook begrijpt hoe ze zich tot elkaar verhouden en dat in een natuurlijke zin kan uitdrukken. Het gaat dus verder dan simpelweg labels plakken — het is écht een verhaal vertellen over wat er gebeurt op de foto.
Hoe werkt het achter de schermen?
Image captioning combineert twee werelden: beeldherkenning en taalgeneratie. Je kunt het zien als een tandem van twee gespecialiseerde systemen die nauw samenwerken.
Eerst analyseert een vision model (een AI getraind op beelden) de foto. Die kijkt: welke objecten staan erop? Wat is de context? Zijn er mensen, dieren, voorwerpen? Wat doen ze? Dit deel werkt net zoals gezichtsherkenning of objectdetectie.
Vervolgens neemt een language model (een AI getraind op tekst) het over. Die krijgt de visuele informatie binnen en vertaalt dat naar een menselijke zin. Moderne systemen gebruiken vaak een Transformer-architectuur voor beide onderdelen — dezelfde technologie die ook in chatbots zit.
Bij het trainen krijgt het model duizenden foto's met menselijke beschrijvingen te zien. Het leert zo patronen herkennen: 'als er een persoon op een plank in water staat, is dat waarschijnlijk surfen'. 'Als er borden op een tafel staan met mensen eromheen, dan eten ze waarschijnlijk'. Die patronen gebruikt het later om eigen beschrijvingen te maken.
Waarom zou jij hier iets aan hebben?
Image captioning klinkt misschien als een leuke partytrick, maar het lost echte problemen op. Het belangrijkste: toegankelijkheid. Voor blinden en slechtzienden zijn automatische fotobeschrijvingen levensveranderend. Social media-apps gebruiken het al om te vertellen wat er in je tijdlijn voorbijkomt. Schermleessoftware kan zo eindelijk ook foto's 'voorlezen'.
Daarnaast helpt het bij het doorzoekbaar maken van beeldmateriaal. Nieuwsredacties met archieven vol foto's, musea met duizenden kunstwerken, beveiligingsbedrijven met camera-opnames — zij kunnen nu zoeken op 'man met rode jas' of 'schilderij met boot', zonder dat iemand eerst alles handmatig moet taggen.
In de gezondheidszorg schrijven systemen korte samenvattingen van röntgenfoto's of echo's — geen diagnose, maar een eerste beschrijving die artsen helpt. En in webshops genereren ze productomschrijvingen op basis van foto's, wat vooral handig is bij tweedehands spullen waar niemand zin heeft om alles uit te typen.
Een voorbeeld uit de praktijk
Een museum in Rotterdam heeft tienduizenden foto's van historische voorwerpen, maar veel ervan hebben alleen een inventarisnummer — geen beschrijving. Met image captioning draait het systeem door het archief en genereert automatisch: 'een glazen vaas met blauwe versiering uit de 18e eeuw', 'een houten stoel met gebogen rugleuning'. Niet perfect, maar goed genoeg om te kunnen zoeken. Een conservator controleert de belangrijkste stukken, de rest is in ieder geval vindbaar geworden.
Of neem een fotograaf die duizenden bruiloftsfoto's per jaar maakt. In plaats van alles handmatig te taggen, laat ze een AI eerst beschrijvingen genereren. Die zijn ruw ('bruidspaar dat elkaar kust bij zonsondergang'), maar haar klanten kunnen zo wel sneller door hun collectie bladeren naar 'foto's met de taart' of 'beelden van de dans'.
Waar kom je het tegen?
Image captioning zit inmiddels in meer tools dan je misschien denkt:
Social media: Facebook, Instagram en Twitter gebruiken het voor alt-teksten bij foto's, zodat screenreaders kunnen vertellen wat er te zien is
Microsoft Seeing AI: een app speciaal voor blinden en slechtzienden die in realtime beschrijft wat de camera ziet
Google Photos en Apple Photos: zoeken op 'strand', 'verjaardag' of 'hond' werkt dankzij automatische beschrijvingen
Multimodale AI-modellen: GPT-4V (Vision), Claude, Gemini — deze chatbots kunnen je foto's bekijken en er vragen over beantwoorden
E-commerce platforms: bol.com, Marktplaats, eBay — experimenten met automatische productbeschrijvingen uit foto's
Als je ooit een foto uploadt en de AI 'begrijpt' wat erop staat zonder dat je iets hebt ingetypt — dat is image captioning in actie.
Waar moet je op letten?
De techniek is best goed, maar niet foutloos. AI kan moeite hebben met abstract of symbolisch beeldmateriaal — een schilderij van Mondriaan beschrijven als 'gekleurde vlakken' is technisch correct, maar mist de essentie. Ook culturele context gaat vaak mis: een foto van een specifieke feestdag of ritueel wordt misschien generiek beschreven als 'mensen in kleurrijke kleding'.
En zoals bij alle AI: het systeem reproduceert patronen uit zijn trainingsdata. Als die data vooral westerse, stedelijke foto's bevat, worden andere contexten minder goed begrepen. Een foto van een markt in Lagos wordt dan misschien minder nauwkeurig beschreven dan een supermarkt in Amsterdam.
Privacy is ook een aandachtspunt. Als je image captioning gebruikt op persoonlijke foto's via een online dienst, worden die beelden vaak naar de cloud gestuurd. Controleer altijd wat er met je data gebeurt.
Wat kun je ermee?
Als je website, app of product foto's bevat, overweeg dan image captioning voor alt-teksten. Het maakt je platform toegankelijker en verbetert je vindbaarheid in zoekmachines. Voor creatieve professionals kan het een eerste slag maken door grote hoeveelheden beeldmateriaal — wat je vervolgens handmatig kunt verfijnen.
En als je gewoon nieuwsgierig bent: probeer eens een multimodaal AI-model met een vakantiefoto. Vraag om een beschrijving, of zelfs om een kort verhaal bij het beeld. Je zult zien hoe ver de techniek inmiddels is — en waar die nog struikelt.
Veelgestelde vragen over Image Captioning
De drie meest gestelde vragen over dit onderwerp, kort beantwoord.
Wat is Image Captioning?
Een AI-techniek die automatisch beschrijvingen genereert van wat er op een foto staat — van 'een hond in het park' tot gedetailleerde verhalen over wat er te zien is.
Waarom is Image Captioning belangrijk?
Stel je voor: je laat een vriend een foto zien en vraagt 'wat zie je?' Die vriend beschrijft dan wat er op staat — 'een rode fiets tegen een boom', 'twee mensen die pizza eten op een terras', dat soort werk. Precies dat doet image captioning, maar dan met AI. Het is een techniek waarbij een computer automatisch een tekstbeschrijving maakt van wat er op een afbeelding te zien is.
Hoe wordt Image Captioning toegepast?
Het bijzondere is dat de AI niet alleen losse objecten herkent ('fiets', 'boom'), maar ook begrijpt hoe ze zich tot elkaar verhouden en dat in een natuurlijke zin kan uitdrukken. Het gaat dus verder dan simpelweg labels plakken — het is écht een verhaal vertellen over wat er gebeurt op de foto.