Alle termenNeurale netwerken & deep learning

Wat is Dilated Convolution?

Een truc in neurale netwerken waarbij je met minder rekenkracht een groter gebied 'ziet' — door gaten te laten tussen de pixels die je analyseert, alsof je door een vergiet kijkt in plaats van door een vergrootglas.

Wat is het eigenlijk?

Stel je voor dat je een foto analyseert om te zien of er een auto op staat. Normaal gesproken kijk je naar een klein vierkantje van pixels — bijvoorbeeld 3×3 — en schuif je dat stapje voor stapje over de hele foto. Dat werkt prima, maar als je ook wilt weten of die auto in een straat staat of op een parkeerplaats, heb je een veel groter overzicht nodig.

Dilated convolution (ook wel 'atrous convolution' genoemd) lost dat op door gaten tussen de pixels te laten. In plaats van drie pixels naast elkaar te bekijken, sla je er bijvoorbeeld één over: je kijkt naar pixel 1, slaat pixel 2 over, bekijkt pixel 3, slaat pixel 4 over, enzovoort. Zo dek je een veel groter gebied af zonder dat je computer meer werk hoeft te doen.

Denk aan het verschil tussen door een vergrootglas kijken (je ziet elk detail, maar een klein gebied) en door een vergiet kijken (je ziet door de gaatjes een veel groter gebied, maar minder gedetailleerd). Die 'vergiet-kijk' is wat dilated convolution doet.

Hoe werkt het in de praktijk?

In een normaal neuraal netwerk heb je vaak meerdere lagen die steeds abstracter worden: de eerste laag herkent lijntjes en hoekjes, de tweede vormen, de derde objecten. Om dat te bereiken, maak je de plaatjes steeds kleiner (downsampling). Dat werkt, maar je verliest details.

Met dilated convolution kun je groot denken zonder te verkleinen. Je plaatst meerdere lagen achter elkaar, elk met een andere 'dilation rate' (de afstand tussen de pixels die je bekijkt). De eerste laag kijkt naar aangrenzende pixels, de tweede slaat er één over, de derde slaat er twee over. Zo bouw je een steeds breder 'gezichtsveld' op — alsof je tegelijk door een microscoop en een telescoop kijkt.

Dit is vooral handig bij:

Beeld-segmentatie — als je precies wilt aangeven waar elk object in een foto zit (denk aan zelfrijdende auto's die voetgangers, borden en andere auto's moeten herkennen)
Audio-analyse — om lange patronen in geluid te herkennen zonder elk sampletje apart te moeten verwerken
Medische scans — om zowel kleine details (een tumor) als de context (het omliggende weefsel) te zien

Een voorbeeld uit de praktijk

Stel, je bouwt een systeem dat wegenkaarten analyseert. Je wilt weten waar de weg loopt, maar ook of er bomen langs staan, of er een zebrapad is, enzovoort. Met gewone convolutie zou je tientallen lagen nodig hebben om het hele beeld te 'zien' — en ondertussen verlies je de precieze locatie van die zebrastrepen.

Met dilated convolution stapel je een paar lagen met oplopende dilation rates: de eerste laag kijkt naar de textuur van het asfalt (dicht bij elkaar), de tweede herkent de rand van de weg (iets verder uit elkaar), de derde herkent de omgeving (nog verder). Je houdt de resolutie hoog en ziet tóch het grote plaatje.

Waar kom je het tegen?

Dilated convolution zit verwerkt in populaire netwerkarchitecturen voor beeldanalyse en -segmentatie:

DeepLab (ontwikkeld door Google) — gebruikt specifiek dilated convolution voor nauwkeurige segmentatie
WaveNet (van DeepMind) — gebruikt het voor het genereren van natuurlijk klinkende spraak en muziek
SegNet, PSPNet, UNet-varianten — allemaal architecturen voor beeldsegmentatie die dilated convolution combineren met andere technieken

Je komt het ook tegen in frameworks zoals TensorFlow en PyTorch, waar je de 'dilation rate' als parameter kunt instellen bij convolutional layers.

Wat kun je ermee?

Als je zelf modellen bouwt voor beeldherkenning, medische analyse of audio, is dilated convolution een krachtig gereedschap om groot te denken zonder details te verliezen. Het voorkomt dat je model traag wordt door eindeloze lagen, terwijl je tóch het hele plaatje ziet. Check de documentatie van je framework (TensorFlow, PyTorch, Keras) voor de 'dilation_rate'-parameter, en experimenteer met verschillende waardes. Vaak zie je dat een combinatie van dilation rates (1, 2, 4, 8) het beste werkt — alsof je meerdere lenzen tegelijk gebruikt.