Direct naar inhoud
Alle termenGeneratieve AI & multimodaal

Wat is Receptive Field?

Het gebied in een afbeelding of tekst waar een neuraal netwerk naar kijkt om één beslissing te nemen — zoals het gezichtsveld van één neuron.

Wat is Receptive Field

Wat is een Receptive Field eigenlijk?

Stel je voor dat je door een wc-rol naar een grote foto kijkt. Je ziet maar een klein stukje van het totaalbeeld, en op basis van dat stukje moet je beslissen wat je ziet. Dat kleine stukje is in feite jouw receptive field — het gebied waar je informatie uit haalt om een beslissing te nemen.

In een neuraal netwerk werkt het net zo. Elk neuron in het netwerk "kijkt" naar een bepaald gebied van de input — bijvoorbeeld een stukje van een afbeelding of een paar woorden in een zin. Dat gebied noemen we het receptive field van dat neuron. Het neuron haalt informatie uit die zone en maakt daar conclusies over: "Ik zie een ronding", "Ik zie een verticale lijn", "Ik zie hier iets wat op een oog lijkt".

Hoe dieper je in het netwerk komt, hoe groter het receptive field wordt. De eerste laag kijkt misschien naar 3×3 pixels, maar een neuron in de tiende laag kijkt indirect naar een gebied van 100×100 pixels — omdat het informatie krijgt van neuronen die elk op hun beurt naar een kleiner stukje keken.

Waarom is dit belangrijk voor AI?

Het receptive field bepaalt wat een AI-model "kan zien" wanneer het een beslissing neemt. Als het receptive field te klein is, mist het netwerk context. Stel dat je een model hebt dat gezichten herkent, maar elk neuron kijkt maar naar 5×5 pixels. Dan ziet het alleen losse stukjes oog, neus of mond — maar nooit het hele gezicht tegelijk. Het kan dan niet goed begrijpen dat die losse stukjes samen een gezicht vormen.

Bij beeldherkenning zorgen grotere receptive fields ervoor dat het netwerk patronen over grotere afstanden kan herkennen: niet alleen randen en hoeken, maar ook vormen, objecten en uiteindelijk hele scènes.

In taalmodellen speelt hetzelfde principe: een GPT-model met een receptive field van duizenden tokens kan lange verhalen overzien en verbanden leggen tussen zinnen die ver uit elkaar staan. Een model met een klein receptive field zou na een paar zinnen al vergeten zijn waar het gesprek over ging.

Een voorbeeld uit de praktijk

Denk aan een model dat voetgangers op straat herkent in camerabeelden voor een zelfrijdende auto. De eerste laag van het netwerk kijkt naar heel kleine stukjes: 3×3 pixels. Die laag ziet alleen maar lichtveranderingen — een randje van een schoen, een stukje trottoir.

Laag twee combineert informatie van meerdere neuronen uit laag één. Nu wordt het receptive field groter: misschien 7×7 pixels. Hier herkent het netwerk eenvoudige vormen: een ronding, een rechte lijn.

In laag vijf is het receptive field gegroeid naar 50×50 pixels. Nu herkent het grotere patronen: een been, een arm, een hoofd.

En helemaal aan het eind, in laag tien, kijkt het neuron indirect naar een gebied van 200×200 pixels. Hier ziet het netwerk het volledige plaatje: "Dit is een persoon die loopt." Dat besluit kan alleen omdat het receptive field groot genoeg is geworden om het hele object te overzien.

Hoe vergroot je een receptive field?

Er zijn verschillende technieken:

  • Convolutional layers stapelen: elke laag kijkt naar een iets groter gebied, laag voor laag

  • Pooling: je "schuift" informatie samen, waardoor het gezichtsveld sneller groeit

  • Dilated convolutions: je slaat pixels over bij het scannen, waardoor je in één keer een veel groter gebied bestrijkt zonder extra neuronen te gebruiken

  • Attention mechanisms: in Transformers kunnen neuronen direct naar elk ander deel van de input kijken — geen vast receptive field meer, maar dynamisch

Die laatste maakte mogelijk dat taalmodellen zoals GPT ineens duizenden woorden tegelijk konden "zien", in plaats van alleen de vorige vijf.

Waar kom je het tegen?

Als gebruiker zie je het receptive field niet direct, maar je merkt wel de effecten:

  • Beeldherkenning (Google Lens, gezichtsherkenning in iOS): hoe groter het receptive field, hoe beter het model objecten in context begrijpt

  • Medische AI (röntgenfoto's analyseren): een klein receptive field ziet alleen pixels, een groot ziet organen en afwijkingen

  • Video-analyse (automatische ondertiteling, bewegingsherkenning): hier gaat het receptive field ook over tijd — hoeveel frames het model tegelijk "ziet"

  • Taalmodellen (ChatGPT, Claude, Gemini): hun "context window" is eigenlijk een vorm van receptive field — hoeveel tokens ze tegelijk kunnen overzien

Als je ooit een AI-model hebt gebruikt dat "de context vergat" na een paar regels, had het waarschijnlijk een te klein receptive field.

Wat kun je hiermee?

Als je zelf met AI-modellen werkt of een toepassing laat bouwen, is het receptive field een nuttige lens om naar prestaties te kijken. Doet je model rare dingen? Misschien "ziet" het te weinig van het totaalbeeld. Snapt je chatbot je vraag niet na drie zinnen? Check de context window — de receptive field van het taalmodel.

Voor de gemiddelde gebruiker is het vooral goed om te weten: AI-modellen hebben een blikveld, net als jij. En hoe groter dat blikveld, hoe beter ze begrijpen wat ze zien of lezen. Dat maakt het verschil tussen een systeem dat losse feitjes herkent en een systeem dat echt begrijpt waar het over gaat.

FAQ

Veelgestelde vragen over Receptive Field

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Receptive Field?

Het gebied in een afbeelding of tekst waar een neuraal netwerk naar kijkt om één beslissing te nemen — zoals het gezichtsveld van één neuron.

Waarom is Receptive Field belangrijk?

Stel je voor dat je door een wc-rol naar een grote foto kijkt. Je ziet maar een klein stukje van het totaalbeeld, en op basis van dat stukje moet je beslissen wat je ziet. Dat kleine stukje is in feite jouw receptive field — het gebied waar je informatie uit haalt om een beslissing te nemen.

Hoe wordt Receptive Field toegepast?

In een neuraal netwerk werkt het net zo. Elk neuron in het netwerk "kijkt" naar een bepaald gebied van de input — bijvoorbeeld een stukje van een afbeelding of een paar woorden in een zin. Dat gebied noemen we het receptive field van dat neuron. Het neuron haalt informatie uit die zone en maakt daar conclusies over: "Ik zie een ronding", "Ik zie een verticale lijn", "Ik zie hier iets wat op een oog lijkt".

Deel: