Alle termenKlassieke Machine Learning

Wat is Conditional Random Field?

Een wiskundig model dat de meest logische reeks labels voorspelt door naar de hele context te kijken — handig voor taken waarbij woorden of gebeurtenissen van elkaar afhangen, zoals het herkennen van namen in tekst.

Wat is een Conditional Random Field eigenlijk?

Stel je voor dat je een tekst leest en alle namen van personen, bedrijven en plaatsen wilt markeren. Je zou elk woord los kunnen bekijken, maar dat werkt niet goed — want of "Apple" een bedrijf of een vrucht is, hangt af van de woorden eromheen. Een Conditional Random Field (CRF) is een model dat precies dat doet: het kijkt naar de hele zin en voorspelt voor elk woord het meest logische label, rekening houdend met wat ervoor en erna komt.

In tegenstelling tot modellen die elk woord los behandelen, 'ziet' een CRF de samenhang. Het weet bijvoorbeeld dat na "Meneer" vaak een achternaam volgt, of dat woorden met hoofdletters midden in een zin waarschijnlijk namen zijn. Het model leert deze patronen uit voorbeelden en past ze toe op nieuwe tekst.

Hoe werkt het eigenlijk?

Een CRF werkt met twee soorten informatie:

Observaties — wat je ziet (de woorden in je tekst, pixels in een afbeelding, geluiden in spraak)
Labels — wat je wilt weten (is dit woord een naam? Een werkwoord? Een begin van een zin?)

Het model berekent voor elke mogelijke labelreeks een score. Die score wordt bepaald door:

Hoe waarschijnlijk elk label op zich is ("in nieuwsberichten komen vaak bedrijfsnamen voor")
Hoe goed labels bij elkaar passen ("na 'de heer' volgt meestal een persoonsnaam")
Welke kenmerken de observatie heeft ("dit woord begint met een hoofdletter")

Vervolgens kiest het model de labelreeks met de hoogste totaalscore. Dat gebeurt met een slim algoritme (het Viterbi-algoritme) dat niet alle mogelijkheden hoeft uit te proberen — anders zou het bij een lange zin veel te lang duren.

Een voorbeeld uit de praktijk

Stel, je wilt automatisch adressen herkennen in oude archiefstukken. Een regel luidt: "Jan Jansen woont op de Dorpsstraat 12 in Haarlem".

Een simpel model zou misschien "Dorpsstraat" missen omdat het lijkt op een gewoon zelfstandig naamwoord. Een CRF ziet:

Het woord komt na "op de" (vaak gevolgd door een straatnaam)
Er volgt een getal (huisnummer)
Daarna komt "in" + een woord met hoofdletter (plaatsnaam)

Door al die signalen te combineren, labelt het CRF "Dorpsstraat 12" correct als adres en "Haarlem" als plaats — zelfs als het die specifieke straatnaam nog nooit gezien heeft.

Waar kom je het tegen?

Conditional Random Fields werden vooral populair voor taaltaken vóór de opkomst van neurale netwerken. Je kwam ze tegen in:

Named Entity Recognition — het herkennen van namen, organisaties, datums in tekst (bv. in oudere versies van Stanford NER, spaCy's vroege modellen)
Part-of-speech tagging — bepalen of een woord een zelfstandig naamwoord, werkwoord of bijvoeglijk naamwoord is
Tekstsegmentatie — waar begint een nieuwe zin, een nieuw onderwerp?
Biologie — voorspellen van eiwitstructuren uit DNA-sequenties
Beeldanalyse — pixels labelen in medische scans of satellietbeelden

Tegenwoordig zijn CRF's grotendeels vervangen door deep learning-modellen zoals Transformers, maar je ziet ze nog steeds in hybride systemen — bijvoorbeeld als laatste laag boven op een neuraal netwerk, om de output logischer te maken door de samenhang tussen labels af te dwingen.

Waarom zou jij hier iets aan hebben?

Als je ooit gestructureerde informatie uit ongestructureerde tekst wilt halen — denk aan facturen, contracten, medische dossiers — helpt het te weten dat modellen zoals een CRF niet simpelweg woord-voor-woord werken. Ze begrijpen dat context ertoe doet. Moderne AI-tools bouwen vaak voort op dit principe, ook al gebruiken ze andere technologie onder de motorkap.

Als je met kleinere datasets werkt of juist veel controle wilt over hoe je model beslist, kan een CRF nog steeds een slimme keuze zijn — het is transparanter en efficiënter dan grote neurale netwerken, en je kunt precies aangeven welke patronen het moet oppikken.