Direct naar inhoud
Alle termenLarge Language Models & NLP

Wat is N-gram?

Een N-gram is een reeks van N opeenvolgende woorden (of letters) uit een tekst. AI gebruikt dit om te voorspellen welk woord er logischerwijs volgt — precies zoals jij al weet wat er komt na 'goede...'

Wat is N-gram

Wat is een N-gram eigenlijk?

Stel je voor dat je een zin leest: "Vandaag is het prachtig..." — je weet al dat er waarschijnlijk "weer" volgt, toch? Dat komt doordat je onbewust patronen herkent in woordcombinaties. Precies dat doet een N-gram ook.

Een N-gram is simpelweg een reeks van N opeenvolgende woorden uit een tekst. Die "N" is een getal:

  • 1-gram (unigram): losse woorden — "ik", "ben", "blij"

  • 2-gram (bigram): woordparen — "ik ben", "ben blij"

  • 3-gram (trigram): trio's — "ik ben blij"

  • 4-gram: vier woorden — "vandaag ben ik blij"

Door te tellen hoe vaak bepaalde N-grams voorkomen in enorme hoeveelheden tekst, kan AI berekenen welke woorden vaak samen opduiken. "Goede morgen" komt vaker voor dan "goede avocado" — en zo leert een systeem welke woordvolgorde natuurlijk aanvoelt.

Hoe werkt het in de praktijk?

Stel, je typt in je telefoon: "Zullen we koffie..." — je toetsenbord stelt voor: "drinken", "halen", "zetten". Dat komt doordat het systeem miljoenen zinnen heeft gezien waarin "koffie" gevolgd werd door die woorden.

Het werkt zo:

  1. Het systeem analyseert enorme databases met teksten (boeken, websites, chatgesprekken)

  2. Het telt hoe vaak woordcombinaties voorkomen

  3. Bij een nieuwe zin kijkt het: na "koffie" komt meestal "drinken" of "zetten"

  4. Het stelt die woorden voor, in volgorde van waarschijnlijkheid

N-grams zijn de bouwstenen van veel taalmodellen. Moderne AI zoals GPT gebruikt veel complexere methodes, maar het basisprincipe — welke woorden komen vaak samen voor? — blijft hetzelfde.

Waarom is dit nuttig?

N-grams helpen AI om:

  • Tekst aan te vullen — zoals je toetsenbord doet

  • Spelfouten op te sporen — "ik heb honger" is normaal, "ik heb hongar" niet

  • Taal te herkennen — Nederlandse N-grams verschillen van Engelse

  • Vertalingen te verbeteren — "machine learning" vertaal je niet als "machine leren", maar als "machine learning" (ook in NL gebruiken we dat)

  • Spam te herkennen — spam bevat vaak onnatuurlijke woordcombinaties

Bedrijven gebruiken N-grams bijvoorbeeld om:

  • Zoeksuggesties te geven (Google's autocomplete)

  • Chatbots natuurlijker te laten praten

  • Productbeschrijvingen automatisch te categoriseren

  • Klantenservice-tickets te analyseren op thema's

Waar kom je het tegen?

N-grams zijn onzichtbaar aanwezig in tal van systemen:

  • Toetsenbord-voorspelling op je smartphone (iOS, Android)

  • Autocomplete in zoekmachines (Google, Bing)

  • Spellcheckers (Word, Google Docs)

  • Vertalers zoals Google Translate en DeepL

  • Spam-filters in je e-mail

  • Chatbots die klantvragen beantwoorden

Ook oudere generaties taalmodellen (voor GPT) waren zwaar gebaseerd op N-gram-statistiek. Tegenwoordig gebruiken moderne modellen neurale netwerken, maar N-grams blijven een snelle, efficiënte methode voor specifieke toepassingen — vooral als je weinig rekenkracht hebt.

De beperkingen

N-grams zijn krachtig, maar ook simpel. Ze begrijpen geen betekenis — alleen patronen. Als je model alleen N-grams gebruikt, kan het vreemde dingen voorstellen:

  • Het ziet "bank" vaak na "op de", maar weet niet of je een zitbank of geldbank bedoelt

  • Het kan niet redeneren — het herhaalt wat het vaak heeft gezien

  • Bij lange zinnen verliest het de draad (een 3-gram kijkt maar 3 woorden terug)

Daarom combineren moderne AI-systemen N-grams met diepere technieken zoals transformers en attention-mechanismen, die wél context over een hele zin kunnen onthouden.

Wat kun je ermee?

Begrijpen hoe N-grams werken helpt je om:

  • Slimmere zoekwoorden te kiezen — denk in woordcombinaties die vaak samen voorkomen

  • Betere prompts te schrijven — gebruik natuurlijke zinnen zoals een AI die verwacht

  • Tekst te optimaliseren — voor SEO of leesbaarheid, let op welke woordvolgordes natuurlijk aanvoelen

  • Data te analyseren — kijk welke woordcombinaties opvallend vaak (of juist nooit) in je feedback voorkomen

Als je ooit denkt "hoe weet mijn telefoon wat ik wil typen?", dan is het antwoord vaak: N-grams. Een simpel maar verrassend effectief stukje AI-logica.

FAQ

Veelgestelde vragen over N-gram

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is N-gram?

Een N-gram is een reeks van N opeenvolgende woorden (of letters) uit een tekst. AI gebruikt dit om te voorspellen welk woord er logischerwijs volgt — precies zoals jij al weet wat er komt na 'goede...'

Waarom is N-gram belangrijk?

Stel je voor dat je een zin leest: "Vandaag is het prachtig..." — je weet al dat er waarschijnlijk "weer" volgt, toch? Dat komt doordat je onbewust patronen herkent in woordcombinaties. Precies dat doet een N-gram ook.

Hoe wordt N-gram toegepast?

Een N-gram is simpelweg een reeks van N opeenvolgende woorden uit een tekst. Die "N" is een getal:

Deel: