Alle termenLarge Language Models & NLP

Wat is Recursive Character Splitter?

Een slimme manier om lange teksten in kleinere stukken te knippen, waarbij het algoritme eerst probeert te splitsen op natuurlijke grenzen zoals alinea's, dan zinnen, en pas als laatste op woorden of letters.

Waarom zou je een tekst überhaupt in stukken knippen?

Stel je voor: je hebt een boek van 300 pagina's en wil dat een AI-assistent er vragen over kan beantwoorden. Maar AI-modellen kunnen niet zomaar een heel boek in één keer verwerken — ze hebben een maximale hoeveelheid tekst die ze per keer kunnen 'lezen' (de context window). Dus moet je die tekst opsplitsen in hapklare brokken.

Maar hoe knip je dat slim? Als je willekeurig midden in een zin knipt, verlies je context. Een Recursive Character Splitter is een algoritme dat dit probleem oplost door slim te werk te gaan: het probeert eerst te splitsen op grote, natuurlijke grenzen (zoals dubbele enters tussen alinea's), dan op kleinere grenzen (zoals punten aan het eind van zinnen), en pas als laatste op karakters of woorden. 'Recursive' betekent dat het zichzelf herhaalt: als een stuk te groot blijft, past het dezelfde trucjes opnieuw toe totdat alles in de gewenste grootte past.

Hoe werkt het eigenlijk?

Het algoritme werkt als een keukenchef die een cake moet verdelen:

Eerste poging: split op dubbele enters (\n\n) — dit scheidt vaak natuurlijke alinea's of secties
Als dat niet genoeg is: split op losse enters (\n) — bijvoorbeeld tussen regels in een lijst
Nog steeds te groot? Split dan op punten met spatie (. ) — einde van zinnen
Daarna: komma's, puntkomma's
Als laatste redmiddel: knip op spaties tussen woorden, of zelfs op losse letters

Het checkt na elke stap: is dit stuk nu klein genoeg? Ja? Dan klaar. Nee? Dan gaat het een niveau dieper. Vandaar 'recursive' — het blijft zichzelf herhalen totdat het doel bereikt is.

Daarnaast kun je vaak instellen hoeveel overlap je wilt tussen stukken. Bijvoorbeeld: de laatste 50 woorden van stuk 1 worden ook de eerste 50 woorden van stuk 2. Zo blijft context behouden over de grenzen heen.

Waar kom je het tegen?

Als je werkt met RAG (Retrieval-Augmented Generation) — systemen waarbij een AI eerst relevante informatie opzoekt voordat het antwoordt — dan gebruik je bijna altijd een text splitter. Veel ontwikkelaars grijpen naar de Recursive Character Splitter omdat die goed balanceert tussen eenvoud en kwaliteit.

Je vindt hem in tools zoals:

LangChain (Python/JavaScript framework voor AI-applicaties) — heeft RecursiveCharacterTextSplitter ingebouwd
LlamaIndex — biedt vergelijkbare node parsers
Haystack — heeft document splitters met vergelijkbare logica
Eigen chatbots of kennisbanken die op RAG draaien

Als je bijvoorbeeld een chatbot bouwt die vragen beantwoordt over je bedrijfsdocumenten, handleidingen of klantendata, dan gebruik je waarschijnlijk deze techniek om die documenten netjes op te knippen voordat je ze in een vector database stopt.

Waarom is dit belangrijk?

De manier waarop je tekst opsplitst heeft direct invloed op hoe goed je AI-systeem antwoorden geeft. Split je te grof (grote stukken), dan past er minder context in het model en wordt het antwoord vaag. Split je te fijn (kleine stukjes), dan verlies je samenhang en haalt het systeem misschien irrelevante fragmenten op.

De Recursive Character Splitter probeert het beste van beide werelden: hij respecteert de natuurlijke structuur van je tekst (alinea's, zinnen) en valt pas terug op 'domme' methodes als het echt niet anders kan.

Wat kun je er nu mee?

Als je zelf een AI-toepassing bouwt die met langere teksten werkt — denk aan een interne kennisbank, een klantenservice-chatbot, of een tool die contracten analyseert — overweeg dan deze splitter. De meeste AI-frameworks hebben hem als standaardoptie. Experimenteer met de chunk size (bijvoorbeeld 500-1000 karakters) en overlap (50-200 karakters) totdat je antwoorden krijgt die samenhangend én nauwkeurig zijn. Het is een van die onzichtbare puzzelstukjes die het verschil maken tussen een frustrerende en een handige AI-assistent.