Direct naar inhoud
Alle termenAI-infrastructuur, MLOps & frameworks

Wat is spaCy?

Een gratis Python-bibliotheek waarmee je tekst kunt analyseren: van het herkennen van persoonsnames tot het begrijpen van zinsbouw — zonder dat je alles zelf hoeft te programmeren.

Wat is spaCy

Wat is spaCy eigenlijk?

Als je een computer tekst wilt laten begrijpen — bijvoorbeeld om automatisch namen uit sollicitatiebrieven te halen, of om te begrijpen over welk onderwerp duizenden klantreviews gaan — dan moet je behoorlijk wat programmeerwerk verzetten. spaCy is een gratis Python-bibliotheek die dat werk grotendeels voor je doet. Je kunt het zien als een gereedschapskist vol slimme functies waarmee je tekst automatisch kunt ontleden, zonder dat je zelf alle algoritmes hoeft te bouwen.

spaCy is gebouwd door softwareontwikkelaars voor softwareontwikkelaars: het is snel, efficiënt en gericht op productieomgevingen — dus bedoeld voor situaties waar je echt honderdduizenden teksten per dag moet verwerken.

Hoe werkt het eigenlijk?

spaCy werkt met voorgetrainde modellen — denk aan ze als digitale hersenen die al jarenlang aan tekst zijn getraind. Je downloadt zo'n model (bijvoorbeeld een Nederlandse of Engelse versie), voert je tekst erdoor, en krijgt een gestructureerde analyse terug.

Wat spaCy allemaal voor je doet:

  • Tokenization: splitst zinnen automatisch op in losse woorden en leestekens

  • Part-of-speech tagging: bepaalt wat elk woord is (zelfstandig naamwoord, werkwoord, bijvoeglijk naamwoord)

  • Named Entity Recognition (NER): herkent namen van personen, bedrijven, plaatsen, datums

  • Dependency parsing: begrijpt de grammaticale structuur van een zin (wat is het onderwerp, wat is het lijdend voorwerp)

  • Lemmatization: brengt woorden terug naar hun basisvorm ("liepen" wordt "lopen")

Stel je voor: je gooit de zin "Apple koopt volgende maand een Duits AI-bedrijf" in spaCy. Het herkent "Apple" als bedrijfsnaam, "volgende maand" als tijdsaanduiding, "Duits" als nationaliteit, "AI-bedrijf" als organisatie. En het snapt dat "Apple" het onderwerp is, "koopt" de actie.

Waarom zou jij hier iets aan hebben?

spaCy is niet bedoeld voor eindgebruikers — het is gereedschap voor ontwikkelaars en data-analisten. Maar de toepassingen komen overal terug:

  • Recruitment: automatisch CV's scannen en relevante skills, opleidingen en werkervaring herkennen

  • Klantenservice: analyseren van duizenden support-tickets om patronen te ontdekken

  • Juridische sector: contracten doorzoeken op bepaalde clausules of verplichtingen

  • Content-analyse: begrijpen waar artikelen, social media posts of nieuwsberichten over gaan

  • Chatbots: de intentie van een gebruikersvraag begrijpen zodat de bot het juiste antwoord kan geven

In tegenstelling tot grote taalmodellen zoals GPT, die tekst kunnen genereren, is spaCy vooral een analysewerktuig. Het schrijft niets nieuws — het ontleedt wat er al staat.

Een voorbeeld uit de praktijk

Een Nederlands e-commercebedrijf ontvangt dagelijks duizenden productreviews. Met spaCy bouwt hun ontwikkelteam een systeem dat automatisch herkent:

  • Over welk onderdeel van het product de review gaat ("batterij", "scherm", "service")

  • Of de toon positief of negatief is per onderdeel

  • Welke concrete problemen het vaakst worden genoemd

Dat gaat veel verder dan simpelweg zoeken op trefwoorden, want spaCy begrijpt dat "De batterij houdt het geen dag vol" iets anders betekent dan "De batterij houdt het makkelijk drie dagen vol" — ook al komen dezelfde woorden erin voor.

Waar kom je het tegen?

spaCy zelf zie je niet als eindgebruiker — het werkt achter de schermen. Maar systemen die erop gebouwd zijn, kom je overal tegen:

  • Proofpoint, Hugging Face, Microsoft: grote techbedrijven gebruiken spaCy in hun text-analysis pipelines

  • Explosion: het bedrijf achter spaCy biedt ook Prodigy aan, een tool waarmee je zelf trainingsdata kunt annoteren

  • Verwante tools: alternatieven zijn NLTK (ouder, langzamer, meer academisch) en Stanza (ontwikkeld door Stanford). Voor puur Nederlandse tekst is er ook Frog.

De kracht van spaCy zit in de combinatie van snelheid, gebruiksgemak en goede out-of-the-box prestaties. Er zijn voorgetrainde modellen beschikbaar voor meer dan 75 talen — inclusief Nederlands.

Wat kun je hier nu mee?

Als je zelf ontwikkelaar bent of werkt met data-analisten: bekijk of jullie tekstanalyse-uitdagingen hebben waar spaCy bij kan helpen. Denk aan het structureren van ongestructureerde data, het automatiseren van handmatige leeswerk, of het voorbereiden van tekst voor machine learning.

Ben je geen programmeur? Dan is het goed om te weten dat dit soort bibliotheken bestaan. Als een leverancier zegt dat ze "tekst kunnen analyseren", vraag dan hoe — vaak is spaCy of een vergelijkbare bibliotheek de motor eronder. Zo kun je beter inschatten wat realistisch is en wat marketing-praatjes zijn.

FAQ

Veelgestelde vragen over spaCy

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is spaCy?

Een gratis Python-bibliotheek waarmee je tekst kunt analyseren: van het herkennen van persoonsnames tot het begrijpen van zinsbouw — zonder dat je alles zelf hoeft te programmeren.

Waarom is spaCy belangrijk?

Als je een computer tekst wilt laten begrijpen — bijvoorbeeld om automatisch namen uit sollicitatiebrieven te halen, of om te begrijpen over welk onderwerp duizenden klantreviews gaan — dan moet je behoorlijk wat programmeerwerk verzetten. spaCy is een gratis Python-bibliotheek die dat werk grotendeels voor je doet. Je kunt het zien als een gereedschapskist vol slimme functies waarmee je tekst automatisch kunt ontleden, zonder dat je zelf alle algoritmes hoeft te bouwen.

Hoe wordt spaCy toegepast?

spaCy is gebouwd door softwareontwikkelaars voor softwareontwikkelaars: het is snel, efficiënt en gericht op productieomgevingen — dus bedoeld voor situaties waar je echt honderdduizenden teksten per dag moet verwerken.

Deel: