Direct naar inhoud
Weetjes & achtergrond

De Turing-test in 2026: nog relevant of verouderd?

In 1950 bedacht Alan Turing een briljante test om intelligentie te meten. Maar nu ChatGPT vlot een gesprek voert, blijkt die test niet meer genoeg te zijn. Waarom eigenlijk?

FD
Frank DuindamFrank Duindam
Frank DuindamOprichter & hoofdredacteur
Bijgewerkt 4 min leestijd
Twee abstracte silhouetten gescheiden door lichtlijn, menselijk versus digitaal

Je zit achter je scherm en voert een gesprek. De andere kant reageert gevat, maakt grapjes, beantwoordt je vragen. Zou je merken of het een mens is of een machine? Volgens Alan Turing, de Britse wiskundige die in 1950 deze vraag stelde, zou dat het bewijs zijn van échte intelligentie.

De Turing-test werd een van de beroemdste experimenten uit de computergeschiedenis. Maar nu we dagelijks met ChatGPT en andere AI-tools praten, blijkt die test achterhaald. En dat zegt iets interessants over wat we eigenlijk bedoelen met 'intelligent'.

Hoe bedacht Turing dit eigenlijk?

Vintage computerelementen transformeren naar moderne datastromen

Alan Turing stelde zijn test voor in een artikel met de prikkelende titel 'Computing Machinery and Intelligence'. Hij vroeg zich af: kunnen machines denken? Maar omdat 'denken' zo vaag is, bedacht hij een praktische test.

Het idee: een menselijke rechter voert typegesprekken met twee partijen. Eén daarvan is een mens, de ander een computer. Als de rechter na het gesprek niet kan zeggen wie wie is, heeft de machine de test doorstaan. Turing redeneerde: als iets zich gedraagt alsof het intelligent is, waarom zouden we het dan geen intelligentie noemen?

Dat was revolutionair in 1950, toen computers vooral gigantische rekenmachines waren. Turing voorspelde dat machines rond het jaar 2000 30% van de rechters zouden kunnen misleiden. Destijds klonk dat als sciencefiction.

Waarom werd deze test zo belangrijk?

Gelaagde conversatiepatronen tonen verborgen complexiteit

De Turing-test werd beroemd omdat hij een abstract filosofisch vraagstuk ('wat is denken?') vertaalde naar iets meetbaars. In plaats van eindeloos te discussiëren over bewustzijn of zelfbewustzijn, stelde Turing: laten we gewoon kijken naar gedrag.

Dat sprak informatici en filosofen enorm aan. Decennialang was de Turing-test hét meetpunt voor AI-ontwikkeling. Kon een chatbot mensen misleiden? Dan was het een doorbraak. Het inspireerde films als Blade Runner en Ex Machina, waarin de vraag 'wie is mens, wie machine?' centraal staat.

Maar nu ChatGPT en soortgenoten vlot gesprekken voeren, blijkt de test zijn glans te verliezen.

Het probleem: een goede acteur is niet hetzelfde als slim

Hier komt het paradoxale: moderne AI slaagt steeds vaker voor de Turing-test, maar niemand noemt deze systemen 'echt intelligent'. Waarom niet?

Omdat de test alleen naar oppervlakte kijkt. Stel je voor: iemand leert perfect Chinees nazeggen zonder een woord te begrijpen. Voor een buitenstaander lijkt het alsof die persoon Chinees spreekt. Maar van begrip is geen sprake. Dit heet het 'Chinese Room-argument', bedacht door filosoof John Searle in 1980.

Moderne taalmodellen doen iets vergelijkbaars. Ze voorspellen op basis van enorme hoeveelheden tekst wat een logisch volgend woord is. Ze kunnen een heel overtuigend gesprek voeren over quantummechanica zonder te begrijpen wat een quark is. Ze imiteren begrip, zonder echt begrip.

En dat kun je merken. Vraag ChatGPT om een eenvoudig huishoudelijk probleem op te lossen ('mijn wasmachine lekt, wat nu?'), en het antwoord klinkt plausibel. Maar vraag door ('welke schroef bedoel je precies, links of rechts van de trommel?'), en je merkt dat er geen echt ruimtelijk inzicht is. Het zijn patronen uit tekst, geen ervaring met wasmachines.

Wat meten we dan wél?

De wetenschappelijke wereld zoekt nu naar betere tests. Geen trucjes meer om mensen te misleiden, maar echte uitdagingen die begrip vereisen.

Enkele voorbeelden:

  • De Winograd Schema Challenge: zinnen waarbij je context moet begrijpen om een verwijswoord te ontrafelen. 'De trofee past niet in de koffer omdat hij te groot is.' Wat is te groot — de trofee of de koffer? Een mens snapt dit direct, AI struikelt vaak.

  • Multimodale tests: kan AI een foto van een verkeerssituatie interpreteren én daarover redeneren zoals een verkeersleerkracht? Niet alleen beschrijven ('ik zie een auto'), maar begrijpen ('die fietser gaat voorrang nemen').

  • Creatieve probleemoplossing: geen standaardvragen, maar situaties waarbij improvisatie nodig is. Hoe zou je een paperclip gebruiken om een deur open te krijgen als je sleutel binnen ligt?

Deze tests zijn moeilijker te 'gamen' door patronen uit trainingsdata.

Dus de Turing-test is waardeloos?

Niet helemaal. Als historisch ijkpunt blijft de test waardevol. Hij dwingt ons na te denken over wat intelligentie eigenlijk betekent. En voor sommige toepassingen — een klantenservice-chatbot bijvoorbeeld — is 'overtuigend menselijk lijken' eigenlijk precies wat je wil. Dan is de Turing-test nog steeds nuttig.

Maar als graadmeter voor echte machine-intelligentie schiet hij tekort. Hij meet oppervlakte, niet diepgang. En dat verschil wordt naarmate AI beter wordt steeds belangrijker.

Wat betekent dit voor jou?

Als je vandaag met een AI-tool werkt, is het goed om je te realiseren: hoe menselijk een antwoord ook klinkt, het systeem begrijpt niet echt wat je bedoelt. Het herkent patronen, voorspelt waarschijnlijkheden. Dat kan briljant zijn, maar het is iets anders dan begrip.

Dus: gebruik AI voor wat het goed in is (informatie samenvatten, teksten opstellen, ideeën genereren), maar vertrouw niet blind op het oordeel. Vraag door, controleer feiten, blijf kritisch.

En de volgende keer dat je met een chatbot praat en denkt 'dit lijkt wel een mens', vraag jezelf dan af: slaagt deze AI voor de Turing-test? En belangrijker: zou dat betekenen dat hij echt begrijpt waar we het over hebben?

Waarschijnlijk niet. Maar dat maakt het niet minder indrukwekkend — of nuttig.