Wat is Preference Dataset?
Een verzameling voorbeelden waarin mensen aangeven welke AI-antwoord ze beter vinden — gebruikt om taalmodellen te leren wat goede output is.

Wat is een Preference Dataset?
Stel je voor: je stelt een AI dezelfde vraag twee keer, en krijgt twee verschillende antwoorden. De ene is helder en nuttig, de andere vaag of irrelevant. Als je aangeeft welke je beter vindt, maak je eigenlijk een 'voorkeur' aan. Een Preference Dataset is een grote verzameling van zulke voorkeuren — duizenden voorbeelden waarin mensen hebben beoordeeld welk AI-antwoord beter was.
Die dataset wordt gebruikt om taalmodellen bij te schaven. In plaats van het model te trainen op wat correct is (zoals bij normale trainingsdata), leer je het wat wenselijk is: welke toon, welke stijl, welke mate van detail mensen het prettigst vinden.
Hoe ontstaat zo'n dataset?
Het begint vaak met een basismodel dat al tekst kan genereren, maar nog niet heel verfijnd. Onderzoekers of trainers geven het model een prompt — bijvoorbeeld "Leg kwantumverstrengeling uit aan een tiener". Het model produceert meerdere antwoorden. Vervolgens gaan mensen (vaak getrainde beoordelaars, soms ook gewone gebruikers) door die antwoorden heen en zetten ze op volgorde: dit antwoord is het beste, dit tweede, dit derde.
Soms krijgen beoordelaars twee antwoorden naast elkaar en moeten ze kiezen: A of B? Die keuzes worden vastgelegd met informatie als:
De originele vraag of prompt
Antwoord A en antwoord B
Welke de voorkeur kreeg (en soms met hoeveel verschil)
Optioneel: waarom (te vaag, onveilig, niet behulpzaam, te technisch)
Al die keuzes bij elkaar vormen de Preference Dataset.
Waarom is dit belangrijk?
Taalmodellen worden eerst getraind op enorme hoeveelheden tekst van het internet — boeken, artikelen, forums. Dat maakt ze goed in taal begrijpen en genereren, maar niet automatisch behulpzaam. Een model kan grammaticaal perfecte zinnen schrijven die volledig langs je vraag heen gaan, of antwoorden geven die technisch correct maar onbruikbaar zijn.
Met een Preference Dataset kun je het model bijsturen via een techniek die Reinforcement Learning from Human Feedback (RLHF) heet. Het model leert: "Ah, mensen vinden korte, directe antwoorden fijner dan lange, academische lappen tekst" of "Als iemand vraagt naar iets gevaarlijks, is weigeren beter dan uitleggen".
Zonder deze voorkeur-data zou je AI krijgen die technisch knap is, maar niet aanvoelt alsof hij je écht helpt.
Een voorbeeld uit de praktijk
Stel: iemand vraagt "Hoe maak ik een goede espresso?". Het model genereert twee antwoorden:
Antwoord A: "Espresso is een geconcentreerde koffiedrank van Italiaanse oorsprong, bereid door heet water onder hoge druk door fijngemalen koffiebonen te persen. De druk bedraagt doorgaans 9 bar..."
Antwoord B: "Begin met vers gemalen bonen (fijn). Verwarm je machine voor, duw de koffie stevig aan en zet binnen 25-30 seconden. Je wilt een dikke, romige laag crema bovenop."
Mensen kiezen massaal voor B: concreter, praktischer, geen overbodige context. Die voorkeur wordt opgeslagen. Na duizenden van zulke keuzes leert het model vanzelf om pragmatischer te antwoorden.
Waar kom je het tegen?
Bijna elk groot conversationeel taalmodel is getraind of bijgeschaafd met een Preference Dataset:
ChatGPT (OpenAI) — gebruikt RLHF met menselijke voorkeuren om behulpzamer en veiliger te worden
Claude (Anthropic) — maakt gebruik van zowel menselijke voorkeuren als "Constitutional AI"-regels
Gemini (Google) — combineert voorkeur-data met veiligheidstraining
Llama-modellen (Meta) — open-source varianten worden door de community ook vaak met voorkeur-data verfijnd
Ook in gespecialiseerde toepassingen: klantenservice-bots, schrijfassistenten, code-hulp (zoals GitHub Copilot) — overal waar gebruikers aangeven wat "goed" is, ontstaat impliciete voorkeur-data.
Wat betekent dit voor jou?
Als je zelf een AI-product bouwt of aanpast, is het verzamelen van voorkeuren een krachtige manier om het model te laten aansluiten bij jouw doelgroep. Dat hoeft niet ingewikkeld: laat gebruikers simpelweg kiezen tussen twee antwoorden, of geef ze een duimpje-omhoog/omlaag-knop. Die feedback kun je bundelen tot een eigen Preference Dataset en gebruiken om het model bij te sturen.
Zelfs als je geen AI bouwt, is het goed te weten: elk keer dat je een AI-antwoord beoordeelt ("was dit nuttig?"), help je mee aan de volgende generatie modellen. Jouw voorkeur wordt letterlijk trainingsmateriaal.
Veelgestelde vragen over Preference Dataset
De drie meest gestelde vragen over dit onderwerp, kort beantwoord.
Wat is Preference Dataset?
Een verzameling voorbeelden waarin mensen aangeven welke AI-antwoord ze beter vinden — gebruikt om taalmodellen te leren wat goede output is.
Waarom is Preference Dataset belangrijk?
Stel je voor: je stelt een AI dezelfde vraag twee keer, en krijgt twee verschillende antwoorden. De ene is helder en nuttig, de andere vaag of irrelevant. Als je aangeeft welke je beter vindt, maak je eigenlijk een 'voorkeur' aan. Een Preference Dataset is een grote verzameling van zulke voorkeuren — duizenden voorbeelden waarin mensen hebben beoordeeld welk AI-antwoord beter was.
Hoe wordt Preference Dataset toegepast?
Die dataset wordt gebruikt om taalmodellen bij te schaven. In plaats van het model te trainen op wat correct is (zoals bij normale trainingsdata), leer je het wat wenselijk is: welke toon, welke stijl, welke mate van detail mensen het prettigst vinden.