Een Nederlandstalige GPT staat nog in de kinderschoenen. Bron Grok

GPT-NL: eindelijk, Nederland ontwikkelt eigen GPT

Europa, waaronder ook Nederland, loopt flink achter bij het ontwikkelen van kunstmatige intelligentie. We kunnen niet zomaar Amerikaanse of Chinese technologie importeren, om twee goede redenen., Daarom is dit een hoopvolle eerste stap.

GPT-NL: redding van de Nederlandse taal of utopisch idealisme?

Het essentiële doel van GPT-NL (te vinden op https://gpt-nl.nl/) is het ontwikkelen van een krachtig, open-source AI-taalmodel specifiek voor de Nederlandse taal. Dit initiatief richt zich op:

  1. Toegankelijkheid: Een gratis en open model aanbieden voor iedereen (individuen, onderzoekers, bedrijven) om innovatie in het Nederlands taalgebied te stimuleren.
  2. Nederlandse taaloptimalisatie: Het model trainen op Nederlandstalige data om cultuur- en taalspecifieke nuances beter te begrijpen dan generieke AI-modellen.
  3. Community-samenwerking: Een platform bieden voor ontwikkelaars en onderzoekers om samen te werken, het model te verbeteren en aan te passen aan specifieke behoeften.
  4. Toepassingsgerichtheid: Ondersteuning van uiteenlopende use cases, zoals chatbots, educatieve tools, tekstanalyse en meer, met focus op maatschappelijke en economische meerwaarde.

Kortom: GPT-NL wil de Nederlandse taal en cultuur centraal stellen in AI-ontwikkeling, in plats van afhankelijkheid van Engelstalige modellen.

Denkfouten achter dit model

Het Nederlandse taalgebied is vrij klein. Op internet is rond de 1% van alle vrij toegankelijke data Nederlandtalig. Ook is veel van de meer hoogwaardige data, denk dan bijvoorbeeld aan wetenschappelijke artikelen en tijdschriftartikelen, alleen toegankelijk van achter een betaalmuur. De eigenaren van deze data willen hier “passend” voor beloond worden. Dat gaat behoorlijk in de papieren lopen, wat dit project moeilijk haalbaar maakt. Want op alleen ambtelijke en publiek toegankelijke data kan je een dergelijk model niet trainen.

Ook zal vermoedelijk de nodige politieke bias in het model sluipen. De kans dat, zeg, een column van de omstreden activistische Volkskrantcolumnisten Asha ten Broeke of Sander Schimmelpenninck in de dataset terecht komt, is groter dan die van een alternatief medium als Nieuwrechts, De Jonge Turken of De Lange Mars.

We kennen bijvoorbeeld geen Azteekse scheldwoorden of obsceniteiten, omdat de katholieke priesters die de conquistadores vergezelden en het Nahuatl op schrift stelden, deze niet opschreven. Een meer recent voorbeeld zijn de zwarte Vikingen en Founding Fathers, die bij de eerste uitrol door het imaging model van Google geproduceerd werden. Het bedrijf probeerde krampachtig om “pro-witte” bias uit de dataset te verwijderen, en slaagde hier een beetje al te goed in.

De eerste plaatjes van Google Gemini wekten de lachlust. Wellicht het alternatieve universum, dat de Google quantumchip bereikt zou hebben? Bron: Dileep Mishra via LinkedIn

Ook zullen minderheidstalen, zoals het Fries, Nedersaksisch en Limburgs, of streekdialecten er bekaaid afkomen. En dan zijn er natuurlijk hallucinaties, de kans dat een LLM met fantasieresultaten op de proppen komt. Deze kans is niet denkbeeldig. Hopelijk worden er fondsen vrijgemaakt voor een stel echt getalenteerde onderzoekers, om helemaal los te gaan, vrij van beperkingen, voor een wereldklasse GPT.

Geef een reactie