Net na de eerste verjaardag van ChatGPT heeft de EU een akkoord bereikt over de regulering van AI. Met het akkoord wil de EU een verantwoord gebruik van AI afdwingen. De belangrijkste voorwaarde hiervoor is transparantie: laten zien hoe de technologie werkt en wat het wel en niet kan. Critici zijn het erover eens dat ChatGPT hier niet aan voldoet: OpenAI houdt de werking van haar wonderkind geheim. Een Nederlands antwoord, GPT-NL, gaat het anders aanpakken. Hoe kan GPT-NL transparanter worden dan ChatGPT?
GPT-NL gaat in veel opzichten lijken op ChatGPT. Het zijn allebei taalmodellen, algoritmes die teksten kunnen produceren op basis van kunstmatige intelligentie. Zo’n taalmodel bestaat uit drie lagen, legt Antal van den Bosch uit. Als hoogleraar aan de Universiteit Utrecht onderzoekt Van den Bosch grote taalmodellen. De eerste laag is de verwerking van een berg data. Met deze data wordt in de tweede laag een basismodel getraind. Zowel ChatGPT als GPT-NL ontlenen hun naam aan het basismodel GPT. Zo’n model kan antwoorden produceren, maar ‘weet’ nog niet wat wenselijk is. Pas in de derde laag wordt het model gefinetuned via menselijke feedback. In al deze lagen kan een ontwikkelaar van taalmodellen al dan niet transparant zijn, zegt Van den Bosch.
Vijf miljoen dikke Van Dales
De belangrijkste stap in transparantie begint meteen bij de eerste laag: de trainingsdata. Dat is ook niet zo gek, want deze data bepaalt voor een groot deel wat een taalmodel kan. “Hoe meer data hoe beter,” stelt Van den Bosch als gouden regel voor taalmodellen. OpenAI kent deze regel als geen ander; de ontwikkeling van het basismodel GPT-4, de meest recente motor achter ChatGPT, was tegelijk ook de ontwikkeling van een van de grootste dataverzamelingen in de geschiedenis, al is de precieze omvang niet bekend. De data voor het vorige model was al grofweg 500 miljard woorden — omgerekend vijf miljoen Van Dale woordenboeken.
Deze dataset bleek bol te staan van schadelijke of illegale informatie
Om deze verzameling van data te maken is het hele internet leeggezogen. Grote hoeveelheden openbare informatie van bijvoorbeeld Wikipedia worden bij elkaar ‘geschraapt’ en verwerkt tot bruikbare informatie. Daar houdt het echter niet op. De Groene Amsterdammer heeft onderzoek gedaan naar een veelgebruikte dataset voor taalmodellen met miljoenen Nederlandse websites. Deze bleek bol te staan van schadelijke of illegale informatie. Zo vonden ze cv’s, belastingaangiften en BSN-nummers, maar ook intellectueel eigendom, zoals artikelen van De Volkskrant. Naast de relatief veilige informatie van publieke websites is er dus ook illegale, schadelijke of beschermde data te vinden in het trainingsmateriaal van taalmodellen.
Publieke beschikbaarheid
De dataset in dit onderzoek is openbaar, de data die in ChatGPT gaat is dat niet. OpenAI houdt dit geheim. Volgens Saskia Lensink is het juist belangrijk om te laten zien wat er allemaal in een taalmodel gaat. Zij werkt als ontwikkelaar van taalmodellen bij TNO en is direct betrokken bij het GPT-NL-project. Je wilt kunnen nagaan of er bijvoorbeeld privacygevoelige of onrechtmatig verkregen informatie in de data zit. Zulke data is “niet in lijn met Europese regelgeving,” zegt Lensink. De trainingsdata voor GPT-NL zal dus ook openbaar zijn voor iedereen. Verantwoorde inzet van AI vergt continu onderzoek en dat kan pas als iedereen “helemaal onder de motorkap kan kijken,” stelt Lensink.
Als deze GPT-NL-motorkap opengaat is dat niet alleen voor de data, maar ook voor het model zelf. Ook dit is interessant voor onderzoekers, want deze modellen kunnen onderzoekers downloaden en mee aan de slag. In tegenstelling tot het trainen hoeft het draaien van een model niet per se in een rekenkrachtig datacentrum: “op de MacBook waar ik nu tegen zit te praten kun je zo een enorme LLM (een taalmodel, red.) draaien,” zegt Van den Bosch. Dit komt de transparantie ten goede: een model kan helemaal doorgelicht worden als je iedereen de mogelijkheid geeft om aan de knoppen te zitten. De motorkap gaat niet alleen open, een onderzoeker kan de gehele motor in huis halen en ontleden.
‘Op de MacBook waar ik nu tegen zit te praten kun je zo een enorme LLM draaien’
Dit is echter niet voor iedereen weggelegd, een blik onder de motorkap wordt een gemiddelde autorijder niet wijzer van, laat staan een motor ontleden. Een openbaar model betekent dus voor veel gebruikers weinig. “Dan heb je uiteindelijk 70 miljard getalletjes, daar kun je an sich niet heel veel van leren,” zegt Lensink. Deze getalletjes laten vertalen naar een uitleg (’leg eens uit hoe je bij dat antwoord komt’) lijkt een slimme oplossing, maar haalt ook weinig uit. “Dan krijg je per woord een paginagroot verhaal,” zegt Van den Bosch. In plaats daarvan is het voor de eindgebruiker belangrijk om te weten wat de beperkingen zijn.
Hallucinaties uit de digitale duim
Een van die beperkingen ligt in de waarheid van de antwoorden. Een taalmodel produceert tekst door te kijken wat statistisch de beste volgorde van woorden is, binnen de context van een vraag of een gesprek. “Het zijn gewoon volgende-woord-voorspellers,” vat Van den Bosch samen. Het checken van waarheid komt hier niet aan de orde, ook al lijkt ChatGPT alwetend te zijn. Als het overtuigend klinkt kan het ook een onjuist antwoord bij elkaar puzzelen. Zoiets wordt een ‘hallucinatie’ genoemd. OpenAI schuift met een kleine disclaimer onderaan de prompt-balk de verantwoordelijkheid naar de gebruiker, maar of dat op weet te wegen tegen de overtuigingskracht blijft de vraag. Reden genoeg om aan de bel te trekken, zeggen experts. “Hier duidelijk over zijn is ook een vorm van transparantie,” zegt Van den Bosch.
Recht op privacy
Naast de data en de beperkingen van het model is het ook belangrijk om te weten wat er met de data van de gebruiker gebeurt, geven zowel Van Den Bosch als Lensink aan. Van onschuldige vragen tot meer privacygevoelige gesprekken, OpenAI slaat het allemaal op. Voor een individuele gebruiker is dat misschien geen probleem, maar de EU staat met haar strenge privacybeleid niet te wachten op massale dataverzameling door Amerikaanse bedrijven. Het hele proces doen vanuit Nederland, van training tot het draaiende houden van het taalmodel, zorgt ervoor dat er geen data in buitenlandse datacentra verdwijnt. “We willen gewoon controle over onze eigen data,” bevestigt Lensink.
‘We willen gewoon controle over onze eigen data’
De 13,5 miljoen euro die het Ministerie van Economische Zaken en Klimaat heeft vrijgemaakt voor GPT-NL verbleekt bij de miljarden die OpenAI te besteden heeft. Toch benadrukt Lensink dat het doel van dit project anders is dan dat van ChatGPT. ChatGPT mag dan het meest geavanceerde taalmodel zijn, GPT-NL legt de focus op transparantie en verantwoorde inzet. Lensink: “We willen het beste model voor Nederland maken en ‘beste’ is in dit geval ook een model dat in lijn ligt met onze eigen wet- en regelgeving.”
Eindredactie door Anna Vink