ChatGPT: nog lang niet perfect, maar wel met potentie voor het erfgoedveld

15 februari 2023

ChatGPT is een veelbesproken tekstgenerator en chatbot die gebaseerd is op kunstmatige intelligentie. Is deze tool bruikbaar voor het erfgoedveld? Op 13 februari vond er de bijeenkomst ‘ChatGPT of nie’ plaats in de Bibliotheek UvA/HvA, waar veertig erfgoedprofessionals, van ontwikkelaars en archivarissen tot wetenschappers, deze vraag onderzochten. Initiatiefnemers Heleen Wilbrink (Het Utrechts Archief), Marjolein Beumer (Bibliotheek UvA/HvA) en Bob Coret (KB en NDE) delen enkele inzichten van deze dag.

Beeld: ramirezom via 123rf

Dit is ChatGPT

ChatGPT is een chatbotmodel ontwikkeld door OpenAI, een onderzoeks- en ontwikkelingsbedrijf op het gebied van kunstmatige intelligentie. Het model is getraind met een groot corpus van tekst van het internet tot halverwege 2021 en kan worden gebruikt als kunstmatig-intelligente tekstgenerator op basis van statistische analyse. ChatGPT kan allerlei soorten vragen beantwoorden en taken uitvoeren, zoals het schrijven en samenvatten van teksten. Het model is gelanceerd in november 2022.

Ben je ook benieuwd naar de mogelijkheden en onmogelijkheden van ChatGPT? In een van de workshops tijdens de Data-Doe-Dag op 17 april 2023 gaan we weer ‘spelen’ met ChatGPT om de grenzen ervan te verkennen en te kijken wat de praktische toepassingen zijn voor het erfgoedveld. Bekijk het programma en meld je aan

Chatbot ‘begrijpt’ relaties

‘Bij het gebruik van een tool als ChatGPT is het belangrijk om de juiste vraag te stellen,’ zegt Bob Coret. ‘Voer een stuk tekst in en stel daar vervolgens een vraag over. Wat opvalt is dat ChatGPT de vragen goed begrijpt. Bijvoorbeeld, toen een deel van een stamboom als input werd gegeven, kon deze tool eenvoudig de vraag beantwoorden hoe oud de opa was toen zijn dochter werd geboren. Met andere woorden, de chatbot lijkt relaties in de tekst en het concept van leeftijd te begrijpen.’

Dit klinkt veelbelovend, maar helaas zijn de resultaten bij algemene vragen zonder een specifiek ingevoerde tekst soms van een andere orde, legt Bob uit. Aangezien ChatGPT gebaseerd is op een taalmodel, kijkt het vooral naar welk woord de hoogste “score” heeft in een bepaalde context bij het genereren van tekst. Hierdoor kunnen de antwoorden op het eerste gezicht overtuigend lijken, maar ze kloppen niet per se inhoudelijk. Er kunnen zelfs verzonnen feiten en gefingeerde webadressen als bronnen in de gegenereerde tekst staan.’

Soms hallucinaties in gemoderniseerde teksten

Heleen Wilbrink heeft de afgelopen paar jaar samen met collega’s geëxperimenteerd met voorlopers van ChatGPT om historische teksten om te zetten naar modern Nederlands, zodat meer mensen kennis kunnen maken met erfgoed. ‘Het goede eraan is dat deze tool beter werkt dan zijn voorlopers,’ vindt Heleen.

Toch is ChatGPT nog niet perfect.‘De chatbot bedenkt soms dingen die niet in de originele tekst staan. Dit wordt “hallucineren” genoemd. Bovendien laat de chatbot soms delen weg uit de originele tekst, terwijl een expert ze in een vertaling graag zou behouden. Daarom moet elke gemoderniseerde tekst worden nagekeken. Dit roept de vraag op of deze tijdsinvestering niet te groot is.’

Gevoelige zaken in Maleise vertaling

Voor het breder beschikbaar maken van online archieven is het soms handig als het materiaal vertaald kan worden. Heleen vertelt dat Simon Kemper (Nationaal Archief), een van de deelnemers van de bijeenkomst, een interessant experiment liet zien met vertalingen naar Maleis met ChatGPT. ‘Eenvoudige zinnen gingen al behoorlijk goed, voor vroegmodern Nederlands kon meer dan de helft van de zinnen (54%) in principe gelijk zonder verdere aanpassingen gepubliceerd worden.’

‘Echter, hij benadrukte dat er bij politiek gevoelige zaken heel goed gekeken moet worden naar misvattingen binnen de overige 46 percent. Zo wordt het woord “Moor” vaak omgezet naar “Arab” (Arabisch), terwijl het eigenlijk naar allerlei “westerlingen” kan verwijzen: van Indiase handelaren tot Nederlandse gouverneur-generaals. Die fout zal binnen Indonesië al snel de indruk wekken dat Batavia vol “Saudiërs” zat.’

Engels scoort beter dan Nederlands

Tijdens de bijeenkomst viel het verschillende deelnemers op dat ChatGPT beter lijkt te presteren met Engelstalige vragen en input dan met Nederlandse. ‘Dit zou kunnen komen doordat ChatGPT is getraind op meer Engelstalig materiaal,’ denkt Heleen. ‘De vraag is hoe we kunnen zorgen dat de chatbot beter in onze taal functioneert. Dat zou bijvoorbeeld kunnen als er gefinetuned kan worden op eigen data. Dit is al mogelijk in de langer bestaande GPT-3, maar nog niet in ChatGPT.’

Van gegevens naar verhaal

Een ander interessant experiment was de vraag van Bart Boskaljon (Rijksdienst Cultureel Erfgoed) aan ChatGPT om een verhaal te maken op basis van verschillende (gestructureerde) gegevens over een rijksmonument. Dus je hebt gegevens over een monument, zoals locatie, type gebouw en gebruiksfunctie. Dan weet ChatGPT daar een verhaal van te maken.

Bob: ‘Het verhaal werd slechts op enkele puntjes wat aangedikt met een waardeoordeel in het antwoord, bijvoorbeeld dat het een mooi monument was. Heb je duizenden monumenten waarover je een verhaal wilt vertellen voor je publiek, dan kan het veel tijdwinst opleveren.’

Kennis van code niet 100% accuraat

ChatGPT kan naast natuurlijke taal ook overweg met code, zoals Javascript, HTML, RDF en SPARQL. ‘Maar net als bij de natuurlijke taal is ook de door de chatbot gegenereerde code vaak niet 100% accuraat,’ constateert Bob. ‘Het kan een handig hulpmiddel zijn, maar je moet zelf nog steeds kennis van zaken hebben om de fout te spotten en op te lossen.’

Marjolein Beumer voegt hieraan toe: ‘Nu blijkt dat ChatGPT goed met computertalen en structuren overweg kan, opent dat ook deuren voor het gebruik van metadata en thesauri in ChatGPT.’

Ook voor samenvattingen en entiteiten

Heleen ziet ook kansen voor het maken van samenvattingen. ‘Denk aan het samenvatten van notariële akten. Maar ook het vinden van entiteiten zoals persoonsnamen en locaties in ingevoerde teksten en hun onderlinge relaties. Dit is heel handig voor het maken van indexen om archieven doorzoekbaar te maken. Bij deze arbeidsintensieve bezigheden valt mogelijk veel tijdwinst te behalen, al moet de output nog wel gecontroleerd worden.’

Grote digitale voetafdruk

Ten slotte rijst de vraag of erfgoedorganisaties hun data wel willen toevertrouwen aan een big tech-bedrijf als OpenAI. ‘Er hangt letterlijk een prijskaartje aan als je wilt dat de chatbot beter en sneller werkt, en je als eerste nieuwe mogelijkheden wilt uitproberen,’ zegt Marjolein. Bob: ‘Indirect betaal je ook voor je data en ondersteun je een enorme infrastructuur die net zoveel energie verbruikt als een stad als Leiden.’

Heleen: ‘Als erfgoedorganisaties willen we juist proberen onze digitale voetafdruk te verkleinen. Voor het gebruik van ChatGTP en vergelijkbare AI-systemen moeten we de voordelen en nadelen goed afwegen. Dit werd door meerdere deelnemers van de bijeenkomst benadrukt.’

Pak de handschoen op

Deelnemer Gerhard de Kok (Universiteit Leiden) stak het positief in, zegt Marjolein. ‘Hij stelde dat AI-tools als ChatGTP niet meer weg zullen gaan en dat je je als organisatie je ertoe moet verhouden.’

Het Utrechts Archief en Stadsarchief Amsterdam pakken in elk geval de handschoen op. Heleen: ‘Onze organisaties zijn allebei enthousiast over het verder verkennen van de mogelijkheden, bijvoorbeeld het automatisch genereren van indexen voor de doorzoekbaarheid van archieven. Met ChatGTP lijkt dit veel sneller te kunnen dan tot nu toe. We gaan een blog schrijven waarin we dit verder uitdiepen, mogelijk zelfs gevolgd door andere use cases.’

Lees de blog die Stadsarchief Amsterdam over deze dag schreef

Wat betekenen Large Language Models als ChatGPT voor digitale preservering?

Vanuit het NDE-programma Preservation Watch onderzocht Heleen Wilbrink wat ChatGPT en andere Large Language Models (LLM’s) betekenen voor zowel het erfgoedveld als voor digitale preservering en toegankelijkheid. Ze sprak met collega’s van archieven, musea en andere organisaties over hun concrete praktijkervaringen met Large Language Models. De vijfdelige blogserie is nu te lezen op de Kennisindex Preservation Watch van het platform KIA.

Lees de blogs