Transcriptieassistent Loghi helpt erfgoedorganisaties hun handschriftencollecties te ontsluiten
Menige erfgoedorganisatie gebruikt de transcriptiesoftware Transkribus om handschriften digitaal leesbaar en doorzoekbaar te maken. Maar nu is er een open source variant: Loghi. De software is ontwikkeld door het KNAW Humanities Cluster, in samenwerking met het Nationaal Archief. Waarin verschillen beide soorten software van elkaar?
Wat is transcriptiesoftware
Voor onderzoekers is het ontcijferen van oude handschriften in archieven vaak een tijdrovende uitdaging. Gelukkig maakt transcriptiesoftware het nu veel eenvoudiger door deze handschriften om te zetten in digitale tekst. Hierdoor worden onderzoekers nieuwe mogelijkheden geboden, zoals het snel en gemakkelijk kunnen zoeken in de gedigitaliseerde tekst. In slechts enkele minuten kunnen ze nu vinden wat anders jaren zou kosten, bijvoorbeeld alle vermeldingen van een specifiek woord zoals ‘suiker’ in een archief van miljoenen archiefstukken.
‘Eerst even wat achtergronden,’ vertelt Menno Rasch, directeur Digitale Infrastructuur van het KNAW Humanities Cluster en bestuurslid van het NDE. ‘Met het project Republic maken we alle geschreven en gedrukte resoluties van de Staten-Generaal (1576-1796) full-text en online beschikbaar. Dan heb je het over heel veel pagina’s. Hetzelfde geldt voor het project Globalise, waarbij 25 miljoen pagina’s uit het archief van de Verenigde Oost-Indische Compagnie (VOC) digitaal toegankelijk worden gemaakt.’
Het gebruik van de populaire transcriptiesoftware Transkribus ligt voor de hand, maar deze is niet gratis. Menno legt uit: ‘Hoewel het tarief van Transkribus overzichtelijk is, kan dit bedrag behoorlijk oplopen gezien de genoemde aantallen. Daarom hebben we gekeken of we onze eigen software konden ontwikkelen, liefst open source zodat ook andere erfgoedorganisaties er gebruik van kunnen maken.’
De transcriptiesoftware is er nu en draagt de naam Loghi, vernoemd naar de Italiaanse beeldhouwer Lorenzo Ghiberti. ‘We hebben de software al met succes kunnen gebruiken voor de eerder genoemde projecten. Bovendien is de software in beeld bij de start van het project Oorlog voor de Rechter. Hierbij wordt het Centraal Archief Bijzondere Rechtspleging (CABR) gedigitaliseerd, wat het grootste oorlogsarchief van Nederland is.’
Zoek de verschillen
‘Voor alle duidelijkheid: als je een kleine hoeveelheid handschriften wilt ontcijferen, is Transkribus niet alleen een prima alternatief, maar ook heel gebruiksvriendelijk,’ zegt Menno. ‘De Loghi-software vereist echter enige technische IT-kennis om toe te passen.’
De verschillen in kwaliteit tussen Loghi en Transkribus zijn klein en hebben vooral te maken met de soorten handschriften en documenten die ze kunnen verwerken en hoe goed ze om kunnen gaan met bepaalde elementen, zoals tabellen en schuin geschreven aantekeningen. ‘Beide programma’s zijn continu in ontwikkeling en kunnen in de toekomst weer verschillend presteren,’ benadrukt Menno.
Doorontwikkeling
Het KNAW Humanities Cluster heeft Loghi ontwikkeld en zal deze samen met het Nationaal Archief doorontwikkelen. ‘Maar ik nodig andere organisaties graag uit om ook bij te dragen aan de continue verbetering van de software.’
Zo gaat Loghi te werk
Rutger van Koert, die bij het KNAW Humanities Cluster Loghi heeft ontwikkeld, legt uit dat de transcriptiesoftware machine learning gebruikt om te bepalen welke letter er precies is geschreven. Loghi verdeelt een scan van een document in afbeeldingen op verschillende niveaus: van heel klein op pixelniveau tot letters, zinnen en paragrafen. De software vat stapsgewijs samen wat de visuele kenmerken zijn en kiest op basis daarvan de meest waarschijnlijke letter. Daarnaast kan Loghi doorhalingen en beschadigingen negeren, wat bijdraagt aan een nog nauwkeuriger vaststelling van de positie van de letters.