Hoe de AI-zoekmachine Krant-en-fotos.nl duidelijk maakt dat je je juridische zaakjes maar beter op orde hebt
Vandaag gaat de zoekmachine www.krant-en-fotos.nl live. Met dit onderzoeksproject willen de vijf initiatiefnemers, van Noord-Hollands Archief tot KB, het erfgoedveld inspireren om artificial intelligence in te zetten bij het presenteren en verbinden van digitale collecties. In een interview belicht projectcoördinator Michel de Gruijter enkele geleerde lessen om persfoto’s aan krantenpagina’s te koppelen.
Dit is krant-en-fotos.nl
Eerder was het zoeken van verhalen bij persfoto’s handwerk, maar met artificial intelligence zijn nu een half miljoen persfoto’s uit de jaren zeventig gekoppeld aan een kwart miljoen krantenpagina’s uit diezelfde periode. Via de zoekmachine www.krant-en-fotos.nl kan iedereen de persfoto’s en krantenartikelen doorzoeken. De beelden komen uit de archieven van Fotopersbureau De Boer (1945-2004) en Persfotobureau D. van der Veen (1963-1980); voor de krantenpagina’s is gebruikgemaakt van Haarlems Dagblad, IJmuider Courant en Nieuwsblad van het Noorden. Aan dit onderzoeksproject werkten mee: Noord-Hollands Archief, Groninger Archieven, KB, nationale bibliotheek, en de technologiebedrijven Sioux Technologies en Picturae. Al hun geleerde lessen staan in een whitepaper.
Beeldherkenning staat centraal
‘Laten we meteen beginnen met het mooie eindresultaat,’ zegt projectcoördinator Michel de Gruijter enthousiast. ‘We wilden met artificial intelligence (AI) persfoto’s koppelen aan de in kranten gepubliceerde foto’s. Dat is gelukt! Ik hoop dat we met ons onderzoeksproject de erfgoedsector aanmoedigen om beeldherkenning te gaan inzetten.’
Michel, in het dagelijks leven adviseur AI en digital scholarship bij de KB, legt de nadruk op het woord ‘beeldherkenning’. ‘De persfoto’s en krantenfoto’s worden met elkaar verbonden door computergestuurde herkenning van beeldpunten in de afbeeldingen. Dus níet met de metadata, oftewel de beschrijving van het archiefmateriaal.’
Let op de juridische aspecten
Het project ging niet alleen om het met elkaar verbinden van verschillende collecties, maar ook om de geleerde lessen. ‘Lessen die we graag willen delen met het erfgoedveld,’ benadrukt Michel. Bij de start van het project verwachtte hij verschillende lessons learned in een whitepaper te kunnen opnemen, maar de belangrijkste had hij niet zien aankomen: breng alle juridische aspecten in kaart. ‘Hoewel deze aspecten in ons projectvoorstel een klein aandeel hadden, ontdekten we gaandeweg dat ze grote invloed hebben op de mogelijkheden om data uit te wisselen tussen partijen, te verwerken en te publiceren.’
Een voorbeeld
Wie zoekt op krant-en-fotos.nl, krijgt van een krantenfoto slechts een thumbnail te zien. ‘Dit komt omdat voor de beschikbaarstelling van de gedigitaliseerde kranten auteursrechtelijke toestemming nodig is. Erfgoedinstellingen kunnen die toestemming verkrijgen door collectieve licenties te sluiten met rechthebbendenorganisaties, zoals Lira en Pictoright, die auteurs en beeldmakers vertegenwoordigen. Met die licenties kunnen de instellingen gedigitaliseerde kranten op hun eigen websites tonen. Wil je het betreffende krantenartikel uit het Nieuwsblad van het Noorden inzien, dan kom je bij Delpher uit. Daar mag je het artikel namelijk wél lezen. En staat het bericht in een van de jaren zeventig-edities van het Haarlems Dagblad of de IJmuider Courant, dan beland je met een muisklik in de Krantenviewer van het NHA. Die laatste toegang is kakelvers; gesprekken daarover zijn door dit project in een stroomversnelling geraakt,’ gaat Michel verder.
De twee juristen die aan het project deelnamen hebben hun ervaringen op een rij gezet in de whitepaper. Daarbij gaat het zowel om het auteursrecht op gedigitaliseerde kranten en persfoto-archieven als om privacyrechten – op de opgenomen foto’s kunnen immers nog levende personen staan en ze bevatten daarmee persoonsgegevens. Michel: ‘Nu weten we dus dat we al bij het maken van het projectvoorstel de juridische zaken, de beperkingen en gevaren op het netvlies moeten hebben. Dit scheelt verderop in het project heel veel werk.’
Dataverzamelingen niet hetzelfde
Ook een geleerde les: zorg ervoor dat de te verwerken dataverzamelingen qua inhoud hetzelfde zijn. Zo bevat elke scan uit de Van der Veen-collectie een negatiefstrook met meerdere beelden, terwijl het bij De Boer-collectie om losgeknipte beelden gaat. Voor de beeldherkenning via het computerprogramma werkt dat eerste niet: het programma wil steeds één persfoto vergelijken met de krantenfoto’s. Sioux Technologies, die het algoritme heeft ontwikkeld, is erin geslaagd om de afzonderlijke foto’s op de negatieven te extraheren.
‘Dat is het goede nieuws,’ zegt Michel. ‘Maar de eindgebruiker ziet aan de voorkant van de zoekmachine nog altijd het negatief met daarop de verschillende foto’s. Of hij ziet de afzonderlijke persfoto’s van De Boer-collectie. Kortom, het niet-eenduidige beeldmateriaal kan voor de eindgebruiker verwarrend zijn.’
Algoritme nog slimmer maken
Ten slotte noemt Michel nog enkele geleerde lessen als het gaat om het algoritme. Een ervan ligt volgens hem voor de hand: ‘Nu worden in de zoekmachine nog geen miljoen foto’s gebruikt. Maar ga je opschalen en meer collecties inzetten, dan is het belangrijk om de rekenkracht van de computer te vergroten. Zo kan het algoritme meer data verwerken in korte tijd.’
Nog een les: ‘Als je meer matches wilt maken tussen persfoto’s en krantenfoto’s, kun je het algoritme ook laten zoeken op meer specifieke kenmerken. Dat kan door bijvoorbeeld gezichtsherkenning in te zetten.’
Hoe nu verder
Het woord ‘opschaling’ viel al even. ‘We zouden nieuwe collecties met persfoto’s en krantenfoto’s kunnen opnemen. En vervolgens nadenken hoe we het algoritme door meer rekenkracht en door de toevoeging van gezichts- en objectherkenning kunnen verbeteren. Zover is het echter nog niet. Alle kaarten liggen nog op tafel, en een andere afslag is niet ondenkbaar,’ zegt Michel. Een ding weet hij zeker: ‘De geleerde lessen uit de whitepaper kunnen een vervolg een flinke boost geven.’