Telefoonboek van datasets, het Datasetregister, is live

7 juli 2021


I

nformatie over datasets van erfgoedinstellingen vind je nu op één plek: het Datasetregister. Netwerk Oorlogsbronnen en Van Gogh Worldwide stelden hiervoor onlangs hun data beschikbaar. Bob Coret vertelt over het belang van dit ’telefoonboek’.


Nieuwe telefoongidsen opgestapeld, Herengracht hoek Nieuwe Spiegelstraat, Amsterdam, 5 februari 1948. Foto: Ben van Meerendonk / AHF, collectie IISG, Amsterdam, CC BY-SA 2.0

Vindbaarheid

‘Instellingen zorgen ervoor dat hun digitaal erfgoedcollecties goed vindbaar zijn, maar dat zou ook moeten gelden voor de bijbehorende datasets,’ doceert Bob Coret. ‘Vaak zijn die wel al digitaal beschikbaar. Maar door er een rijke datasetbeschrijving aan toe te voegen, wordt zo’n dataset veel beter vindbaar. Dat komt omdat deze beschrijvingen machineleesbaar zijn, waardoor zoekmachines als Google ze makkelijker kunnen oppikken.’

Met een grotere vindbaarheid vergroot je als erfgoedinstelling dus de kans dat je dataset wordt hergebruikt door bijvoorbeeld creatievelingen en wetenschappers. ‘Ook portalbouwers, aggegratoren en de erfgoedinstellingen zelf zijn erbij gebaat dat we de vindbaarheid van datasets verbeteren. Maar dan moet je wel weten wat je zoekt. En dan is een Datasetregister waar alle datasets uit het erfgoedveld bijeenstaan wel zo handig.’

Telefoongids

Verrassing: het Datasetregister bevat zelf geen datasets. Die publiceren erfgoedinstellingen zelf via hun website of op een open data-platform waar de instelling gebruik van maakt. Wat je wél in het Datasetregister vindt zijn de URI’s (Uniform Resource Identifiers, zeg maar de nooit veranderende webadressen) van de datasetbeschrijvingen. En deze beschrijvingen bevatten weer verwijzingen naar de datasets zelf. ‘Vandaar dat je het register kunt vergelijken met een telefoonboek,’ zegt Bob.

Denkwerk

Het klinkt misschien allemaal simpel, maar er is veel denkwerk aan voorafgegaan. ‘Zo moesten we bepalen welke informatie je minimaal in een datasetbeschrijving mag verwachten. Neem bijvoorbeeld de naam van de set, een inhoudsbeschrijving, een licentie (wat mag je met de data) en de eigenaar. We hopen dat erfgoedinstellingen naast de verplichte informatie ook de aanbevolen informatie kunnen verstrekken voor elke dataset.’

‘De rijkheid van de datasetbeschrijving bepaalt mede de vindbaarheid. Waar je in een telefoonboek met name op naam kan zoeken, willen we via het Datasetregister specifiekere vragen kunnen stellen. Bijvoorbeeld: ik ben op zoek naar datasets die gerelateerd zijn aan de Tweede Wereldoorlog en een open licentie hebben.’

Leveranciers

Leveranciers van collectiebeheersystemen en van de software voor erfgoedplatforms zoals aggegratoren zijn inmiddels ook benaderd. ‘Zij kunnen de datasets aanleveren die via hun systemen beschikbaar worden gesteld. Ook gaan ze de datasets voorzien van een datasetbeschrijving die door machines gelezen kunnen worden.’

Omdat het nog best lang zal duren voordat elke instelling vanuit haar collectiebeheersysteem de datasetbeschrijvingen kan aanleveren, worden ook de datasets opgenomen die al bij elkaar zijn gebracht in de diverse platformen. Spinque heeft daarom al het materiaal van de platformen Netwerk Oorlogsbronnen en Van Gogh Worldwide aangeleverd.

Bob: ‘Daarmee heeft het Datasetregister in één klap een enorme hoeveelheid datasetbeschrijvingen, afkomstig van alle deelnemende erfgoedinstellingen aan deze platforms, beschikbaar gemaakt. Verder zijn Seecr, Delving, DEVENTit en Picturae als leveranciers hiermee bezig.’

Verrijken

‘Er zit een maximum aan wat we kunnen vragen aan informatie in de datasetbeschrijvingen,’ zegt Bob. ‘Stel dat je op zoek bent naar een dataset die betrekking heeft op personen tussen 1940-1945. Zo’n tijdsperiode is wel terug te vinden in een datasetbeschrijving, maar dat het ook om personen gaat vaak weer niet. Daarom willen we de beschrijvingen gaan verrijken. Niet handmatig maar geautomatiseerd. Daar denken we nu met erfgoedinstellingen in het Netwerk Digitaal Erfgoed over na. Met die verrijkingen kun je straks aan het Datasetregister nog slimmere vragen stellen. En zijn de datasets nog beter vindbaar.’

Met dank aan Spinque

‘Spinque verzorgt voor de platforms Netwerk Oorlogsbronnen en Van Gogh Worldwide allerlei technische zaken,’ vertelt Michiel Hildebrand van Spinque. ‘Dat werk zit echt aan de achterkant. Zo verzamelen we alle relevante informatie voor het inrichten van diensten van Netwerk Oorlogsbronnen en Van Gogh Worldwide. Vervolgens verrijken we die informatie om op maat gesneden diensten te kunnen leveren. Denk bij Van Gogh Worldwide aan het presenteren van verschillende soorten informatie rondom een kunstwerk, zoals object-, herkomst-, tentoonstellings- en literatuurgegevens en materiaaltechnische informatie. Alle informatie van het Netwerk Oorlogsbronnen en Van Gogh Worldwide hebben we via het eigen platform Spinque Desk uitgebreid zodat ze nu als linked data gepubliceerd kunnen worden volgens de richtlijnen van het Netwerk Digitaal Erfgoed. En al deze datasets zijn zo beschreven dat ze goed vindbaar zijn, bijvoorbeeld via het Datasetregister.’

Gerelateerd nieuws