Wat onderzoek ons vertelt over de levensduur van digitale bestandsformaten in archieven

7 mei 2024


K

Kan hetzelfde model dat voorspelt hoe lang je telefoon populair blijft, ook vertellen hoe lang je digitale archiefbestandsformaten kunt gebruiken? Data scientist Rein van ’t Veer onderzocht het. Ontdek wat dit model betekent voor het bewaren van bestanden en waar archieven tegenaan lopen.


Beeld: NDE

Bass-model

In het onderzoek staat het Bass-model centraal. Dit model, ontworpen door de Amerikaanse academicus Frank Bass in 1969, werd oorspronkelijk gebruikt om de levenscyclus van consumentengoederen te voorspellen in termen van productafzet. Rein van ’t Veer heeft onderzocht of dit model ook geschikt is om te bepalen of bestandsformaten in een archief toenemen, pieken bereiken of juist afnemen.

Onderzoeksvragen

Elk digitaal archief bevat allerlei bestandsformaten, zoals jpeg en tiff. Wanneer is zo’n bestandsformaat verouderd en niet meer bruikbaar? En zijn er tools om specifieke versies van bestandsformaten dan alsnog te openen? Met deze vragen ging data scientist Rein van ’t Veer in 2022 aan de slag op verzoek van de groep Preservation Watch van het Netwerk Digitaal Erfgoed. Hij voerde een diepgaande analyse uit met betrekking tot de houdbaarheid van verouderende bestandsformaten.

Verschillende datasets onder de loep

Deze analyse leidde tot een reeks blogposts op het KIA-platform en resulteerde in een eindrapport. Voor dit rapport onderzocht Rein van ’t Veer verschillende datasets, waaronder die van DANS/KNAW en Beeld & Geluid. Hij keek of het Bass-model (zie kader) handig is om te bepalen of bestandsformaten in een archief toenemen, pieken bereiken of juist afnemen. Ook heeft hij onderzocht of dit model nuttiger is dan simpelweg grafieken gebruiken om te begrijpen wat er met de bestandsformaten gebeurt of om met het blote oog veranderingen waar te nemen.

Bevindingen

Het rapport heeft twee belangrijke bevindingen. Enerzijds geven simpele grafieken van gearchiveerde aantallen van specifieke bestandsformaten per maand of kwartaal al veel inzicht in de veroudering van bepaalde formaten, zonder dat je hiervoor complexe modellen zoals het Bass-model nodig hebt. Anderzijds ontbreken er nog tools om te controleren of oudere bestandsformaten compatibel zijn met gangbare software, waardoor ze makkelijk te openen zijn. Dit is met name zorgelijk voor tabel-georiënteerde formaten zoals Microsoft Access-databases, waarvoor momenteel geen tools beschikbaar zijn om ze te koppelen aan ondersteunende softwareversies.

Aandachtspunt voor de toekomst

Tot slot blijkt het voor archieven lastig om exports te maken van opgeslagen bestanden vanuit hun e-depot. Veel archieforganisaties bevinden zich nog in de fase van opbouw of inrichting van hun e-depot, waarbij de focus voornamelijk ligt op het opslaan van data. Hierdoor komt de analyse van data en de implicaties hiervan voor de digitale duurzaamheid van bestandsformaten in hun e-depot nog onvoldoende aan bod. Dit is een aandachtspunt voor de nabije toekomst.