Archivering van het dynamische web gebaat bij archiveren serverzijde

1 juni 2021


M

Met traditionele webcrawlingstrategieën konden erfgoedinstellingen makkelijk grote hoeveelheden statische webpagina’s oogsten. Maar de nieuwe generatie – dynamische – sites vraagt om een andere benadering. In het rapport ‘Server-Side Web Archiving’ verkent Eoin O’Donohoe (Beeld en Geluid) de mogelijkheden.


Beeld: geralt via pixabay

Statisch of dynamisch

Websites zijn allang niet meer alleen statische portalen met tekst en plaatjes zoals we die sinds de begintijd van het internet kennen. De steeds toenemende complexiteit van webtechnologieën draagt bij aan een breder aanbod van websites die een rijkere, meer dynamische ervaring bieden. Denk aan interactieve documentaire websites, waar kijkers zelf hun weg kunnen bepalen door een verhaal, online kunstwerken of websites met spelelementen. De eerste soort sites noemen we statisch, de tweede dynamisch.

Webcrawling niet meer toereikend

Deze ontwikkelingen maken het er voor erfgoedinstellingen niet makkelijker op om websites te bewaren. Traditionele webcrawlingstrategieën hebben goed gewerkt voor het massaal oogsten van statische webpagina’s, inclusief tekst en beeld. Maar met deze benadering bewaart een erfgoedinstelling alleen de buitenste laag van een website.

Softwarearchivering

Het rapport Server-Side Web Archiving valt onder het project Softwarearchivering.binnen het NDE. Omdat steeds meer archieven als ‘born digital’-materiaal bij erfgoedinstellingen binnenkomen, moet vaak ook de bijbehorende software bewaard blijven. Anders kan dit materiaal niet toegankelijk worden gehouden.

Lees meer over softwarearchivering

Aandacht richten op serverzijde

Op dynamisch websites vinden er aan de achterkant, de serverzijde, allerlei bewerkingen plaats om gegevens op te halen, te presenteren en op te slaan die door de gebruiker aan de voorkant, de clientzijde, worden gebruikt om een unieke gebruikerservaring te bieden. Denk aan de aanbevelingen op YouTube waarmee elke gebruiker een uniek aanbod krijgt voorgeschoteld. De inhoud van een server kan bijvoorbeeld scripts, media en databases bevatten die worden beheerd door de makers van de website.

Eerste verkenning

Om de dynamische websites die het web nu rijk is te kunnen bewaren, moeten erfgoedinstellingen de aandacht richten op de serverzijde in plaats van de huidige ‘crawling’-methodiek te gebruiken. Dit betekent dat een archief een websitebouwer of -beheerder benadert om de bestanden vanaf de server te ontvangen. Vanuit het NDE-project Software-archivering is dit nieuwe werkterrein verkend.

In het rapport Server-Side Web Archiving van Eoin O’Donohoe (Beeld en Geluid) komen de belangrijke eigenschappen van het dynamische web aan bod. Daarnaast geeft het een overzicht van de tools waarmee instellingen deze websites kunnen vastleggen. Het rapport besluit met enkele voorbeelden en use cases die laten zien waarom archivering van de serverzijde een aanvullende methode kan bieden voor het bewaren van dynamische webcontent.