Wat je leert van één dag collectiedata opschonen tijdens de Data Clean-Up Cup

Een dag opschonen laat zien waar je direct winst kunt boeken.

Nine Claassen en Shannon van Muijden

Het idee ontstond als een grapje. Nine Claassen, datacleaner bij de datawerkplaats in Zuid-Holland, en Shannon van Muijden, informatiespecialist bij het Rijksmuseum, vroegen zich af hoeveel datasets ze in één dag zouden kunnen opschonen – en of ze daar misschien een wedstrijdje van konden maken.

‘Voor we het wisten, werd het idee werkelijkheid,’ vertelt Nine. ‘We wilden vooral laten zien hoeveel je in korte tijd al kunt doen. Kleine stappen, die meteen verschil maken.’ Na dat eerste idee volgde een oproep aan erfgoedorganisaties om datasets in te sturen. ‘Het bericht op LinkedIn ging meteen viral,’ zegt Shannon. ‘Er bleek veel interesse in dit onderwerp.’

De inzendingen vormden het startpunt van de eerste Data Clean-Up Cup op 15 januari 2026. In het karakteristieke gebouw van Beeld & Geluid gingen Nine en Shannon vervolgens een dag lang aan de slag met de ingestuurde datasets.

De eerste dataset

Bij een Data Clean-Up Cup hoort natuurlijk ook een jury. Kanika Makhija en Tamara van Zwol traden namens het Netwerk Digitaal Erfgoed op als juryleden. Kanika trok het eerste lootje. De dataset werd in tweeën gedeeld, waarna Nine en Shannon ieder met hun eigen deel aan de slag gingen.

Het ging om een dataset van een organisatie waar in de loop der jaren meerdere mensen data hadden ingevoerd – ieder op hun eigen manier. ‘Dat zal voor veel organisaties herkenbaar zijn,’ zegt Nine. ‘Zonder duidelijke afspraken, vastgelegd in een invoerhandleiding, wordt data al snel verschillend geregistreerd. En dan raakt een dataset langzaam vervuild.’

Tip 1: leg invoerafspraken vast in een invoerhandleiding

Leg vast hoe collectiedata wordt ingevoerd. Denk aan afspraken over het trefwoordgebruik of de manier waarop een titelveld wordt ingevuld. Zo voorkom je dat iedere invoerder naar eigen inzicht – en met de beste bedoelingen – keuzes maakt.

Stap voor stap opschonen

Nine en Shannon doken in de dataset. ‘Er zat flink wat werk in,’ zeggen ze. Nadat een groot deel was opgeschoond, kwamen vooral inhoudelijke vragen naar boven. En dan wordt interpretatie onvermijdelijk.

‘In zo’n fase kunnen we alleen nog adviseren,’ legt Shannon uit. ‘Neem bijvoorbeeld een objectnaam als “Informatieboekje 1” Is dat een periodiek? Studiemateriaal? Dat weten we niet. Ons advies is dan: gebruik Informatieboekje 1 als titel en zet boek – als dat het is – bij de objectnaam.’ Die adviezen legden ze vast, zodat de organisatie er later zelf mee verder kan.

Tip 2: let goed op welk veld je gebruikt

Zorg dat informatie in het juiste veld staat. Een titel hoort niet in het veld objectnaam. En gebruik daar altijd één term – geen zinnen.

Als handig naslagwerk raden Nine en Shannon het Dataprofiel Collectieinformatie voor het publiek aan. Daar staat kort en duidelijk uitgelegd hoe je met je velden omgaat. ‘Print het uit en leg het naast je laptop.’

Dataset nummer twee

Terwijl Nine en Shannon aan het werk waren, vond in Beeld & Geluid de nieuwjaarsborrel plaats. Directeur Eppo van Nispen tot Sevenaer kwam even langs en trok dataset nummer twee: een thesaurus van een museum.

‘We gaan deze set opschonen en verrijken met URI’s,’ vertelt Shannon. ‘Een URI is eigenlijk gewoon een vast webadres. Het zorgt ervoor dat data altijd naar hetzelfde begrip of object blijft verwijzen, en dus vindbaar blijft op internet.’

Voor dit werk gebruikten de datacleaners de reconciliation tool van OpenRefine. Nine: ‘Die helpt om grote hoeveelheden begrippen tegelijk te koppelen aan termen uit het Termennetwerk.’

Tip 3: voeg geen nieuwe termen toe

Gebruik bestaande termen consequent. Wordt rijwiel al gebruikt? Voeg dan niet ook fiets toe. Eén term per begrip houdt je data helder en beter uitwisselbaar.

Kanika Makhija, Tamara van Zwol, Nine Claassen en Shannon van Muijden

Eindstand

Aan het einde van de dag hadden ze twee datasets onder handen genomen. Ze hadden gehoopt er meer te kunnen doen, maar hun centrale werkplek midden in het gebouw trok veel geïnteresseerden. Dat zorgde voor de nodige gesprekken, en de datasets zelf bleken ook nog eens behoorlijk stevig.

De jury riep Nine uit tot winnaar, omdat zij de meeste termen wist te verbinden aan een externe termenbron en dus een URI. Dat was soms flink zoeken, zeker omdat veel termen sterk vakspecifiek zijn.

Ook over Shannon was de jury vol lof. Zij schoonde niet alleen de data op, maar noteerde haar praktische tips om de datakwaliteit te verbeteren in de Excelbestanden. Met die tips kunnen de collectiebeheerders direct aan de slag.

Een vervolg?

Smaakt deze Data Clean-Up Cup naar meer? Absoluut. Al voor deze wedstrijd kregen Nine en Shannon vragen van collega’s uit het erfgoedveld of ze konden meedoen. Wie weet gaat dat bij een volgende editie gebeuren, zeggen ze lachend.

Wat ze vooral hopen? Dat deze dag heeft laten zien dat data opschonen helemaal niet zo ingewikkeld hoeft te zijn – en dat je met wat tijd en aandacht al verrassend ver komt.

Zelf aan de slag?

Vragen over het opschonen van je collectiedata? Neem contact op met de datawerkplaats in je provincie. Zij kunnen meekijken, je data analyseren en gericht advies geven.