Data opschonen als wedstrijd: datasets gezocht voor Data Clean-Up Cup

Shannon en Nine zoeken datasets om op te schonen tijdens hun datasprint op 15 januari 2026.

Shannon van Muijden en Nine Claassen

Shannon van Muijden (informatiespecialist bij Rijksmuseum) en Nine Claassen (datacleaner bij de datawerkplaats in Zuid-Holland) gaan op 15 januari 2026 samen datasprinten. Een hele dag lang datasets opschonen met OpenRefine, in wedstrijdvorm. Het draait om snelheid, creativiteit en datakwaliteit.

Ze pakken dubbele waarden aan, jagen op typfouten en vullen lege cellen. Ook verrijken ze de data met termen uit het Termennetwerk. Alles wat ze doen, documenteren ze. Zo kunnen anderen later leren van hun aanpak.

Heb je een dataset? Stuur hem op

Erfgoedinstellingen, bibliotheken en archieven uit het hele Koninkrijk der Nederlanden kunnen helpen. Heb je een dataset die wel een opschoonbeurt kan gebruiken? Collectieregistraties, thesauri, trefwoordenlijsten of exportbestanden uit oude systemen: stuur ze op. Shannon en Nine gebruiken ze als testmateriaal tijdens de sprint. Je krijgt een opgeschoonde, verrijkte versie terug.

Stuur je dataset naar Shannon (Shannon.van.Muijden@rijksmuseum.nlof Nine (Claassen@erfgoedhuis-zh.nl).

Wat is een erfgoeddataset?

Een dataset is een lijst met records uit een beheersysteem (collectie-, archief-, bibliotheeksysteem of andersoortige database), waarbij elk record één object of item beschrijft.

Exporteren kan als .csv, .xlsx (Excel) of .xml – alle formaten zijn welkom.

  • De dataset hoeft niet perfect te zijn
  • Onvolledig is geen probleem
  • Rommelige data is prima. Sterker nog: Shannon en Nine zien dat voor deze uitdaging graag!

Wat is belangrijk?

Exporteer altijd een uniek ID (recordnummer, inventarisnummer, priref), ongeacht of het om personen, locaties, thesauri, objecten of anders gaat. Dit is nodig om de opgeschoonde data weer terug te zetten in je systeem.

Hoe exporteer je dit?

  • Selecteer de records
  • Exporteer (Excel, CSV, XML, e.a.)
  • Check kort: 1. bij Excel: één rij = één record, 2. het unieke ID staat in een eigen kolom of veld, 3. Exporteren en klaar! Stuur het op zoals het is.
Niet opschonen, niet verbeteren.

Goed om te weten

  • Je hoeft de data niet van tevoren netjes te maken. Shannon en Nine doen dat voor je. Zij noemen zichzelf niet voor niets de ‘Marie Kondo’s van de datawereld’.
  • Op de dag van de Data Clean-Up Cup liggen er verschillende datasets klaar. Daaruit wordt via loting een keuze gemaakt. Wordt jouw dataset uitgekozen, dan krijg je hem schoon terug, met een toelichting over wat er is aangepast.
  • Kom je er toch niet uit? Geen probleem! Stuur een mailtje aan Shannon (Shannon.van.Muijden@rijksmuseum.nlof Nine (Claassen@erfgoedhuis-zh.nl).