Linked data in de praktijk: Welke cd's zijn Nederlands erfgoed?

Hoe je met linked data Nederlands cultureel erfgoed kan ontdekken in een berg van cd's

Published on: January 12, 2025

Opslag van cd's bij Beeld & Geluid. Foto: Margot Knijn

De potentie van Linked Data wordt breed erkend. Maar het is veel werk om data te modelleren en te publiceren, en daarna nog een ingewikkelde karwei om de data te linken aan andere collecties. Soms vraag je je af: gaan we er ooit de vruchten van plukken? Nou, het antwoord is absoluut - ja!

Een muzikale puzzel

Tot 2012 beheerde Beeld & Geluid de uitleencollectie van cd's voor de omroepen. Wilde een DJ een cd draaien, dan kwam het vaak bij ons vandaan. Daarom staan er nu in de depots van Beeld & Geluid in Hilversum rekken met meer dan 220.000 cd's. Bovendien is Muziekweb sinds 2022 onderdeel van Beeld en Geluid. Via Muziekweb kunnen cd's geleend en geluisterd worden via de openbare bibliotheken. De collectie van Muziekweb, op dit moment gehuisvest in Rotterdam, bevat ruim 700.000 cd's.. Dat is bij elkaar 10 kilometer aan cd’s!

Er is een flinke overlap tussen deze collecties. Het is niet noodzakelijk om de cd's twee keer te bewaren en het neemt, zoals gezegd, veel ruimte in. Op de cd’s in Hilversum passen we daarom ons Collectiebeleid toe en willen we het Nederlands erfgoed identificeren en fysiek bewaren. De resterende cd's vinden dan een andere bestemming.

Voor veel van de populaire muziek cd's kunnen we de erfgoedstatus vaststellen op basis van informatie over landen of afkomst die al eerder is vastgelegd in de metadata. Maar niet voor alles. En voor klassieke muziek hebben we meestal geen indicatie van in welk land de opnamelocatie is, of welke nationaliteit de componist, crew of uitvoerder heeft. Dus hoe stellen we vast wat Nederlands erfgoed is? Met zoveel cd's is langs de rekken lopen en elk hoesje lezen geen optie.

De kracht van Linked Data

De oplossing komt vanuit Linked Data. De resultaten van eerdere B&G-projecten waarbij bepaalde personen in onze thesaurus zijn gelinked aan externe bronnen hebben we hier met succes ingezet. Via Discogs, een populaire online muziekdatabase, en Wikidata, de gestructureerde data-equivalent van Wikipedia, kunnen we automatisch ontdekken welke personen Nederlands zijn.

In Wikidata staat de nationaliteit van een persoon meestal expliciet aangegeven. Direct gepiept, zou je zeggen. Echter zit er een addertje onder het gras. Opgenomen muziek is een relatief recent fenomeen, maar de componisten van klassieke werken komen uit verschillende tijdperken uit de geschiedenis. Inclusief tijdperken waarin 'Nederland' als zodanig niet bestond, maar bijv. de 'Republiek der Zeven Verenigde Nederlanden' wel. We moesten dus de relevante historische entiteiten ook uitzoeken. Daarnaast zijn de overzeesgrondgebieden en voormalige koloniën van Nederland onderdeel van ons cultureel erfgoed, dus nemen we bijvoorbeeld ook Suriname en Indonesië mee. Zoals bij elke datavraag, is dus een goed begrip van de achterliggende domein onontbeerlijk. Daarom werkten we met dataexperts en muziek-experts samen.

Bij Discogs is het ingewikkelder. Daar is namelijk geen expliciete informatie over de nationaliteit van een artiest in de metadata opgenomen. We moeten zoeken op termen in de beschrijving van een persoon die kunnen duiden op hun afkomst, rekeninghoudend met zowel Engels als Nederlands. Termen zoals "Netherlands", "Nederland", "Dutch", "Netherlands Antilles" enz. Detectie van één van deze termen vinden we genoeg om een persoon te bestempelen als onderdeel van Nederlands erfgoed. Uiteraard gaat dit niet altijd perfect. Bijvoorbeeld, wordt Galina Oestvolskaja onterecht als Nederlandse aangewezen, omdat haar Discogsbeschrijving de volgende tekst bevat: "Галина Ивановна Уствольская in Russian, usually romanized as Galina Ivanovna Ustvolskaya in English, Ustwolskaja in German, Oustvolskaïa in French and Oestvolskaja in Dutch.". Steekproeven door muziek-experts geven ons desondanks genoeg vertrouwen om de resultaten te gebruiken.

De opnamelocaties van de cd's waren nog niet gelinkt aan Wikidata, dus moest die stap eerst worden gezet. We gebruiken de OpenRefine tool daarvoor, die de locaties matcht met Wikidata. Onzekere matches hebben we met de hand goed- of afgekeurd. OpenRefine haalt dan de bijbehorende landen op uit Wikidata, zodat we Nederlandse locaties kunnen identificeren.

Locaties en personen kunnen of op cd-niveau of op trackniveau aangegeven worden, en personen kunnen daarbij in veel verschillende rollen zijn aangegeven. We hebben dus code geschreven om volledige lijsten van locaties en personen uit de cd-collectie te halen, en vervolgens informatie over nationaliteit van personen op te zoeken in Wikidata en Discogs, en de locaties te exporteren voor verwerking in OpenRefine.

Bij raadplegen van bronnen zoals Discogs en Wikidata is het essentieel om rekening te houden met hun voorwaarden. Daarom zijn er limieten in onze code ingebouwd, waardoor het best lang duurt om beide bronnen te checken voor alle personen. Dus zetten we onze code in een zogenaamde 'container', waardoor het makkelijk in de cloud gedraaid kan worden - velemaal sneller en handiger dan op een eigen laptop.

De kracht van de expert

Niet alle personen zijn gelinkt naar Discogs of Wikidata, en waar er wel een link is, is er niet altijd genoeg informatie beschikbaar om automatisch hun nationaliteit te bepalen. De resterende personen zijn door onze dappere muziekkenners handmatig doorgenomen. Door een lijst te genereren van de personen, hun eventuele links naar Discogs/Wikidata en het aantal cd's waaraan ze zijn gekoppeld, was het mogelijk voor de experts om gericht en efficiënt te werk te gaan.

Mooie resultaat

We combineren alle informatie over personen en locaties van Wikidata, Discogs en muziek-experts om per cd aan te kunnen geven of het wel of geen Nederlands erfgoed is. Daarbij wordt het 'bewijs' daarvoor vastgelegd. Bijv. "Great pianists of the 20th century" is ondanks zijn Engelse naam toch Nederlands erfgoed omdat uitvoerende Edo de Waart Nederlands is, volgens Discogs en Wikidata. Op deze wijze houden we het proces transparant en maken we het mogelijk om de resultaten gericht te checken. Muziek-experts hebben dit steekproefsgewijs gedaan, met positief resultaat. Zo komen we op een lijst van ruim 12.000 klassieke cd’s (van de 100.000) *nog te doen - de getallen voor popmuziek die Nederlands erfgoed zijn: dat betekent tenminste één aan Nederland gerelateerde uitvoerende, crew, componist of locatie. Deze cd's zullen opgenomen worden in de collectie van Beeld & Geluid, waar ze duurzaam bewaard zullen worden. De andere cd's blijven uitleenbaar via Muziekweb.

Mooie bijvangst

Linked data hebben we hier ingezet met als doel het antwoord op de vraag: welke cd's behoren tot het Nederlands erfgoed? De informatie die we vergaard hebben kunnen we echter ook voor andere doelen inzetten. Bijvoorbeeld via de informatie over coördinaten van locaties in Wikidata kan je nu de cd's met locatie-informatie ontdekken via deze kaart van Nederland. De grote steden domineren, maar opnamelocaties zijn wijdverspreid over het land, van Uithuizen in het noorden tot Noorbeek in het zuiden; van Vrouwenpolder in het westen tot Oldenzaal in het oosten.

Wil je weten wat er in een locatie is opgenomen? Kijk dan naar onderstaande overzicht. Browse door de lijst, of zoek op de locatie die jou interesseert. Ontdek op deze wijze welk instrument de vier bovengenoemde locaties verbindt.