Zodra je de ruwe data gecreëerd of verzameld hebt en je begint met de bewerking en analyse ervan, is het van cruciaal belang om alle opeenvolgende bewerkingen van deze gegevens nauwgezet te registeren, net zoals de betekenis van gebruikte afkortingen, de precieze bron van secundaire data die je eventueel hergebruikt, de relatie tussen de verschillende datasets, enz. In één woord, je moet zorgen voor de nodige documentatie; data documentatie verwijst naar elke vorm van contextuele of beschrijvende informatie die nodig is om onderzoeksgegevens te kunnen vinden, begrijpen en uiteindelijk hergebruiken. Om niets over het hoofd te zien is het een slimme keuze om deze documentatie zo vroeg mogelijk in het onderzoeksproces reeds vast te leggen.
Deze begeleidende informatie zal niet alleen nuttig zijn voor andere onderzoekers die jouw gegevens zouden willen hergebruiken, maar ook voor jouw toekomstige zelf, bv. wanneer je begint met het schrijven van jouw doctoraatsverhandeling op basis van de data die je zo’n drie jaar geleden al verzameld en geanalyseerd hebt, of wanneer je als postdoctoraal onderzoeker de kans krijgt om een master- of doctoraatsstudent aan te werven om je bij te staan in jouw eigen onderzoeksproject.
Documentatie
Data documentatie is noodzakelijk op twee niveaus: documentatie over de gehele studie of project enerzijds, en documentatie over de individuele datasets, observaties of datapunten anderzijds.
- Documentatie op het niveau van de gehele studie verschaft overkoepelende informatie over de context en opzet van het onderzoeksproject, bv. titel en samenvatting van het project, methodes van dataverzameling, betrokken onderzoekers en instellingen, bronnen van eventuele secundaire data, een licentie en identificatie voor iedere dataset, mappenstructuur, conventies inzake naamgeving van bestanden, versiebeheer, de relatie tussen verschillende bestanden of publicaties, en andere algemene informatie.
- Documentatie op het niveau van de dataset zelf verschaft meer gedetailleerde informatie over de individuele variabelen of datasets, bv. namen van variabelen, labels en beschrijvingen (numeriek, datum, tekst, enz.), gebruikte meeteenheden (cm, kg, enz.), kalibratie van de instrumenten, termen uit een gecontroleerde woordenschat of ontologie die aanvaard worden als waarde voor elke variabele, code voor ontbrekende gegevens, enz.
Data documentatie kan vele verschillende vormen aannemen. Afhankelijk van jouw discipline kan je o.a. denken aan:
- Ontologie, gecontroleerde woordenschat en thesauri (voorbeelden)
- Methodologieën en protocollen (voorbeelden)
- Logboeken en (elektronische) lab notebooks (meer informatie)
- Index van afkortingen en conventies inzake naamgeving
- Software syntaxis
- Codeboek (meer informatie en voorbeelden)
- Database schema (meer informatie)
- Begeleidende notities
Een algemeen toepasbare vorm van data documentatie is een zgn. readme.txt-bestand. Dit is in feite niets meer dan een eenvoudig tekstbestand waarin je alle mogelijke informatie samenbrengt die nodig zou kunnen zijn voor collega’s of voor je toekomstige zelf om de onderzoeksgegevens te begrijpen en te (her)gebruiken. Zo’n readme.txt-bestand bevat doorgaans meer informatie over:
- Context: bv. de opzet van het onderzoeksproject, protocollen en methodes
- Inhoud: bv. de definitie van variabelen en bepaling van parameters
- Structuur: bv. de onderlinge relatie tussen datasets, afbeeldingen en tabellen
Het wordt aangeraden om minstens één readme.txt-bestand per dataset te voorzien. Zoals alle andere vormen van data documentatie kan je het bestand best opstellen op het moment dat je ook de data zelf creëert, en vervolgens bijwerken indien nodig. Enkele inspirerende voorbeelden en sjablonen vind je op de websites van Harvard en Cornell University.
Metadata
Metadata dienen eigenlijk precies hetzelfde doel als documentatie, zoals hierboven reeds beschreven: ze verschaffen alle mogelijke informatie die nodig is om de data te begrijpen en eventueel te kunnen hergebruiken. Terwijl documentatie echter enkel door menselijke gebruikers geïnterpreteerd kan worden, zijn metadata geautomatiseerde “vertalingen” van deze informatie die ook door machines en computers begrepen kunnen worden. Dikwijls worden deze metadata opgeslagen als .xml- of .json-bestand, hetzij ingebed in de dataset zelf, hetzij als een apart bestand.
Aangezien metadata leesbaar moeten zijn voor computers, zijn zij noodzakelijkerwijze gestructureerd en bevatten zij een aantal vaste elementen, zoals bepaald door een gevestigd metadataschema. Om deze reden raden we aan om niet jouw eigen persoonlijke schema samen te stellen, maar om gebruik te maken van een reeds bestaande standaard, die opgesteld is door de onderzoeksgemeenschap zelf. Afhankelijk van jouw discipline werden al verschillende domeinspecifieke standaarden ontwikkeld. Deze kan je terugvinden op volgende websites:
- Research Data Alliance – Metadata Standards Directory
- Digital Curation centre – Disciplinary Metadata
- FAIRsharing
Indien er daarentegen geen specifieke standaard bestaat voor jouw type onderzoeksgegevens op dit ogenblik, dan kan je altijd terugvallen op een generiek schema, zoals bv. Dublin Core. De eenvoudigste versie van deze standaard bestaat uit vijftien elementen die op eender welke discipline van toepassing kunnen zijn (o.a. titel, auteur, publicatiedatum, enz.). Een handige tool om jouw eigen metadata op basis van deze standaard te creëren, vind je hier.
Als UHasselt onderzoeker word je verondersteld om de metadata op te laden van de datasets die aan jouw peer-reviewed publicaties ten grondslag liggen. Dit kan je doen via de UHasselt metadata repository die geïntegreerd is in de Document Server (de databank waarin je momenteel reeds jouw publicaties deponeert). Beschrijf je datasets in de metadata repository zodat ze verschijnen op je onderzoekersprofiel en kunnen gelinkt worden aan je publicaties. De metadata opladen kan in slechts 3 eenvoudige stappen. Op die manier kan je scoren op de FAIR-principes en voldoen aan de vereisten van je funder. Meer informatie over de metadata repository vind je hier.