Betydelsen av metadata och val av dataformat

man-thinking

De flesta som arbetar med data dagligen vet hur hur viktigt metadata är för att det skall vara användbart. Metadata behövs för att beskriva egenskaper av data, som till exempel av vem och när det skapats. Ändå publiceras data utan tillräcklig beskrivning av egenskaper, vilket begränsar nyttjandet av data då det bland annat påverkar användarnas förtroende. I fallet med öppna data verkar många dataägare inte tänka utifrån användarnas perspektiv och ofta förefaller det vara viktigare att publicera data oavsett bristande metadatabeskrivning.

engine-problems

För att göra en liknelse, föreställ dig att du är intresserad av en bil som står parkerad utanför en bilförsäljare, men som saknar information angående pris, miltal, årtal, bensin/diesel, och annan viktig fakta angående bilens beskaffenhet. Avsaknaden av fakta kring bilens egenskaper kommer antagligen göra att du som spekulant tappar intresse eftersom bilförsäljaren verkar oseriös.

Öppna data är en digital resurs som kan kopieras och användas av vem som helst, men för att den skall vara användbar måste det finnas fakta angående vilka egenskaper datan har, vem eller vilka som är upphovspersoner, vilken standard och vilka referenssystem som används med mera. Det kan låta som en självklarhet, men en snabb undersökning av ett antal öppna datakällor visar att det finns felaktigheter och avsaknad av metadatabeskrivningar, vilket tyder på att inte tillräckligt fokus har lagts på metadata för existerande data. Dataägare behöver lika mycket fokus på metadata som på själva data innan publicering, för att möjliggöra återanvändning och maskinläsbart. Valet av dataformat har också stor inverkan på hur väl metadata kan specificeras. Dataformat med bra stöd för metadata är till ingen nytta om inte ägaren säkerställer att minimera felaktigheter och brister.

Tabellen visar på vanliga format och hur bra metadatastöd dessa har.

FormatMetadata stödBeskrivning
ZIP (komprimerad fil)IngetInget stöd för metadata.
CSV (kommaseparerad fil)IngetInget stöd för metadata, första raden kan innehålla namn på kolumn
PDFBegränsatMetadata om skapare och datum.
Kalkylark (Excel)BegränsatMetadata om skapare, datum, format och datatyper. För att extrahera metadata behövs specialprogram eller moduler. Metadata är inte en naturlig del och formatet är proprietärt
JPG, PNGFullgottMetadata om skapare, datum, licensregler, geografisk plats, samt kamerainställningar med mera
JSON, XMLFulländatMetadata strukturer för beskrivning av, ägare, datum, tidszoner, komplexa datatyper och validering av tillåtna värden. Formaten innehåller metadataschema för beskrivning av taxonomier som innehåller objekt och hierarkier

Icon made by Freepik from www.flaticon.com, licensed by CC 3.0 BY

Lämna ett svar