(O)användbara dataformat och standarder på Öppnadata.se

zip-compressed-files-extension

För att öppna data skall komma till användning och vara enkelt att utforskas så finns det ett flertal hinder som behöver undanröjas. Ett av dessa hinder är nyttjande av ovanliga dataformat och standarder vilket skapar inlåsningseffekter och trösklar. I föregående artikel förklarades varför undermålig metadata skapar trösklar för användare. Ovanliga dataformat och standarder skapar också hinder för tilltänkta användare av öppna data. En översyn av registrerade datakällor på portalen Öppnadata.se, visar att det vanligaste förekommande dataformatet är ZIP. Detta format är det sämsta tänkbara med hänsyn till metadata och maskinläsbarhet.

Vid en närmre undersökning visar att några få organisationer väljer att publicerar data i ZIP-format. Naturvårdsverket är den organisationer som har flest dataset registrerade överlag och nästan alla dataset på portalen finns enbart tillgängliga i ZIP eller PDF-format. Både dessa format rankas lågt på vår lista över format med bra metadatastöd. Dessutom saknar flera av Naturvårdsverkets dataset länk till data eller förklaring var det finns publicerat. En annan organisationer som publicerat många datakällor på portalen är Kungliga biblioteket, som inte specificerat något format eller länk till de data till de källor som är registrerade på portalen.

Som tredjepartsanvändare lämnar detta ett oseriöst intryck, då många av dataseten helt saknar dataformat eller fungerande länkar. Att det vanligaste filformatet (förutom ospecificerat format) för publicerade data på portalen är ZIP, får portalen att framstå mer som en fildelningssajt istället för en öppna dataportal. Som användare med förhoppning att hitta data som kan användas för bygga tjänster och applikationer blir detta en besvikelse. Många av dataseten på Öppnadata.se använder dataformat som inte främjar maskinläsbarhet, och enligt rapport från European Data Portal är endast 26 procent av dataseten maskinläsbara. Fornmat som ZIP och PDF låser in data och kräver oftast manuell formatering för att spara det i mer användbara format. Nu när Riksarkivet har tagit över ansvaret för portalen finns det en förhoppning av flera av dessa hinder och trösklar som skapar inlåsning effekter av data undanröjs.

Tabellen visar på vanliga format och hur bra metadata stöd de har.

FormatMetadata stödBeskrivning
ZIP (komprimerad fil)IngetInget stöd för metadata.
CSV (kommaseparerad fil)IngetInget stöd för metadata, första raden kan innehålla namn på kolumn
PDFBegränsatMetadata om skapare och datum.
Kalkylark (Excel)BegränsatMetadata om skapare, datum, format och datatyper. För att extrahera metadata behövs specialprogram eller moduler. Metadata är inte en naturlig del och formatet är proprietärt
JPG, PNGFullgottMetadata om skapare, datum, licensregler, geografisk plats, samt kamerainställningar med mera
JSON, XMLFulländatMetadata strukturer för beskrivning av, ägare, datum, tidszoner, komplexa datatyper och validering av tillåtna värden. Formaten innehåller metadataschema för beskrivning av taxonomier som innehåller objekt och hierarkier

Icon made by Freepik from www.flaticon.com, licensed by CC 3.0 BY

Lämna ett svar