Designprinciper för värdeskapande

Obs! notera att innehållet uppdateras löpande.

Inledning

Öppna data utgör interaktionsgränsen för meningsfullt utbyte, delning och kombinering av data mellan offentlig sektor, medborgare, företag och idéburna organisationer. Vilket gör öppna data till en viktig resurs som behöver utformas  och vägledas av goda principer och praxis. Eftersom denna resurs utgör ett gränssnitt för samarbete och nätverkande med aktörer utanför den egna organisationen, blir det ett viktig redskap för att samarbeta med en heterogen användargrupp. Öppna data behöver kopplas ihop med övriga målsättningar för hur verksamheten samarbetar och främjar utvecklingen av nya digitala lösningar på existerande och framtida samhällsutmaningar. Därför är det viktigt att öppna data bygger på öppna lösningar, teknologier och standarder för att skapa interoperabilitet mellan system och användare. För att detta skall komma till stånd behövs det ledarskap som förstår betydelsen av valda designprinciper och vilka implikationen det får för verksamheten.

För de statliga myndigheterna bör behovet av strategisk digital kompetens beaktas vid förordnande av ledamöter i myndighetsstyrelser, nämnder och insynsråd – Regeringens digitaliseringsstrategi  (N2017/03643/D, sida 15)

Dessa principer och praxis bör innefatta hur all data och information hanteras inom verksamheten för att motverka vertikal systemlösningar. Detta skapar inte bara hinder för att återanvända data intern, det gör det också kostsamt och tidsödande att anpassa det för extern användning. Målsättningar inom offentliga organisationer måste säkerställa att publicerad data kan användas horisontellt internt och extern mellan organisationer för olika ändamål och verksamheter.

Genom att förädla, sammanställa och på andra sätt använda information kan olika aktörer skapa nya kommersiella och ideella tjänster och därmed ge förutsättningar för samhället att tillgodogöra sig det värde informationen kan ha när den används för andra ändamål än myndighetens egen verksamhet. – Regeringens digitaliseringsstrategi (N2017/03643/D, sida 22)

Principer som möjliggör vidareutnyttjande och kombinering med annan data behöver genomsyra all hantering av data i verksamheten. Det behövs en medvetenhet och kännedom att användning av öppna lösningar,  teknologier och standarder möjliggör utbyte av data både internt och externt. Vilket borde vara en självklarhet när det idag finns så många mogna och välfungerande öppna teknologier och standarder tillgängligt. Dessa principer sträcker sig även till processer för upphandling och avtal som också behöver främja öppna lösningar och standarder eftersom att många små och medelstora innovativa aktörer ofta tillämpar öppna teknologier och standarder. Likväl fortsätter många offentliga organisationer upphandla proprietära lösningar och outsourca viktig strategisk datainfrastruktur, vilket tyder på att det också är en fråga om kunskap, ledarskap, och inte bara en fråga om teknik.

Innovationsupphandling och innovationspartnerskap är i sammanhanget viktiga verktyg liksom medveten användning av lösningar av öppen källkod, standarder och testbäddar. – Regeringens digitaliseringsstrategi (N2017/03643/D, sida 25)

Designprinciper

För att göra data ändamålsenlig för flera tillämpningsområden behövs strategier som nyttjas inom hela verksamheten för hur data lagras, hanteras och struktureras. Dessa designprinciper behöver ingå i direktiv som beslutas av ledningen för att visa på betydelsen av att nyttja goda designprinciper och praxis för hantering av data så den kan återanvändas horisontellt inom offentlig sektor, företag, sociala och idéburna organisationer. Detta innebär att data behöver vara enkel att läsas och tolkas av maskiner, enkel att hittas, lätt att kombinera med annan data genom nyttjande av öppna standarder och format.

Offentlig sektor bör även bli bättre på att återanvända sin egen data, inom och mellan myndigheter, på ett sätt som möjliggör nya tjänster och ökad flexibilitet i kontakten med människor och företag, exempelvis med hjälp av artificiell intelligens. – Regeringens digitaliseringsstrategi (N2017/03643/D, sida 22-23)

Data som strategisk resurs

Som nämndes i inledning ger öppna data möjligheten att samarbeta över organisationsgränser med andra aktörer för att dela och kombinera resurser. Om öppna data inte hanteras som en strategisk resurs finns det en risk att frågan inte prioriteras och arbetet kring att tillhandahålla data styrs av tillfälliga insatser. Om det inte finns nationella målsättningar att tillgängliggöra samhällsviktig data, kan insatser att öppna upp data istället styras av det som är tekniskt enkelt att tillhandahålla eller vara mindre politisk känsligt. Vilken kan leda till att den fulla potentialen av digitaliseringen inte infrias och att resurser går förlorade. Därför behövs viktig data hanteras som en strategisk resurs oavsett om det skall användas för internt eller externt bruk. Vad som kan hända om den inte detta görs kan får stora implikationer, vilket manifesterades när Transportstyrelsen outsourcade sin IT-infrastruktur som hanterade samhällsviktigt data.

Dataformat och metadata

Beslut om vilka format som skall användas för att tillgängliggöra data  behöver insikt och kännedom om vad som är ändamålsenligt  för den tilltänkta användningsområdet. Det finns många olika dataformat med olika för och nackdelar, och det finns inget optimalt format som passar för allt. Däremot finns det format som båda är maskinläsbara och enkla att läsa för människor som dessutom har utmärkt stöd för metadata, JSON och XML. Båda formaten är icke proprietära och har en hieratisk struktur, det vill säga att data kan kategoriseras i olika nivåer och undergrupper – vilket gör det enkelt för användaren att transformerar mellan formaten berodde på vilket som passar bäst. JSON och XML har stöd för metadataschema vilket möjliggör beskrivning av objekt, datatyper för attribut och validering av möjliga värden. Vilket gör livet mycket lättare för utvecklare som vill återanvända data utan att behöva tolka och gissa vilka datatyper och värden som är rimliga. Exempel på JSON-schema och XML-schema.  JSON och XML är anpassningsbara format och utgör grunden för de flesta standarder som används på nätet. Dessutom har de flesta webb och programmeringsmiljöer utmärkt stöd för att hantera och behandla data som tillgängliggörs i JSON och XML.

Metadata är lika viktigt som data om det är tänk att användas av andra än dig själv eftersom det beskriver för användaren vilka egenskaper och annan betydelsefull fakta. För att göra en liknelse, föreställ dig att du är intresserad av en bil som står parkerad utanför en bilförsäljare, men som saknar information angående pris, miltal, årtal, bensin/diesel, och annan viktig fakta angående bilens beskaffenhet. Avsaknaden av fakta kring bilens egenskaper kommer antagligen göra att du som spekulant tappar intresse eftersom bilförsäljaren verkar oseriös. En rapport från European Data Portal (2016) visar att endast 26 procent av öppen data i Sverige tillgängliggörs i maskinläsbara format som JSON och XML. Att så mycket data och information tillgängliggörs i format som inte kan läsas av maskiner visar på att mycket tid och resurser går förlorade för att publicera data som inte enkelt kan återanvändas, kombineras och länkas med annan data.

Käll: European Data Portal – Sweden Overview (2016)

Tillgängliggöra data utan metadata kommer begränsa återanvändning och möjligheten att kombinera den med annan data. Kommaseparerade filer (CVS) är också ett öppet maskinläsbart format. Men saknar möjligheten att definiera metadata och  lämnar över ansvaret att tyda, transformera och validera data till användaren. Vilket gör det mindre användbart för utbyte och återanvändning av data. Vid tillgängliggörande av data där inte användaren inte känner till eller är välbekanta med datasetet sedan tidigare är format som har stöd för metadata viktiga. Tabellen visar på vanliga dataformat och hur väl de ger stöd för metadata.

 

FormatMetadata stödBeskrivning
ZIP (komprimerad fil)IngetInget stöd för metadata.
CSV (kommaseparerad fil)IngetInget stöd för metadata, första raden kan innehålla namn på kolumn
PDFBegränsatMetadata om skapare och datum.
Kalkylark (Excel)BegränsatMetadata om skapare, datum, format och datatyper. För att extrahera metadata behövs specialprogram eller moduler. Metadata är inte en naturlig del och formatet är proprietärt
JPG, PNGFullgottMetadata om skapare, datum, licensregler, geografisk plats, samt kamerainställningar med mera
JSON, XMLFulländatMetadata strukturer för beskrivning av, ägare, datum, tidszoner, komplexa datatyper och validering av tillåtna värden. Formaten innehåller metadataschema för beskrivning av taxonomier som innehåller objekt och hierarkier

Dataresurser på nätet

WC3 är en medlemsorganisation som driver viktiga öppna standardiseringar och ser till att webben ser ut som den gör idag. Grundaren Tim Berners-Lee skapade första versionen hypertext standarden 1991 (HTTP och  HTML), som möjliggjorde sammanlänkning av text, bilder och video på nätet. W3C och Tim Berners-Lee (TED talk) har varit en förespråkar sedan mitten av 2000-talet av ett paradigmskifte från att publicera text – till att publicera data på nätet. Protokollet som gör detta möjligt är uniform resource identifier (URI) och publicerades i sin nuvarande version (RFC 3986) redan 2005. De flesta är  mest bekanta med URL (uniform resource locator) delen av standarden för adresser till webbplatser. Genom att nyttja hela URI standarden blir det möjligt att skapa unik identifierare (URI) och publicera dataresurser på nätet. URI:er kan användas för att publicera data och information om fysiska och abstrakta resurser på nätet som exempelvis skolor, vägar eller regionindelning. Det är upp till den som publicerar data att säkerställa att (URI) identifierarna är både unika och beständiga över tid för att skapa förtroende till användbare som behöver använda och länka till dataresurser. En av fördelarna med URI protokollet är att det redan används idag för att publicera innehåll på webben. Protokollets regler för unika identifierare tillsammans med standarder för begreppsmodeller som beskriva egenskaper av data och möjliggör interoperabilitet och återanvändning med bibehållen betydelse mellan organisationer och nationer. Stycket nedanför beskriver designprinciper för URI:er och grunden för länkad data, begreppsmodeller och den semantiska webben. W3C är öppet för andra företag och organisationer som vill delta i arbetet med någon av de för närvarande 95 stycken standardiseringar, som ligger under organisationens paraply idag.

URI design

Med hjälp av unik identifierare (URI) kan data enklare återanvändas och länkas med annan data på nätet. URI:er kan användas för att publicera data och information om fysiska och abstrakta resurser på nätet som exempelvis skolor, vägar eller regionindelning . För att referera till resurser behöver identifierare och adresser var beständiga över tid och vara logiskt strukturerade. Länken nedanför är en URI som beskriver länet Kent syd-ost om London, vilket är länkat till  resurser för att skapa kontext, som exempelvis regioner, vägar och geografiska egenskaper.

http://data.ordnancesurvey.co.uk/doc/7000000000018210

URI:n för länet Kent följer riktlinjer för hur engelska offentliga sektorn bör publicera dataresurser på nätet (designing URI sets for the UK public sector). Att tillgängliggöra data och information som resurser på nätet kan vara ett omfattande arbete som bör göras iterativt eftersom det troligen kräver tillpassning och av både arbetssätt  och IT-stöd. Därför rekommenderar W3C att börja publicerat data som har stort samhällsvärde och som kan återanvändas inom offentligt sektor. Att strukturera och publicera resurser med beständiga URI:er är en del av rekommendationen för publicering av länkad data som beskrivs i stycket nedanför.

Länkad data

Innan hypertext (HTML & HTTP) lanserades var inte existerande elektroniska dokument länkade med varandra på ett standardiserat sätt, vilket gjorde det svårt att referera till varandras dokument och skapa sammanhang. I dag står vi inför en liknande problematik med mängder av fristående datakällor på nätet som inte nyttjar standardiserade format och protokoll för att göra data mer användbar och tillgänglig. Precis som dokumenten på internet, behövs data länkas med varandra för att enklare kunna hittas och skapa kontext. Länkad data tillsammans med semantiska modeller- även kallat begreppsmodeller, möjliggör att data blir överförbar mellan system, organisationer och landsgränser med bibehållen betydelse.

Länkad data nyttjar samma protokoll som används för att adressera webbsidor på nätet. Uniform Resource Identifier (URI) används för att identifiera unika resurser på nätet. Webbplatser använder oftast bara Uniform Resource Locator (URL) av protokollet för att identifiera unika platser. Styrkan med länkad data är att data kan kopplas ihop med annan data över organisationsgränser genom att  använda beprövad teknik som redan är tillgänglig. Att publicera data med unik identifierare (URI) kräver lite mer förberedelse gentemot att publicera webbsidor, eftersom unika identifierare (URI) behöver vara kopplat till nycklar som används av interna IT-system. Unika identifierare behöver också skapas utifrån en konvention och  process som kan förstås av människor och maskiner, som exempelvis Storbritanniens  designriktlinjer för URI:er. Detta är viktigt för att göra den beständig över tid och möjliggöra återanvändning av dataset som är länkade till varandra. Verktyg som femstjärnig modell för länkad data kan bidra med att visa på vilka steg som behöver göras. Modellen är inte ett praktisk verktyg, utan fungerar som motivation och indikation på nivå av mognad för implementering av länkad data. Det är först vid steg fyra och  fem som arbetet med länkad data börjar generera större värden .

Källa: 5 ★ Open Data

Semantisk webb och begreppsmodeller

Publicera data via att skapa unika identifierare (URI) är startskottet för att  skapa den semantiska webben eller webben 3.0. Detta nya paradigm innebär publicering av data i standardiserade format som är avsedda att läsas av maskiner istället personer. Länkad data skapar global interoperabilitet mellan system genom att nyttja format för att länka data (RDF, JSON-LD), protokoll för att skapa unika identifierare (URI) och slutligen sammankoppla dessa datamängder via semantiska modeller med hjälp av standarder för att definiera taxonomier och vokabulär  (RDFS, OWL) som används för att skapa begrepps och kunskapsmodeller. Bilden nedanför visar vilka format, standarder och protokoll som ligger till grunden för den semantiska webben.

Källa: Wikipedia (en)

SPARQL används för att ställa frågor på länkad data som nyttjar standardiserade begrepp (taxonomier) vilket skapar interoperabilitet mellan system och data. Exempelvis om all elevers skolresultat inom EU var publicerad som länkad data och nyttjade samma begreppsmodell (eller modeller beroende på lokala anpassningar för språk och terminologi).  Skulle det vara möjligt att ställa frågor om vilka kommuner, regioner och länder som har elever med medelbetyg över nivå B (förutsatt att betygsnivå ingår i begreppsmodellen). Utökar vi vårt exempel, kan vi länka in ytligare data för medelinkomst i vår förfrågan för att ta med medelinkomsten i de områden där elever har ett medelbetyg över nivå B.

För att enklare hitta och automatiskt indexera publicerad data finns standarder som DCAT-AP, GeoDCAT-AP som bygger på syntax från formatet RDF. DCAT-AP kan användas för data som inte är länkad (XLS, CVS, PDF), men medför att nyttan med tillgå sammanlänkad data över organisations och landsgränser går förlorad. Läs mer om EU kommissionens initiativ med European Data Portal för interoperabilitet mellan data portaler i Europa.

Semantiska modeller eller så kallade ontologier, gör det möjligt att definiera data med bibehållen betydelse över organisations- landsgränser och minimerar möjligheterna till feltolkning. Semantiska modeller kan länkas med varandra, vilket medför att gemensamma begrepp och definitioner kan användas av alla för att referera till en gemensam standard. Som exempelvis begrepp och definition av kommun och regionindelning. Flera branschområden använder semantiska modeller idag för att beskriva komplex förhållande och relationer mellan objekt inom specialiserade verksamhetsområden. Exempelvis finns det modeller för medicinskt terminologi som beskriver kliniska behandlingar av sjukdomar, diagnostik och läkemedel som kallas SNOMED CT(Socialstyrelsen). Projektet är ett internationellt samarbete som har ett antal lokala anpassningar för olika språk som alla länkar till tillbaka en övergripande begreppsmodellen. Vilket medför att behandling och diagnostik av patienter som flyttas över landgränser blir entydig, och minimerar risken för felbehandling beroende på tolknings fel.

En dela av arbetet med att modellera semantiska modeller utgörs av att  kategorisera och definiera relationen mellan objekt. Bilden nedan representerar ett exempel av en enkel topologi av relationer mellan några däggdjur och egenskaper de besitter.

Källa: Semantic network – Wikipedia

 

Implementering av länkad data

Att styra över fokus från att publicera webbsidor till att publicera länkad data på webben kommer vara en process som behöver tid, kunskap och förståelse eftersom det troligen behövs förändringar av både verksamhetsprocesser och IT-arkitektur. För större förändring rekommenderar W3C att man börjar med dataset som har geografisk positioner och som kan länkas samman med exempelvis postkod, kommun- regionindelning om detta finns tillgängligt nationellt som länkad data. Anledningen att välja data med högt samhällsvärde och med potential för återanvändning, är kopplat till kostnaden för att underhålla och skapa semantiska modeller. W3C ger förslag på hur modeller kan underhållas genom bland annat livscykelprocesser som kan tillämpas för organisationer med mandat att förvalta och leda liknande arbeten. Förslag nedanför visar på en iterativ process som består av; 1) specificera 2) modellera 3) generera 4) publicera och 5) exploatera.

Källa: Best Practices for Publishing Linked Data

Interoperabilitet

För att möjliggöra att data enkel kan flyttas och kombineras över organisations och landgränser är det viktigt att öppna format och standarder används.

 

5 svar på “Designprinciper för värdeskapande”

  1. hmm vad menar vi med det här, varför är det viktigt att använda öppen källkod? och till vad? Det stod samma sak i en rapport från IIS

    Därför är det viktigt att öppna data bygger på öppen källkod, teknologier och standarder som kan skapa interoperabilitet mellan system och användare.

  2. Nu har jag inte hunnit läsa IIS rapporten om öppna data ännu. Men om exempelvis öppna data infrastrukturen drivs av en proprietär lösning, som är helt i kontroll av en exempelvis ett vinstdrivande företag. Kan företag välja att låsa in användarna och styra dom att använda andra standarder och produkter som företaget utvecklat. Ta exempelvis Microsoft som inte följde standardisering av HTML och gjorde en egen version för att det passade bättre till deras webbserver och webbläsare. Med avsikt att troligen låsa in användare i till deras ekosystem produkter. Apple är ett annat exempel.

    Förenklat kan man säga att även om Microsoft och Apple väljer att följa en öppen standard, finns det riska att dom utvecklar egna tillägg till standaren som bara fungera i deras proprietär system. Eftersom som de är så stora och har så många användare kan de locka över företag och organisationer att köra deras webbserver istället för Apache webbserver (öppen källkod) som följer öppna standarder. Sen när de stora drakarna har alla användare kan de själva utöva påtryckningar av öppna standarder eller hota med att hoppa av arbetet om de inte får som dom vill.

    Styrkan med öppen källkod är att det bygger på principen om delaktighet, att alla som deltar ha möjlig att säga sitt om utvecklingen så det inte bara en enskilt förtaga som styr. Vet inte om det var svar på frågan?

  3. vi har ju ett parallellt FOI på G som hanterar frågan “värdet på information” kanske skulle vara bra att peka på det projektet också och kanske sno nått bra

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *

Captcha * Time limit is exhausted. Please reload CAPTCHA.