Viiden ja seitsemän tähden mallit

Avoimen datan laatua on yritetty parantaa kansainvälisesti useilla eri tavoilla. World Wide Web -kehittäjä Tim Berners-Lee esitti vuonna 2009 oman mallinsa avoimen datan laadun kehittämiseen. Malli käydään läpi osana tätä teknistä viitekehystä, koska se on kansainvälisesti merkittävä. Esimerkiksi EU selvittää mallin käyttöä jäsenmaissa vuosittaisessa kyselyssään.

Berners-Leen malli tarjoaa ymmärrystä avoimen datan kehityksestä ja avaa eri tiedostomuotojen merkitystä osana datan avaamisen kehityskulkua. Mallin taustalla on halu edistää linkitetyn datan käyttöä. Mallin tasot 4 ja 5 ovat kuitenkin herättäneet laajaa keskustelua. Kaikki eivät kannata linkitettyyn dataan johtavaa avoimen datan kehitystä, koska se saattaa tehdä jossain tapauksista datan hyödyntämisestä vaikeampaa. Berners-Leen malli on avattu alla olevassa taulukossa.

Taulukko. Tim Berners-Leen esittelemä avoimen datan viiden tähden malli

Taso

Tähdet

Vaatimus

Käytännön esimerkki

5

★ ★ ★
★ ★

★ ★ ★ ★ + tietoaineistossa on linkkejä toisiin, sen ulkopuolisiin avoimen datan aineistoihin. Näin tietoaineiston avulla voi selailla siihen liittyvää avointa tietoa verkostomaisesti.

Tietoaineistojen välillä voi liikkua ja eri aineistot muodostavat kokonaisuuden. Esimerkiksi https://lod-cloud.net/-sivusto visualisoi linkitettyä dataa.

4

★ ★
★ ★

★ ★ ★ + datassa on yksilöllinen ja elinikäinen tunniste ja tietoaineiston sisälle voi viitata eri kohtiin. 

Usein RDF tai SPARQL.

SPARQL on W3C-standardoitu kyselykieli RDF-tietokantaan. Esimerkiksi taulukon muotoinen data, joka yksittäisiin soluihin voi viitata.

3

★ ★ ★

★ ★ + tietoaineisto on saatavilla avoimessa tiedostomuodossa.

Tietoaineiston jakelu on esimerkiksi CSV-muodossa  (comma-separated values)

2

★ ★

+ tietoaineisto on saatavilla rakenteellisessa muodossa.

Esimerkiksi Microsoft Excel, PowerPoint ja Word. Esimerkiksi taulukko, joka on skannattu kuvaksi, ei ole rakenteellisessa muodossa, mutta Microsoft Excel on.

1

Data on internetissä saatavilla missä tahansa tiedostomuodossa ja sen käyttölupa eli lisenssi on avoin.

Tyypillisesti aineisto on PDF-tiedostomuodossa.

Kaikki Avoindata.fi palvelussa julkaistu data sijoittuu tässä mallissa vähintään tasolle 1 (★), eli datan käyttölupa mahdollistaa datan avoimen käytön. Avoindata.fi palvelu suosittelee, että vähintään yksi (1) tietoaineiston jakelumuodoista täyttäisi vähintään tason 3 ( ★ ★ ★) vaatimukset.

Suomalaiset Aalto-yliopiston semanttisen internetin tutkijat Eero Hyvönen, Jouni Tuominen, Miika Alonen ja Eetu Mäkelä esittivät vuonna 2014 täydennystä Tim Berners-Leen alkuperäiseen viiden tähden malliin kahdella lisätähdellä. Alkuperäisessä mallissa voidaan viiden tähden tasolla käyttää mitä tahansa sanastoa ja tietomallia.

Mallia täydentävässä esityksessä tasolla 6 avoimen datan tietomalli perustuu johonkin yleisesti saatavilla olevaan semanttiseen tietomalliin. Keskeinen ero on silloin se, että samaa tietomallia käytetään yleisesti ja useissa eri toimijoiden tekemissä datan avauksissa sen sijaan, että jokainen tekisi oman tietomallinsa vaikka jokainen uuden tiedon avaamisen yhteydessä. Tasolla seitsemän (7) tietosisällön voi testata automaattisesti tietomallia vasten. Eli varmistaa, että tieto vastaa ilmoitettua tietomallia.

Taulukko. Alkuperäistä Tim Berners-Leen esittämän avoimen datan viiden tähden mallia täydentämään on esitetty vielä kahta tähteä.

Taso

Tähdet

Vaatimus

Käytännön esimerkki

7

★ ★ ★ 

★ ★ ★

Edellisten vaatimusten lisäksi tietoaineiston sisältö voidaan testata koneellisesti tietomallia vasten.

 

6

★ ★ ★

★ ★ ★

Edellisten vaatimusten lisäksi datassa ei voi käyttää itse keksittyä tietomallia. Datassa käytettävän tietomalli pitää olla laajasti tunnettu.

Tietomalli on esimerkiksi EU-maiden yhteinen (korkean lisäarvon tietoaineistot) tai pohjautuu esim. Schema.org tietomalliin.

Yhteenveto

Tim Berners-Leen alkuperäinen viiden tähden malli keskittyy käyttöluvan avoimuuteen (lisenssi), tiedostomuodon avoimuuteen ja avoimeen rakenteeseen (tietoalkioiden osoittaminen). Eero Hyvösen, Jouni Tuomisen, Miika Alonsen ja Eetu Mäkelän tekemä esitys mallin laajentamisesta ottaa näiden lisäksi laajemman semanttisen yhteentoimivuuden ja tietoaineiston automaattiseen testattavuuden mukaan. Testattavuuden avulla voidaan selvittää, että data noudattaa ilmoitettua tietomallia (skeemaa). Suomessa on myös kehitetty yhteentoimivuusalustaa, joka pyrkii lisäämään tiedon semanttista yhteentoimivuutta.

Lisätietoja

https://5stardata.info/en/

https://www.w3.org/DesignIssues/LinkedData.html

https://link.springer.com/chapter/10.1007%2F978-3-319-11955-7_24