Avoin data ja omadata täydentävät toisiaan

Erilaisia näkökulmia organisaation digitaaliseen tietoon

Organisaation hallussa olevaa digitaalista tietoa voidaan jäsentää eri tavoin. Avoin data ja omadata (engl. MyData) ovat kaksi erilaista tapaa katsoa organisaatiotietojen osajoukkoja. Omadata on henkilötietojen osajoukko. Avoin data on julkisen tiedon osajoukko. Nämä näkökulmat käsittelevät eri osia digitaalisesta tiedosta ja täydentävät toisinaan.

Huom! Teksti on edelleen luonnosvaiheessa.

Näkökulmia tietoon on varmasti lähes yhtä paljon kuin ihmisiä. Tietojen semanttista yhteentoimivuutta on tavoiteltu ainakin siitä lähtien kun kirjoitustaito keksittiin. Ja todennäköisesti jo kauan ennen sitä. Jotta ihmiset voisivat ymmärtää toisiaan, on jonkinasteinen semanttinen yhteentoimivuus tarpeellinen. Tässä ’riittävän hyvä’ on se avainsana. Täydellisyys on mahdotonta, koska tarkasti ajateltuna kaikki ihmiset kuitenkin tulkitsevat kieltä omalla tavallaan.

Avoimella datalla tarkoitetaan tietoa, joka on vapaasti hyödynnettävää dataa. Käytännössä sana ’avoin’ tarkoittaa sitä, että tiedon käytössä on mahdollisimman vähän mitään rajoituksia edelleen käytön suhteen. Data taas voi olla esimerkiksi kuvia, tekstejä, musiikkia, videoita, nuotteja, taulukoita ja karttoja. Usein avoimessa datassa puhutaan koneluettavuudesta, joka tarkoittaa sitä, että data on myös koneelle rakenteellisessa muodossa. Eli ihmisen lisäksi myös tietokone ymmärtää datan rakennetta.

Avoin data on jo Gartnerin hype-käyrällä vähän kypsemmässä vaiheessa. Se on lisännyt Suomessa tietoperusteista päätöksentekoa. Esimerkiksi taloudellinen kilpailu julkisissa hankinnoissa on lisääntynyt, kun valtion ja kuntien ostolaskut on avattu avoimena datana koko yhteiskunnan tarkasteltavaksi. Suomeen myös syntynyt uusia yrityksiä, palveluita ja tuotteita, jotka hyödyntävät avointa dataa osana tuotteitaan.

Omadatalla (engl. Mydata) tarkoitetaan sitä, että ihminen pystyy itse hallinnoimaan osaa omista henkilötietoistaan. ’Henkilötieto’ tarkoittaa osaa kaikista tiedoista. Henkilötietolaissa oleva määritelmä merkitsee sitä, että lähtökohtaisesti kaikki luonnolliseen henkilöön liittyvät tiedot ovat henkilötietoja.

Avoimen datan ja omadatan yhteiset tavoitteet:

✅ Mahdollistaa digitaalisten tietojen mahdollisimman tehokas uudelleenkäyttö (tiedonhallinta)
✅ Tehostaa tietoperusteista päätöksentekoa
✅ Tehostaa yhteiskunnan prosesseja (uudistamalla niitä)
✅ Luoda uusia mahdollisuuksia: Yritykset, tuotteet ja palvelut
✅ Helpottaa kansalaisten arkea
✅ Luoda yhä älykkäämpiä ja parempia digitaalisia palveluita
✅ Uudistaa sekä julkisen sektorin että yritysten toimintaa

Kyseessä on kaksi erilaista näkökulmaa tietoihin.

Alla olevassa taulukossa vertaillaan avointa dataa ja Mydataa keskenään.

Ominaisuus Avoin data Omadata (englanniksi Mydata)
Mahdollisimman tarkka käsitemäärittely? Data, joka on kenen tahansa uudelleen käytettävissä maksutta, luvallisesti ja koneluettavassa muodossa (JHS-189) 'MyDatalla' viitataan ilmiöön ja ajattelutavan muutokseen, jossa henkilötiedon hallintaa ja käsittelyä pyritään viemään nykyisestä organisaaatiokeskeisestä mallista ihmiskeskeiseksi. Toisaalta MyDatalla viitataan henkilötietoon resurssina, jota ihmiset voivat itse hyödyntää. (MyData – johdatus ihmiskeskeiseen henkilötiedon hyödyntämiseen 2018).
Mitä dataa sisältää? Avointa dataa. Pääosin ei henkilötietoja. Henkilötietoja, jotka on "julkaistu" omadatana (osajoukko).
Millaista dataa esimerkiksi? Karttoja, tilastoja, lainsäädäntö / yksittäiset lait, yritysrekisteri, valtion budjetti, ostolaskut, valtion selvitykset / raportit, tutkimusaineisto (jos ei sisällä henkilötietoja) Omat terveystiedot, verotustiedot, opintotiedot, liikkumistiedot, rokotushistoria, osoitetiedot ja asumishistoria. MyData-julkaisu mainitsee ostos-, liikkumis-, talous- ja terveystiedot.
Datan tyyppi? Usein summattua ja anonymisoitua tietoa Yhtä henkilöä käsittelevää dataa. Jokainen henkilön tiedot ovat nähtävillä vain itselleen.
Kuka päättää tietojen julkistamisesta? Datan avaaja. Tyypillisesti rekisterin ylläpitäjä ja tiedon tuottaja. EU:n tietosuoja-asetuksen mukaan henkilö voi pyytää omia tietojansa. Tiedot voidaan luovuttaa tiedostona. Toisaalta MyDatan operaattorimalli lähtee siitä ajatuksesta, että tietojen luovutusta varten on rakennettu rajapinta, mitä kautta tietoja voi siirtää.
Kuka päättää tietojen käyttämisestä? Tietoja voi hyödyntää vapaasti kuka tahansa. Henkilö, jota tiedot käsittelevät päättää niiden käytöstä. Kenelle jakaa mitäkin omia tietoja. EU:n tietosuoja-asetus listaa kuusi perustetta henkilötietojen käsittelylle: suostumus, sopimus, lakisääntöisen velvotteen noudattaminen, elintärkeiden etujen suojaaminen, julkisen vallan käyttäminen ja oikeutettujen etujen toteuttaminen. Julkisessa hallinnossa kyseessä on pääosin tietojen toisisijainen käyttö. Tietojen ensisijainen käyttö on "julkisen vallan käyttämistä" pääosin.
Keskeisin lainsäädäntö / yleislainsäädäntö? PSI-direktiivi, julkisuuslaki EU:n tietosuoja-asetus
Jakelutapa? Katalogi, latauspalvelu, rajapinta ja tiedosto. Tiedosto ja rajapinta. Operaattori-mallissa vain rajapinnat.
Sisältääkö anonymisoituja tietoja? Kyllä Ei sisällä.
Miten liittyvät toisiinsa? Omadataa voidaan anonymisoida ja esimerkiksi summata niin, että siitä tulee avointa dataa. Henkilö voi itse päättää julkaista omadatansa avoimena datana (sisältäen henkilötietoja) tai esim. anonymisoida sen avoimeksi dataksi.
Tietojen lisenssi / käyttölupa? Creative Commons BY 4 / CC0 1.0. JHS-189 (avoimen tiedon käyttölupa) on suomennus näistä. Henkilö itse päättää tietojensa käytöstä. Käyttöluvista on olemassa erilaisia hahmotteluja.

 

Avoimen datan ja omadatan yhteisiä piirteitä:

✅ Tiedon tulisi olla koneluettavassa muodossa (myös koneet ymmärtävät tiedon rakennetta)
✅ Tieto tulisi olla semanttisesti yhteentoimivaa (tiedon sisältö ymmärretään samalla tavalla)
✅ Tieto tulisi olla avoimessa data formaatissa (esim. CSV, XML, TXT)
✅ Tiedon 'kitkaton' liikkuvuus on tärkeää

Tällä hetkellä tämän jaoittelun ulkopuolelle jää esimerkiksi yritysten ja organisaation luottamukselliset tiedot. Niitä voisi hallita organisaatio itse. Tämän tyylisiä tietoja käsittelee julkisessa hallinnossa esimerkiksi Tilastokeskus, Business Finland ja Verohallinto. Tätä ajatusta ei ole haluttu ottaa osaksi omadata käsitettä. Eli on olemassa muitakin tapoja jäsentää organisaation hallussa olevia digitaalisia tietoja. Näitä ovat esimerkiksi paikkatiedot, orgtiedot jne.

Mika Honkanen 23.3.2019