Pika-opas avoimen datan julkaisuun

Kahvila

1. Poista henkilötiedot, yritysten liikesalaisuudet ja muut salassa pidettävät tiedot

Tietosuojan takia avoin data ei voi juuri koskaan sisältää henkilötietoja. Tyypillisesti henkilötiedot poistetaan tai anynomisoidaan datasta ennen pois ennen sen julkaisua.

Henkilötietoja ovat kaikki tiedot, jotka liittyvät tunnistettuun tai tunnistettavissa olevaan henkilöön. Toisin sanoen, tiedoista muodostuu identiteetti, jonka perusteella voidaan päätellä, ketä tiedot koskevat. Henkilötietoja ovat esimerkiksi nimi, puhelinnumero, osoite, sijaintitiedot ja isovanhempien perinnöllisiä sairauksia koskevat tiedot.

Avoindata ei koskaan sisällä salassa pidettäviä asioita tai liikesalaisuuksia. Tässä lainsäädännön kartoitus on tärkeää.

On arvioitu, että noin 1% julkisen hallinnon tiedoista on salassa pidettäviä. Henkilötietojen tietosuoja koskee toki paljon suurempaa osaa tiedoista. Lähtökohtaisesti julkisen hallinnon tiedot ovat avoimia. Näin määrittelee julkisuuslaki (laki viranomaisten toiminnan julkisuudesta 21.5.1999/621) Julkisuusperiaate (1 §) "Viranomaisten asiakirjat ovat julkisia, jollei tässä tai muussa laissa erikseen toisin säädetä." Tietoaineistojen käsittelyä ohjataan suojaustasojen avulla. 

Viranomaisen asiakirja on pidettävä salassa, jos se julkisuuslaissa tai muussa laissa on säädetty salassa pidettäväksi tai jos se sisältää tietoja, joista on lailla säädetty vaitiolovelvollisuus. 

2. Aseta sisäiset ja ulkoiset tavoitteet

Vastaa: Miksi julkaiset avointa dataa? Mitä tavoittelet sillä?

Esimerkiksi:

  1. Eniten avoin data tehostanut sisäisesti datan avaajan prosesseja. Kun datan elinkaaren hallintaan kiinnitetään huomiota, tulee datasta myös sisäisesti paljon helpommin höydynnettävää.
  2. Suurempi määrä ihmisiä tarkoittaa suurempaa määrää innovaatioita ja suurempaa erilaista osaamista tarkastelemaan dataa. Suurin osa mielenkiintoisimmista käyttötapauksista on usein yllättäviä (laatikon ulkopuolelta tulevia uusia ajatuksia).

Käytännössä esimerkiksi Helsingin kaupunki arvioi säästävänsä 1-2% eli 50-100 miljoonaa euroa vuodessa avaamalla ostolaskunsa avoimena datana. Avoimuus tekee rahankäytöstä vastuullisempaa ja toisaalta lisää esimerkiksi toimittajien välistä kilpailua julkisista hankinnoista. Helsingin kaupungin 5000 miljoonan euron vuosibudjetissa pienetkin prosentit ovat suuria summia.

Kansantalouden näkökulmasta datan avaaminen ja uudelleenkäyttö tehostaa yhteiskunnan toimintaa merkittävästi.

3. Valitse oikea ja avoin tiedostomuoto avoimesti julkistavalle datalle

Teksti: TXT

Helpoin ja varmin tiedostomuoto tekstin julkaisemiseen on .txt. Vältä julkaisemista Microsoft Word (.doc) tiedostoina. Pelkkää tekstiä voi myös julkaista PDF:nä, kunhan se ei sisällä muuta (esim. taulukkoja tai kuvia jne.)

Taulukkomuotoinen data: CSV

Älä koskaan julkaise PDF:nä. Paras ja helpoin tiedostomuoto taulukoille on CSV (Comma-separated Values). Tiedot saa Microsoft Excelistä ulos esimerkiksi CSV:nä (export...).

Paikkatiedot, pieni vektoridata: GeoJSON

Käytä GeoJSON tai KML:ää. Molemmissa tiedostomuodoissa koordinaattien kuvaamiseen käytetään WGS84 koordinaattimuotoa. Sitä on helppo käsitellä useilla eri ohjelmilla ja työkaluilla.

Paikkatiedot, suuri rasteridata: GeoTIFF

Hyvä yksinkertainen tiedostomuoto rasteridatan julkaisuun on GeoTIFF. Muille kuin maantieteellisille taulukkotiedoille NetCDF on hyvä valinta. Rasteridata on koostuu pikseleistä (kuvapisteistä), jotka muodostavat ruudukon. Rasterikuvia kutsutaan myös bittikarttakuviksi ja pikselikuviksi.

4. Käytä JHS-189 / Creative Commons käyttölupaa eli lisenssiä avoimelle datalle

Datan käyttöluvan eli lisenssin määrittäminen on välttämätöntä datalle. Suomessa suositellaan datan metatiedoille (dataa kuvaaville tiedoille) CC0 -lisenssiä ja itse datalle CC BY 4 -lisenssiä. Näistä kansainvälisistä ja hyvin tunnetuista lisensseistä on tehty myös JHS 189 Avoimen tietoaineiston käyttölupa -suositus.

5. Hyödynnä avoindata.fi -palvelua!

Datan julkaisua varten et tarvitse kalliita ja kuukausia kestäviä omia tietojärjestelmähankkeita. Hyödynnä jo olemassa olevaa avoindata.fi -palvelua ilmaiseksi. Täällä voit julkaista dataa minuuteissa.

6. Käytön edistäminen

Dataa julkaisemalla olet mahdollistanut uusia, mahtavia tapoja ajatella ja oppia uutta. Datan avaajan on tärkeää viestiä dataa tutkivien ja hyödyntävien kanssa. Seuraa DisQusia ja anna sähköpostiosoite, jonne datan hyödyntäjät voivat lähettää kysymyksiä tai palautetta datasta.

Avoimuus luo uusia mahdollisuuksia. Etsi linkkejä, linkitä omaa aineistoa ja etsi tapoja tehdä yhteistyötä muiden kanssa. Selvitä, miten voit oppia muilta ja tukea muiden oppimista datasta.

Tarjoa esimerkkejä siitä, miten dataa voi hyödyntää. Julkaise datan visualisointi tai kerro, miten itse hyödynnät dataa tai tarjoa valmiita avoimen lähdekoodin toteutuksia.

Esimerkiksi viimeaikoina avoin data on alkanut kiinnostamaan tekoälyn soveltajia, koska viranomaisen rekistereistä irroitettu avoin data on korkealaatuista (datassa on hyvin vähän virheitä tai vääriä merkintöjä). Sisäisesti taas valtion hallinnon 74 000 työntekijää tekevät lähes pelkästään tietotyötä, jolloin suurimmat tehostamisen mahdollisuudet liittyvät tiedonhallinnan ja käsittelyn tehostamiseen.

Bonus

Lisää avoimen datan kylkeen kuvaus datan metatiedoista, jotta datan sisältö ymmärretään oikealla tavalla. Voit esimerkiksi kuvata metatiedot Suomi.fi -yhteentoimivuustietomallin sovellusprofiililla (ja linkittämällä tämän avoimen datan yhteyteen).

Mika Honkanen, 3.1.2019