4. Suunnittelu ja toteutus

Avattavan tiedon määrittely

Tässä vaiheessa kuvataan asioita, joita organisaation on hyvä arvioida ja määritellä, kun organisaatio ryhtyy suunnittelemaan tiedon avaamista käytännössä. 

Avattavan tietoaineiston määrittelyyn ei ole olemassa virallisia suosituksia.

Tietoa jo avanneissa organisaatioissa on yleensä alkuun tunnistettu, kuka hallinnoi ja vastaa avattavaksi suunnitellusta tiedosta ja sen taustalla toimivasta tietojärjestelmästä sekä mahdollisia käyttötapauksia. Tässä vaiheessa voi hyödyntää esimerkiksi organisaation tiedonhallintamallia, johon on kuvattu organisaation tietovarannot, tai tukeutua tiedon avaamiseen vastuutetun henkilön apuun, mikäli organisaatiossa on tähän tehtävään osoitettu resursseja. 

Tietoa avanneet organisaatiot ovat käyneet läpi tietoaineiston omistajuuteen, tekijänoikeuksiin, tiedon luovutuksiin, tietosuojaan ja tietoturvallisuuteen liittyvät seikat. Mikäli nämä seikat eivät ole estäneet tiedon jakamista, on tiedon hallinnoijan kanssa selvitetty, miten tietoaineisto olisi käytännössä muodostettavissa ja jaettavissa teknisesti. Samalla on määritelty avattavan tietoaineiston kattavuus ja tarkkuustaso, jolla tietoaineiston voi avata, jotta tiedon hyötypotentiaali tai hyödynnettävyys ei kärsi. 

Tietoaineiston määrittelyn yhteydessä on myös arvioitu

  • tiedon avaamisesta mahdollisesti koituvia hyötyjä, riskejä ja kustannuksia,
  • avattavan tietoaineiston laatua, metatietoja ja julkaisupaikkaa,
  • tietoaineiston elinkaarta ja
  • suunniteltu riittävä tietoliikennekapasiteetti ja käyttäjätuki.

Näitä asioita kuvataan tarkemmin seuraavissa vaiheissa. 

Tietoa avanneet organisaatiot ovat lähtökohtaisesti pyrkineet selvittämään, onko kyseisen tiedon avaamiseen (esimerkiksi tiedon mallinnukseen ja formaatteihin) olemassa kansallisia tai kansainvälisiä standardeja tai onko jo jokin toinen taho avannut vastaavanlaisen datan, jolloin sen tietomallia voi käyttää omassakin avauksessa. Kansainvälisiä standardeja käytettäessä kannattaa huomioida eri maiden lainsäädännön eroavaisuudet erityisesti tietosuojan osalta. Suomen kuusi suurinta kaupunkia ovat keränneet listaa eräistä kansainvälisistä standardeista (google sheets, englanniksi), joiden mukaisesti Suomessakin on tietoa jaettu. Aineistojen metatiedoissa esimerkiksi avoindata.fi:ssä käytetään DCAT-AP-tietomalliprofiilia.

Samalla on hyvä myös pohtia, olisiko tietoaineiston avaamisen yhteydessä mahdollista avata myös tietoaineiston tuotantoprosessi (laskentasäännöt, algoritmit tms.).

Lisätietoa aiheesta löydät Euroopan dataportaalista:

Helsinki Region Infosharen vinkkejä

Tiedon avaamiseen on tärkeää nimetä yksi selkeä taho (vastuutettu rooli), johon organisaation ulkopuoliset voivat olla yhteydessä avoimen datan asioissa. Lisäksi kannattaa järjestää esimerkiksi kehittäjätapaamisia, joissa voi kerätä palautetta jo ennen tiedon avaamista.

Ilmatieteen laitoksen vinkkejä

Tiedon hallinnoijan kannattaa huomioida, miten metadata ja sanallinen kuvaus tuotetaan aineistosta sekä miten vastataan mahdolliseen käyttäjätuen tarpeeseen julkaisun jälkeen.

Maanmittauslaitoksen vinkkejä

Tiedon hallinnoijan tulee käydä data yksityiskohtaisesti läpi tekijänoikeuksien osalta, jotta omistajuus on selvää. Mikäli data on aiemmin lisensoitu maksullisena, tulee siirtymäaika ja asiakasviestintä suunnitella huolellisesti. Lisäksi tulee varmistaa tietoliikennekapasiteetti.

Hyödyt, riskit ja kustannukset

Tässä vaiheessa kuvataan, miten organisaatio voi arvioida avattavaksi suunnitellun tietoaineiston avaamisesta mahdollisesti syntyviä hyötyjä, riskejä ja kustannuksia. Hyötyjen, riskien ja kustannusten arviointiin kehitetyn työkalun voit ladata käyttöösi osiosta Menetelmä tiedon avaamisen hyötypotentiaalin, riskien ja kustannusten arviointiin.

Tiedonhallintalautakunta on antanut suosituskokoelman tiettyjen tietoturvasäännösten soveltamisesta (valtiovarainministeriön julkaisuja 2021:65), jonka mukaan tietoriskien hallinta on jatkuvaa toimintaa, johon liittyvät tavoitteet, periaatteet, vastuut ja keskeiset menettelyt tiedonhallintayksikön on hyvä kuvata. Johdon vastuulla on tietoriskien hallinnan organisointi ja resursointi. Lisäksi tiedonhallintayksikkö ylläpitää riskiarvioiden tuloksista ja riskienkäsittelysuunnitelmista muodostuvaa tietoaineistoa sekä arvioi säännöllisesti, onko se osin tai kokonaan salassa pidettävä tai turvallisuusluokiteltava.

Digitaalinen turvallisuus

Tiedon avaamisen suunnittelussa ja toteutuksessa on tärkeää varmistaa digitaalinen turvallisuus. Digitaalinen turvallisuus sisältää riskienhallintaan, toiminnan jatkuvuuden hallintaan ja varautumiseen sekä kyberturvallisuuteen, tietoturvallisuuteen ja tietosuojaan liittyviä asioita. Kansalaisten, yritysten ja yhteisöjen tulee voida luottaa eettisesti kestäviin, avointa ja läpinäkyvää toimintaa tukeviin ja turvallisiin julkisen hallinnon palveluihin myös digitaalisessa ympäristössä.

Valtioneuvoston periaatepäätöksessä julkisen hallinnon digitaalisesta turvallisuudesta (Valtiovarainministeriön julkaisuja 2020:23) määritetään kehittämisen periaatteet ja keskeiset palvelut turvallisuuden edistämiseksi digitaalisessa toimintaympäristössä. Valtiovarainministeriö on asettanut julkisen hallinnon digitaalisen turvallisuuden strategisen johtoryhmän digitalisoitumisen ja digitaalisen turvallisuuden tasapainoista edistämistä varten.

Tutustu tarkemmin digitaalisen turvallisuuden kehittämistä koskeviin toimiin ja materiaaleihin.

Menetelmä tiedon avaamisen hyötypotentiaalin, riskien ja kustannusten arviointiin

Osana tiedon jakamisen toimintamallia on kehitetty arviointimenetelmä, jonka tarkoituksena on tarjota julkishallinnon organisaatioille systemaattinen ja helppokäyttöinen tapa omien tietoaineistojen avaamisen ja jakamisen hyötypotentiaalin sekä jakamiseen liittyvien riskien ja kustannuksien arvioimiseen. Arviointimenetelmää kutsutaan myös HRK-menetelmäksi (hyödyt, riskit ja kustannukset). 

Lataa HRK-arviointityökalu (Excel-tiedosto)

Arvioinnin myötä syntyy yhteenveto arvioinnin tuloksista. Arvioinnin toteuttajan antamien vastausten perusteella tietoaineistolle määritetään hyötypotentiaali, riskiprofiili ja avaamisesta muodostuvat kustannukset. On hyvä huomioida, että vastausten perusteella saatava yhteenveto on ainoastaan suuntaa antava kooste eri huomioista – se ei ole suositus. Jokainen organisaatio tekee tiedon avaamista koskevat päätökset itsenäisesti huomioon ottaen lainsäädännön (mm. tiedon saantia ja luovutusta koskevat oikeudet), viralliset suositukset ja organisaation omat linjaukset. Yhteenvetoa voi hyödyntää esimerkiksi taustamateriaalina perusteltaessa tiedon jakamisen mahdollisia hyötyjä avaamisesta päättäville tahoille.

HRK-menetelmä perustuu suomalaisten ja ulkomaisten julkishallinnon organisaatioiden käyttämiin arviointimenetelmiin. Menetelmän ensimmäistä versiota ovat kehittäneet muun muassa National Institute of Standards and Technology, Washingtonin yliopisto, Harvardin yliopisto ja useat muut asiantuntijaorganisaatiot.

Arviointimenetelmän avulla voidaan:

  • priorisoida tietoaineistojen avaamisjärjestystä, kun resurssit ovat rajalliset
  • tunnistaa tietoaineistot, joiden avaamiseen liittyy erilaisia riskejä
  • hahmottaa tietoaineistojen avaamisesta syntyvät kustannukset
  • tunnistaa ulkoisille sidosryhmille (tiedon hyödyntäjät) eniten hyötypotentiaalia sisältävät tietoaineistot 
  • kartoittaa mahdollisia tiedon jakamisesta syntyviä tuloja
  • tuoda systemaattisuutta tietoaineistojen avaamiseen ja jakamista koskevaan päätöksentekoon

Arviointimenetelmä on suunnattu organisaatioiden tiedon avaamisesta vastaaville henkilöille. Näitä voivat olla esimerkiksi tietoaineistojen vastuulliset, tietohallintopäälliköt tai tiedon avaamisen koordinaattorit. Lisäksi arvioinnin eri vaiheisiin kannattaa osallistaa kunkin osa-alueen asiantuntijoita aina teknisistä asiantuntijoista tietosuojavastaaviin.

Tietosuojan varmistaminen

Tässä vaiheessa kuvataan avattavan tietoaineiston aggregointi- ja anonymisointitarpeiden arviointia sekä organisaatiokohtaisia käytänteitä avattavan tietoaineiston tietosuojan varmistamiseen ja mahdollisesti tarvittavan aggregoinnin, anonymisoinnin tai pseudonymisoinnin toteuttamiseen. 

Tiedon aggregointi- ja anonymisointitarpeiden arviointiin ei ole olemassa virallisia suosituksia.

Tietoa jo avanneissa organisaatioissa on lähtökohtaisesti arvioitu hyvin huolellisesti, onko jaettavaksi suunniteltu tietoaineisto julkinen ja pitääkö se mahdollisesti sisällään henkilötietoja tai muuta yhteiskunnan toimivuuden kannalta kriittistä tietoa. Mikäli avattavaksi suunniteltu tietoaineisto sisältää jollain tapaa ihmisiin tai yhteiskunnan turvallisuuteen liittyvää tietoa, on tietoaineiston avaamisesta ja mahdollisesta aggregoinnista, anonymisoinnista tai pseudomymisoinnista syytä keskustella organisaation tietosuojavastaavan kanssa. Muutenkin tietoaineiston aggregointi- ja anonymisointitarpeiden arvioinnissa kannattaa konsultoida organisaation tietosuojavastaavaa, muita tietosuoja-asioiden asiantuntijoita tai verkostoja. 

Julkisuusperiaatteen (julkisuuslaki 621/1999) mukaisesti viranomaisten asiakirjat ovat julkisia, jollei julkisuuslaissa tai muussa laissa erikseen toisin säädetä. On kuitenkin tärkeää huomioida, että julkinen asiakirja voi pitää sisällään henkilötietoja ja henkilötiedon luovuttaminen vaatii aina lain mukaisen perusteen, vaikka kyseessä olisikin julkinen asiakirja. Viranomaisen tulee arvioida, voidaanko asiakirjassa oleva henkilötieto luovuttaa. Näin ollen on tärkeää huomioida, että julkinen tieto ei välttämättä tarkoita, että tiedon voi julkistaa, sillä julkisessa asiakirjassa voi olla henkilötietoa, jota ei voi julkistaa, vaikka kyse ei ole salassapidosta. Salassapito edellyttää julkisuuslain mukaista salassapitoperustetta ja salassapitosäännöksiä on myös erityislainsäädännössä. 

Henkilötiedot on mahdollista poistaa tietoaineistoista anonymisoinnilla. On kuitenkin huomioitava, että niin pitkään, kun tietojen perusteella voi tunnistaa henkilön suoraan tai tiedot voidaan palauttaa takaisin tunnistettavaan muotoon, ne ovat yhä henkilötietoja ja niihin sovelletaan tietosuoja-asetusta.

Anonymisointi tarkoittaa henkilötietojen käsittelyä niin, että henkilöä ei enää voida tunnistaa niistä. Tiedot voidaan esimerkiksi karkeistaa yleiselle tasolle (aggregoida) tai muuttaa tilastolliseen muotoon siten, etteivät yksittäistä henkilöä koskevat tiedot ole enää tunnistettavassa muodossa. Tunnistamisen täytyy estyä peruuttamattomasti ja siten, että rekisterinpitäjä tai muu ulkopuolinen taho ei voi enää hallussaan olevilla tiedoilla muuttaa tietoja takaisin tunnistettaviksi.

Pseudonymisointi tarkoittaa henkilötietojen käsittelemistä siten, että henkilötietoja ei voida enää yhdistää tiettyyn henkilöön ilman lisätietoja. Tällaiset lisätiedot täytyy säilyttää huolellisesti erillään henkilötiedoista.

Tietosuojavaltuutetun toimisto on kansallinen valvontaviranomainen, joka valvoo tietosuojalainsäädännön noudattamista. Tietosuojavaltuutettu ja apulaistietosuojavaltuutetut ovat tehtävässään itsenäisiä ja riippumattomia. Tietosuojavaltuutetun toimistoon on sijoitettu asiantuntijalautakunta (toimikausi on 1.10.2020–30.9.2023), jonka tehtävänä on antaa lausuntoja henkilötietojen käsittelyä koskevan lainsäädännön soveltamiseen liittyvistä merkittävistä kysymyksistä tietosuojavaltuutetun pyynnöstä.Lisätietoja tietosuojavaltuutetun toimiston verkkosivuilta.

EU:n yleisen tietosuoja-asetuksen mukaan tiettyjen rekisterinpitäjien ja henkilötietojen käsittelijöiden on nimitettävä tietosuojavastaava. Velvoite koskee kaikkia viranomaisia ja julkishallinnon elimiä. Tietosuojavastaava antaa neuvoja tietosuojaan liittyen rekisterinpitäjälle ja henkilötietoja käsitteleville työntekijöille. Hän seuraa asetuksen noudattamista sekä tietosuojaan liittyvän tiedottamisen ja koulutuksen toteutumista omassa organisaatiossaan. Tietosuojavastaava neuvoo vaikutustenarviointeihin liittyen ja toimii valvontaviranomaisen yhteyspisteenä.

Tutustu tarkemmin:

Valtiokonttorin käytänteitä

Valtiokonttorin analyytikot toteuttavat analyysejä toimeksiannosta. Analyyseissä käytetään pääasiallisesti valtion yhteistä tietoalustaa, jonne tuodaan toimeksiannossa määriteltyä ainestoa. Analyytikko määrittelee yhdessä toimeksiantajan kanssa analyysiin tarvittavat tietoalueet tietonavigaattorin avulla. Navigaattoriin on kuvattu valtion yhteisten palveluntuottajien järjestelmissä olevat tiedot. Kuvaukseen on määritelty voiko kenttä sisältää henkilö- tai salassa pidettävää tietoa yhdessä palveluntuottajan ja virastojen kanssa. Kuvatuille kentille muodostetaan ennalta määritelty tiedon maskaussäännöstö.

Analyytikko tilaa toimeksiannon mukaisen datan datainsinööriltä. Datainsinööri hakee toimeksiannon mukaan tarpeelliset sarakkeet palveluntuottajien järjestelmistä rajapintojen kautta poistaen aineistosta mahdolliset turhat sarakkeet tiedon minimoimiseksi ja maskaa tiedot säännöstön mukaisesti:

  • Mahdollisesti henkilötietoa sisältävät tekstikentät poistetaan
    • Esim. Talouden seurannan tiedoista seurantakohde 1 ja 2 selitetekstit poistetaan
    • Esim. Henkilönimiä tai sähköposteja sisältävät kentät poistetaan
  • Aineistossa henkilön yksilöivät tunnisteet salataan salausalgoritmilla niin, että alkuperäinen arvo ei ole tunnistettavissa kuitenkin säilyttäen tunnisteen yksilöivyys
    • Esim. henkilötunnuksen sisältävien kenttien sisältö käsitellään kryptografisen tiivistefunktion avulla merkkijonoksi, josta alkuperäinen arvo ei ole suoraan johdettavissa
  • Valtiokonttorilla ei välttämättä ole oikeutta tietyn tarkkuustason tietoihin, mutta tiedoista tuotetut aggregaatit voivat olla julkisia. Näissä tapauksissa palveluntarjoaja karkeistetaa (aggregoi) aineistoa yhdessä virastojen kanssa määritellylle julkiselle tasolle tapauskohtaisesti. Karkeistuksella/aggregoinnilla tarkoitetaan tässä yhteydessä tiedon uudelleenryhmittelyä yhden tai useamman tekijän perusteella karkeammalle tasolle.
    • Esim. Esitetään toimintayksikön sijasta kirjanpitoyksikkötason summa tai keskiarvo
    • Esim. Esitetään matkat eri mantereille yksittäisen maan sijaan

Maskattu, minimoitu tieto siirretään analyysialustalle analyytikon käyttöön. Analyytikko toteuttaa analyysin maskatun, suoraa henkilötietoa sisältämättömän datan perusteella. Mikäli analyytikko kuitenkin havaitsee datan mahdollisesti sisältävän suoraa henkilötietoa, ilmoittaa hän tästä datainsinöörille, jotta maskaussäännöstöä voidaan ko. kenttien osalta korjata eikä käsittele aineistoa ennen kuin korjaus on tehty ja data on henkilötiedotonta. Kun analyysi on toteutettu, karkeistaa analyytikko tulokset tilastolliselle tasolle ennen tulosten esittämistä toimeksiantajalle, eli varmistaa esitettävien ryhmien sisältävän vähintään viiden henkilön tiedot, jotta yksilö ei ole tunnistettavissa tuloksista.

Tilastokeskuksen käytänteitä

Tietoaineiston tietosuojan varmistamisessa on tarkastella sitä, ettei käsiteltävässä tietoaineistossa ole kohdeyksiköitä, joiden identiteetti tai ominaisuuksia on mahdollista suoraan tai välillisesti paljastaa. Suora tunnistaminen vaatii, että tietoaineistossa on mukana jokin kohdeyksikön yksikäsitteisesti erotteleva ominaisuus, esimerkiksi nimi, osoite, y-tunnus. Välillisestä tunnistamisesta on kyse silloin, kun kohdeyksikkö voidaan tunnistaa hyödyntämällä useampaa ominaisuutta, esimerkiksi ammattitietona kunnanjohtaja ja lisätietona kunta, jossa henkilö on töissä. Yksittäisen kohdeyksikön ominaisuuksia on mahdollista paljastua myös ilman kohdeyksikön identifioitumista sellaisessa tilanteessa, jossa isompi ryhmä, johon kohdeyksikkö kuuluu, jakaa joitain samoja ominaisuuksia. Esimerkiksi työhyvinvointia tutkivassa kyselyssä kaikki tietyn osaston henkilöt ovat vastanneet kyselyyn ja ilmaisseet tyytymättömyytensä fyysiseen työskentely-ympäristöön.

Paljastumisriskiä arvioitaessa on suuri ero siinä, puhutaanko yksikkötason aineistosta vai koostetusta eli jollain tapaa aggregoidusta tiedosta. Kun käsitellään yksikkötason aineistoa, jossa yksittäisen kohdeyksikön ominaisuuksia tarkastellaan kohdeyksikkökohtaisesti, voi välillinen paljastuminen olla edelleen mahdollista, vaikka tietoja olisi ominaisuuksittain karkeistettu. Hyvä esimerkki on pitkittäiset tietoaineistot, jossa tarkastellaan kohdeyksikön tilannetta pidemmällä aikavälillä. Henkilön muutto- tai työhistoria voi hyvin nopeasti johtaa tilanteeseen, jossa välillisen tunnistamisen mahdollisuutta ei voida sulkea pois, vaikka tietoja karkeistettaisiin jonkin verran. Yksikköaineistojen tapauksessa paljastumisriskiä tuleekin tarkastella laajasti useampia ominaisuuksia yhtä aikaa huomioon ottaen. Yleisesti yksikköaineistojen anonymisointi karkeistuksia ja tiedon rajaamista hyödyntäen johtaa pienten lähinnä esimerkkitarkoituksiin käytettävien tietoaineistojen tuottamiseen. Vaihtoehtoisia tietosuojamenetelmiä ovat esimerkiksi sotkevien tietosuojamenetelmien käyttö, (moni)imputointi tai synteettisten aineistojen tuottaminen. 

Tilastokeskus on tuottanut opetuskäyttöön tarkoitettuja anonyymejä yksikkötason tietoaineistoja. Näistä aineistoista saatavat tulokset voivat olla suuntaa antavia, mutta ne eivät missään tapauksessa sovellu tilastollisiin selvityksiin tai tieteelliseen tutkimukseen. Lisätietoja opetusaineistoista.

Koostetun eli aggregoidun tiedon tapauksessa puhutaan tiedoista, joihin on koottu useamman kohdeyksikön saamia ominaisuuden arvoja. Nämä tiedot voidaan jakaa kohdeyksiköiden lukumäärää kuvaaviin frekvenssitaulukoihin ja ominaisuuksien arvoja kuvaaviin määrätaulukoihin, joissa kerrotaan esimerkiksi ominaisuuden summista tai keskiarvoista. Frekvenssitaulukoiden osalta paljastumisriski määritellään kunkin solun soluarvon mukaan kynnysarvona, jonka verran solussa on vähintään oltava kohdeyksiköitä. Kynnysarvo riippuu tarkasteltavista ominaisuuksista. Tilastokeskus tuottaa viralliset väestötilastot osin jopa yksittäiset henkilömäärät tilastoon sisällyttäen. Yleisesti kuitenkin suojaus vaatii vähintään kolmea kohdeyksikköä solussa. Tällä minimiarvolla vältetään tilanne, jossa kaksi samat ominaisuudet jakavaa kohdeyksikköä voisivat päätellä toistensa arvot julkaistusta tiedosta. Tilastokeskuksessa korkeampaa kynnysarvoa käytetään silloin, kun tarkastellaan kuntaa tarkemman aluetason tietoja (kynnysarvo voi nousta viiteenkymmeneen, kun tarkastellaan ruututietoja) ja yleensä kynnysarvo on kymmenen, jos kyseessä on tietosuoja-asetuksen mukaiset erityiset tietoryhmät tai rikostietoja. 

Määrätaulukoiden tapauksessa pelkkä kynnysarvon tarkastelu ei riitä estämään toisen kohdeyksikön ominaisuuden arvojen päättelyä, jos kohdeyksiköt ovat samassa solussa. Tällöin Tilastokeskuksessa käytetään paljastumisriskissä olevien solujen tunnistamiseen lisäksi dominanssisääntöä, jolla suojattavaksi määräytyvät solut, joissa yksittäinen kohdeyksikkö tai useampi kohdeyksikkö yhdessä dominoi eli tuottaa suurimman osan solun arvosta. Esimerkiksi, jos solussa tarkastellaan yritysten liikevaihtoa toimialan ja alueen mukaan, niin ei haluta, että yksittäisen ison yrityksen arvo on mahdollista päätellä solusta, jossa muut yritykset ovat liikevaihdoltaan hyvin pieniä suhteessa suurimpaan.

Ensisijaiset paljastumisriskissä olevat solut on mahdollista määrittää kynnysarvon tai dominanssisäännön avulla. Jos tiedot poistetaan eli peitetään julkistettavasta tietoaineistosta, on näiden arvot helppo laskea uudelleen, jos tietoaineisto sisältää myös marginaalisummia eli summat yli rivien ja sarakkeiden. Tällöin tietojen suojaamisen varmistamiseksi on käytettävä täydentävää peittämistä. Täydentävän peittämisen osalta on olemassa erikoisohjelmistoja, jotka varmistavat riittävän suojauksen toissijaisen peittämisen soluja määritettäessä. Tällaisia erikoisohjelmistoja on esimerkiksi Tau-Argus ja R-paketti sdcTable. Lisätietoja ohjelmistoista GitHubissa.  

Lisätietoja tietojen suojaamisesta Tilastokeskuksen tutkijoille suunnatusta materiaalista:

HRI:n ohje kyselydatojen aggregointi- ja anonymisointitarpeiden arviointiin

Helsinki Region Infoshare on luonut yhteistyössä Helsingin kaupungin tietosuojavastaavan kanssa ohjeet kyselydatojen (ja muiden henkilötietoa sisältävien datojen) avaamiseen

VAHTI-työryhmien hyvät käytännöt, tukimateriaalit ja muut julkaisut 

VAHTI on julkisen hallinnon digitaalisen turvallisuuden kehittämisestä ja keskeisten palveluiden tuottamisesta vastaavien organisaatioiden yhteistyö-, valmistelu- ja koordinaatioelin. Organisaatiot voivat hyödyntää parhaita käytäntöjä ja VAHTI-ohjeita turvallisuuden eri osa-alueiden kehittämiseen. 

VAHTI-toiminta siirtyi Digi- ja väestötietovirastolle alkuvuodesta 2020.

Vanhentuneita suosituksia voidaan hyödyntää soveltamalla ja ottamalla huomioon muuttunut lainsäädäntö.

Digi- ja väestötietovirasto on toteuttanut useita Digiturvallinen elämä -koulutuksia eOppivassa, esimerkiksi Riskienhallinta digimaailmassa -verkkokoulutus sekä Tietosuojan ABC - Syvemmälle tietosuojaan -verkkokoulutus.

Jakelu- ja tiedostomuodon valinta

Tässä vaiheessa kuvataan, mitä asioita avattavan tiedon jakelu- ja tiedostomuodon suunnittelussa ja toteuttamisessa on hyvä huomioida. Erityyppisille tiedoille sopivat erilaiset jakelu- ja tiedostomuodot ja tämä vaihe antaa tukea valintaan.

Avattavan tiedon jakelu- ja tiedostomuodon määrittelyyn ei ole olemassa virallisia suosituksia.

On tärkeää muistaa, että tietoaineiston jakelutavan määrittelyssä on huomioitava tietojen saantioikeuksista, tietojen luovutuksista ja tietojen tarjoamisesta koneellisesti luettavassa muodossa säädetyt lait ja niiden asettamat velvoitteet, kuten tiedonhallintalain 22 § ja 24 §. Lisäksi tulee huomioida tietoaineistoille mahdollisesti tarvittavat muokkaukset kuten pseudonymisointi tai anonymisointi.

Tietoa jo avanneissa organisaatioissa on jaettu tietoa tiedostoina, ohjelmointirajapintojen kautta tai latauspalvelun kautta. Tiedon jakamisen tekninen toteutus riippuu pitkälti siitä, minkälaisia jakeluratkaisuja tietojärjestelmään on kehitetty. Järjestelmästä voi saada tietoa ulos tiedostomuodossa eräajotyyppisenä raporttina ja/tai ohjelmointirajapinnan kautta. Vanhempiin tietojärjestelmiin on harvemmin kehitetty tai kehitettävissä ohjelmointirajapintaa, joten tiedon jakaminen voi olla mahdollista vain eräajotiedostoina. Mikäli mahdollista, on tietoaineisto hyvä jakaa useammassa eri muodossa, esimerkiksi rajapinnan lisäksi on tarjolla tiedosto.

Avoimen datan julkaisemisessa on hyvä käyttää avoimia dataformaatteja eli tiedostomuotoja aina kun mahdollistaLisätietoja avoimen tiedostomuodon valinnasta (englanniksi) Euroopan dataportaalissa. 

Mikä jakelutapa sopii millaisellekin datalle?

Tiedon jakaminen tiedostona

Tiedosto soveltuu pienikokoisille ja/tai staattisille tietoaineistoille, jotka eivät muutu paljon tai usein. Laadukkaasti avattu data jaetaan avoimessa tiedostomuodossa.

Avoimella tiedostomuodolla tarkoitetaan sellaista ei-kaupallista tiedostomuotoa, jota kuka tahansa voi hyödyntää maksutta. Avoimien tiedostomuotojen käyttöä eivät rajoita tekijänoikeudet, patentit, tavaramerkit tai muut rajoitukset. Esimerkiksi Microsoftin .docx- tai .xslx -tiedostomuodot eivät ole avoimia vaan kaupallisia, ja niiden käyttö ilmaisilla ohjelmistoilla on hankalaa. Avoimet tiedostomuodot mahdollistavat yleensä ohjelmistoriippumattoman datan uudelleenkäsittelyn. Tämä on tärkeää siksi, etteivät kaupalliset oikeudet rajoita datan uudelleenkäyttöä.

Alla olevassa listauksessa on vinkkejä erityyppisen tietoaineiston julkaisuun:

  • Tekstimuotoinen data: TXT. Helpoin ja varmin tiedostomuoto tekstin julkaisemiseen on .txt.
  • Taulukkomuotoinen data: CSV. Paras ja helpoin tiedostomuoto taulukoille on .csv (Comma-separated Values). CSV-muotoisia tiedostoja on helppo luoda yleisillä taulukkolaskentaohjelmilla kuten Microsoft Office Excelillä valitsemalla tallennusvaiheessa tiedostomuodoksi .csv.
  • Paikkatiedot, pieni vektoridata: GeoJSON, KML, Esri shapefile (shp) tai GeoPackage. Kahdessa ensimmäisessä koordinaattien kuvaamiseen käytetään maailmanlaajuista WGS84-koordinaatistoa, jota on helppo käsitellä useilla eri ohjelmilla ja työkaluilla. Shp-tiedosto puolestaan tukee useita koordinaatistoja, myös Suomen oloihin kehitettyjä.
  • Paikkatiedot, suuri rasteridata: GeoTIFF tai NetCDF. Datan voi julkaista rasterimuotoisena esimerkiksi GeoTIFF-tiedostomuodossa. 

Jos tietoa jaetaan PDF-muodossa, on hyvä huomioida, mitä PDF-versiota käytetään ja huolehtia, että data on koneluettavassa muodossa. Adobe kehitti ja patentoi PDF:n 1990-luvulla kaupallisena tiedostomuotona. Vuonna 2008 sen versio 1.7 (ISO 32000-1) standardisoitiin lähes avoimeksi standardiksi, mutta osa sen ominaisuuksista oli edelleen vain Adoben omaisuutta (esimerkiksi Adobe XML Forms Architecture, Adobe JavaScript). Vuonna 2017 julkaistussa PDF 2.0 -versiossa (ISO-32000-2) kaikki ominaisuudet olivat kuitenkin avoimia. Lisätietoja avoimista tiedostomuodoista (englanniksi)

Tutustu Wikipedian kattavaan listaan avoimista tiedostomuodoista (englanniksi).

Tim Berners-Leen viiden tähden mallin (englanniksi) mukaan avoimessa tiedostoformaatissa julkaistu data saa vähintään 3/5 tähteä.

Tim Berners-Lee on kehittänyt viisiportaisen mallin, jossa avoimella lisenssillä julkaistu data saa yhden tähden, avoimessa tiedostomuodossa julkaistu data saa kolme tähteä ja linkitetty data saa viisi tähteä.
Tim Berners-Leen viiden tähden malli

Tiedon jakaminen ohjelmointirajapinnan kautta

Ohjelmointirajapinnat eli API:t (Application Programming Interface) ovat dokumentoituja rajapintoja, joiden avulla ohjelmistot, sovellukset tai järjestelmät voivat vaihtaa keskenään tietoa tai toimintoja. Ohjelmointirajapinta tarjoaa tietoa tai toimintoa koneluettavassa, dokumentoidussa muodossa siten, että jokin toinen ohjelmisto, sovellus tai järjestelmä voi sitä ohjelmallisesti hyödyntää. Tässä toimintamallissa API:lla, ohjelmointirajapinnalla ja tiedonhallintalaissa määritellyllä teknisellä rajapinnalla tarkoitetaan samaa asiaa. Huomioitavaa on se, että ohjelmointirajapinnalla ei tarkoiteta loppukäyttäjille tarkoitettuja käyttöliittymärajapintoja, vaan ohjelmointirajapinnan hyödyntäjä on aina jokin toinen ohjelmisto, sovellus, sovelluskomponentti tai järjestelmä.

Tietojen jakaminen ohjelmointirajapintojen kautta on monella tapaa kannatettavaa ja hyödyllistä, varsinkin jos tietoa on hyvin paljon ja tieto päivittyy tiheästi tai reaaliaikaisesti eli se on niin sanottua dynaamista dataa. Esimerkiksi junien aikataulut tai säätiedot ovat tällaista dataa. On kuitenkin hyvä muistaa, että myös tiedostojakelu on hyödyllistä erityisesti niille henkilöille ja tahoille, jotka eivät osaa hyödyntää ohjelmointirajapintoja. Mikäli rajapintaa ei ole muutenkin käytössä, tiedostojakelu voi vaatia jakajalta merkittävästi vähemmän resursseja kuin uuden rajapinnan toteuttaminen ja sen ylläpito.

Ohjelmointirajapinta voi olla web-pohjainen REST, SOAP tai GraphQL API:t että tiedosto- tai tietokantapohjaisiin tai muihin protokolliin perustuva rajapinta. Olennaista on, että ohjelmointirajapinta tarjoaa tietoa koneluettavassa, dokumentoidussa muodossa siten, että jokin toinen ohjelmisto, sovellus tai järjestelmä voi sitä ohjelmallisesti hyödyntää. Tiedot on hyvä tarjota web-pohjaisten rajapintojen kautta, jos se on mahdollista ja käyttötarkoituksen mukaista. 

Web-pohjaisia rajapintoja voidaan hyödyntää sekä sisäisissä että ulkoisissa rajapinnoissa ja niihin saadaan toteutettua laajasti erilaisia tietoturvakontrolleja. Jaettava tiedostomuoto riippuu tiedonsiirtoprotokollasta, esimerkiksi web-pohjaisissa rajapinnoissa hyödynnetään yleensä http-pohjaista tiedonsiirtoprotokollaa tai -arkkitehtuuria kuten REST. API-rajapinnat soveltuvat hyvin myös tietokantamuotoisen tilastodatan jakamiseen. Tutustu esimerkiksi Tilastokeskuksen avoimien tietokanta-aineistojen materiaaleihin.  

Organisaation on tärkeää määritellä, mitä tai millaisia tietoaineistoja tarjotaan tai hyödynnetään ohjelmointirajapintojen avulla sisäisesti ja ulkoisesti ja mitä tietoaineistoja tulisi saada käyttöön rajapintojen avulla. Sisäinen tarjoaminen ja hyödyntäminen voidaan tehdä sisäisten rajapintojen (sisäinen API) avulla. Ulkoinen tarjoaminen ja hyödyntäminen voidaan tehdä kumppanirajapintojen (kumppani API) tai julkisten rajapintojen (julkinen API) avulla tiedon luokituksen mukaan. Olennaista on se, että rajapinnat huomioidaan osana organisaation muuta tiedonhallintaa ja toimintaprosesseja sekä tiedolla johtamisen tavoitteita. 

Julkisen hallinnon API-periaatteet tarjoavat julkisen hallinnon toimijoille tukea ja ohjeita ohjelmointirajapintojen kehittämiseen, hallintaan ja tiedostomuotoihin. API-periaatteista saa tukea muun muassa ohjelmointirajapintojen määrittelyyn, vastuuttamiseen, yhteentoimivuuden edistämiseen, hankintaan, testaukseen ja käyttöönottoon.

Lisätietoja ja tukimateriaalia ohjelmointirajapintojen kehittämiseen, hallintaan ja tiedostomuotoihin:

Tiedon jakelumuotojen vertailu

Alla olevan taulukon avulla voi arvioida sopivan jakelumuodon valintaa. Taulukossa pyritään tuomaan eroja esiin.

Tiedon jakelumuotojen vertailu 

  Tiedosto Rajapinta (API)
Käytön helppous hyödyntäjälle Yleensä helpointa käyttää. Esim. pieniä CSV-tiedostoja saa avattua tavallisilla toimisto-ohjelmistoilla Käytännössä rajapintaa käyttävät usein vain ohjelmointitaitoiset ihmiset.
Rajapinnan suunnittelu vaikuttaa sen käytön helppouteen. Suunnittelussa on hyvä huomioida rajapinnan koko elinkaari.
Ylläpitäjältä vaadittu tekninen osaaminen Ei vaadi erityistä teknistä osaamista. Vaatii osaamista sekä rajapinnan kehittämisestä että ylläpidosta.
Tiedon määrä Vähän tietoa Paljon tietoa
Datan rajaaminen Tiedostona julkaistusta datasta ladataan aina koko aineisto kerralla Dataa rajataan kyselyn perusteella tai siitä on mahdollista hakea kaikki tiedot kerralla.
Rajapinta voi tarjota myös tiedostoja.
Datan muutosvauhti Tiedosto sopii ensisijaisesti hyvin vähän / harvoin muuttuvalle datalle.
Jos data muuttuu, päivitetty versio täytyy jakaa erikseen.
Rajapintaa suositellaan usein muuttuvalle datalle.
Käytön seuranta Haasteellista, koska tiedostoa voi kopioida helposti Helppoa, koska rajapintakutsuista saa kerättyä analytiikkaa, esim. IP-osoite, kysely, kellonaika, päivämäärä, kysely-vastaus jne
Käytännön esimerkki Postinumerot, valtion budjetti, suosituimmat etunimet, pienet tilastot Sää- ja aikataulutiedot, yritystiedot, liikkuminen

Ilmatieteen laitoksen jakelutavat

Ilmatieteen laitos jakaa tietoaineistojaan omista rajapintapalveluista ja Amazonin avoimen datan palvelusta.

Helsinki Region Infosharen vinkkejä jakelutavan valintaan

Pääkaupunkiseudun kaupunkien Helsinki Region Infoshare -palvelu on koonnut vinkkejä teknisen toteutettavuuden arviointiin. Alla olevat kysymykset auttavat arvioinnissa. 

Missä muodossa avata dataa?

Tiedostona:

  • Tiedosto, jossa data ylläpidetään (xlsx / csv / shp / …) 
  • Otetaan tieto manuaalisesti ulos järjestelmästä
  • Otetaan tieto automatisoidusti ulos järjestelmästä
  • Yleensä nopea ja maksuton tapa avata dataa, mutta usein vaatii manuaalista ja muistinvaraista päivittämistä

Rajapinnan kautta:

  • Tehdään ohjelmointirajapinta järjestelmästä automatisoidusti ulos otettavaan tietoon
  • Tehdään järjestelmään / sen kopioon ohjelmointirajapinta
  • Alussa vaaditaan enemmän työtä ja resursseja, mutta ei vaadi erillistä päivittämistä

Kysymyksiä, joita on hyvä pohtia datan muotoa valittaessa:

  • Kuinka usein data päivittyy / päivitetään?
  • Kuinka suuri datamäärä on?
  • Onko data reaaliaikaista vai esim. vuosittaista tietoa?
  • Kuinka paljon käsityötä datan muokkaaminen vaatii?
  • Mihin dataa voisi käyttää?
  • Onko standardeja?
  • Onko jokin muu taho jo avannut vastaavan datan? Miten se on tehty? Olisiko data mahdollista avata vastaavassa muodossa?

Helsinki Region Infosharessa on kehitetty Datasette-työkalu, joka mahdollistaa rajapinnan kautta tarjolla olevan datan julkaisemisen tiedostomuodossa. Lisätietoja Datasette-työkalusta HRI:n sivuilla.  

HRI:n ohjeita tiedostomuodon valintaan.

Tiedon laadun määrittely

Tässä vaiheessa kuvataan, miten avattavan tietoaineisto laatua voisi käytännössä arvioida, määrittää ja kuvata.

Avattavan tietoaineistoon laadun määrittelyyn ei ole olemassa virallisia suosituksia.

Tietoa jo avanneet organisaatiot ovat pyrkineet kuvaamaan tietoaineiston kuvailu- eli metatiedoissa arvionsa tietoaineiston sen hetkisestä laadusta mahdollisine heikkouksineen. Esimerkiksi avoindata.fi-palvelussa tiedon laatuarvion voi kirjoittaa tietoaineiston metatietojen Kuvaus-kenttään tai lisätä selvityksen erillisenä data-aineistona esimerkiksi PDF-muodossa. 

On tärkeää huomioida, että vaikka avattavan tietoaineiston laatu ei ole niin hyvä kuin tietoa hallinnoiva taho tai sidosryhmät toivovat, se ei välttämättä estä tiedon jakamista. Tietoaineiston voi jakaa korostaen metatiedoissa tiedon laatuun liittyviä heikkouksia.

Tietoaineiston laadun arvioinnissa ja kuvaamisessa voi hyödyntää julkishallinnon yhteisiä tiedon laatukriteereitä ja mittareita, jotka on kehitetty tukemaan julkisen hallinnon tiedon laadun parantamista.

Tiedon laatukriteerit

Tilastokeskuksen johdolla ja julkisen hallinnon laajalla yhteistyöllä on kehitetty yleistä Tiedon laatukehikkoa. Työtä on tehty osana valtiovarainministeriön Tiedon hyödyntämisen ja avaamisen hanketta. Tiedon laatukehikko -kokonaisuus valmistuu vuoden 2022 aikana, mutta tiedon laatukriteerit, jotka ovat ensimmäinen ja merkittävin osa tätä laatukehikkoa, ovat jo käytettävissä.

Tiedon laatukriteerien avulla voidaan kuvata ja arvioida tietoaineistojen laatua. Ne auttavat myös tiedon käyttäjää arvioimaan, onko tietoaineisto tarpeeksi laadukas aiottuun käyttötarkoitukseen. Pidemmällä tähtäimellä laatukriteerit tukevat tietoaineistojen ja tietovarantojen laadun parannuksessa.

Laatukriteerit on tarkoitettu joustavaksi työkaluksi; kaikki kriteerit tai varsinkaan mittarit eivät välttämättä ole merkityksellisiä kaikissa tilanteissa tai tietoaineistoissa. Lisäksi on hyvä huomata, että tiedon käyttötarkoitus vaikuttaa siihen, millaista tasoa kultakin laatukriteeriltä tavoitellaan. Esimerkiksi ajantasaisuuden kannalta toiseen käyttötarkoitukseen tiedon pitäisi olla jatkuvasti päivittyvää (pandemian seuranta), kun taas toisen tiedon osalta vuosittainen tai harvempikin tarkastelu riittää (vanhojen rakennusten sijainti). Vaikka laatukriteerit mittareineen muodostavat hierarkkisen rakenteen, laatukriteerit ja mittarit vaikuttavat ja linkittyvät toisiinsa.

Laatukehikon laatukriteerit, ja erityisesti näiden mittarit, kohdistuvat rakenteiseen dataan. Tietoaineistojen laatukriteerit on järjestetty tiedon käyttäjän näkökulmaa ajatellen kolmen kysymyksen alle.

Miten tieto kuvaa todellisuutta?

  • Ajantasaisuus: Ajantasaisuus kuvaa tietoaineiston tietojen aikaulottuvuutta. Ajantasaisuus on sitä parempi mitä lähempänä tiedon viiteajankohta on nykyhetkeä. Viiteajankohta on se ajankohta, jota tieto koskee.
  • Johdonmukaisuus (säännönmukaisuus, tiedon looginen eheys): Johdonmukaisuus kertoo siitä, että tietoaineisto on yhtenäinen ja ristiriidaton. Johdonmukaisuudella voidaan kuvata myös eri tietoaineistojen keskinäistä johdonmukaisuutta.
  • Kattavuus (täydellisyys): Kattavuus kuvaa tietoaineiston tavoitellun ajallisen ja alueellisen kattavuuden sekä tavoitellut kohdeyksiköt ja ominaisuustiedot. Toisaalta kattavuus kertoo miltä osin tietoaineisto sisältää tavoiteltuja tietoja.
  • Oikeellisuus (virheettömyys): Oikeellisuus kuvaa sitä, miten tietoaineiston tiedot vastaavat todellisuutta. Tiedon oikeellisuutta tarkastelemalla voidaan saada kiinni myös systemaattisia vääristymiä tietoaineistossa.
  • Tarkkuus (harhattomuus): Tarkkuus kuvaa sitä, miten hyvin tietoaineiston tiedot vastaavat sitä mitä tavoitellaan ja kuinka tarkasti tieto osuu oikeaan.

Miten tieto on kuvattu?

  • Jäljitettävyys (kiistämättömyys): Jäljitettävyys kertoo siitä, että tietoaineistoon ja sen tietoihin tehdyt muutokset voidaan jäljittää. Tiedon alkuperä tunnetaan.
  • Ymmärrettävyys (tulkittavuus, käsitettävyys): Ymmärrettävyys kuvaa sitä, miten kattavasti tietoaineistolla on sellaisia metatietoja, jotka auttavat tiedon ymmärtämisessä sitä käytettäessä.
  • Suositustenmukaisuus (yhteensopivuus, semanttinen yhdenmukaisuus, yhdenmukaisuus): Suositustenmukaisuus kertoo siitä, että tietoaineisto ja sen ominaisuustiedot noudattavat tunnettuja standardeja, käytäntöjä ja säädöksiä ja ne ovat kerrottu tietoaineiston yhteydessä.

Miten tietoa voi käyttää?

  • Koneluettavuus: Koneluettavuus kuvaa, onko tietoaineisto rakenteistettu siten, että sitä voidaan käsitellä koneellisesti ja käsittely on mahdollista eri tietojärjestelmissä.
  • Täsmällisyys (oikea-aikaisuus): Täsmällisyys tarkoittaa sitä, että tietoaineisto on käytettävissä ilmoitettuna ajankohtana ja riittävän tiheästi tietoaineistossa tapahtuviin muutoksiin nähden.
  • Käyttöoikeudet: Käyttöoikeudet kuvaa sitä, miten tietoaineiston käyttöoikeus on määritelty ja mitä aineistolla voi tehdä eli mihin käyttötarkoituksiin tietoaineistoa voi hyödyntää. 

Tutustu tarkemmin:

Käyttöoikeuksien määrittely

Tässä vaiheessa kuvataan, mitä avattavan tietoaineiston käyttöoikeuksista on hyvä ottaa huomioon ja miten käyttöoikeudet on hyvä määritellä.  

Avattavan tietoaineistoon käyttöoikeuksien määrittelyyn ei ole olemassa virallisia suosituksia.

Tietoa jo avanneet organisaatiot ovat määritelleet avattavalle tietoaineistolle ennen julkaisemista käyttöluvan eli lisenssin, jotta sitä hyödyntävä taho tiedostaa, millä ehdoin julkaistua tietoa voi hyödyntää. Avoimena tietona jaettavat tietoaineistot lisensoidaan lähtökohtaisesti avoimella lisenssillä, joka sallii tietoaineiston vapaan levittämisen, muokkauksen ja käytön kaikkiin, myös kaupallisiin, tarkoituksiin. Täysin avoin lisenssi tarkoittaa käytännössä luopumista lainsäädännön rajoissa uudelleen hyödyntämistä rajoittavista tekijänoikeuksista.

Avoimena datana julkaistavat tietoaineistot lisensoidaan yleensä Creative Commonsin CC BY 4.0 tai CC0 -lisenssillä. Creative Commons -lisenssien käyttö on hyödyllistä, sillä ne ovat kansainvälisesti tunnettuja. Laajasti tunnetut ja käytetyt lisenssit helpottavat datan hyödyntäjiä datojen yhdistelyssä ja uudelleen käytössä. Lisäksi on etukäteen tiedossa, miten esimerkiksi erilaisissa riitatilanteissa toimitaan. On tärkeää, ettei lisenssejä luoda itse, koska niiden oikeuskäytäntöä ei pysty ennalta arvaamaan. Tiedon hyödyntäjien kannalta on järkevää pyrkiä käyttämään kansainvälisesti tunnustettuja lisenssejä.

Suomessa ei ole tällä hetkellä kansallista suositusta julkisen hallinnon avoimien tietoaineistojen lisensoinnille, mutta aiemmin käytössä ollut JHS-189 Avoimen tietoaineiston käyttölupa suositteli käytettäväksi CC BY 4.0 -lisenssiä. Julkisessa hallinnossa tietoa on jaettu enimmäkseen CC BY 4.0- tai CC0-lisenssillä.

Lisätietoja Creative Commonsista

Creative Commons on kansainvälinen, ei-kaupallinen organisaatio, joka edistää luovuuden ja tiedon jakamista ja käyttöä maksuttomien lakityökalujen avulla. Creative Commonsin maksuttomat ja helppokäyttöiset tekijänoikeuslisenssit antavat helpon ja standardoidun tavan antaa yleisölle oikeudet jakaa ja jatkokäyttää luovia tuotoksia valituilla ehdoilla. CC-lisenssit eivät korvaa tekijänoikeuksia, vaan ne toimivat tekijänoikeuden rinnalla. Lisätietoja Creative Commons Suomen toiminnasta.

Lisätietoja avoimen tiedon lisensoinnista (englanniksi) Euroopan dataportaalista.

Käytännössä datan lisensiointi etenee sopivan lisenssin valinnalla, sopivuuden varmistamisella sekä mainitsemalla valittu lisenssi datan kuvailu- eli metatietojen yhteydessä. Creative Commons tarjoaa apua sopivan lisenssin valintaan (osittain englanniksi).

Lisäksi voi arvioida tarvetta rajata vastuuta datan hyödyntäjiin nähden vastuuvapauslausekkeella.

Esimerkki vastuuvapauslausekkeesta

Organisaation nimi ei ole vastuussa menetyksistä, oikeudenkäynneistä, vaateista, kanteista, vaatimuksista, tai kustannuksista taikka vahingosta, olivat ne mitä tahansa tai aiheutuivat ne sitten miten tahansa, jotka johtuvat joko suoraan tai välillisesti yhteydestä Organisaation nimi julkaisemaan avoimeen dataan tai Organisaation nimi julkaiseman avoimen datan käytöstä.

Yleisimmät avoimen tiedon lisenssit

Creative Commons CC0 1.0 Universal

CC0-lisenssillä luovutaan datan kaikista tekijänoikeuksista. CC0-lisenssillä varustettu data on luovutettu täysin vapaaseen käyttöön sekä kaupallisiin että ei-kaupallisiin tarkoituksiin. Datan hyödyntäjän ei tarvitse kertoa datan alkuperää tai pyytää lupaa sen käyttöön. Esimerkiksi julkaistujen tietoaineistojen metatietoja on lisensoitu CC0-lisenssillä, jotta esim. hri.fi-palvelussa olevien datojen metatiedot voi kopioida automaattisesti avoindata.fi-palveluun.

Creative Commons CC BY 4.0

CC BY 4.0 eli CC Nimeä 4.0 -lisenssi velvoittaa nimensä mukaisesti datan hyödyntäjän nimeämään datan alkuperän. Datan hyödyntäjän on mainittava lähde, tarjottava linkki lisenssiin sekä kerrottava, jos dataan on tehty muutoksia. CC BY 4.0 -lisenssillä varustettua dataa voi käyttää vapaasti.

Esimerkki lähdeviittauksesta

Helsinki Region Infoshare -palvelu suosittelee käyttämään palvelussa julkaistujen tietoaineistojen hyödyntämisessä seuraavanlaista lähdeviittausta: “Lähde: Helsingin kaupungin tulot ja menot. Aineiston ylläpitäjä on Helsingin kaupunginkanslia. Aineisto on ladattu Helsinki Region Infoshare -palvelusta 15.11.2021 lisenssillä Creative Commons Attribution 4.0.”

Tiedon avaamisesta päättäminen

Tässä vaiheessa kuvataan, miten organisaatiossa voidaan menetellä tiedon avaamisesta päättämisessä.

Tietoaineistojen avaamisesta päättämiseen ei ole olemassa virallisia suosituksia.

Suomen lainsäädännön mukaan tietoaineiston avaamisesta päättää sen viranomaistaho, jolle on annettu lainsäädännössä tehtävä hallinnoida tietoa. Esimerkiksi Terveyden ja hyvinvointilaitoksen (THL) hallinnoimien tietoaineistojen avaamisesta avoimena datana päättää THL. Suomessa ei ole keskitettyä tahoa, joka päättäisi keskitetysti koko hallinnon tietojen avoimuudesta.

Tietoaineistoja jo avanneet organisaatiot ovat päättäneet tietoaineistojensa avaamisesta eri tavoin. Tällä hetkellä käytännöt vaihtelevat organisaatiokohtaisesti ja voivat vaihdella myös organisaation sisällä. Tietoaineiston avaamisen päätöksentekoprosessi voi olla hyvinkin muodollinen ja tarkasti dokumentoitu hallinnollinen päätös, mutta organisaatioilla on käytössä myös kevyempiä menettelyjä. Tiedon avaamisesta voi esimerkiksi päättää organisaation johto ja toimialajohto, tietoaineiston tai -järjestelmän hallinnoija tai erillinen tiedon avaamisen ryhmä. 

Samalla on hyvä päättää mahdollisten jäännösriskien hallinnasta. Jäännösriskillä tarkoitetaan riskiä tai riskin osaa, joka jää voimaan tai jolle ei voi tai haluta tehdä toimenpiteitä. Lisätietoja jäännösriskeistä riskienhallinnan ohjeessa.

Mikäli organisaatio aikoo avata useita tietoaineistoja, voi organisaation olla tarpeen priorisoida tietoaineistojen avaamisjärjestystä ja kehitystoimia.

Helsinki Region Infosharen käytäntö

Helsingin kaupungilla avaamisesta ei tehdä virallista päätöstä, vaan datan omistajataho määrittelee avattavat datat ilman virallista päätöksentekoprosessia. Data-avauksia tulee HRI:hin sen verran vähän, ettei avauksia tarvitse priorisoida. Pidempään työn alla olevat avaukset näkyvät HRI:n sivuilla

Ilmatieteen laitoksen käytäntö

Ilmatieteen laitoksessa tietoaineiston avaamisesta rajapintaan ja priorisoinnista päättää laitoksessa toimiva ohjausryhmä.

Avoindata.fi:n käytäntö

Avoindata.fi palvelu on maksuton julkaisualusta koko muulle julkiselle hallinnolle. Palvelu toimii itsepalveluperiaatteella, jolloin jokainen viranomainen voi hyödyntää sitä vapaasti osana datan avaamista ja hyödyntämistä.