Mitä on avoin data?

Mitä on avoin data

Johdanto

Tiedätkö tarkkaa, miten paljon verorahoja on käytetty katulamppuun tai syöpätutkimukseen? Mikä on lyhyin, turvallisin ja luonnokaunein pyöräilyreitti kodistasi töihin? Mitä hengittämäsi ulkoilma sisältää? Missä alueella on parhaat työmahdollisuudet tai missä on eniten puistoja pinta-alaan nähden?

Uusi teknologia mahdollistaa uusien palveluiden rakentamisen näiden kysymysten automaattiseksi vastaamiseksi. Suurin osa datasta, joita tarvitaan näihin kysymyksiin vastaamiseen kerätään ja luodaan julkisessa hallinnossa. Hallinnossa on paljon dataa, joka on arvokasta. Jotta sen arvo voidaan moninkertaistaa, tulee se avata koko yhteiskunnan käytettäväksi.

Avoin data on koneluettavassa muodossa olevaa informaatiota, joka on kaikkien vapaasti käytettävissä mihin tahansa käyttöön, kunhan sen alkuperäinen lähde mainitaan.

Avoimen datan taustaa

Avoimen datan juuret ovat 1980- ja 1990-luvulla syntyneissä vapaita ohjelmistoja ja avointa lähdekoodia edistävissä liikkeissä. Tänä päivänä avoimuus on eräänlainen yhteiskuntaa läpileikkaava megatrendi, joka näyttää vahvistuvan monilla aloilla. 

Suomessa datan avaaminen alkoi kiihtyä vuonna 2009 Euroopan Unionin PSI-direktiivin (Julkisen sektorin tiedon uudelleenkäytön helpottaminen 2003 ja uudistus 2013) ja etenkin Britannian ja Yhdysvaltojen esimerkkien vauhdittamana. Julkisen tietovarantojen avaaminen alkoi arkipäiväistymään, kun useat maat (esimerkiksi Yhdysvallat, Englanti, Kanada ja Uusi-Seelanti) julkaisivat niiden aloitteita avata hallinnon tietoja. Kansallisen avoimen tiedon politiikan kehittäminen alkoi vuonna 2011, kun Suomen hallitus julkisti periaatepäätöksen julkishallinnon digitaalisten tietoaineistojen saatavuudesta. Sen mukaan:

"tietoaineistojen tulee olla avoimesti saatavilla ja uudelleenkäytettävissä yhtenäisin, selkein ja kaikille tasapuolisin ehdoin, pääsääntöisesti maksutta.”

Tämän jälkeen Kataisen hallitusohjelmaan kirjattiin julkisten tietovarantojen määrätietoinen avaaminen, joka edistää avointa tiedettä ja luo mahdollisuuksia uudenlaiselle yrittäjyydelle ja palveluinnovaatioille.

Ensimmäiset merkittävät kansalliset tietoaineistot avattiin toukokuussa 2012, kun Maanmittauslaitos avasi maastotietojaan. Tätä ennen oli jo avattu lukuisia paikallistason aineistoja muun muassa pääkaupunkiseudulla vuonna 2010 käynnistyneen Helsinki Region Infosharen toimesta.

Mitä data on?

Datalla tarkoitetaan digitaalisesti tallennettua, merkeistä ja symboleista koostuvaa koneellisesti luettavissa olevaa informaatiota, joka voi muodostaa esimerkiksi dokumentteja, tietokantoja, kuulemisten transkripteja ja audiotallenteita. Se voidaan ymmärtää raaka-aineena, jota jalostamalla syntyy merkityksellistä informaatiota.

Avoimen datan määritelmä

Dataa voidaan julkaista, mikäli se ei sisällä yksityisyydensuojan piiriin kuuluvaa henkilötietoa tai muusta syystä arkaluonteista tai salassapidettävää aineistoa kuten liikesalaisuuksia tai kansalliseen turvallisuuteen liittyviä aineistoja.

Kun data julkaistaan uudelleenkäytön sallivalla lisenssillä maksutta ja koneluettavassa muodossa, voidaan puhua avoimesta datasta. Kaikki julkaistavissa oleva data voidaan avata, mutta kaikki verkon kautta julkaistu aineisto ei välttämättä täytä avoimen datan kriteerejä.

Avoin data voidaan määritellä Open Knowledgen ylläpitämän avoimen tiedon määritelmää mukaillen seuraavasti:

  1. Avoin data on löydettävissä ja saatavilla Internetistä kokonaisena ja maksutta käyttökelpoisessa ja muokattavassa (siis koneluettavassa) muodossa.

  2. Avoin data on kaikkien vapaasti katseltavissa, ladattavissa, kopioitavissa, muokattavissa, jaettavissa ja käytettävissä missä tahansa lainmukaisessa toiminnassa ilman taloudellisia, juridisia, teknisiä, sosiaalisia tai käytännöllisiä rajoitteita.

  3. Avoimen datan käyttöehdot ja lisenssit takaavat datan tuottajalle tämän halutessa oikeuden tulla asianmukaisesti nimetyksi ja käyttäjälle varmuuden datan alkuperästä. Muunlaisia käyttöä rajoittavia ehtoja ei ole.

Aineistoa kuvaileva metadata

Kaikki julkaistava aineisto on kuvailtava, jotta yleisö tietää, mistä on kyse. Metadata on dataan liitettyä kuvailutietoa, joka selittää, paikallistaa tai muulla tavoin helpottaa informaation hakemista, käyttämistä tai hallinnointia (Lisätietoja: NISO 2004. Understanding Metadata. Bethesda, MD: NISO Press).

Avoin data löytyy netistä eikä ole tilauksesta toimitettua, joten hyödyntäjän näkökulmasta datan luotettavuuden ja merkityksen osoittaminen on tärkeää. Kuvailutieto on tärkeä tietokantojen ja muun datan julkaisussa, koska itse sisältö ei välttämättä ole ymmärrettävissä ilman kuvailutiedoissa kerrottua kontekstia. Avoimen datan metatiedot kertovat käyttäjälle, mistä tiedossa on kyse, minkä aikavälin tiedosta on kyse, kuka sen on kerännyt ja julkaissut, mikä sen laatu on, miten sitä saa käyttää ja mitä sitä käytettäessä pitää ottaa huomioon.

Kuvailutieto voidaan kirjoittaa määrämuotoisesti sopivilla metadatastandardeilla. Tällöin kuvailutietokin on koneluettavassa muodossa, mikä helpottaa tietojärjestelmien välisiä tiedonsiirtoja ja sisältöjen yhdistämistä sekä parantaa informaation löydettävyyttä niin, että hakukoneet pystyvät etsimään tietoa tarkasti ja monipuolisesti.

Tarvittavat kuvailutiedot riippuvat datan sisällöstä ja luonteesta, mahdollisesti sovellettavista metadatastandardeista sekä organisaation näkemyksistä siitä, mitä muidenkin pitäisi tietää avattavasta datasta. Metadata voi sisältää esimerkiksi dokumentin tai tietoaineiston nimen, omistajan, aihealueen, julkaisupäivämäärän, lisenssin ja versionumeron.

Organisaatioiden tietokannoissa dataan lisätään usein kuvailutietoja, jolloin julkaistava metadata voidaan saada tietojärjestelmästä automaattisesti datan kanssa. Monesti metadataa pitää kuitenkin täydentää ja parannella ennen julkaisua. Organisaation järjestelmässä kuvailutiedot on laadittu sisäiseen käyttöön, mutta kun dataa avataan, sitä pitää kuvailla ulkopuolisille. Monissa tapauksissa metadatan julkaiseminen on mahdollista ja hyödyllistä sellaisissakin tapauksissa, joissa itse dataa ei voida esimerkiksi tekijänoikeussyistä julkaista.

ulkishallinnossa avoimen datan ajattelutapa liittyy jälkiteollisten demokraattisten yhteiskuntien kehitykseen, jossa hallinnon tuottamaa dataa luovutetaan yhä enemmän avoimesti kaikkien käytettäväksi ja julkisia palveluja rakennetaan digitaalisille alustoille. Julkishallinnon avoin data jatkaa tiedon vapauden ja julkisuuslainsäädännön (Freedom Of Information Law) viitoittamaa tietä. Julkisuuslaki tarkoittaa, että kenellä tahansa on halutessaan oikeus päästä käsiksi julkishallinnon dataan. Kansalaista voivat kiinnostaa esimerkiksi verovarojen käyttökohteet, työllistymismahdollisuudet alueittain tai kotikaupungin ilmanlaatu.

Avoimen datan tavoitteet ovat kuitenkin julkisuuslainsäädännön lähtökohtia laajemmat ja painotukset voivat vaihdella paljon. Datan avaamista perustellaan muun muassa hallinnon läpinäkyvyydellä, tilivelvollisuudella ja korruption ehkäisyllä, julkisten organisaatioiden toiminnan tehostamisella, liiketoiminnan tukemisella sekä mahdollisuudella nykyistä parempiin päätöksiin niin ihmisten arjessa kuin yrityksissäkin. Mikäli tieto ymmärretään poliittisena oikeutena, voidaan julkishallinnon datan avaamista perustella kansalaisten oikeuksien näkökulmasta.

Läpinäkyvä organisaatio tai yritys osallistaa asiakkaita tai kuluttajia toimintaansa sekä dialogin että datan avulla. Esimerkiksi jos kunnassa toimitaan läpinäkyvästi, viralliset päätöksenteon asiakirjat, joista luottamukselliset tiedot on poistettu, ovat kaikkien asukkaiden saatavilla. Avointen tietojen myötä asukkaat voivat entistä paremmin osallistua keskusteluun ja päätöksiin yhteisistä asioista. Osallistumisen korkeimmalla tasolla on yhteistyö, jossa asukkaat toimivat aktiivisesti yhteistyössä kunnan viranomaisten kanssa.

Tulevaisuudessa avointen tietovarantojen ja big datan avulla saadaan entistä parempaa tietoa päätöksenteon ja ongelmanratkaisun tueksi esimerkiksi kansalaisten ja kuluttajien toiminnasta, bussien sijainneista, sääennusteista, terveydenhoidosta sekä yrittäjyydestä. Kansalaisista ja heidän toiminnastaan kerätty data voidaan antaa takaisin kansalaisille, jolloin heitä kohdellaan aktiivisina toimijoina, ei pelkkinä toiminnan kohteina. Resurssien niukkeneminen saattaa hidastaa datan avaamista, mutta sen ei pitäisi muodostaa perustavanlaatuista estettä. Datan avaaminen vaatii joskus merkittäviä resursseja, mutta avoimen datan ylläpitäminen huomattavasti vähemmän. Jos datan avoimuus otetaan huomioon jo järjestelmien hankinnassa ja prosessien suunnittelussa, datan avaamisen kustannuksia voidaan edelleen pienentää.

Avoin data ja liiketoiminta

Avoimen datan saatavuus edistää liiketoiminnan kasvua. Esimerkiksi Etlan tutkimuksen (Does Marginal Cost Pricing of Public Sector Information Spur Firm Growth?) mukaan avoin maksuton paikkatieto on yhteydessä nopeasti kasvaneeseen paikkatietoalan yritystoimintaan. Avoimen datan sovelluskilpailuissa ympäri maailmaa (Apps4Gov, Apps4USA, Apps4Finland, Open Finland Challenge) on palkittu useita avoimen datan innovaatioita.

Yleensä menestyvään liiketoimintaan tarvitaan muutakin kuin avointa dataa. On epärealistista odottaa, että datan avaukset yksin johtaisivat lukuisten uusien dataa jalostavien yritysten syntymiseen. Todennäköisesti merkittävimmät avoimen datan liiketoimintahyödyt ovat epäsuoria: avointa dataa käytetään esimerkiksi osana laajempaa palvelua tai tuotetta tai sen avulla tuetaan yritysten päätöksentekoa tai prosessien automatisointia. Yleinen metafora, jossa avointa dataa verrataan öljyyn, voidaan ymmärtää toisaalta niin, että data on raaka-ainetta, josta voidaan jalostaa monia tuotteita. Toisaalta voidaan ajatella, että avoin data on öljyä, joka voitelee yhteiskunnan rattaat pyörimään entistä sujuvammin.

Julkishallinnon ohella myös yritysten datan avaaminen lisääntynee tulevaisuudessa. Yritykset voivat muun muassa ruokkia brändiuskollisuutta avaamalla kohderyhmäänsä kiinnostavia tietovarantoja. Tietoja avaava yritys toimii läpinäkyvästi ja viestii vastuullisuudestaan. Tuotteiden läpinäkyvät tuotantoketjut kertovat, että yritys toimii puhtaasti ja haluaa osoittaa toimintansa eettisyyden.

Keskeinen datan avaamisen motiivi yrityksille on siirtyminen niin sanottuun API-talouteen, jossa yritykset keskittyvät omaan ydinliiketoimintaansa ja tarjoavat koneluettavan rajapinnan kautta dataa myös muiden käytettäväksi. Näin toimivat esimerkiksi Twitter, Amazon ja Facebook. Avoimien rajapintojen avulla muut tahot voivat kehittää yrityksen datan päälle uusia palveluja, jotka yhdessä yrityksen palvelujen kanssa tuottavat asiakkaille kattavan kokonaisuuden. Yritysten data mahdollistaa usein niin paljon erilaisia sovelluksia ja palvelumalleja, että yrityksen on mahdotonta toteuttaa niitä yksin. Rajapintojen yleistymisen myötä kehitetään niiden käyttöä helpottavia yhteisiä standardeja.