Suomen ensimmäinen kitkaton datapaketti on julkaistu

Saatavilla olevan avoimen datan määrä on valtava ja kasvaa jatkuvasti. Hyvin samankaltaista dataa on saatavilla useista eri lähteistä. Datan hyödyntäjän näkökulmasta päätös käyttää tai olla käyttämättä tiettyä lähdettä tehdään yhä nopeammin. Päätöksen ratkaiseviksi tekijöiksi nousevat datan käytettävyys, lähteen luotettavuus ja datan löydettävyys.

Avoimen datan julkaisijan näkökulmasta on tärkeää maksimoida datan helppokäytettävyys ja luotettavuus. Tämä saavutetaan tarjoamalla data standardoidussa ja teknologiariippumattomassa muodossa. Lisäksi datan sisältöä, muotoa ja lähteitä on syytä kuvailla perusteellisesti. Lopputuloksena käyttäjän on yksinkertaista laajentaa dataa uusiin konteksteihin ja hän voi luottaa datan laatuun.

Kitkattomat datapaketit (Frictionless Data Packages) ovat Open Knowledge Internationalin (OKI) suosittelema standardi, joka pyrkii lisäämään datan helppokäyttöisyyttä sekä luotettavuutta. Standardi pyrkii poistamaan arvailun rakenteellisen datan sisällöstä ja muodosta. Näin ollen käyttäjän on helppo siirtää dataa järjestelmästä toiseen.

Kitkattomuus saavutetaan suosimalla kaikkein yleisimpiä datamuotoja (CSV ja JSON), jotka ovat ohjelmointikieli-  ja järjestelmäriippumattomia. Lisäksi ne ovat koneluettavia tiedostomuotoja.

OKI määrittelee tarkasti, millaista metadataa datapaketteihin tulee sisällyttää. Tämä metadata tulee tarjota koneluettavassa sekä ihmissilmää miellyttävässä JSON-muodossa.

Suomen ensimmäinen datapaketti on julkaistu avoindata.fi -palvelussa täällä: https://www.avoindata.fi/data/fi/dataset/postcodes.

OKI on suositellut kitkattomaan datapakettiin sisällytettäväksi seuraavat metadata-tiedostot:

1. DATAPACKAGE - Datan käyttötarkoitusta ja luotettavuutta kuvaava tiedosto

  • Nimi ja kuvaus
  • Julkaisija
  • Lähteet
  • Lisenssit

2. JSON_TABLE_SCHEMA - Datan rakennetta kuvaava tiedosto

  • Yksityiskohtainen kuvaus jokaisesta datatiedostosta
  • Jokaiselle sarakkeelle määritellään erikseen
    • Nimi
    • Tyyppi (esim. numero, lause, kirjain)
    • Kuvaus (lyhyt kuvaus, mihin saraketta voi käyttää)

3. CSV_DIALECT - CSV-datan kieltä kuvaava tiedosto

Lisätietoja: http://frictionlessdata.io/