Valitse tiedostomuodot

Avoimen datan julkaisuun suositellaan käytettäväksi avoimia dataformaatteja eli tiedostomuotoja. Avoimien tiedostomuotojen käyttöä eivät rajoita tekijänoikeudet, patentit, tavaramerkit tai muut rajoitukset.
Tim Berners-Leen viiden tähden mallin (englanniksi) mukaan avoimessa tiedostoformaatissa julkaistu data saa vähintään 3/5 tähteä.

Laadukkaasti avatun datan tulisi saavuttaa vähintään kolme tähteä Tim Burners-Leen viiden tähden mallissa.

Avoimella tiedostomuodolla tarkoitetaan sellaista ei-kaupallista tiedostomuotoa, jota kuka tahansa voi hyödyntää ilmaiseksi. Esimerkiksi Microsoftin .docx tai .xslx tiedostomuodot eivät ole avoimia, sillä ne ovat kaupallisia, ja niiden käyttö ilmaisilla ohjelmistoilla on hankalaa. Avoimet tiedostomuodot mahdollistavat yleensä ohjelmistoriippumattoman datan uudelleenkäsittelyn. Tämä on tärkeää siksi, etteivät kaupalliset oikeudet rajoita datan uudelleenkäyttöä.

Datan julkaiseminen PDF-tiedostona

Erittäin suuri määrä erilaisia dokumentteja julkaistaan PDF-muodossa. Adobe kehitti ja patentoi PDF:n 1990-luvulla kaupallisena tiedostomuotona. Vuonna 2008 sen versio 1.7 (ISO 32000-1) standardisoitiin lähes avoimeksi standardiksi, mutta osa sen ominaisuuksista oli edelleen vain Adoben omaisuutta (esimerkiksi Adobe XML Forms Architecture, Adobe JavaScript). Vuonna 2017 julkaistussa PDF 2.0 -versiossa (ISO-32000-2) kaikki ominaisuudet olivat kuitenkin avoimia. Huomioi siis, mitä versiota PDF:stä käytät, jos julkaiset dataa PDF-muodossa. Muista myös huolehtia siitä, että datasi on koneluettavassa muodossa.

Oikea formaatti oikeaan tarpeeseen

Alla olevasta listauksesta saat apua erityyppisen datan julkaisuun. Listassa kerromme, mitä tiedostomuotoja suosittelemme minkäkin tyyppisen datan julkaisemiseen ja miksi.

  • Tekstimuotoinen data: TXT. Helpoin ja varmin tiedostomuoto tekstin julkaisemiseen on .txt.
  • Taulukkomuotoinen data: CSV. Paras ja helpoin tiedostomuoto taulukoille on .csv (Comma-separated Values). CSV-muotoisia tiedostoja on helppo luoda yleisillä taulukkolaskentaohjelmilla kuten Microsoft Office Excelillä valitsemalla tallennusvaiheessa tiedostomuodoksi .csv.
  • Paikkatiedot, pieni vektoridata: GeoJSON tai KML. Molemmissa tiedostomuodoissa koordinaattien kuvaamiseen käytetään WGS84-koordinaatistoa, jota on helppo käsitellä useilla eri ohjelmilla ja työkaluilla.
  • Paikkatiedot, suuri rasteridata: GeoTIFF tai NetCDF. Suosittelemme julkaisemaan rasterimuotoisen datan GeoTIFF-tiedostomuodossa. Muille kuin maantieteellisille taulukkotiedoille suosittelemme NetCDF-muotoa.