Avoimen datan kategoriat
Tietoaineistot
Tutkihankintoja.fi-palvelun data (valtion ja kuntien ostolaskut)
MUOKATTU 01.03.2021
## Tutkihankintoja.fi-palvelun data
Aineisto koostuu Tutkihankintoja.fi-sivuston valtion ja kuntien ostolaskudatasta. Aineistoon kuuluvat kaikki valtion hankintoihin liittyvät ostolaskut vuoden 2016 alusta alkaen. Poikkeuksen muodostavat Suojelupoliisi, rajavartiolaitos, poliisihallitus sekä puolustusministeriön hallinnonala, joiden hankinnat eivät ole mukana aineistossa. Kunnista mukana ovat toistaiseksi Helsinki ja Vantaa.
Aineisto koostuu valtion budjettitalouteen kuuluvien kirjanpitoyksiköiden hankintojen ostolaskujen tiedoista. Budjettitalouteen kuuluvat valtion ministeriöt sekä valtion eri hallinnonaloilla toimivat virastot ja laitokset. Lisäksi aineistossa on mukana valtion yhteishankintayksikkö Hansel Oy:n hankinta-aiheiset ostolaskut. Kunnista mukana on Helsingin ja Vantaan ostolaskut. Helsingin osalta mukana on hankintamenot 2018 alusta alkaen ja näitä päivitetään kuukausittain. Vantaan osalta mukana on toistaiseksi vuosien 2016 - 2018 hankintamenot.
Valtion osalta palveluun on poimittu kaikki sellaiset ostolaskut, jotka on kirjattu valtion hankintatileille*. Laskut ovat käyneet läpi hyväksymis- ja tarkastuskierrot, mutta mikäli laskuille on tämän jälkeen tehty korjauksia tai ne on poistettu kirjanpidosta, ei tieto korjaannu enää tähän aineistoon. Kuntien osalta vastaava aineisto on saatu kirjanpidosta, josta mukaan on rajattu hankinnoiksi määriteltävät menot.
Valtion julkaistava aineisto on yhdistelty laskujen otsikkotasoisista ja tiliöintirivitasoisista tiedoista. Aineistossa yksi rivi vastaa siis laskun yhden tiliöintirivin tietoja, ja yhdellä laskulla tiliöintirivejä voi olla useita. Aineistoa on rikastutettu tiedolla hallinnonalasta. Mikäli alkuperäisessä laskussa on ollut toimittajan Y-tunnus, on se tuotu myös tähän aineistoon. Käsittelyn helpottamiseksi liikekirjanpidon tilit on ryhmitelty myös eri hankintakategorioihin ja tuote-/palveluryhmiin.
## Julkaistavan aineiston tietokentät
· lasku_id (ostolaskujärjestelmän antama yksilöivä tunnus laskulle)
· hankintayksikko (valtion osalta kirjanpitoyksikkö, kuntien osalta toimialue/virasto) ja hankintayksikko_tunnus (valtion osalta sama kuin Valtiokonttorin ylläpitämässä listauksessa)
· ylaorganisaatio (valtion osalta hallinnonala, kuntien osalta kunta tai kaupunki) ja ylaorganisatio_tunnus (valtion osalta sama kuin Valtiokonttorin ylläpitämässä listauksessa)
· sektori (onko kyseessä valtio vai kunta)
· toimittaja_nimi ja toimittaja_y_tunnus
· tili (valtion/kunnan liikekirjanpidon tili)
· hankintakategoria (lkp-tiliin perustuva hankintojen kategorisointi)
· tuote_palveluryhma (lkp-tiliin perustuva hankintojen tarkempi kategorisointi)
· tositepvm
· tiliointisumma
## Salatut tiedot
Aineistoon eivät kuulu lain perusteella salaisiksi määritellyt hankinnat. Lisäksi joitain toimittajatietoja on anonymisoitu julkisuuslain perusteella. Anonymisoinnissa toimittajan nimi ja Y-tunnus on korvattu termillä ”Salassa pidettävä”.
Toimittajatiedot on anonymisoitu myös sellaisilta laskuriveiltä, joilla laskuttajana on yksityishenkilö. Anonymisointi on tehty myös siinä tapauksessa, ettei ole ollut mahdollista määrittää, onko kyseessä toiminimi vai yksityishenkilö. Näissä tapauksissa nimen kohdalla lukee ”Toimittajatietoa ei julkaista”. Anonymisoinnin teknisen toteutuksen takia joissain tapauksissa on saatettu anonymisoida myös sellaista tietoa, joka ei ole salassa pidettävää.
Aineisto on jaettu vuosittaisiin tiedostoihin, ja sitä päivitetään noin kuukausittain. Saman aineiston pohjalta toteutettu visualisoitu verkkosivusto on tarkasteltavissa osoitteessa Tutkihankintoja.fi.
*Valtion hankintatilit on listattu Valtion hankintatoimen kehittämishankkeen (HANKO) loppuraportin liitteessä 7, sivuilla 91 - 93.
## Muutosloki
6.10.2017
· julkaistu päivitetyt tiedostot (v02)
· 2017 kattavuus nyt 5.10.2017 asti
13.12.2017
· julkaistu päivitetyt tiedostot (v03)
· 2017 kattavuus nyt 11.12.2017 asti
· Aineistoon lisätty uutena organisaationa Hansel Oy:n laskut (ml. 2016)
22.1.2018
· julkaistu päivitetyt tiedostot (v04)
· tiedostomuoto korjattu muotoon tsv, vastaten datan sisältöä
· julkaistu ensimmäinen vuoden 2018 tiedosto
14.6.2018
· julkaistu päivitetyt tiedostot (v05)
9.10.2018
· julkaistu päivitetyt tiedostot, myös kieliversiot (englanti ja ruotsi)
· päivitetty kenttien nimet koneluettavampaan muotoon (snake case, ei ääkkösiä)
· luovuttu aineiston versionumeroinnista
13.11.2018
· julkaistu päivitetyt tiedostot
29.1.2019
· julkaistu 2019 ensimmäiset luvut
· julkaistu päivitetyt tiedostot
15.3.2019
· julkaistu päivitetyt tiedostot
· korjattu 2018 ja 2019 datoissa virheellisesti tuplana ollut data (näiden osuus melko pieni)
5.4.2019
· julkaistu päivitetyt tiedostot
25.4.2019
· julkaistu päivitetyt tiedostot
5.7.2019
· julkaistu päivitetyt tiedostot
7.10.2019
· julkaistu päivitetyt tiedostot
14.4.2020
· julkaistu päivitetyt tiedostot
· muutettu aineiston nimi vastaamaan päivitettyä sisältöä (myös HKI ja Vantaa mukana)
· luovuttu data-tiedostojen kieliversioista ja julkaistu hankintayksiköiden ja kategorioiden käännökset erillisenä tiedostoina
18.6.2020
· julkaistu päivitetyt tiedostot
· siirrytty käyttämään Avoindata.fi APIa tiedostojen uploadaamisessa
· päivityssykli jatkossa sama kuin Tutkihankintoja.fi-sivustolle, eli joka maanantai
Vantaan kaupungin tilastollinen vuosikirja
MUOKATTU 01.03.2021
Vantaan kaupungin tilastollista vuosikirjaa on julkaistu kaupungiksi tulovuodesta 1974 lähtien. Vuosikirja on luonteeltaan kokoomateos, jossa pyritään mahdollisimman kattavasti kuvaamaan Vantaata ja vantaalaisia tilastoin. Julkaisu on kokonaan kaksikielinen ja jokaisen tilastotaulukon lopussa on lähdeviite.
Vuosikirjassa on tilastoja seuraavista aiheista: alue ja ympäristö, väestö, väestönmuutokset, asuminen ja rakentaminen, elinkeinot ja työmarkkinat, taloudelliset olot, sosiaali- ja terveydenhuolto, koulutus, kulttuuri ja vapaa-aika, kadut, energia- ja vesihuolto, kunnallistalous ja kaupungin henkilöstö, liikenne, yleinen turvallisuus sekä vaalit.
Eri vuosien vuosikirjat ovat erillisinä Excel-taulukkopaketteina, paitsi vuodet 2012-2015, jotka ovat samassa. Eri vuosien yksittäisiä taulukkoja on jouduttu päivittämään julkaisun jälkeen ja joidenkin taulukoiden tiedot saattavat puuttua kokonaan (esimerkiksi vuoden 2018 vuosikirjasta puuttuu luvun 9 taulukot).
Helsingin seudun sairastavuusindeksi
MUOKATTU 01.03.2021
Sairastavuusindeksi lasketaan kolmen väestön sairastavuutta kuvaavan rekisterimuuttujan avulla. Nämä ovat työkyvyttömyyseläkkeellä olevien osuus työikäisistä, pitkäaikaissairastavuutta kuvaava erityiskorvattaviin lääkkeisiin oikeutettujen osuus väestöstä ja väestön kuolleisuus.
Kansaneläkelaitos on kehittänyt sairastavuusindeksin alueiden välisten terveyserojen tarkasteluun.
Sairastavuusindksi-indikaattori ilmaisee jokaiselle Suomen kunnalle lasketun indeksin avulla, miten tervettä tai sairasta väestö on suhteessa koko maan väestön keskiarvoon (= 100). Luku ilmoitetaan sekä sellaisenaan että ikävakioituna, tässä vain ikävakioituna. Sairastavuusindeksi perustuu kolmeen rekisterimuuttujaan: kuolleisuuteen, työkyvyttömyyseläkkeellä olevien osuuteen työikäisistä ja erityiskorvattaviin lääkkeisiin oikeutettujen osuuteen väestöstä. Niistä kukin on suhteutettu erikseen maan väestön keskiarvoon. Lopullinen sairastavuusindeksi on kolmen osaindeksin keskiarvo.
Lisätietoja indeksin laskutavasta saa Kansanterveyslaitoksen [terveyspuntarista](http://www.kela.fi/terveyspuntari).
Eri vuosien aineistot eivät ole suoraan keskenään verrannollisia.
Helsingin seudun sairastavuusindeksi 2017 -aineiston lähde: Kansaneläkelaitos. Helsingin, Espoon ja Vantaan kaupungeille tehdyt erillistilastot sairastavuusindeksistä Helsingissä, Espoossa ja Vantaalla alueittain 2017.
Helsingin sairastavuusindeksi 2019 -aineiston lähde: Helsingin kaupunginkanslia. Lähdeaineisto on Kelalta, mutta indeksit on laskettu Helsingissä.
Jyväskylän yliopiston opinnäytetöitä
MUOKATTU 26.02.2021
Aineisto koostuu koneoppimisessa käytettäväksi tarkoitetuista TF-IDF-datamatriiseista. Matriisit on koostettu dokumenttikorpuksista, jotka perustuvat 7400:aan Jyväskylän yliopiston digitaalisesta tietovarannosta kerättyyn maisterin ja tohtorin opinnäytetyöhön. Korpukset ovat suomen, ruotsin ja englannin kielillä.
Finna-koulutuskorpukset
MUOKATTU 26.02.2021
Aineisto koostuu koneoppimisessa käytettäväksi tarkoitetuista TF-IDF-datamatriiseista. Matriisit on koostettu dokumenttikorpuksista, jotka perustuvat metadataan, joka on haettu Finna.fi palvelusta sen avoimen rajapinnan kautta vuonna 2019. Korpukset ovat suomen, ruotsin ja englannin kielillä.
Itämeren päivittäinen pintaleväaineisto (Landsat-8 OLI) 2017– / Daily surface algae blooms of the Baltic Sea (Landsat-8 OLI) 2017–
MUOKATTU 25.02.2021
**[FI]** Itämeren alueen ja erityisesti Suomea ympäröivien merialueiden pintalevälauttoja kuvaava neliluokkainen tulkintakartta. Tulkintakartta kuvaa todennäköisyyttä, että tietyllä alueella esiintyy pintalevää. Kartan luokat ovat 1) ei pintalevää, 2) mahdollista, 3) todennäköistä sekä 4) varmaa pintalevää. Pintalevää ei kyetä havainnoimaan optisilla satelliitti-instrumeneilla pilvien läpi, joten pintaleväkartta puuttuu pilvisiltä alueilta.
Tulkintoja tehdään kesäkuun lopulta syyskuun alkuun, tarvittaessa pidempäänkin. Pääasiassa levälauttoja esiintyy eniten heinä-elokuussa, joten kyseiseltä ajanjaksolta pintalevähavaintojen määrä on suurin. Tulkintamenetelmä perustuu satelliitin eri aallonpituusalueiden havaitseman heijastuksen voimakkuuteen, joka on sinileväalueilla erilainen kuin levättömillä vesialueilla. Yksittäisten pikselien alueelta tehty pintalevätulkinta yleistetään karkeammaksi, jotta kartalla näkyvät leväalueet ovat selkeämmät. Kartta-alueelta poistetaan pilviset alueet automaattisella pilventunnistusmenetelmällä, jota täydennetään tarvittaessa ennen julkaisua myös manuaalisesti.
Tulkintamenetelmä on kehitetty SYKEssä ja se hyödyntää kolmen eri satelliitti-instrumentin havaintoja. Tämä aineisto koostuu NASAn Landsat-8 -satelliitin OLI-instrumentin havaintoihin vuodesta 2017 lähtien. Tulkinta tehdään 60m tarkkuudella, joten tulkinta voidaan ulottaa saaristoalueille ja rantojen läheisille alueille. Näin tarkkoja havaintoja saadaan eri merialueilta muutaman päivän välein, mutta suurempi osa havainnoista tehdään Sentinel-2 sarjan MSI-instrumenttien havainnoista (erillinen metadata).
Aineisto kuuluu SYKEn avoimiin aineistoihin (CC BY 4.0).
***
**[EN]** A four-class interpretation map describing surface floating algae blooms in the Baltic Sea region and especially in the sea areas surrounding Finland. The map describes the probability that algae accumulates in the surface layer o the sea in a particular area. The map categories are 1) no surface algae, 2) possible, 3) probable, and 4) certain surface algae. Surface algae cannot be detected by optical satellite instruments through clouds, so a map of surface algae is missing from cloudy areas.
Interpretations made annually from late June to early September, and longer if necessary. Algae rafts mainly occur in July-August, so the number of surface algae observations is the highest during that period. The interpretation method is based on the intensity of the reflection detected by the different wavelength ranges of the satellite, which is different in cyanobacterial areas than in areas without cyanobacteria. A surface algae estimation by individual pixels is generalized so that the areas of algae displayed on the map are clearer. Cloudy areas are removed from the map area by an automatic cloud detection method, which is also completed manually before publication, if necessary.
The interpretation method has been developed at SYKE and utilizes the observations of three different satellite instruments. This data is based on observations from NASA's Landsat-8 satellite OLI instrument starting from year 2017. The interpretation is made with an spatial resolution of 60m, so the interpretation can be extended to archipelago areas and areas close to the shores. Thus, accurate observations are obtained from different sea areas every few days, but the greater part of the observations are made from observations of Sentinel-2 series MSI instruments (separate metadata).
***
**WMS-palvelin / WMS service endpoint**: https://geoserver2.ymparisto.fi/geoserver/eo/wms
**WMS-taso / WMS layer**: EO_HR_WQ_LC8_ALGAE
***
Kaukokartoitusseurantojen tuloksena syntynyt levälauttatulkinta, joka pohjautuu Landsat-8 OLI -satelliittihavaintoihin. Vuodesta 2017 eteenpäin koostuva päivittäinen levälautta-aineisto.
Prosessointihistoria:
Levälautat on tulkittu Landsat-8 OLI-satelliitti-instrumentin aineistoilta. Alkuperäinen satelliittidata on ladattu USGS/NASA latauspalveluista. SYKEssä niistä on laskettu levätulkinnat.
Väestötietojärjestelmän suomalaisten nimiaineistot
MUOKATTU 05.02.2021
Väestötietojärjestelmästä on poimittu erilliset etunimiä ja sukunimiä koskevat nimiluettelot ja nimien kappalemääräiset esiintymät väestötietojärjestelmässä. Tietosuojasyistä etunimiä, joita on alle viisi kappaletta ja sukunimiä, joita on alle 20 kappaletta, ei esitetä luetteloissa.
Etunimiaineisto on jaettu miesten ja naisten nimiksi sen mukaisesti, miten nimet esiintyvät väestötietojärjestelmässä eri sukupuolta olevilla henkilöillä. Etunimistä on muodostettu erilliset miesten ja naisten nimiä koskevat luettelot, joissa on erikseen nimien lukumäärät yhteensä kaikkina etuniminä, ensimmäisenä etunimenä tai muuna kuin ensimmäisenä etunimenä.
Sukunimiaineistossa on lueteltu sukunimet esiintymien lukumäärän mukaisessa suuruusjärjestyksessä.
Nimiaineistot on muodostettu suomalaisten voimassaolevien nimien pohjalta, joten niissä on huomioitu väestötietojärjestelmään rekisteröityjen elossa olevien Suomessa tai ulkomailla asuvien Suomen kansalaisten nimistö. Ulkomaiden kansalaisten, kuolleiden henkilöiden nimiä tai henkilöiden entisiä nimiä ei ole huomioitu. Välinimet on laskettu aineistossa etunimiksi, samoin erisnimen sisältävät patronyymit ja matronyymit kuten Matinpoika tai Maijantytär. Sen sijaan patronyymejä, jotka ainoastaan viittaavat toiseen erisnimeen olematta itse erisnimiä kuten ibn, bin, ben ei ole aineistossa lueteltu.
Nimen kirjoitusasusta riippuen mm. nimen vokaalipaino voi olla eri kohdassa. Nämä painotukset ovat näkyvillä aineistossa, jolloin esim. Viren ja Virén esiintyvät aineistossa omina niminään. Myös avioliiton kautta syntyneet yhdistelmänimet, esim. Korhonen-Virtanen, esiintyvät aineistossa tässä yhdistelmämuodossa, mikäli niitä on yli 20 kappaletta.
Nimiaineistot on poimittu 5.2.2021.
Nimiaineistot ovat Microsoft Excel-tiedostomuodossa. Etunimien lukumäärät lajittelun mukaan on esitetty eri välilehdillä.
Eduskuntavaalien 2015 Ylen vaalikoneen vastaukset ja ehdokkaiden taustatiedot
MUOKATTU 17.06.2020
Vaalikoneessa on mukana 1855 ehdokkaan vastaukset.
Avoimen datan saa käyttöönsä CSV-taulukkona oheisesta linkistä tai rajapinnan kautta. CSV-taulukon tietoja pystyy tarkastelemaan millä tahansa taulukkolaskentaohjelmalla. Rajapinnan käyttö vaatii API-avaimen, jonka saa käyttöohjeineen laittamalla sähköpostia osoitteeseen vaalikone.tuki@yle.fi.
Vaalikonedata julkaistaan Creative Commons -lisenssillä. Tämä tarkoittaa, että vaalikoneen vastaustietoja saa käyttää uusien teosten osana, kunhan lähde mainitaan. Toivomme, että tietoa hyödynnettäessä linkitetään selvästi joko tähän artikkeliin http://yle.fi/uutiset/yle_julkaisee_vaalikoneen_vastaukset_avoimena_datana/7869597 tai Yle Uutisten etusivulle.
Vaalikoneeseen vastaaminen on päättynyt.
Vaalikoneen julkaisun jälkeen joillekin ehdokkaille on harkinnan mukaan annettu lisäaikaa vastaamiseen. Yksi on keskustan puheenjohtaja Juha Sipilä, joka sai vastata vaalikoneeseen vielä maanantaina poikansa kuoleman vuoksi.
Vaalikonedata sisältää myös niiden ehdokkaiden nimet, jotka eivät vastanneet vaalikoneen kysymyksiin mutta jotka osallistuivat Ylen Vaaligalleria-tenttiin.
MOT:n yritystukiaineisto 1997-2013
MUOKATTU 26.06.2018
**Miten aineisto on koottu?**
MOT:n määritelmä yritystuista on peräisin TEM:n omasta Yritystukiselvityksestä (7/2012). Aineistoon on yhdistetty ne TEM:n, Tekesin, Liikenne- ja viestintäministeriön, Liikenneviraston, Energiamarkkinaviraston ja Maan- ja metsätalousministeriön suorat yritystuet, jotka lain mukaan ovat julkisia.
Tietokannasta on olemassa myös päivitetty versio MOT yritystuet 2010-2016.
https://www.avoindata.fi/data/fi/dataset/mot-yritystukiaineisto-2010-2016
**Mitä Yleisradion MOT:n yritystukiaineisto sisältää?**
Aineistoon on koottu yhteen tiedot eri yritystukien maksatuksista useiden vuosien ajalta. Aineisto sisältää tiedot yli 7,5 miljardin euron arvoisten suorien yritystukien kohdentumisesta.
Julkaisimme tiedot vuoden 2011 ja sitä aiemmin maksetuista tuista syksyllä 2012, sen jälkeen aineistoa on päivitetty vuosittain. Summat kuvaavat rahaa, joka on todellisuudessa siirtynyt yritysten tileille.
Huomaa, että eri tukimuotojen aikasarjat ovat hiukan eri mittaisia. Vuodesta 2008 alkaen mukana ovat kaikki tärkeimmät tuet, joten vertailu antaa luotettavan kuvan tukien kehityksestä.
*Tarkempi erittely eri tukimuodoista ja aikasarjojen pituuksista sekä muuta lisätietoja ja ohjeita liitteenä.*
Tarjoa dataa käyttöön
Tuottaako organisaatiosi dataa, joka olisi hyödyllistä tai mielenkiintoista muillekin? Saat kauttamme sekä opastusta että jakelukanavan tietoaineistoillesi.