Suomen Yritys- ja yhteisötietojärjestelmän (YTJ) avoimet tiedot CSV-tiedostona

2020-02-28_full_prh_data.csv

Tietoaineiston yhteenvedosta

Kuvaus päivitetty 15.3.2021

TÄMÄ ON DATAN KOKEELLINEN JULKAISU

Datan tarina

Saimme avoindata.fi palveluun vuosien ajan kymmeniä viestejä eri kanavia pitkin siitä, että monet avoimen datan hyödyntäjä kokevat Patentti- ja rekisterihallituksen (PRH) avoimen datan rajapinnan vaikeaksi käyttää. Mietimme, voisimmeko tehdä jotain pientä asian hyväksi? Teimme kokeellisen Python-scriptin, joka kerää PRH:n julkaiseman avoimen datan tiedostoon ja julkaisee sen kuukausittain avoindata.fi palvelussa. Näin siksi, että käytämme myös PRH:n julkaisemaa avointa dataa. Toivomme, että pääsemme jatkossa syventämään yhteistyötä PRH:n kanssa. Lisäksi vuonna 2021 toimeenpantava avoimen datan direktiivi (1024/2019/EU) suosittelee, että dynaaminen data julkaistaan sekä rajapintana että tiedostona.

Erilaisten selvityksien mukaan ihmisten on usein paljon helpompi käyttää avointa dataa tiedostona kuin rajapintana. Lisäksi tiedoston koostamisessa käytetään useita rajapintoja. Vaikka resurssimme ovat tiukalla, ajattelimme, että tämä pieni ele saattaisi auttaa ihmisiä hyödyntämään PRH:n avointa dataa helpommin. Palautteen perusteella tuntui, että PRH:n julkaisemalle avoimelle datalle oli suuri tilaus, mutta hyödyntäjät kokivat sen vaikeaksi käyttää. Uusi versio (tiedosto) datasta julkaistaan kuukausittain, koska emme pysty keräämään dataa PRH:n rajapinnasta tätä nopeammin.

http://avoindata.prh.fi -sivustolta olevasta avoimesta PRH:n tajoamasta ohjelmointirajapinnasta kerätyt avoimena datana olevat yritysten tiedot CSV-tiedostoon. Moni avoimen datan hyödyntäjä on kokenut rajapinnan vaikeana käyttää ja datoja on pyydetty meiltä tiedostona usean eri hyödyntäjän toimesta.

Olemme DVV:ssa poimineet datasta tärkeimmät kentät mukaan tähän tiedostoon ja poistaneet toimintansa lopettaneet yritykset. Tämän datasetin julkaisu on osa ketterää kokeilua, jota parannetaan (iteroidaan) datan hyödyntäjäpalautteen avulla.

Tiedosto päivittyy säännöllisesti kerran kuukaudessa ja pidetään ajantasalla. Tällä hetkellä PRH:n rajapinta ei kestä tätä useammin tehtävää päivitystä ja pyrimme kuormittamaan sitä mahdollisimman vähän. Emme toistaiseksi julkaise hakuscriptin koodia avoimena lähdekoodina siitä syystä, että se kuormittaisi jo nyt kuormituksen ylärajoilla olevaa PRH:n rajapintaa lisää, jonka seurauksena esimerkiksi tätä tiedostoa ei pystyttäisi enää julkaisemaan kerran kuukaudessa (käytämme jo lähes kuukauden sen keräämiseen ja päivittämiseen).

USEIN KYSYTYT KYSYMYKSET

1. Datassa on virhe

Tarkista ihan ensin, että olet ladannut viimeisimmän version tiedostoista

Dataan liittyvien sisällöllisten virheiden ja epätäydellisyyksiin liittyen kannattaa olla yhteydessä Patentti- ja rekisterihallitukseen (avoindata@prh.fi). Avoindata.fi ainoastaan kerää heidän julkaiseman avoimen datan aineiston rajapinnasta -> tiedostoon, koska sitä on toivottu kymmeniä kertoja kymmenien yrityksen ja datan käyttäjien toiveesta useiden vuosien ajan. PRH:n avoimen datan rajapinnat koetaan hyödyntäjäpalautteen perusteella liian vaikeana käyttää.

2. Suomessa on yli 600 000 yritystä, missä loput yrityksen ovat?

Toiminimiin liittyy henkilötietojen suojaan (EU:n tietosuoja-asetus) liittyvä tulkintakysymys. Toiminimien nimessä voi olla henkilötietoja ja usein esimerkiksi yrityksen osoite voi olla henkilön kotiosoite (henkilötieto). Näistäkin asioista kannattaa olla suoraa yhteydessä PRH:n. Avoindata.fi kerää ainoastaan heidän julkaiseman datan tiedostoon. Jos PRH julkaisee datan kattavammin, myös meidän tiedostojulkaisun datan sisältö on silloin kattavampi.

Jossain EU muissa on kaksi yritysrekisteriä. Toinen yksityisia elinkeinoharjoittajia varten ja toinen muita yritysmuotoja varten. Ranska on puolestaan tulkinnut niin, että avoimuusvaatimus ajaa osittain yksityiden suojan ohitse tässä asiassa.

3. Miksi tässä on monta kertaa sama tiedosto?

Keräämme ja julkaisemme datan tiedostona kerran kuukaudessa. Tällä hetkellä PRH rajapinta ei kestä tätä useammin tapahtuvaa datan keräämistä ja julkaisemista. Rajapinnassa on sen kaikkien hyödyntäjien kesken jakautuva 300 kyselyä minuutissa rajoitus, jonka jälkeen yhteys katkeaa kaikille. Tiedostot ovat siis aineiston kuukausijulkaisuja. Niistä kannattaa valita uusin versio.

Tiedostot on aikaleimattu (ISO 8601) mukaisesti. Muodossa "2021-03-11_" eli "vuosi-kuukausi-päivämäärä_"

Lähde: Suomen Yritys- ja yhteisötietojärjestelmän (YTJ) avoimet tiedot CSV-tiedostona

Esikatselu

Upota

Data-aineiston esikatselunäkymä ei ole tällä hetkellä saatavilla Klikkaa tästä saadaksesi lisätietoa.

Lataa aineistolinkki

Lisätietoja

Muoto CSV
Katettu ajanjakso -
Data viimeksi päivitetty 28. helmikuuta 2020
Metatieto viimeksi päivitetty 10. huhtikuuta 2024
Luotu 28. helmikuuta 2020
SHA256 1f8697f4fddb5b71281574c6835652f4d1851f18f53aec949beda4fc80397404