Suomen Yritys- ja yhteisötietojärjestelmän (YTJ) avoimet tiedot CSV-tiedostona

full_prh_data.csv

From the dataset abstract

Kuvaus päivitetty 15.3.2021

TÄMÄ ON DATAN KOKEELLINEN JULKAISU

Datan tarina

Saimme avoindata.fi palveluun vuosien ajan kymmeniä viestejä eri kanavia pitkin siitä, että monet avoimen datan hyödyntäjä kokevat Patentti- ja rekisterihallituksen (PRH) avoimen datan rajapinnan vaikeaksi käyttää. Mietimme, voisimmeko tehdä jotain pientä asian hyväksi? Teimme kokeellisen Python-scriptin, joka kerää PRH:n julkaiseman avoimen datan tiedostoon ja julkaisee sen kuukausittain avoindata.fi palvelussa. Näin siksi, että käytämme myös PRH:n julkaisemaa avointa dataa. Toivomme, että pääsemme jatkossa syventämään yhteistyötä PRH:n kanssa. Lisäksi vuonna 2021 toimeenpantava avoimen datan direktiivi (1024/2019/EU) suosittelee, että dynaaminen data julkaistaan sekä rajapintana että tiedostona.

Erilaisten selvityksien mukaan ihmisten on usein paljon helpompi käyttää avointa dataa tiedostona kuin rajapintana. Lisäksi tiedoston koostamisessa käytetään useita rajapintoja. Vaikka resurssimme ovat tiukalla, ajattelimme, että tämä pieni ele saattaisi auttaa ihmisiä hyödyntämään PRH:n avointa dataa helpommin. Palautteen perusteella tuntui, että PRH:n julkaisemalle avoimelle datalle oli suuri tilaus, mutta hyödyntäjät kokivat sen vaikeaksi käyttää. Uusi versio (tiedosto) datasta julkaistaan kuukausittain, koska emme pysty keräämään dataa PRH:n rajapinnasta tätä nopeammin.

http://avoindata.prh.fi -sivustolta olevasta avoimesta PRH:n tajoamasta ohjelmointirajapinnasta kerätyt avoimena datana olevat yritysten tiedot CSV-tiedostoon. Moni avoimen datan hyödyntäjä on kokenut rajapinnan vaikeana käyttää ja datoja on pyydetty meiltä tiedostona usean eri hyödyntäjän toimesta.

Olemme DVV:ssa poimineet datasta tärkeimmät kentät mukaan tähän tiedostoon ja poistaneet toimintansa lopettaneet yritykset. Tämän datasetin julkaisu on osa ketterää kokeilua, jota parannetaan (iteroidaan) datan hyödyntäjäpalautteen avulla.

Tiedosto päivittyy säännöllisesti kerran kuukaudessa ja pidetään ajantasalla. Tällä hetkellä PRH:n rajapinta ei kestä tätä useammin tehtävää päivitystä ja pyrimme kuormittamaan sitä mahdollisimman vähän. Emme toistaiseksi julkaise hakuscriptin koodia avoimena lähdekoodina siitä syystä, että se kuormittaisi jo nyt kuormituksen ylärajoilla olevaa PRH:n rajapintaa lisää, jonka seurauksena esimerkiksi tätä tiedostoa ei pystyttäisi enää julkaisemaan kerran kuukaudessa (käytämme jo lähes kuukauden sen keräämiseen ja päivittämiseen).

USEIN KYSYTYT KYSYMYKSET

1. Datassa on virhe

Tarkista ihan ensin, että olet ladannut viimeisimmän version tiedostoista

Dataan liittyvien sisällöllisten virheiden ja epätäydellisyyksiin liittyen kannattaa olla yhteydessä Patentti- ja rekisterihallitukseen (avoindata@prh.fi). Avoindata.fi ainoastaan kerää heidän julkaiseman avoimen datan aineiston rajapinnasta -> tiedostoon, koska sitä on toivottu kymmeniä kertoja kymmenien yrityksen ja datan käyttäjien toiveesta useiden vuosien ajan. PRH:n avoimen datan rajapinnat koetaan hyödyntäjäpalautteen perusteella liian vaikeana käyttää.

2. Suomessa on yli 600 000 yritystä, missä loput yrityksen ovat?

Toiminimiin liittyy henkilötietojen suojaan (EU:n tietosuoja-asetus) liittyvä tulkintakysymys. Toiminimien nimessä voi olla henkilötietoja ja usein esimerkiksi yrityksen osoite voi olla henkilön kotiosoite (henkilötieto). Näistäkin asioista kannattaa olla suoraa yhteydessä PRH:n. Avoindata.fi kerää ainoastaan heidän julkaiseman datan tiedostoon. Jos PRH julkaisee datan kattavammin, myös meidän tiedostojulkaisun datan sisältö on silloin kattavampi.

Jossain EU muissa on kaksi yritysrekisteriä. Toinen yksityisia elinkeinoharjoittajia varten ja toinen muita yritysmuotoja varten. Ranska on puolestaan tulkinnut niin, että avoimuusvaatimus ajaa osittain yksityiden suojan ohitse tässä asiassa.

3. Miksi tässä on monta kertaa sama tiedosto?

Keräämme ja julkaisemme datan tiedostona kerran kuukaudessa. Tällä hetkellä PRH rajapinta ei kestä tätä useammin tapahtuvaa datan keräämistä ja julkaisemista. Rajapinnassa on sen kaikkien hyödyntäjien kesken jakautuva 300 kyselyä minuutissa rajoitus, jonka jälkeen yhteys katkeaa kaikille. Tiedostot ovat siis aineiston kuukausijulkaisuja. Niistä kannattaa valita uusin versio.

Tiedostot on aikaleimattu (ISO 8601) mukaisesti. Muodossa "2021-03-11_" eli "vuosi-kuukausi-päivämäärä_"

Source: Suomen Yritys- ja yhteisötietojärjestelmän (YTJ) avoimet tiedot CSV-tiedostona

Preview

There are no views created for this resource yet.

Extra information

Format CSV
Temporal Coverage -
Data last updated 13 June 2021
Metadata last updated 10 April 2024
Created 13 June 2021
SHA256 81d089e58b5a6e8b6d8841897df5f7021d4d2bc633075ee7975c0d1f336d633b