Suomen Yritys- ja yhteisötietojärjestelmän (YTJ) avoimet tiedot CSV-tiedostona


Kuvaus päivitetty 15.3.2021

TÄMÄ ON DATAN KOKEELLINEN JULKAISU

Datan tarina

Saimme avoindata.fi palveluun vuosien ajan kymmeniä viestejä eri kanavia pitkin siitä, että monet avoimen datan hyödyntäjä kokevat Patentti- ja rekisterihallituksen (PRH) avoimen datan rajapinnan vaikeaksi käyttää. Mietimme, voisimmeko tehdä jotain pientä asian hyväksi? Teimme kokeellisen Python-scriptin, joka kerää PRH:n julkaiseman avoimen datan tiedostoon ja julkaisee sen kuukausittain avoindata.fi palvelussa. Näin siksi, että käytämme myös PRH:n julkaisemaa avointa dataa. Toivomme, että pääsemme jatkossa syventämään yhteistyötä PRH:n kanssa. Lisäksi vuonna 2021 toimeenpantava avoimen datan direktiivi (1024/2019/EU) suosittelee, että dynaaminen data julkaistaan sekä rajapintana että tiedostona.

Erilaisten selvityksien mukaan ihmisten on usein paljon helpompi käyttää avointa dataa tiedostona kuin rajapintana. Lisäksi tiedoston koostamisessa käytetään useita rajapintoja. Vaikka resurssimme ovat tiukalla, ajattelimme, että tämä pieni ele saattaisi auttaa ihmisiä hyödyntämään PRH:n avointa dataa helpommin. Palautteen perusteella tuntui, että PRH:n julkaisemalle avoimelle datalle oli suuri tilaus, mutta hyödyntäjät kokivat sen vaikeaksi käyttää. Uusi versio (tiedosto) datasta julkaistaan kuukausittain, koska emme pysty keräämään dataa PRH:n rajapinnasta tätä nopeammin.

http://avoindata.prh.fi -sivustolta olevasta avoimesta PRH:n tajoamasta ohjelmointirajapinnasta kerätyt avoimena datana olevat yritysten tiedot CSV-tiedostoon. Moni avoimen datan hyödyntäjä on kokenut rajapinnan vaikeana käyttää ja datoja on pyydetty meiltä tiedostona usean eri hyödyntäjän toimesta.

Olemme DVV:ssa poimineet datasta tärkeimmät kentät mukaan tähän tiedostoon ja poistaneet toimintansa lopettaneet yritykset. Tämän datasetin julkaisu on osa ketterää kokeilua, jota parannetaan (iteroidaan) datan hyödyntäjäpalautteen avulla.

Tiedosto päivittyy säännöllisesti kerran kuukaudessa ja pidetään ajantasalla. Tällä hetkellä PRH:n rajapinta ei kestä tätä useammin tehtävää päivitystä ja pyrimme kuormittamaan sitä mahdollisimman vähän. Emme toistaiseksi julkaise hakuscriptin koodia avoimena lähdekoodina siitä syystä, että se kuormittaisi jo nyt kuormituksen ylärajoilla olevaa PRH:n rajapintaa lisää, jonka seurauksena esimerkiksi tätä tiedostoa ei pystyttäisi enää julkaisemaan kerran kuukaudessa (käytämme jo lähes kuukauden sen keräämiseen ja päivittämiseen).

USEIN KYSYTYT KYSYMYKSET

1. Datassa on virhe

Tarkista ihan ensin, että olet ladannut viimeisimmän version tiedostoista

Dataan liittyvien sisällöllisten virheiden ja epätäydellisyyksiin liittyen kannattaa olla yhteydessä Patentti- ja rekisterihallitukseen (avoindata@prh.fi). Avoindata.fi ainoastaan kerää heidän julkaiseman avoimen datan aineiston rajapinnasta -> tiedostoon, koska sitä on toivottu kymmeniä kertoja kymmenien yrityksen ja datan käyttäjien toiveesta useiden vuosien ajan. PRH:n avoimen datan rajapinnat koetaan hyödyntäjäpalautteen perusteella liian vaikeana käyttää.

2. Suomessa on yli 600 000 yritystä, missä loput yrityksen ovat?

Toiminimiin liittyy henkilötietojen suojaan (EU:n tietosuoja-asetus) liittyvä tulkintakysymys. Toiminimien nimessä voi olla henkilötietoja ja usein esimerkiksi yrityksen osoite voi olla henkilön kotiosoite (henkilötieto). Näistäkin asioista kannattaa olla suoraa yhteydessä PRH:n. Avoindata.fi kerää ainoastaan heidän julkaiseman datan tiedostoon. Jos PRH julkaisee datan kattavammin, myös meidän tiedostojulkaisun datan sisältö on silloin kattavampi.

Jossain EU muissa on kaksi yritysrekisteriä. Toinen yksityisia elinkeinoharjoittajia varten ja toinen muita yritysmuotoja varten. Ranska on puolestaan tulkinnut niin, että avoimuusvaatimus ajaa osittain yksityiden suojan ohitse tässä asiassa.

3. Miksi tässä on monta kertaa sama tiedosto?

Keräämme ja julkaisemme datan tiedostona kerran kuukaudessa. Tällä hetkellä PRH rajapinta ei kestä tätä useammin tapahtuvaa datan keräämistä ja julkaisemista. Rajapinnassa on sen kaikkien hyödyntäjien kesken jakautuva 300 kyselyä minuutissa rajoitus, jonka jälkeen yhteys katkeaa kaikille. Tiedostot ovat siis aineiston kuukausijulkaisuja. Niistä kannattaa valita uusin versio.

Tiedostot on aikaleimattu (ISO 8601) mukaisesti. Muodossa "2021-03-11_" eli "vuosi-kuukausi-päivämäärä_"

Dataresurser (16)

Mer information

Fält Värde
Nyckelord
Datamängdens synlighet
Utgånget Nej
Mer om licensen
Geografisk täckning
Uppdateringsfrekvens
Giltig fr.o.m. 18.08.2017
Giltig t.o.m.
Länkar till mer information
  1. http://avoindata.prh.fi
Typ av datamängd Open data
Internationella jämförelser
Status Aktiv
Ansvarig för datamängd Mika Honkanen
Den ansvarigas e-post
  1. avoindata@dvv.fi
Den ansvarigas webbplats www.avoindata.fi

Applikationer (2)

  • free-to-use-sales-prospecting-tool-with-company-information-vainu

    Vainu.io

    []

    Yritystietokanta reaaliaikaisen myynnin ja markkinoinnin tehostamiseen. Vainun liiketoimintaidea on kerätä avointa ja julkista dataa yrityksistä ja käyttää sitä tarkan tilannekuvan muodostamiseen yrityksistä. Datan käsittelyssä palvelu hyödyntää tekoälyä ja koneoppimista. Palvelu tarjoaa siis...
  • ritysio

    Yritys.io

    []

    Kaikki avoin data suomalaisista yrityksistä ja vähän enemmän myynnin ja markkinoinnin tarpeisiin sekä muuten vaan tiedonjanoisille. Tarjolla hakukone ja tietoa lukemattomista lähteistä Suomesta ja ulkomailta. Sisältö suomeksi, ruotsiksi ja englanniksi.
comments powered by Disqus