Finna-koulutuskorpukset

Aineisto koostuu koneoppimisessa käytettäväksi tarkoitetuista TF-IDF-datamatriiseista. Matriisit on koostettu dokumenttikorpuksista, jotka perustuvat metadataan, joka on haettu Finna.fi palvelusta sen avoimen rajapinnan kautta vuonna 2019. Korpukset ovat suomen, ruotsin ja englannin kielillä.

Data-aineistot

Lisätiedot

Kokoelma Avoin data
Ylläpitäjä CSC – Tieteen Tietotekniikan Keskus Oy
Ylläpitäjän sähköpostiosoite
  1. analytics@csc.fi
Lisätietoa verkossa
  1. https://github.com/NatLibFi/Annif-corpora/tree/master/training/2019
Päivitystiheys
Viimeksi muokattu 26.02.2021
Näytä muutoshistoria
Luotu 24.02.2021