Datamatriisi (test) XMTC-koneoppimismallien koulutukseen (TF-IDF) TNPP-lemmatisointiin perustuen

Mognadsgrad: Aktuell version

URL: https://www.avoindata.fi/data/dataset/ce9fdd58-e128-4755-8155-3709f68cc6d7/resource/40f1a5d0-7898-44f0-ae0d-e323fb1ab885/download/kirjastonhoitaja-fi-tnpp.sparse

Datamatriisi XMTC-koneoppimismallien koulutukseen (TF-IDF) TNPP-lemmatisointiin perustuen (Turku Neural Parser Pipeline). Sisältää vain test-alijoukon korpuksesta. Tekstimuotoinen data noudattaa The Extreme Classification Repositoryn käyttämää Bag-of-Words piirretiedostomuotoa (http://manikvarma.org/downloads/XC/XMLRepository.html).

Ensimmäisen rivin muotoilu on:

total_documents number_of_features number_of_labels

Muut rivit esittävät yhden dokumentin per rivi:

label1,label2,...,labelk ft1:ft1_val ft2:ft2_val ft3:ft3_val .. ftd:ftd_val

ts., pilkuin erotettu lista luokista, jota seuraa kaikki nollasta poikkeavat komponentit TF-IDF-vektorista esitettynä pareina component_number:value.

Inga förhandsgranskningar har skapats för denna dataresurs.

Ytterligare information

Senast uppdaterat
Februari 24, 2021
Skapat
Februari 24, 2021
Format
TXT
Licens
Creative Commons CCZero 1.0

Teknisk tilläggsinformation

Namn
Filstorlek
658574
Datastatus
Aktuell version
Koordinatsystem
upload
SHA256
61aab49b5a5ad2d51388815c656f37a6b54e5c6d7b0dc5cde18b70121c0ff1de