Jezikoslovno označevanje korpusov
Opis nivojev jezikoslovnega označevanja korpusov v okviru CLARIN.SI
01 Tokenizacija
Tokenizacija je postopek deljenja besedila na posamezne pojavnice (besede, števnike, ločila). Pri strojnem označevanju korpusov...
02 Segmentacija
Segmentacija je postopek deljenja besedila na povedi. Pri strojnem označevanju korpusov v slovenskem prostoru trenutno uporablj...
03 Normalizacija
Jezik spletne komunikacije se v marsikaterem vidiku razlikuje od standardnega jezika. Obstoječa orodja za označevanje besedil s...
04 Oblikoskladnja MULTEXT-East
Sistem MULTEXT-East za označevanje oblikoskladnje pojavnic v korpusih definira črkovne kode, npr. »Somei«, in njihovo preslikav...
05 Lematizacija
Lema (osnovna besedna oblika) je pri označevanju pripisana vsem besednim oblikam v besedilu, kar omogoča njihovo nadaljnje enov...
06 Odvisnostna skladnja JOS-SYN
Sistem JOS-SYN, ki je bil zasnovan v projektu Jezikoslovno označevanje slovenščine (Erjavec et al. 2010) in uporabljen v projek...
07 Universal Dependencies
Universal Dependencies (UD) je mednarodno usklajena označevalna shema, ki si prizadeva za poenoteno oblikoslovno in skladenjsko...
08 Imenske entitete
Imenske entitete (angl. named entities; NE) so samostalniki in samostalniške besedne zveze, ki identificirajo neko osebo, lokac...
09 Koreference
O koreferenčnosti govorimo, ko več elementov znotraj besedila (besed, fraz ali povedi) kaže na isto entiteto v resničnem svetu,...
10 Udeleženske vloge (SRL)
Označevanje udeleženskih vlog oz. semantično označevanje (angl. semantic role labelling; SRL) predstavlja pripisovanje semantič...
11 Jezikovni popravki (Šolar)
Označevalni sistem Šolar je bil zasnovan skupaj s slovenskim razvojnim korpusom Šolar (Arhar Holdt et al. 2022) in je namenjen ...
12 Jezikovni popravki (KOST)
Označevalni sistem KOST je bil zasnovan skupaj s korpusom slovenščine kot tujega jezika KOST (Stritar Kučuk 2022) in je namenje...
13 Povezave
Ekstrakcija povezav je postopek odkrivanja in kategorizacije semantičnih odnosov med entitetami znotraj besedila. Ta naloga je ...