Skip to main content
Advanced Search
Search Terms
Content Type

Exact Matches
Tag Searches
Date Options
Updated after
Updated before
Created after
Created before

Search Results

14 total results found

PREBERI ME - Navodila za dodajanje vsebine

Opis navodil in postopkov za dodajanje vsebine na CJVT Wiki.

08 Imenske entitete

Imenske entitete (angl. named entities; NE) so samostalniki in samostalniške besedne zveze, ki identificirajo neko osebo, lokacijo, organizacijo ali drug edinstven objekt v realnem prostoru in času (poleg tega v širšem smislu tudi svojilne pridevnike, izpeljan...

13 Povezave

Ekstrakcija povezav je postopek odkrivanja in kategorizacije semantičnih odnosov med entitetami znotraj besedila. Ta naloga je ključna za razumevanje strukture in pomena kompleksnih jezikovnih podatkov in je pomembna za različne naloge, povezane z obdelavo nar...

09 Koreference

O koreferenčnosti govorimo, ko več elementov znotraj besedila (besed, fraz ali povedi) kaže na isto entiteto v resničnem svetu, izven samega jezika. Ta entiteta, ki ji pravimo referent, lahko predstavlja širok nabor stvari, npr. ljudi, živali, rastline, predme...

06 Odvisnostna skladnja JOS-SYN

Sistem JOS-SYN, ki je bil zasnovan v projektu Jezikoslovno označevanje slovenščine (Erjavec et al. 2010) in uporabljen v projektu Sporazumevanje v slovenskem jeziku (Krek et al. 2020), je namenjen označevanju skladenjskih odnosov v slovenskih povedih. Sistem s...

11 Jezikovni popravki (Šolar)

Označevalni sistem Šolar je bil zasnovan skupaj s slovenskim razvojnim korpusom Šolar (Arhar Holdt et al. 2022) in je namenjen vsebinski kategorizaciji jezikovnih popravkov v besedilih učencev in dijakov, ki so nastala v slovenskih osnovnih in srednjih šolah. ...

05 Lematizacija

Lema (osnovna besedna oblika) je pri označevanju pripisana vsem besednim oblikam v besedilu, kar omogoča njihovo nadaljnje enovito procesiranje. Sistem lematizacije je bil razvit v projektu Sporazumevanje v slovenskem jeziku (Holozan et al. 2008) in sledi sist...

01 Tokenizacija

Tokenizacija je postopek deljenja besedila na posamezne pojavnice (besede, števnike, ločila). Pri strojnem označevanju korpusov v slovenskem prostoru trenutno uporabljamo označevalnik CLASSLA-Stanza oz. vanj vključeni tokenizator Obeliks. Pravilom, na katerih ...

07 Universal Dependencies

Universal Dependencies (UD) je mednarodno usklajena označevalna shema, ki si prizadeva za poenoteno oblikoslovno in skladenjsko označevanje besedil v vseh svetovnih jezikih, da bi pospešila razvoj večjezičnih jezikovnih tehnologij in kontrastivnih jezikoslovni...

03 Normalizacija

Jezik spletne komunikacije se v marsikaterem vidiku razlikuje od standardnega jezika. Obstoječa orodja za označevanje besedil se z njim težje spopadajo. Normalizacija, katere cilj je vsaki nestandardni pojavnici pripisati standardno ustreznico, je ključna za i...

10 Udeleženske vloge (SRL)

Označevanje udeleženskih vlog oz. semantično označevanje (angl. semantic role labelling; SRL) predstavlja pripisovanje semantičnih kategorij, kot so aktant, prizadeto, lokacija ipd., glagolskim udeležencem v korpusnih stavkih. Sistem semantičnega označevanja i...

04 Oblikoskladnja MULTEXT-East

Sistem MULTEXT-East za označevanje oblikoskladnje pojavnic v korpusih definira črkovne kode, npr. »Somei«, in njihovo preslikavo v slovnične lastnosti, npr. »samostalnik vrsta=občno_ime spol=moški število=ednina sklon=imenovalnik«. Sistem je definiran za 20 je...

02 Segmentacija

Segmentacija je postopek deljenja besedila na povedi. Pri strojnem označevanju korpusov v slovenskem prostoru trenutno uporabljamo označevalnik CLASSLA-Stanza oz. vanj vključeni segmentator Obeliks. Pravilom, na katerih je osnovan strojni označevalnik, sledi t...

12 Jezikovni popravki (KOST)

Označevalni sistem KOST je bil zasnovan skupaj s korpusom slovenščine kot tujega jezika KOST (Stritar Kučuk 2022) in je namenjen kategorizaciji jezikovnih napak v besedilih, ki so jih napisali govorci slovenščine kot drugega oz. tujega jezika. Označevalni sist...