Books
01 Tokenizacija
Tokenizacija je postopek deljenja besedila na posamezne pojavnice (besede, števnike, ločila). Pri strojnem označevanju korpusov...
01 Tokenization
Tokenization is the process of dividing text into individual tokens (words, digits, punctuation). For the machine annotation of...
02 Segmentacija
Segmentacija je postopek deljenja besedila na povedi. Pri strojnem označevanju korpusov v slovenskem prostoru trenutno uporablj...
02 Segmentation
Segmentation is the process of dividing text into individual sentences. For the machine annotation of corpora in the Slovenian ...
03 Normalizacija
Jezik spletne komunikacije se v marsikaterem vidiku razlikuje od standardnega jezika. Obstoječa orodja za označevanje besedil s...
03 Normalization
Computer-mediated communication (CMC) language significantly diverges from the standard language, posing challenges for current...
04 MULTEXT-East Morphosyntax
The MULTEXT-East framework for morphosyntactic annotation of text corpora defines character codes, referred to as MSD-tags (wit...
04 Oblikoskladnja MULTEXT-East
Sistem MULTEXT-East za označevanje oblikoskladnje pojavnic v korpusih definira črkovne kode, npr. »Somei«, in njihovo preslikav...
05 Lematizacija
Lema (osnovna besedna oblika) je pri označevanju pripisana vsem besednim oblikam v besedilu, kar omogoča njihovo nadaljnje enov...
05 Lemmatization
When tagging text, each word form is assigned a lemma (the base form of the word), facilitating further processing in a unified...
06 JOS-SYN Syntax
The JOS-SYN system, which was crafted during the Linguistic Annotation of Slovene: Methods and Resources project (Erjavec et al...
06 Odvisnostna skladnja JOS-SYN
Sistem JOS-SYN, ki je bil zasnovan v projektu Jezikoslovno označevanje slovenščine (Erjavec et al. 2010) in uporabljen v projek...
07 Universal Dependencies
Universal Dependencies (UD) je mednarodno usklajena označevalna shema, ki si prizadeva za poenoteno oblikoslovno in skladenjsko...
07 Universal Dependencies
Universal Dependencies (UD) is an internationally harmonised annotation framework that aims to standardize the morphological an...
08 Imenske entitete
Imenske entitete (angl. named entities; NE) so samostalniki in samostalniške besedne zveze, ki identificirajo neko osebo, lokac...
08 Named Entities
Named entities (NEs) are nouns and noun phrases that specifically designate a person, location, organisation or other distinct ...
09 Coreferences
Coreference occurs when several elements within a text—be it words, phrases, or entire sentences—point to the same entity in th...
09 Koreference
O koreferenčnosti govorimo, ko več elementov znotraj besedila (besed, fraz ali povedi) kaže na isto entiteto v resničnem svetu,...