Skip to main content
Advanced Search
Search Terms
Content Type

Exact Matches
Tag Searches
Date Options
Updated after
Updated before
Created after
Created before

Search Results

125 total results found

03 Normalization

Computer-mediated communication (CMC) language significantly diverges from the standard language, posing challenges for current automatic text annotation tools. Normalization is essential for enhancing further text processing because it provides a standard equ...

04 MULTEXT-East Morphosyntax

The MULTEXT-East framework for morphosyntactic annotation of text corpora defines character codes, referred to as MSD-tags (with 'MSD' standing for morphosyntactic description). For example, the "Ncmsn" tag represents a set of grammatical features "Noun Type=c...

05 Lemmatization

When tagging text, each word form is assigned a lemma (the base form of the word), facilitating further processing in a unified way. The lemmatization system was developed in the project JOS: Linguistic Annotation of Slovene (Holozan et al. 2008) and follows t...

06 JOS-SYN Syntax

The JOS-SYN system, which was crafted during the Linguistic Annotation of Slovene: Methods and Resources project (Erjavec et al. 2010) and later applied in the Communication in Slovene initiative (Krek et al. 2020), is designed to mark syntactic relations in S...

07 Universal Dependencies

Universal Dependencies (UD) is an internationally harmonised annotation framework that aims to standardize the morphological and syntactic tagging of texts across languages in order to foster the development of multilingual language technologies and contrastiv...

08 Named Entities

Named entities (NEs) are nouns and noun phrases that specifically designate a person, location, organisation or other distinct object existing in real space and time, In a broader sense, they can also include (possessive) adjectives derived from a person's nam...

09 Coreferences

Coreference occurs when several elements within a text—be it words, phrases, or entire sentences—point to the same entity in the real world, outside of language itself. This entity, known as the referent, can represent a wide array of things, including but not...

10 Semantic Role Labeling

Semantic role labeling (SRL), also known as semantic annotation, is the process of attributing semantic roles, such as agent, patient, or location, to the semantic arguments defined by a predicate or verb within a sentence. For Slovene, the system of semantic-...

11 Developmental corpus Šolar

The Šolar annotation system, developed alongside the Slovene Šolar developmental corpus (Arhar Holdt et al. 2022), is designed for categorizing language corrections in texts written by pupils in Slovene primary schools and students in Slovene secondary schools...

12 Slovene learner corpus KOST

The KOST annotation system was developed together with the KOST corpus of Slovene as a foreign language (Stritar Kučuk 2022) and is designed for categorizing teacher's corrections in texts written by speakers of Slovene as a second or foreign language. The tag...

13 Relations

Relation extraction refers to the process of identifying and categorizing semantic relationships between entities within a text. This task is vital for understanding the structure and meaning of complex language data, and it has significant applications in var...

SI-NLI

Compilation of the Slovenian SI-NLI dataset for Natural Language Inference

Reference in povezave

01 Tokenizacija

V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal ter uporabljal. Projekti, na katerih se je označevalni sistem razvijal oz. uporabljal JOS - Jezikoslovno označevanje slovenskega jezika: metode i...

Predstavitev oznak

10 Udeleženske vloge (SRL)

V tem poglavju so navedene in strnjeno predstavljene oznake sistema SRL. Podrobnejšo predstavitev najdete v smernicah v poglavju Označevalne smernice. DELOVALNIKI Oznakasomeso Udel. vloga Opis Zgled ACTsomeso vršilec, aktantso delujoči udeleženec, povzr...

Označevalne smernice

10 Udeleženske vloge (SRL)

V tem poglavju so zbrane označevalne smernice za semantično označevanje (SRL). Smernice so razvrščene od nastarejše različice do zadnje, ažurne različice. Različica 1.0 (02-2023) projekt Razvoj slovenščine v digitalnem okolju GANTAR, Polona, KREK, Simon, DOBRO...

Reference in povezave

10 Udeleženske vloge (SRL)

V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal ter uporabljal. Projekti, na katerih se je razvijal označevalni sistem Sporazumevanje v slovenskem jeziku Semantic Role Labeling in Slovene and C...

Predstavitev oznak

08 Imenske entitete

V tem poglavju so navedene in strnjeno predstavljene oznake za imenske entitete (angl. named entities; NE). Podrobnejšo predstavitev najdete v smernicah v poglavju Označevalne smernice. Kategorija Podkategorija Primeri Ne spada v to kategorijo PER some...

Označevalne smernice

08 Imenske entitete

V tem poglavju so zbrane označevalne smernice za imenske entitete. Različica 1.1 projekt Razvoj slovenščine v digitalnem okolju ZUPAN, Katja; LJUBEŠIĆ, Nikola in ERJAVEC, Tomaž, 2023: Smernice Janes-NER za označevanje imenskih entitet v slovenskem jeziku: Raz...

Reference in povezave

08 Imenske entitete

V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal ter uporabljal. Projekti, na katerih se je razvijal označevalni sistem MUC-6 Named Entity Task Definition CONLL 2003 BSNLP 2017 shared task Jan...

Predstavitev označevanja koreferenčnosti

09 Koreference

V tem poglavju je strnjeno predstavljeno označevanje koreferenc. Podrobnejšo predstavitev najdete v smernicah v poglavju Označevalne smernice. Dele besedila, ki se nanašajo na istega referenta, imenujemo omenitve (angl. mentions). Omenitve se lahko pojavljajo ...

Označevalne smernice

09 Koreference

V tem poglavju so zbrane označevalne smernice za odkrivanje koreferenčnosti. Različica 1.6 projekt Razvoj slovenščine v digitalnem okolju ŽITNIK, Slavko, ARHAR HOLDT, Špela, ROBIDA, Nejc in BLAGUS, Neli, 2023: Smernice za označevanje koreferenčnosti v slovensk...

Reference in povezave

09 Koreference

V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal ter uporabljal. Projekti, na katerih se je razvijal označevalni sistem ReLDI Razvoj slovenščine v digitalnem okolju Reference RELDI: Uputstvo za ...

Predstavitev oznak

04 Oblikoskladnja MULTEXT-East

V tem razdelku na kratko opišemo zasnovo specifikacij MULTEXT-East in podamo povezave do specifikacij. Večjezične specifikacije MULTEXT-East so zapisane v XML, po priporočilih TEI, in definirajo oblikoskladenjske značilke (atribute in njihove vrednosti) besed,...

Označevalne smernice

04 Oblikoskladnja MULTEXT-East

V tem razdelku so zbrane označevalne smernice za oblikoskladnjo MULTEXT-East. Smernice so razvrščene od nastarejše različice do zadnje, ažurne različice. Različica 2.0 (25-02-2023) projekt Razvoj slovenščine v digitalnem okolju HOLOZAN, Peter, KREK, Simon, PIV...

Reference in povezave

04 Oblikoskladnja MULTEXT-East

V tem razdelku so zbrane reference in povezave na projekte, v katerih se je označevalni sistem razvijal in uporabljal. Projekti, na katerih se je označevalni sistem razvijal oz. uporabljal MULTEXT-East - Multilingual corpora and text tools for Central and Ea...

Predstavitev oznak

07 Universal Dependencies

Shema Universal Dependencies določa univerzalni nabor oznak za besedne vrste, oblikoslovne lastnosti in odvisnostne skladenjske relacije, ki se lahko prenesejo na drevesnice posameznih jezikov ali pa dopolnijo z novimi oblikoslovnimi oznakami oz. izpeljavami j...

Označevalne smernice

07 Universal Dependencies

V tem poglavju so zbrane označevalne smernice za oblikoslovje in skladnjo po sistemu Universal Dependencies (UD). Različica 1.3 projekt SPOT DOBROVOLJC, Kaja in TERČON, Luka: 2023. Universal Dependencies: Smernice za označevanje besedil v slovenščini. Različ...

Reference in povezave

07 Universal Dependencies

V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal ter uporabljal. Krovna spletna stran projekta Universal Dependencies: https://universaldependencies.org/ Splošne smernice: https://universalde...

Predstavitev normalizacije

03 Normalizacija

V tem poglavju je strnjeno predstavljen potek normalizacije nestandardnih besed. Podrobnejšo predstavitev najdete v smernicah v poglavju Označevalne smernice. Normalizacija tvitov, v tabeli razdeljenih na pojavnice, je potekala hkrati s tokenizacijo. Pri ročne...

Označevalne smernice

03 Normalizacija

V tem poglavju so zbrane označevalne smernice za normalizacijo nestandardnih besedil. Smernice so razvrščene od zadnje, ažurne različice do nastarejše različice. Različica 2.0 projekt Razvoj slovenščine v digitalnem okolju LENARDIČ, Jakob in FIŠER, Darja, 2022...

Reference in povezave

03 Normalizacija

V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je postopek normalizacije razvijal in uporabljal. Projekti, na katerih se je razvijal označevalni sistem Razvoj slovenščine v digitalnem okolju Janes: Viri, orodja in metode za...

Predstavitev oznak

12 Jezikovni popravki (KOST)

V tem poglavju so strnjeno navedene oznake jezikovnih popravkov po sistemu KOST. Oznaka Jezikovna ravnina Tip popravka/besedna vrsta Z-LOC zapis ločilo Z-CRK zapis črkovanje Z-SN zapis skupaj/narazen Z-MV zapis mala/velika začetnica Z-KR zapis k...