Advanced Search
Search Results
133 total results found
03 Normalization
Computer-mediated communication (CMC) language significantly diverges from the standard language, posing challenges for current automatic text annotation tools. Normalization is essential for enhancing further text processing because it provides a standard equ...
04 MULTEXT-East Morphosyntax
The MULTEXT-East framework for morphosyntactic annotation of text corpora defines character codes, referred to as MSD-tags (with 'MSD' standing for morphosyntactic description). For example, the "Ncmsn" tag represents a set of grammatical features "Noun Type=c...
05 Lemmatization
When tagging text, each word form is assigned a lemma (the base form of the word), facilitating further processing in a unified way. The lemmatization system was developed in the project JOS: Linguistic Annotation of Slovene (Holozan et al. 2008) and follows t...
06 JOS-SYN Syntax
The JOS-SYN system, which was crafted during the Linguistic Annotation of Slovene: Methods and Resources project (Erjavec et al. 2010) and later applied in the Communication in Slovene initiative (Krek et al. 2020), is designed to mark syntactic relations in S...
07 Universal Dependencies
Universal Dependencies (UD) is an internationally harmonised annotation framework that aims to standardize the morphological and syntactic tagging of texts across languages in order to foster the development of multilingual language technologies and contrastiv...
08 Named Entities
Named entities (NEs) are nouns and noun phrases that specifically designate a person, location, organisation or other distinct object existing in real space and time, In a broader sense, they can also include (possessive) adjectives derived from a person's nam...
09 Coreferences
Coreference occurs when several elements within a text—be it words, phrases, or entire sentences—point to the same entity in the real world, outside of language itself. This entity, known as the referent, can represent a wide array of things, including but not...
10 Semantic Role Labeling
Semantic role labeling (SRL), also known as semantic annotation, is the process of attributing semantic roles, such as agent, patient, or location, to the semantic arguments defined by a predicate or verb within a sentence. For Slovene, the system of semantic-...
11 Developmental corpus Šolar
The Šolar annotation system, developed alongside the Slovene Šolar developmental corpus (Arhar Holdt et al. 2022), is designed for categorizing language corrections in texts written by pupils in Slovene primary schools and students in Slovene secondary schools...
12 Slovene learner corpus KOST
The KOST annotation system was developed together with the KOST corpus of Slovene as a foreign language (Stritar Kučuk 2022) and is designed for categorizing teacher's corrections in texts written by speakers of Slovene as a second or foreign language. The tag...
13 Relations
Relation extraction refers to the process of identifying and categorizing semantic relationships between entities within a text. This task is vital for understanding the structure and meaning of complex language data, and it has significant applications in var...
SI-NLI
Compilation of the Slovenian SI-NLI dataset for Natural Language Inference
Online Notes - Profesorski portal
Navodila za uporabo portala Online Notes
Reference in povezave
V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal ter uporabljal. Projekti, na katerih se je označevalni sistem razvijal oz. uporabljal JOS - Jezikoslovno označevanje slovenskega jezika: metode i...
Predstavitev oznak
V tem poglavju so navedene in strnjeno predstavljene oznake sistema SRL. Podrobnejšo predstavitev najdete v smernicah v poglavju Označevalne smernice. DELOVALNIKI Oznakasomeso Udel. vloga Opis Zgled ACTsomeso vršilec, aktantso delujoči udeleženec, povzr...
Označevalne smernice
V tem poglavju so zbrane označevalne smernice za semantično označevanje (SRL). Smernice so razvrščene od nastarejše različice do zadnje, ažurne različice. Različica 1.0 (02-2023) projekt Razvoj slovenščine v digitalnem okolju GANTAR, Polona, KREK, Simon, DOBRO...
Reference in povezave
V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal ter uporabljal. Projekti, na katerih se je razvijal označevalni sistem Sporazumevanje v slovenskem jeziku Semantic Role Labeling in Slovene and C...
Predstavitev oznak
V tem poglavju so navedene in strnjeno predstavljene oznake za imenske entitete (angl. named entities; NE). Podrobnejšo predstavitev najdete v smernicah v poglavju Označevalne smernice. Kategorija Podkategorija Primeri Ne spada v to kategorijo PER some...
Označevalne smernice
V tem poglavju so zbrane označevalne smernice za imenske entitete. Različica 1.1 projekt Razvoj slovenščine v digitalnem okolju ZUPAN, Katja; LJUBEŠIĆ, Nikola in ERJAVEC, Tomaž, 2023: Smernice Janes-NER za označevanje imenskih entitet v slovenskem jeziku: Raz...
Reference in povezave
V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal ter uporabljal. Projekti, na katerih se je razvijal označevalni sistem MUC-6 Named Entity Task Definition CONLL 2003 BSNLP 2017 shared task Jan...
Predstavitev označevanja koreferenčnosti
V tem poglavju je strnjeno predstavljeno označevanje koreferenc. Podrobnejšo predstavitev najdete v smernicah v poglavju Označevalne smernice. Dele besedila, ki se nanašajo na istega referenta, imenujemo omenitve (angl. mentions). Omenitve se lahko pojavljajo ...
Označevalne smernice
V tem poglavju so zbrane označevalne smernice za odkrivanje koreferenčnosti. Različica 1.6 projekt Razvoj slovenščine v digitalnem okolju ŽITNIK, Slavko, ARHAR HOLDT, Špela, ROBIDA, Nejc in BLAGUS, Neli, 2023: Smernice za označevanje koreferenčnosti v slovensk...
Reference in povezave
V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal ter uporabljal. Projekti, na katerih se je razvijal označevalni sistem ReLDI Razvoj slovenščine v digitalnem okolju Reference RELDI: Uputstvo za ...
Predstavitev oznak
V tem razdelku na kratko opišemo zasnovo specifikacij MULTEXT-East in podamo povezave do specifikacij. Večjezične specifikacije MULTEXT-East so zapisane v XML, po priporočilih TEI, in definirajo oblikoskladenjske značilke (atribute in njihove vrednosti) besed,...
Označevalne smernice
V tem razdelku so zbrane označevalne smernice za oblikoskladnjo MULTEXT-East. Smernice so razvrščene od nastarejše različice do zadnje, ažurne različice. Različica 2.0 (25-02-2023) projekt Razvoj slovenščine v digitalnem okolju HOLOZAN, Peter, KREK, Simon, PIV...
Reference in povezave
V tem razdelku so zbrane reference in povezave na projekte, v katerih se je označevalni sistem razvijal in uporabljal. Projekti, na katerih se je označevalni sistem razvijal oz. uporabljal MULTEXT-East - Multilingual corpora and text tools for Central and Ea...
Predstavitev oznak
Shema Universal Dependencies določa univerzalni nabor oznak za besedne vrste, oblikoslovne lastnosti in odvisnostne skladenjske relacije, ki se lahko prenesejo na drevesnice posameznih jezikov ali pa dopolnijo z novimi oblikoslovnimi oznakami oz. izpeljavami j...
Označevalne smernice
V tem poglavju so zbrane označevalne smernice za oblikoslovje in skladnjo po sistemu Universal Dependencies (UD). Različica 1.7 projekt SPOT DOBROVOLJC, Kaja in TERČON, Luka: 2024. Universal Dependencies: Smernice za označevanje besedil v slovenščini. Različ...
Reference in povezave
V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal ter uporabljal. Krovna spletna stran projekta Universal Dependencies: https://universaldependencies.org/ Splošne smernice: https://universalde...
Predstavitev normalizacije
V tem poglavju je strnjeno predstavljen potek normalizacije nestandardnih besed. Podrobnejšo predstavitev najdete v smernicah v poglavju Označevalne smernice. Normalizacija tvitov, v tabeli razdeljenih na pojavnice, je potekala hkrati s tokenizacijo. Pri ročne...
Označevalne smernice
V tem poglavju so zbrane označevalne smernice za normalizacijo nestandardnih besedil. Smernice so razvrščene od zadnje, ažurne različice do nastarejše različice. Različica 2.0 projekt Razvoj slovenščine v digitalnem okolju LENARDIČ, Jakob in FIŠER, Darja, 2022...
Reference in povezave
V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je postopek normalizacije razvijal in uporabljal. Projekti, na katerih se je razvijal označevalni sistem Razvoj slovenščine v digitalnem okolju Janes: Viri, orodja in metode za...
Predstavitev oznak
V tem poglavju so strnjeno navedene oznake jezikovnih popravkov po sistemu KOST. Oznaka Jezikovna ravnina Tip popravka/besedna vrsta Z-LOC zapis ločilo Z-CRK zapis črkovanje Z-SN zapis skupaj/narazen Z-MV zapis mala/velika začetnica Z-KR zapis k...