Skip to main content
Advanced Search
Search Terms
Content Type

Exact Matches
Tag Searches
Date Options
Updated after
Updated before
Created after
Created before

Search Results

125 total results found

Jezikoslovno označevanje korpusov

Opis nivojev jezikoslovnega označevanja korpusov v okviru CLARIN.SI

Digital Dictionary Database

Označevanje Slovenskega oblikoslovnega leksikona Sloleks

Zbirka smernic, ki so bile uporabljene pri označevanju in popravljanju različnih nivojev podatkov v Slovenskem oblikoslovnem leksikonu Sloleks.

Linguistic Annotation of Slovene Corpora

Overview of annotating Slovene corpora supported by CLARIN.SI

Natural Language Inference

Annotation Guidelines for Natural Language Inference (SI-NLI)

Digital Dictionary Database

A central database for Slovene.

PREBERI ME - Navodila za dodajanje vsebine

Opis navodil in postopkov za dodajanje vsebine na CJVT Wiki.

08 Imenske entitete

Imenske entitete (angl. named entities; NE) so samostalniki in samostalniške besedne zveze, ki identificirajo neko osebo, lokacijo, organizacijo ali drug edinstven objekt v realnem prostoru in času (poleg tega v širšem smislu tudi svojilne pridevnike, izpeljan...

Naglaševanje lastnih imen

Smernice za naglaševanje lastnih imen v slovenskem oblikoslovnem leksikonu Sloleks

Zapis izgovora kratic

Smernice za zapis izgovora kratic v slovenskem oblikoslovnem leksikonu Sloleks

Zapis izgovora besed tujega izvora

Smernice za zapis izgovora besed tujega izvora v slovenskem oblikoslovnem leksikonu Sloleks

13 Povezave

Ekstrakcija povezav je postopek odkrivanja in kategorizacije semantičnih odnosov med entitetami znotraj besedila. Ta naloga je ključna za razumevanje strukture in pomena kompleksnih jezikovnih podatkov in je pomembna za različne naloge, povezane z obdelavo nar...

09 Koreference

O koreferenčnosti govorimo, ko več elementov znotraj besedila (besed, fraz ali povedi) kaže na isto entiteto v resničnem svetu, izven samega jezika. Ta entiteta, ki ji pravimo referent, lahko predstavlja širok nabor stvari, npr. ljudi, živali, rastline, predme...

06 Odvisnostna skladnja JOS-SYN

Sistem JOS-SYN, ki je bil zasnovan v projektu Jezikoslovno označevanje slovenščine (Erjavec et al. 2010) in uporabljen v projektu Sporazumevanje v slovenskem jeziku (Krek et al. 2020), je namenjen označevanju skladenjskih odnosov v slovenskih povedih. Sistem s...

11 Jezikovni popravki (Šolar)

Označevalni sistem Šolar je bil zasnovan skupaj s slovenskim razvojnim korpusom Šolar (Arhar Holdt et al. 2022) in je namenjen vsebinski kategorizaciji jezikovnih popravkov v besedilih učencev in dijakov, ki so nastala v slovenskih osnovnih in srednjih šolah. ...

05 Lematizacija

Lema (osnovna besedna oblika) je pri označevanju pripisana vsem besednim oblikam v besedilu, kar omogoča njihovo nadaljnje enovito procesiranje. Sistem lematizacije je bil razvit v projektu Sporazumevanje v slovenskem jeziku (Holozan et al. 2008) in sledi sist...

01 Tokenizacija

Tokenizacija je postopek deljenja besedila na posamezne pojavnice (besede, števnike, ločila). Pri strojnem označevanju korpusov v slovenskem prostoru trenutno uporabljamo označevalnik CLASSLA-Stanza oz. vanj vključeni tokenizator Obeliks. Pravilom, na katerih ...

07 Universal Dependencies

Universal Dependencies (UD) je mednarodno usklajena označevalna shema, ki si prizadeva za poenoteno oblikoslovno in skladenjsko označevanje besedil v vseh svetovnih jezikih, da bi pospešila razvoj večjezičnih jezikovnih tehnologij in kontrastivnih jezikoslovni...

03 Normalizacija

Jezik spletne komunikacije se v marsikaterem vidiku razlikuje od standardnega jezika. Obstoječa orodja za označevanje besedil se z njim težje spopadajo. Normalizacija, katere cilj je vsaki nestandardni pojavnici pripisati standardno ustreznico, je ključna za i...

10 Udeleženske vloge (SRL)

Označevanje udeleženskih vlog oz. semantično označevanje (angl. semantic role labelling; SRL) predstavlja pripisovanje semantičnih kategorij, kot so aktant, prizadeto, lokacija ipd., glagolskim udeležencem v korpusnih stavkih. Sistem semantičnega označevanja i...

04 Oblikoskladnja MULTEXT-East

Sistem MULTEXT-East za označevanje oblikoskladnje pojavnic v korpusih definira črkovne kode, npr. »Somei«, in njihovo preslikavo v slovnične lastnosti, npr. »samostalnik vrsta=občno_ime spol=moški število=ednina sklon=imenovalnik«. Sistem je definiran za 20 je...

02 Segmentacija

Segmentacija je postopek deljenja besedila na povedi. Pri strojnem označevanju korpusov v slovenskem prostoru trenutno uporabljamo označevalnik CLASSLA-Stanza oz. vanj vključeni segmentator Obeliks. Pravilom, na katerih je osnovan strojni označevalnik, sledi t...

12 Jezikovni popravki (KOST)

Označevalni sistem KOST je bil zasnovan skupaj s korpusom slovenščine kot tujega jezika KOST (Stritar Kučuk 2022) in je namenjen kategorizaciji jezikovnih napak v besedilih, ki so jih napisali govorci slovenščine kot drugega oz. tujega jezika. Označevalni sist...

01 Tokenization

Tokenization is the process of dividing text into individual tokens (words, digits, punctuation). For the machine annotation of corpora in the Slovenian context, we currently use the CLASSLA-Stanza tagger, more precisely the Obeliks tokeniser included in it. T...

02 Segmentation

Segmentation is the process of dividing text into individual sentences. For the machine annotation of corpora in the Slovenian context, we currently use the CLASSLA-Stanza tagger, more precisely the Obeliks segmentator included in it. The rules guiding the aut...

Application domain and data model

Digital Dictionary Database

Overview of the application domain and data model.

REST API

Digital Dictionary Database

Public REST API for accessing the database.

API routes

Digital Dictionary Database REST API

The API is being designed and developed, with priority on current needs. Specifications are available in redoc (which is better formatted visually) and swagger (which allows you to try the API via the interface). Here is a list of the current routes (last upda...

API design

Digital Dictionary Database REST API

Principles of the API design: All documented routes should be appended to https://blisk.ijs.si/api/. All the routes are available as POST calls, even if they do not result in changes in the database, because: some routes will have non-trivial input parame...

Domain and data model links

Digital Dictionary Database Application domain and data model

Links with relevant resources: Resource Version Date URL Notes Top-level overview N/A various url Top level domain overviews are spread over various papers Presentation N/A 28.09.2020 url Based on data model v1.5; satellite databases obsolete Code r...

Domain overview

Digital Dictionary Database Application domain and data model

Top level domain overviews are published in various papers. These are some of the relevant papers (some may contain partially outdated data): Slovar sodobne slovenščine: Problemi in rešitve Oblikoslovne informacije v sodobnih slovarskih priročnikih Leksiko...

Data model

Digital Dictionary Database Application domain and data model

The central entity types of the datamodel are lexical units and senses. They connect the morpho-syntactic and semantical data in the data model. In essence the model is designed to be a multilingual model, however, currently it is used as a monolingual model t...

API implementation

Digital Dictionary Database REST API

The public API is being implemented using the Django REST Framework and APIViews in particular. It is part of the Python codebase, Django project and Git repository that is used to manage the database in general. We are striving to keep the business logic and ...

Urejanje police Jezikoslovno označevanje korpusov

PREBERI ME - Navodila za dodajanje vsebine

Ta stran podaja tehnične postopke in način dela z odprtokodno platformo BookStack, ki gosti CJVT Wiki. Predstavljeni so tudi vsebinski in oblikovni vidiki, ki jih je pri dodajanju nove vsebine treba upoštevati, da se ohranja celovitost in enotnost informacij. ...

V1.0 (DRAFT)

Naglaševanje lastnih imen

Smernice za naglaševanje lastnih imen v slovenskem oblikoslovnem leksikonu Sloleks Datum Različica Objavitelj_ica Opis 2022-11-04 1.0 Jaka Čibej Objava prve različice. 1 Naglaševanje 1.1 Če lahko oblike naglasimo brez kakšnega posebnega dvoma, jih n...

V1.0 (DRAFT)

Zapis izgovora kratic

Smernice za zapis izgovora kratic v slovenskem oblikoslovnem leksikonu Sloleks 2.0 Datum Različica Objavitelj_ica Opis 2022-11-04 1.0 Jaka Čibej Objava prve različice. Kratic načeloma ne moremo dovolj zanesljivo avtomatsko pretvoriti v fonetični zapi...

V1.0 (DRAFT)

Zapis izgovora besed tujega izvora

Smernice za zapis izgovora besed tujega izvora v slovenskem oblikoslovnem leksikonu Sloleks Datum Različica Objavitelj_ica Opis 2022-11-04 1.0 Jaka Čibej Objava prve različice. Besed tujega izvora oz. tistih besed, ki ne sledijo slovenskim pravilom z...

API use cases

Digital Dictionary Database REST API

In addition to providing general public access to the database, the REST API can also be used to integrate data and services with external organisations in a coordinated, structured and systematic way. Two current examples of this are integration with terminol...

Predstavitev oznak

06 Odvisnostna skladnja JOS-SYN

V tem poglavju so navedene in strnjeno predstavljene oznake sistema JOS-SYN. Podrobnejšo predstavitev najdete v smernicah v poglavju Označevalne smernice. Oznaka Opis povezave dol some white text S povezavo dol povezujemo določujoči in določani del podr...

Označevalne smernice

06 Odvisnostna skladnja JOS-SYN

V tem poglavju so zbrane označevalne smernice JOS-SYN. Smernice so razvrščene od nastarejše različice do zadnje, ažurne različice. Različica 2.0 (02-2023) projekt Razvoj slovenščine v digitalnem okolju ARHAR HOLDT, Špela, TERČON, Luka, KREK, Simon, LEDINEK, Ni...

Reference in povezave

06 Odvisnostna skladnja JOS-SYN

V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal in uporabljal. Projekti, na katerih se je razvijal označevalni sistem Sporazumevanje v slovenskem jeziku Janes: Viri, orodja in metode za razisko...

Predstavitev oznak

11 Jezikovni popravki (Šolar)

V tem poglavju so strnjeno navedene oznake jezikovnih popravkov po sistemu Šolar. Oznaka Jezikovna ravnina Tip popravka Jezikovni problem Č/VOK/odveč Črkovanje Vokali Odvečni vokal Č/VOK/izpust Črkovanje Vokali Izpuščeni vokal Č/VOK/menjava-ao Črko...

Reference in povezave

11 Jezikovni popravki (Šolar)

V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal ter uporabljal. Projekti, na katerih se je razvijal označevalni sistem Sporazumevanje v slovenskem jeziku Nadgradnja korpusa Šolar Razvoj slovenš...

Označevalne smernice

11 Jezikovni popravki (Šolar)

V tem poglavju so zbrane označevalne smernice Šolar. Smernice so razvrščene od zadnje, ažurne različice, do starejših, predhodnih verzij. Različica 1.2 (12/11/2023) projekt Empirična podlaga za digitalno podprt razvoj pisne jezikovne zmožnosti ARHAR HOLDT, Š...

Označevalne smernice

05 Lematizacija

V tem poglavju so zbrane označevalne smernice za lematizacijo. Smernice so razvrščene od nastarejše različice do zadnje, ažurne različice. Različica 2.0 (25-02-2023) projekt Razvoj slovenščine v digitalnem okolju HOLOZAN, Peter, KREK, Simon, PIVEC, Matej, RIGA...

Reference in povezave

05 Lematizacija

V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal ter uporabljal. Projekti, na katerih se je sistem razvijal oz. uporabljal: JOS - Jezikoslovno označevanje slovenskega jezika: metode in viri Spor...

Označevalne smernice

01 Tokenizacija

V tem poglavju so predstavljene označevalne smernice oz. načela za tokenizacijo. ⬥ Presledek je glavna ločnica med pojavnicami. ⬥ Besede, ki jih lahko pišemo skupaj ali narazen, ne da bi spremenile pomen (npr. kdorkoli, kdor koli), se ravnajo po prvem načelu, ...