Advanced Search
Search Results
132 total results found
Jezikoslovno označevanje korpusov
Opis nivojev jezikoslovnega označevanja korpusov v okviru CLARIN.SI
Digital Dictionary Database
Označevanje Slovenskega oblikoslovnega leksikona Sloleks
Zbirka smernic, ki so bile uporabljene pri označevanju in popravljanju različnih nivojev podatkov v Slovenskem oblikoslovnem leksikonu Sloleks.
Linguistic Annotation of Slovene Corpora
Overview of annotating Slovene corpora supported by CLARIN.SI
Natural Language Inference
Annotation Guidelines for Natural Language Inference (SI-NLI)
Online Notes - Navodila za uporabo
Navodilo za uporabo sistema Online Notes
Navodila za portale Online Notes
Digital Dictionary Database
A central database for Slovene.
PREBERI ME - Navodila za dodajanje vsebine
Opis navodil in postopkov za dodajanje vsebine na CJVT Wiki.
08 Imenske entitete
Imenske entitete (angl. named entities; NE) so samostalniki in samostalniške besedne zveze, ki identificirajo neko osebo, lokacijo, organizacijo ali drug edinstven objekt v realnem prostoru in času (poleg tega v širšem smislu tudi svojilne pridevnike, izpeljan...
Naglaševanje lastnih imen
Smernice za naglaševanje lastnih imen v slovenskem oblikoslovnem leksikonu Sloleks
Zapis izgovora kratic
Smernice za zapis izgovora kratic v slovenskem oblikoslovnem leksikonu Sloleks
Zapis izgovora besed tujega izvora
Smernice za zapis izgovora besed tujega izvora v slovenskem oblikoslovnem leksikonu Sloleks
13 Povezave
Ekstrakcija povezav je postopek odkrivanja in kategorizacije semantičnih odnosov med entitetami znotraj besedila. Ta naloga je ključna za razumevanje strukture in pomena kompleksnih jezikovnih podatkov in je pomembna za različne naloge, povezane z obdelavo nar...
09 Koreference
O koreferenčnosti govorimo, ko več elementov znotraj besedila (besed, fraz ali povedi) kaže na isto entiteto v resničnem svetu, izven samega jezika. Ta entiteta, ki ji pravimo referent, lahko predstavlja širok nabor stvari, npr. ljudi, živali, rastline, predme...
06 Odvisnostna skladnja JOS-SYN
Sistem JOS-SYN, ki je bil zasnovan v projektu Jezikoslovno označevanje slovenščine (Erjavec et al. 2010) in uporabljen v projektu Sporazumevanje v slovenskem jeziku (Krek et al. 2020), je namenjen označevanju skladenjskih odnosov v slovenskih povedih. Sistem s...
11 Jezikovni popravki (Šolar)
Označevalni sistem Šolar je bil zasnovan skupaj s slovenskim razvojnim korpusom Šolar (Arhar Holdt et al. 2022) in je namenjen vsebinski kategorizaciji jezikovnih popravkov v besedilih učencev in dijakov, ki so nastala v slovenskih osnovnih in srednjih šolah. ...
05 Lematizacija
Lema (osnovna besedna oblika) je pri označevanju pripisana vsem besednim oblikam v besedilu, kar omogoča njihovo nadaljnje enovito procesiranje. Sistem lematizacije je bil razvit v projektu Sporazumevanje v slovenskem jeziku (Holozan et al. 2008) in sledi sist...
01 Tokenizacija
Tokenizacija je postopek deljenja besedila na posamezne pojavnice (besede, števnike, ločila). Pri strojnem označevanju korpusov v slovenskem prostoru trenutno uporabljamo označevalnik CLASSLA-Stanza oz. vanj vključeni tokenizator Obeliks. Pravilom, na katerih ...
07 Universal Dependencies
Universal Dependencies (UD) je mednarodno usklajena označevalna shema, ki si prizadeva za poenoteno oblikoslovno in skladenjsko označevanje besedil v vseh svetovnih jezikih, da bi pospešila razvoj večjezičnih jezikovnih tehnologij in kontrastivnih jezikoslovni...
03 Normalizacija
Jezik spletne komunikacije se v marsikaterem vidiku razlikuje od standardnega jezika. Obstoječa orodja za označevanje besedil se z njim težje spopadajo. Normalizacija, katere cilj je vsaki nestandardni pojavnici pripisati standardno ustreznico, je ključna za i...
10 Udeleženske vloge (SRL)
Označevanje udeleženskih vlog oz. semantično označevanje (angl. semantic role labelling; SRL) predstavlja pripisovanje semantičnih kategorij, kot so aktant, prizadeto, lokacija ipd., glagolskim udeležencem v korpusnih stavkih. Sistem semantičnega označevanja i...
04 Oblikoskladnja MULTEXT-East
Sistem MULTEXT-East za označevanje oblikoskladnje pojavnic v korpusih definira črkovne kode, npr. »Somei«, in njihovo preslikavo v slovnične lastnosti, npr. »samostalnik vrsta=občno_ime spol=moški število=ednina sklon=imenovalnik«. Sistem je definiran za 20 je...
02 Segmentacija
Segmentacija je postopek deljenja besedila na povedi. Pri strojnem označevanju korpusov v slovenskem prostoru trenutno uporabljamo označevalnik CLASSLA-Stanza oz. vanj vključeni segmentator Obeliks. Pravilom, na katerih je osnovan strojni označevalnik, sledi t...
12 Jezikovni popravki (KOST)
Označevalni sistem KOST je bil zasnovan skupaj s korpusom slovenščine kot tujega jezika KOST (Stritar Kučuk 2022) in je namenjen kategorizaciji jezikovnih napak v besedilih, ki so jih napisali govorci slovenščine kot drugega oz. tujega jezika. Označevalni sist...
01 Tokenization
Tokenization is the process of dividing text into individual tokens (words, digits, punctuation). For the machine annotation of corpora in the Slovenian context, we currently use the CLASSLA-Stanza tagger, more precisely the Obeliks tokeniser included in it. T...
02 Segmentation
Segmentation is the process of dividing text into individual sentences. For the machine annotation of corpora in the Slovenian context, we currently use the CLASSLA-Stanza tagger, more precisely the Obeliks segmentator included in it. The rules guiding the aut...
Application domain and data model
Overview of the application domain and data model.
REST API
Public REST API for accessing the database.
API routes
The API is being designed and developed, with priority on current needs. Specifications are available in redoc (which is better formatted visually) and swagger (which allows you to try the API via the interface). Here is a list of the current routes (last upda...
API design
Principles of the API design: All documented routes should be appended to https://blisk.ijs.si/api/. All the routes are available as POST calls, even if they do not result in changes in the database, because: some routes will have non-trivial input parame...
Domain and data model links
Links with relevant resources: Resource Version Date URL Notes Top-level overview N/A various url Top level domain overviews are spread over various papers Presentation N/A 28.09.2020 url Based on data model v1.5; satellite databases obsolete Code r...
Domain overview
Top level domain overviews are published in various papers. These are some of the relevant papers (some may contain partially outdated data): Slovar sodobne slovenščine: Problemi in rešitve Oblikoslovne informacije v sodobnih slovarskih priročnikih Leksiko...
Data model
The central entity types of the datamodel are lexical units and senses. They connect the morpho-syntactic and semantical data in the data model. In essence the model is designed to be a multilingual model, however, currently it is used as a monolingual model t...
API implementation
The public API is being implemented using the Django REST Framework and APIViews in particular. It is part of the Python codebase, Django project and Git repository that is used to manage the database in general. We are striving to keep the business logic and ...
Urejanje police Jezikoslovno označevanje korpusov
Ta stran podaja tehnične postopke in način dela z odprtokodno platformo BookStack, ki gosti CJVT Wiki. Predstavljeni so tudi vsebinski in oblikovni vidiki, ki jih je pri dodajanju nove vsebine treba upoštevati, da se ohranja celovitost in enotnost informacij. ...
V1.0 (DRAFT)
Smernice za naglaševanje lastnih imen v slovenskem oblikoslovnem leksikonu Sloleks Datum Različica Objavitelj_ica Opis 2022-11-04 1.0 Jaka Čibej Objava prve različice. 1 Naglaševanje 1.1 Če lahko oblike naglasimo brez kakšnega posebnega dvoma, jih n...
V1.0 (DRAFT)
Smernice za zapis izgovora kratic v slovenskem oblikoslovnem leksikonu Sloleks 2.0 Datum Različica Objavitelj_ica Opis 2022-11-04 1.0 Jaka Čibej Objava prve različice. Kratic načeloma ne moremo dovolj zanesljivo avtomatsko pretvoriti v fonetični zapi...
V1.0 (DRAFT)
Smernice za zapis izgovora besed tujega izvora v slovenskem oblikoslovnem leksikonu Sloleks Datum Različica Objavitelj_ica Opis 2022-11-04 1.0 Jaka Čibej Objava prve različice. Besed tujega izvora oz. tistih besed, ki ne sledijo slovenskim pravilom z...
API use cases
In addition to providing general public access to the database, the REST API can also be used to integrate data and services with external organisations in a coordinated, structured and systematic way. Two current examples of this are integration with terminol...
Predstavitev oznak
V tem poglavju so navedene in strnjeno predstavljene oznake sistema JOS-SYN. Podrobnejšo predstavitev najdete v smernicah v poglavju Označevalne smernice. Oznaka Opis povezave dol some white text S povezavo dol povezujemo določujoči in določani del podr...
Označevalne smernice
V tem poglavju so zbrane označevalne smernice JOS-SYN. Smernice so razvrščene od nastarejše različice do zadnje, ažurne različice. Različica 2.0 (02-2023) projekt Razvoj slovenščine v digitalnem okolju ARHAR HOLDT, Špela, TERČON, Luka, KREK, Simon, LEDINEK, Ni...
Reference in povezave
V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal in uporabljal. Projekti, na katerih se je razvijal označevalni sistem Sporazumevanje v slovenskem jeziku Janes: Viri, orodja in metode za razisko...
Predstavitev oznak
V tem poglavju so strnjeno navedene oznake jezikovnih popravkov po sistemu Šolar. Oznaka Jezikovna ravnina Tip popravka Jezikovni problem Č/VOK/odveč Črkovanje Vokali Odvečni vokal Č/VOK/izpust Črkovanje Vokali Izpuščeni vokal Č/VOK/menjava-ao Črko...
Reference in povezave
V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal ter uporabljal. Projekti, na katerih se je razvijal označevalni sistem Sporazumevanje v slovenskem jeziku Nadgradnja korpusa Šolar Razvoj slovenš...
Označevalne smernice
V tem poglavju so zbrane označevalne smernice Šolar. Smernice so razvrščene od zadnje, ažurne različice, do starejših, predhodnih verzij. Različica 1.2 (12/11/2023) projekt Empirična podlaga za digitalno podprt razvoj pisne jezikovne zmožnosti ARHAR HOLDT, Š...
Označevalne smernice
V tem poglavju so zbrane označevalne smernice za lematizacijo. Smernice so razvrščene od nastarejše različice do zadnje, ažurne različice. Različica 2.0 (25-02-2023) projekt Razvoj slovenščine v digitalnem okolju HOLOZAN, Peter, KREK, Simon, PIVEC, Matej, RIGA...
Reference in povezave
V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal ter uporabljal. Projekti, na katerih se je sistem razvijal oz. uporabljal: JOS - Jezikoslovno označevanje slovenskega jezika: metode in viri Spor...
Označevalne smernice
V tem poglavju so predstavljene označevalne smernice oz. načela za tokenizacijo. ⬥ Presledek je glavna ločnica med pojavnicami. ⬥ Besede, ki jih lahko pišemo skupaj ali narazen, ne da bi spremenile pomen (npr. kdorkoli, kdor koli), se ravnajo po prvem načelu, ...