Advanced Search
Search Results
66 total results found
Jezikoslovno označevanje korpusov
Opis nivojev jezikoslovnega označevanja korpusov v okviru CLARIN.SI
V1.0 (DRAFT)
Smernice za zapis izgovora besed tujega izvora v slovenskem oblikoslovnem leksikonu Sloleks Datum Različica Objavitelj_ica Opis 2022-11-04 1.0 Jaka Čibej Objava prve različice. Besed tujega izvora oz. tistih besed, ki ne sledijo slovenskim pravilom z...
API design
Principles of the API design: All documented routes should be appended to https://blisk.ijs.si/api/. All the routes are available as POST calls, even if they do not result in changes in the database, because: some routes will have non-trivial input parame...
Domain and data model links
Links with relevant resources: Resource Version Date URL Notes Top-level overview N/A various url Top level domain overviews are spread over various papers Presentation N/A 28.09.2020 url Based on data model v1.5; satellite databases obsolete Code r...
Domain overview
Top level domain overviews are published in various papers. These are some of the relevant papers (some may contain partially outdated data): Slovar sodobne slovenščine: Problemi in rešitve Oblikoslovne informacije v sodobnih slovarskih priročnikih Leksiko...
Data model
The central entity types of the datamodel are lexical units and senses. They connect the morpho-syntactic and semantical data in the data model. In essence the model is designed to be a multilingual model, however, currently it is used as a monolingual model t...
API implementation
The public API is being implemented using the Django REST Framework and APIViews in particular. It is part of the Python codebase, Django project and Git repository that is used to manage the database in general. We are striving to keep the business logic and ...
Delo z zbirko smernic
Ta stran opisuje postopke in način dela s sistemom BookStackApp, v okviru katerega gostimo polico s smernicami. Pravila dostopa Okolje BookStackApp ne omogoča dodeljevanja pravic specifično za objekt in posameznega uporabnika. Pravice se definira tako, da se u...
V1.0 (DRAFT)
Smernice za naglaševanje lastnih imen v slovenskem oblikoslovnem leksikonu Sloleks Datum Različica Objavitelj_ica Opis 2022-11-04 1.0 Jaka Čibej Objava prve različice. 1 Naglaševanje 1.1 Če lahko oblike naglasimo brez kakšnega posebnega dvoma, jih n...
V1.0 (DRAFT)
Smernice za zapis izgovora kratic v slovenskem oblikoslovnem leksikonu Sloleks 2.0 Datum Različica Objavitelj_ica Opis 2022-11-04 1.0 Jaka Čibej Objava prve različice. Kratic načeloma ne moremo dovolj zanesljivo avtomatsko pretvoriti v fonetični zapi...
API use cases
In addition to providing general public access to the database, the REST API can also be used to integrate data and services with external organisations in a coordinated, structured and systematic way. Two current examples of this are integration with terminol...
REST API
Public REST API for accessing the database.
Ekstrakcija povezav (v1.0)
RSDO_REL_Navodila_v1.3.docx
Predstavitev oznak
V tem poglavju so navedene in strnjeno predstavljene oznake sistema JOS-SYN. Podrobnejšo predstavitev najdete v smernicah v poglavju Označevalne smernice. Oznaka Opis povezave dol some white text S povezavo dol povezujemo določujoči in določani del podr...
Označevalne smernice
V tem poglavju so zbrane označevalne smernice JOS-SYN. Smernice so razvrščene od nastarejše različice do zadnje, ažurne različice. Različica 2.0 (02-2023) projekt Razvoj slovenščine v digitalnem okolju ARHAR HOLDT, Špela, TERČON, Luka, KREK, Simon, LEDINEK, Ni...
Reference in povezave
V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal ter uporabljal. Projekti, na katerih se je razvijal označevalni sistem Sporazumevanje v slovenskem jeziku Janes Razvoj slovenščine v digitalnem o...
Predstavitev oznak
V tem poglavju so strnjeno navedene oznake jezikovnih popravkov po sistemu Šolar. Oznaka Jezikovna ravnina Tip popravka Jezikovni problem Č/VOK/odveč Črkovanje Vokali Odvečni vokal Č/VOK/izpust Črkovanje Vokali Izpuščeni vokal Č/VOK/menjava-ao Črko...
Reference in povezave
V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal ter uporabljal. Projekti, na katerih se je razvijal označevalni sistem Sporazumevanje v slovenskem jeziku Nadgradnja korpusa Šolar Razvoj slovenš...
Označevalne smernice
V tem poglavju so zbrane označevalne smernice Šolar. Smernice so razvrščene od zadnje, ažurne različice, do starejših, predhodnih verzij. Različica 1.1 (12/8/2022) projekt Razvoj slovenščine v digitalnem okolju ARHAR HOLDT, Špela, LAVRIČ, Polona, ROBLEK, Reb...
Označevalne smernice
V tem poglavju so zbrane označevalne smernice za lematizacijo. Smernice so razvrščene od nastarejše različice do zadnje, ažurne različice. Različica 2.0 (25-02-2023) projekt Razvoj slovenščine v digitalnem okolju HOLOZAN, Peter, KREK, Simon, PIVEC, Matej, RIGA...
API routes
The API is being designed and developed, with priority on current needs. Specifications are available in redoc (which is better formatted visually) and swagger (which allows you to try the API via the interface). Here is a list of the current routes (last upda...
Application domain and data model
Overview of the application domain and data model.
Digital Dictionary Database
09 Odkrivanje koreferenčnosti
O koreferenčnosti govorimo, ko se več delov besedila (besed, besednih zvez ali stavkov) nanaša na istega referenta v zunajjezikovni stvarnosti. Z referentom označujemo različne vrste predmetnosti, npr. osebe, živali, rastline, predmete, kot tudi lokacije, dogo...
Označevanje Slovenskega oblikoslovnega leksikona Sloleks
Zbirka smernic, ki so bile uporabljene pri označevanju in popravljanju različnih nivojev podatkov v Slovenskem oblikoslovnem leksikonu Sloleks.
Digital Dictionary Database
A central database for Slovene.
PREBERI ME - Navodila za delo s smernicami
Opis navodil in postopkov za uporabo vsebin na tej polici.
08 Imenske entitete
Imenske entitete (angl. named entities; NE) so samostalniki in samostalniške besedne zveze, ki identificirajo neko osebo, lokacijo, organizacijo ali drug edinstven objekt v realnem prostoru in času (poleg tega v širšem smislu tudi svojilne pridevnike, izpeljan...
Naglaševanje lastnih imen
Smernice za naglaševanje lastnih imen v slovenskem oblikoslovnem leksikonu Sloleks
Zapis izgovora kratic
Smernice za zapis izgovora kratic v slovenskem oblikoslovnem leksikonu Sloleks
Zapis izgovora besed tujega izvora
Smernice za zapis izgovora besed tujega izvora v slovenskem oblikoslovnem leksikonu Sloleks
Ekstrakcija povezav
06 Odvisnostna skladnja JOS-SYN
Sistem JOS-SYN, ki je bil zasnovan v projektu Jezikoslovno označevanje slovenščine (Erjavec et al. 2010) in uporabljen v projektu Sporazumevanje v slovenskem jeziku (Krek et al. 2020), je namenjen označevanju skladenjskih odnosov v slovenskih povedih. Sistem s...
12 KOST - Korpus slovenščine kot tujega jezika
Označevalni sistem KOST je bil zasnovan skupaj s korpusom slovenščine kot tujega jezika KOST (Stritar Kučuk 2022) in je namenjen kategorizaciji jezikovnih napak v besedilih, ki so jih napisali govorci slovenščine kot drugega oz. tujega jezika. Označevalni sist...
11 Razvojni korpus Šolar
Označevalni sistem Šolar je bil zasnovan skupaj s slovenskim razvojnim korpusom Šolar (Arhar Holdt et al. 2022) in je namenjen vsebinski kategorizaciji jezikovnih popravkov v besedilih učencev in dijakov, ki so nastala v slovenskih osnovnih in srednjih šolah. ...
05 Lematizacija
Lema (osnovna besedna oblika) je pri označevanju pripisana vsem besednim oblikam v besedilu, kar omogoča njihovo nadaljnje enovito procesiranje. Sistem lematizacije je bil razvit v projektu Sporazumevanje v slovenskem jeziku (Holozan et al. 2008) in sledi sist...
01 Tokenizacija
Tokenizacija je postopek deljenja besedila na posamezne pojavnice (besede, števnike, ločila). Pri strojnem označevanju korpusov v slovenskem prostoru trenutno uporabljamo označevalnik CLASSLA-Stanza oz. vanj vključeni tokenizator Obeliks. Pravilom, na katerih ...
07 Universal Dependencies
Universal Dependencies (UD) je mednarodno usklajena označevalna shema, ki si prizadeva za poenoteno oblikoslovno in skladenjsko označevanje besedil v vseh svetovnih jezikih, da bi pospešila razvoj večjezičnih jezikovnih tehnologij in kontrastivnih jezikoslovni...
03 Normalizacija
Jezik spletne komunikacije se v marsikaterem vidiku razlikuje od standardnega jezika. Obstoječa orodja za označevanje besedil se z njim težje spopadajo. Normalizacija, katere cilj je vsaki nestandardni pojavnici pripisati standardno ustreznico, je ključna za i...
10 Udeleženske vloge (SRL)
Označevanje udeleženskih vlog oz. semantično označevanje (angl. semantic role labelling; SRL) predstavlja pripisovanje semantičnih kategorij, kot so aktant, prizadeto, lokacija ipd., glagolskim udeležencem v korpusnih stavkih. Sistem semantičnega označevanja i...
04 Oblikoskladnja MULTEXT-East
Sistem MULTEXT-East za označevanje oblikoskladnje pojavnic v korpusih definira črkovne kode, npr. »Somei«, in njihovo preslikavo v slovnične lastnosti, npr. »samostalnik vrsta=občno_ime spol=moški število=ednina sklon=imenovalnik«. Sistem je definiran za 20 je...
02 Segmentacija
Reference in povezave
V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal ter uporabljal. Projekti, na katerih se je sistem razvijal JOS - Jezikoslovno označevanje slovenskega jezika: http://nl.ijs.si/jos/ Sporazumevanj...