07 Universal Dependencies Universal Dependencies (UD) je mednarodno usklajena označevalna shema, ki si prizadeva za poenoteno oblikoslovno in skladenjsko označevanje besedil v vseh svetovnih jezikih, da bi pospešila razvoj večjezičnih jezikovnih tehnologij in kontrastivnih jezikoslovnih raziskav. Znotraj sheme, ki temelji na načelih odvisnostne slovnice, je bil vzpostavljen univerzalni nabor slovničnih kategorij (besednih vrst, oblikoslovnih lastnosti in odvisnostnih skladenjskih relacij) in smernic za njihovo pripisovanje, obenem pa zasnova sheme dovoljuje tudi vpeljevanje jezikovnospecifičnih oznak, če je to potrebno. Doslej je bilo s to shemo ročno označenih že več kot 250 korpusov po vsem svetu, med katerimi sta tudi univerzalni odvisnostni drevesnici pisne (SSJ) in govorjene (SST) slovenščine. Predstavitev oznak Shema Universal Dependencies določa univerzalni nabor oznak za besedne vrste, oblikoslovne lastnosti in odvisnostne skladenjske relacije, ki se lahko prenesejo na drevesnice posameznih jezikov ali pa dopolnijo z novimi oblikoslovnimi oznakami oz. izpeljavami jedrnih relacij, če je to potrebno. Konkretno je bilo na slovenske podatke preneseno vseh 17 besednih vrst (Tabela 1), 22 oblikoslovnih lastnosti z 62 različnimi vrednostmi (Tabela 2) in 35 odvisnostnih relacij (Tabela 3). Oznaka Opis ADJ pridevnik ADP adpozicija (predlog) ADV prislov AUX pomožnik CCONJ priredni veznik DET določilnik INTJ medmet NOUN samostalnik NUM števnik PART členek PRON zaimek PROPN lastnoimenski samostalnik PUNCT ločilo SCONJ podredni veznik SYM simbol VERB glagol X drugo Tabela 1: Na slovenskih besedilih uporabljene oznake za besedne vrste. Lastnost Vrednosti Opis Abbr  Yes okrajšanost Animacy  Anim, Inanim živost Aspect  Imp, Perf vid Case  Nom, Gen, Dat, Acc, Loc, Ins sklon Definite  Ind, Def določnost Degree  Pos, Cmp, Sup stopnja Foreign  Yes tujejezičnost Gender  Masc, Fem, Neut spol Gender[psor]  Masc. Fem, Neut spol svojine Mood  Ind, Imp, Cnd naklon Number  Sing, Dual, Plur število Number[psor]  Sing, Dual, Plur število svojine NumForm  Word, Digit, Roman oblika števnika NumType  Card, Ord, Mult, Sets vrste števnika Person  1, 2, 3 oseba Polarity  Neg, Pos nikalnost Poss  Yes svojina PronType  Prs, Int, Rel, Dem, Tot, Neg, Ind vrsta zimka Reflex  Yes povratnost Tense  Pres, Fut čas Variant  Bound, Short oblika zaimka VerbForm  Fin, Inf, Sup, Part, Conv vrsta glagola Tabela 2: Na slovenskih besedilih uporabljene oznake za oblikoslovne lastnosti. V korpusu so navedene v obliki parov lastnosti in vrednosti (npr. Tense=Pres). Oznaka Angleški opis Slovenski opis acl clausal modifier of noun stavčni prilastki advcl adverbial clause modifier prislovni odvisniki advmod adverbial modifier prislovna določila (v širšem smislu) amod adjectival modifier pridevniški prilastki appos appositional modifier pristavčna določila aux auxiliary verb pomožni glagoli case case marking preposition predlogi cc coordinating conjunction priredni vezniki ccomp clausal complement stavčna dopolnila (predmetni odvisniki) conj conjunct priredno zloženi elementi cop copula verb vezni glagoli csubj clausal subject osebkovi odvisniki dep unspecified dependency nedoločena povezava det determiner določilniki discourse discourse element diskurzni členki dislocated dislocated element dislocirani elementi expl expletive ekspletivne besede fixed fixed multi-word expression funkcijske zveze flat flat multi word-expression eksocentrične zveze goeswith disjointed token razdruženi deli besed iobj indirect object nepremi predmeti list list seznami mark marker (subordinating conjunction) podredni vezniki nmod nominal modifier samostalniški prilastki nsubj nominal subject samostalniški osebki nummod numeric modifier številčna določila obj (direct) object premi predmeti obl oblique nominal (adjunct) odvisne samostalniške zveze orphan dependent of missing parent elementi v eliptičnih strukturah parataxis parataxis stavčna soredja punct punctuation symbol ločila reparandum overriden disfluency samopopravljanja root root element koren povedi vocative vocative ogovori xcomp open clausal complement odprta stavčna dopolnila Tabela 3: Na slovenskih besedilih uporabljene oznake za odvisnostne skladenjske relacije (brez podoznak). Označevalne smernice V tem poglavju so zbrane označevalne smernice za oblikoslovje in skladnjo po sistemu Universal Dependencies (UD). Različica 1.7 projekt SPOT DOBROVOLJC, Kaja in TERČON, Luka: 2024. Universal Dependencies: Smernice za označevanje besedil v slovenščini. Različica 1.7. Rezultat projekta Na drevesnici temelječ pristop k raziskavam govorjene slovenščine. [DOCX] [PDF] Različica 1.3 projekt SPOT DOBROVOLJC, Kaja in TERČON, Luka: 2023. Universal Dependencies: Smernice za označevanje besedil v slovenščini. Različica 1.3. Rezultat projekta Na drevesnici temelječ pristop k raziskavam govorjene slovenščine. [DOCX] [PDF] Različica 1.0 projekt Razvoj slovenščine v digitalnem okolju DOBROVOLJC, Kaja in TERČON, Luka: 2023. Universal Dependencies: Smernice za označevanje besedil v slovenščini. Rezultat projekta Razvoj slovenščine v digitalnem okolju. [DOCX] [PDF] Priloga k smernicam: Odprta vprašanja pri prenosu označevalne sheme Universal Dependencies na slovenska besedila [DOCX] [PDF] Reference in povezave V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal ter uporabljal. Krovna spletna stran projekta Universal Dependencies: https://universaldependencies.org/ Splošne smernice: https://universaldependencies.org/guidelines.html Smernice za slovenščino (v angleščini): https://universaldependencies.org/sl/index.html Platforma za diskusijo glede smernic za slovenščino in predloge izboljšav (v angleščini): https://github.com/UniversalDependencies/UD_Slovenian-SSJ/issues Korpusi z ročno pregledanimi oznakami UD Drevesnica pisne slovenščine SSJ: https://github.com/UniversalDependencies/UD_Slovenian-SSJ Drevesnica govorjene slovenščine SST: https://github.com/UniversalDependencies/UD_Slovenian-SST Drevesnica SSJ kot del trenutne različice učnega korpusa SUK: Arhar Holdt, Špela; et al., 2024, Training corpus SUK 1.1, Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1959 . Reference Dobrovoljc, K. (2024). Extending the Spoken Slovenian Treebank. Conference on Language Technologies and Digital Humanities (JT-DH-2024), Ljubljana, Slovenia. https://doi.org/10.5281/zenodo.13936394 Dobrovoljc, K., Terčon, L., Ljubešić, N. (2023). Universal Dependencies za slovenščino: nove smernice, ročno označeni podatki in razčlenjevalni model. Slovenščina 2.0, 11(1): 218–246. https://doi.org/10.4312/slo2.0.2023.1.218-246 [PDF] Dobrovoljc, K., Terčon, L., & Ljubešić, N. (2022). Universal Dependencies za slovenščino: nadgradnja smernic, učnih podatkov in razčlenjevalnega modela. In D. Fišer & T. Erjavec (Eds.), Jezikovne tehnologije in digitalna humanistika: zbornik konference (pp. 30–39). Inštitut za novejšo zgodovino. https://nl.ijs.si/jtdh22/pdf/JTDH2022_Dobrovoljc-et-al_Universal-Dependencies-za-slovenscino.pdf de Marneffe, M.-C., Manning, C. D., Nivre, J., & Zeman, D. (2021). Universal Dependencies. Computational Linguistics, 47(2), 255–308. https://doi.org/10.1162/coli_a_00402 Nivre, J., de Marneffe, M.-C., Ginter, F., Hajič, J., Manning, C. D., Pyysalo, S., Schuster, S., Tyers, F., & Zeman, D. (2020). Universal Dependencies v2: An Evergrowing Multilingual Treebank Collection. Proceedings of the Twelfth Language Resources and Evaluation Conference, 4034–4043. https://aclanthology.org/2020.lrec-1.497 Dobrovoljc, K., Erjavec, T., & Krek, S. (2017). The Universal Dependencies Treebank for Slovenian. Proceedings of the 6th Workshop on Balto-Slavic Natural Language Processing, 33–38. https://doi.org/10.18653/v1/W17-1406 Dobrovoljc, K., & Nivre, J. (2016). The Universal Dependencies Treebank of Spoken Slovenian. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), 1566–1573. https://aclanthology.org/L16-1248