Predstavitev oznak
V tem razdelku na kratko opišemo zasnovo smernic MULTEXT-East in podamo povezave do smernic.
Uvod
Večjezične specifikacije MULTEXT-East so zapisane v XML, po prioročilih TEI, in definirajo oblikoskladenjske značilke (atribute in njihove vrednosti) besed, tj. značilnosti besed, ki so na preseku oblikoslovja in skladnje. Specifikacije podajo tudi preslikavo množic teh značilk v oblikoskladenjske opise (morphosyntactic descriptions = MSD), ki so kompaktni nizi, uporabljeni pri označevanju korpusov. Tako se na primer MSD "Ncndl" preslika v značilke "Noun, Type:common, Gender:neuter, Number:dual, Case:locative". Specifikacije poleg formalnih delov vsebujejo tudi komentarje, bibliografijo itd.
Skupni del specifikacij podaja 14 MULTEXT definiranih kategorij, ki večinoma ustrezajo besednim vrstam, nekaj pa jih je uvedenih iz tehničnih razlogov. Vsaka kategorija ima namensko tabelo, ki določa njene atribute, njihove vrednosti in njihovo preslikavo v nize MSD. Za vsak par atribut-vrednost določi tudi jezike, za katere je ta par primeren.
Drugi glavni del specifikacij je sestavljen iz razdelkov, specifičnih za vsak posemezni jezik. Ti poleg uvoda vsebujejo tudi razdelke za vsako kategorijo s svojimi tabelami definicij vrednosti atributov. Te tabele so podobne skupnim tabelam v tem, da tudi podajo atribute in njihove vrednosti, vendar le tiste, ki so primerne za obravnavani jezik. Vendar pa te jezikovne specifične tabele lahko tudi redefinirajo položaj atributov v nizu MSD, kar vodi do veliko krajših in bolj berljivih oznak MSD za jezik.
Jezikovno specifične tabele lahko vsebujejo tudi informacije o lokalizaciji. To omogoča izražanje značilk in MSDjev bodisi v angleščini ali v jeziku, ki je opisan, zaradi česar so bolj primerni za uporabo maternih govorcev jezika. Nenazadnje, razdelek za določen jezik tudi našteje vse veljavne MSD-je, s čimer določi nabor oznak MSD za ta jezik. Množica dovoljenih MSDjev je pomemben podatek, saj je z MDji označen korpus mogoče samodejno preveriti glede na ta seznam, nabor oznak pa je mogoče tudi preoblikovati v različne druge formate.
Specifikacije v XML oz. TEI so opremljene s pripadajočimi programi XSLT, ki sprejmejo specifikacije kot vhodne podatke, običajno skupaj z določenimi parametri, in ustvarijo XML, HTML ali besedilni izhod, odvisno od slogovne datoteke. Na voljo so trije razredi transformacij. Prvi pomaga pri dodajanju novega jezika samim specifikacijam, drugi preoblikuje specifikacije v HTML za branje, tretji pa preoblikuje (in potrdi) seznam MSDjev. Izhodi drugega in tretjega razreda transformacij so vključeni v distribucijo MULTEXT-East.
Povezave na specifikacije
- Smernice MULTEXT-East V6 na GitHub: https://github.com/clarinsi/mte-msd
- Smernice MULTEXT-East V6 v TEI: https://nl.ijs.si/ME/V6/msd/xml/
- Smernice MULTEXT-East V6 za branje: https://nl.ijs.si/ME/V6/msd/html/index.html
- Smernice MULTEXT-East V6 za slovenski jezik:
- v TEI: https://nl.ijs.si/ME/V6/msd/xml/msd-sl.spc.xml
- za branje: https://nl.ijs.si/ME/V6/msd/html/msd-sl.html
- oznake v tabeli TSV: https://nl.ijs.si/ME/V6/msd/tables/msd-human-sl.tbl
- oznake kodirane kot strukture lastnosti v TEI: https://nl.ijs.si/ME/V6/msd/html/msd-sl.html