Skip to main content

Annotation Guidelines

VThis temchapter poglavjusummarizes sothe zbraneannotation označevalneguidelines smernicefor za tokenizacijo.tokenization.

PresledekSpace jeis glavnathe ločnicaprincipal medseparator pojavnicami.for tokens.

Besede,Sequences kiof jihwords lahkothat pišemocan skupajbe aliwritten narazen,both newith daor biwithout spremenilespace pomenwithout changing its meaning (npr.e.g. kdorkoli, kdor koli “anybody, any body”), sefollow ravnajothe posame prvemprinciple načelu,and tj.become tvorijoeither enoone alior dvetwo pojavnicitokens --depending odvisnoon odthe presledka.use of space.

VDuring procesutokenization, tokenizacijeall socharacters vseare pojavnicedivided prepoznaneinto kottwo alfanumeričnecategories: aliwords pa(W) kotand znaki.characters (C).

ZnakiC sotokens določeniare srecognized pomočjoon vnaprejthe določenegabasis seznama,of naa katerempredefined solist ločila,of simbolipunctuation- and symbol-like characters included in podobnothe tokenizer (odvisnodepending odon označevalnegathe sistema,annotation recimosystem, UDe.g. aliUniversal Dependencies or JOS/MULTEXT-East). Taand seznamconsist jeof vključensingle vcharacters tokenizator,only. sestavljenSequences paof jetwo leor izmore posameznih znakov. Zaporedja dveh ali več znakovcharacters (npr.e.g. ?!) seare obravnavajotreated kotas zaporedjasequences ločenihof znakov.separate C tokens.

ČeIf niza alfanumeričnihstring znakovof medalphanumeric dvemacharacters presledkomabetween vsebujetwo znak,spaces seincludes običajnoC razdelicharacters, nait večis pojavnicusually split into several tokens (npr.e.g. AC/DC inand Micro$oft staare razdeljenasplit nainto trithree pojavnice:tokens 'AC' '/' 'DC' terand 'Micro' '$' 'oft').

VendarHowever, veljajothe naslednjefollowing izjeme,exceptions, priin katerihwhich znakC postanecharacters delbecome alfanumeričneparts pojavnice:of W tokens, apply:

some blue textapostrofApostrophe postanebecomes delpart alfanumeričneof pojavnice,a čeW jetoken zapisanif obojestranskoused stičnowithout space on both sides (npr.e.g. O'O’Brian "O’Brian", mor'mor’va "we have to").

some blue textvejicaComma inand dvopičjecolon postanetabecome delpart alfanumeričneof pojavnice,a čeW statoken zapisanaif obojestranskoused stičnowithout inspace pojavnicoon someboth bluesides textuuuuuuuuuusestavljajoand sameif števkethe string contains only digits (npr.e.g. 30:00, 200,000,000),.

some blue textpomišljajHyphen postanebecomes delpart alfanumeričneof pojavnice,a čeW jetoken jeif zapisanused obojestranskowithout stičnospace inon če:both sides and if:

some blue texttexttejethe levileft delpart kraticais an acronym (zapisanain zcapital velikimi črkami)letters), enaa samasingle črkaletter alior števkaa digit

some blue texttexttejethe desniright delpart priponais alian pregibnaaffix končnica;or končnian seznaminflectional možnihending; pripona finite list of possible affixes and endings is integrated in končnicthe jetokenizer, vključene.g. v some blue textuuuuuuuuuuuuuu tokenizator (npr. OZN-ovski "podobensimilar Združenimto narodom"United Nations", a-ju "črkito the letter a", 15-i "petnajsti"))the 15th"

some blue textpikaDot postanebecomes delpart alfanumeričneof pojavnice,a čeW je:token if it is:

some blue texttexttezapisanaused obojestranskowithout stičnospace inon nizboth vsebujesides samoand številkethe (npr.string contains only digits, e.g. 1.2)

some blue texttexttezapisanaused levowithout stičnospace on the left and is part of an abbreviation or ordinal number (e.g. dr., 4., IV.); a finite list of possible abbreviations is integrated in jethe del kratice ali vrstnega števila (npr. dr., 4., IV.); končni seznam možnih kratic je vključentokenizer some blue textuuuuuuv tokenizator..

some blue textVsiAll znakiC postanejocharacters delbecome enepart sameof alfanumeričnea pojavnicesingle vW nizih,token kiin sostrings srecognized pomočjoas regularnega izraza prepoznani kotURLs some blue textuuURL-ji alior naslovi.addresses using a regular expression.

InformacijaInformation oon tem,whether daa pojavnicitoken neis sledinot presledekfollowed by a space (npr.e.g. d.o.o. vs. d. o. o.), jeis navedenaindicated swith SpaceAfter=No v stolpcufeature MISC.in the MISC column.