Annotation Guidelines
ThisV chaptertem summarizespoglavju theso annotationpredstavljene guidelinesoznačevalne forsmernice tokenization.oz. načela za tokenizacijo.
● SpacePresledek isje theglavna principalločnica separatormed for tokens.pojavnicami.
● SequencesBesede, ofki wordsjih thatlahko canpišemo beskupaj writtenali bothnarazen, withne orda withoutbi spacespremenile without changing its meaningpomen (e.g.npr. kdorkoli, kdor koli), “anybody,se anyravnajo body”)po followprvem thenačelu, sametj. principletvorijo andeno becomeali eitherdve onepojavnici or– twoodvisno tokensod depending on the use of space.presledka.
● DuringV tokenization,procesu alltokenizacije charactersso arevse dividedpojavnice intoprepoznane twokot categories:alfanumerične wordsali (W)pa andkot characters (C).znaki.
● CZnaki tokensso aredoločeni recognizeds onpomočjo thevnaprej basisdoločenega ofseznama, ana predefinedkaterem listso ofločila, punctuation- and symbol-like characters includedsimboli in the tokenizerpodobno (dependingodvisno onod theoznačevalnega annotationsistema, system,recimo e.g.UD Universal Dependencies orali JOS/MULTEXT-East). andTa consistseznam ofje singlevključen charactersv only.tokenizator, Sequencessestavljen ofpa twoje orle moreiz charactersposameznih znakov. Zaporedja dveh ali več znakov (e.g.npr. ?!) arese treatedobravnavajo askot sequenceszaporedja ofločenih separate C tokens.znakov.
● IfČe aniz stringalfanumeričnih ofznakov alphanumericmed charactersdvema betweenpresledkoma twovsebuje spacesznak, includesse Cobičajno characters,razdeli itna isveč usually split into several tokenspojavnic (e.g.npr. AC/DC andin Micro$oft aresta splitrazdeljena intona threetri tokenspojavnice: 'AC' '/' 'DC' andter 'Micro' '$' 'oft').
● However,Vendar theveljajo followingnaslednje exceptions,izjeme, inpri whichkaterih Cznak characterspostane becomedel partsalfanumerične of W tokens, apply:pojavnice:
some blue text■ Apostropheapostrof becomespostane partdel ofalfanumerične apojavnice, Wče tokenje ifzapisan usedobojestransko without space on both sidesstično (e.g.npr. O’O'Brian "O’Brian", mor’va "we have to").
some blue text■ Comma and colon become part of a W token if used without space on both sides and if the string contains only digits (e.g. 30:00, 200,000,000mor'va).
some blue text■ Hyphenvejica becomesin partdvopičje ofpostaneta adel Walfanumerične tokenpojavnice, ifče usedsta withoutzapisana spaceobojestransko onstično bothin sidespojavnico andsome if:blue textuuuuuusestavljajo same števke (npr. 30:00, 200,000,000)
some blue text■ pomišljaj postane del alfanumerične pojavnice, če je je zapisan obojestransko stično in če:
some blue texttextte⬥ theje leftlevi partdel is an acronymkratica (inzapisana capitalz letters)velikimi črkami), aena singlesama letterčrka orali a digitštevka
some blue texttextte⬥ theje rightdesni partdel ispripona anali affixpregibna orkončnica; ankončni inflectionalseznam ending;možnih a finite list of possible affixes and endings is integratedpripon in thekončnic tokenizer,je e.g.vključen v tokenizator some blue textuuuuuu(npr. OZN-ovski "similarpodoben toZdruženim United Nations"narodom", a-ju "to the letterčrki a", 15-i "the 15th"petnajsti"))
some blue text■ Dotpika becomespostane partdel ofalfanumerične apojavnice, Wče token if it is:je:
some blue texttextte⬥ usedzapisana withoutobojestransko spacestično onin bothniz sidesvsebuje andsamo theštevilke string contains only digits, e.g.(npr. 1.2)
some blue texttextte⬥ usedzapisana withoutlevo spacestično onin theje leftdel andkratice isali partvrstnega of an abbreviation or ordinal numberštevila (e.g.npr. dr., 4., IV.); akončni finiteseznam listmožnih ofkratic possible abbreviations is integrated in the tokenizerje some blue textuuuuuu.vključen v tokenizator.
some blue text■ AllVsi Cznaki characterspostanejo becomedel partene ofsame aalfanumerične singlepojavnice Wv tokennizih, inki stringsso recognizeds aspomočjo URLsregularnega izraza prepoznani some blue textuutextukot orURL-ji addressesali using a regular expression.naslovi.
InformationInformacija ono whethertem, ada tokenpojavnici isne notsledi followed by a spacepresledek (e.g.npr. d.o.o. vs.proti d. o. o.), isje indicatednavedena withs SpaceAfter=No featurev instolpcu the MISC column.MISC.