Skip to main content

Annotation Guidelines

ThisV chaptertem summarizespoglavju theso annotationpredstavljene guidelinesoznačevalne forsmernice tokenization.oz. načela za tokenizacijo.

SpacePresledek isje theglavna principalločnica separatormed for tokens.pojavnicami.

SequencesBesede, ofki wordsjih thatlahko canpišemo beskupaj writtenali bothnarazen, withne orda withoutbi spacespremenile without changing its meaningpomen (e.g.npr. kdorkoli, kdor koli), “anybody,se anyravnajo body”)po followprvem thenačelu, sametj. principletvorijo andeno becomeali eitherdve onepojavnici or twoodvisno tokensod depending on the use of space.presledka.

DuringV tokenization,procesu alltokenizacije charactersso arevse dividedpojavnice intoprepoznane twokot categories:alfanumerične wordsali (W)pa andkot characters (C).znaki.

CZnaki tokensso aredoločeni recognizeds onpomočjo thevnaprej basisdoločenega ofseznama, ana predefinedkaterem listso ofločila, punctuation- and symbol-like characters includedsimboli in the tokenizerpodobno (dependingodvisno onod theoznačevalnega annotationsistema, system,recimo e.g.UD Universal Dependencies orali JOS/MULTEXT-East). andTa consistseznam ofje singlevključen charactersv only.tokenizator, Sequencessestavljen ofpa twoje orle moreiz charactersposameznih znakov. Zaporedja dveh ali več znakov (e.g.npr. ?!) arese treatedobravnavajo askot sequenceszaporedja ofločenih separate C tokens.znakov.

IfČe aniz stringalfanumeričnih ofznakov alphanumericmed charactersdvema betweenpresledkoma twovsebuje spacesznak, includesse Cobičajno characters,razdeli itna isveč usually split into several tokenspojavnic (e.g.npr. AC/DC andin Micro$oft aresta splitrazdeljena intona threetri tokenspojavnice: 'AC' '/' 'DC' andter 'Micro' '$' 'oft').

However,Vendar theveljajo followingnaslednje exceptions,izjeme, inpri whichkaterih Cznak characterspostane becomedel partsalfanumerične of W tokens, apply:pojavnice:

some blue textApostropheapostrof becomespostane partdel ofalfanumerične apojavnice, Wče tokenje ifzapisan usedobojestransko without space on both sidesstično (e.g.npr. O’O'Brian "O’Brian", mor’va "we have to").

some blue text■ Comma and colon become part of a W token if used without space on both sides and if the string contains only digits (e.g. 30:00, 200,000,000mor'va).

some blue textHyphenvejica becomesin partdvopičje ofpostaneta adel Walfanumerične tokenpojavnice, ifče usedsta withoutzapisana spaceobojestransko onstično bothin sidespojavnico andsome if:blue textuuuuuusestavljajo same števke (npr. 30:00, 200,000,000)

some blue text■ pomišljaj postane del alfanumerične pojavnice, če je je zapisan obojestransko stično in če:

some blue texttexttetheje leftlevi partdel is an acronymkratica (inzapisana capitalz letters)velikimi črkami), aena singlesama letterčrka orali a digitštevka

some blue texttexttetheje rightdesni partdel ispripona anali affixpregibna orkončnica; ankončni inflectionalseznam ending;možnih a finite list of possible affixes and endings is integratedpripon in thekončnic tokenizer,je e.g.vključen v tokenizator some blue textuuuuuu(npr. OZN-ovski "similarpodoben toZdruženim United Nations"narodom", a-ju "to the letterčrki a", 15-i "the 15th"petnajsti"))

some blue textDotpika becomespostane partdel ofalfanumerične apojavnice, Wče token if it is:je:

some blue texttextteusedzapisana withoutobojestransko spacestično onin bothniz sidesvsebuje andsamo theštevilke string contains only digits, e.g.(npr. 1.2)

some blue texttextteusedzapisana withoutlevo spacestično onin theje leftdel andkratice isali partvrstnega of an abbreviation or ordinal numberštevila (e.g.npr. dr., 4., IV.); akončni finiteseznam listmožnih ofkratic possible abbreviations is integrated in the tokenizerje some blue textuuuuuu.vključen v tokenizator.

some blue textAllVsi Cznaki characterspostanejo becomedel partene ofsame aalfanumerične singlepojavnice Wv tokennizih, inki stringsso recognizeds aspomočjo URLsregularnega izraza prepoznani some blue textuutextukot orURL-ji addressesali using a regular expression.naslovi.

InformationInformacija ono whethertem, ada tokenpojavnici isne notsledi followed by a spacepresledek (e.g.npr. d.o.o. vs.proti d. o. o.), isje indicatednavedena withs SpaceAfter=No featurev instolpcu the MISC column.MISC.