Označevalne smernice
V tem poglavju so predstavljene označevalne smernice oz. načela za tokenizacijo.
• Presledek je glavna ločnica med pojavnicami.
• Besede, ki jih lahko pišemo skupaj ali narazen, ne da bi spremenile pomen (npr. kdorkoli, kdor koli), se ravnajo po prvem načelu, tj. tvorijo eno ali dve pojavnici – odvisno od presledka.
• V procesu tokenizacije so vse pojavnice prepoznane kot alfanumerične ali pa kot znaki.
• Znaki so določeni s pomočjo vnaprej določenega seznama, na katerem so ločila, simboli in podobno (odvisno od označevalnega sistema, recimo UD ali JOS/MULTEXT-East). Ta seznam je vključen v tokenizator, sestavljen pa je le iz posameznih znakov. Zaporedja dveh ali več znakov (npr. ?!) se obravnavajo kot zaporedja ločenih znakov.
• Če niz alfanumeričnih znakov med dvema presledkoma vsebuje znak, se običajno razdeli na več pojavnic (npr. AC/DC in Micro$oft sta razdeljena na tri pojavnice: 'AC' '/' 'DC' ter 'Micro' '$' 'oft').
• Vendar veljajo naslednje izjeme, pri katerih znak postane del alfanumerične pojavnice:
■ apostrof postane del alfanumerične pojavnice, če je zapisan obojestransko stično (npr. O'Brian, mor'va).
some blue text■ vejica in dvopičje postaneta del alfanumerične pojavnice, če sta zapisana obojestransko stično in pojavnico some blue textuuuuuuuuusestavljajo same števke (npr. 30:00, 200,000,000)
some blue text■ pomišljaj postane del alfanumerične pojavnice, če je je zapisan obojestransko stično in če:
some blue texttextte⬥ je levi del kratica (zapisana z velikimi črkami), ena sama črka ali števka
some blue texttextte⬥ je desni del pripona ali pregibna končnica; končni seznam možnih pripon in končnic je vključen v tokenizator some blue textuuuuuuuuuu(npr. OZN-ovski "podoben Združenim narodom", a-ju "črki a", 15-i "petnajsti"))
some blue text■ pika postane del alfanumerične pojavnice, če je:
some blue texttextte⬥ zapisana obojestransko stično in niz vsebuje samo številke (npr. 1.2)
some blue texttextte⬥ zapisana levo stično in je del kratice ali vrstnega števila (npr. dr., 4., IV.); končni seznam možnih kratic je some blue textuuuuuuuuuuuuuuuvključen v tokenizator.
some blue text■ Vsi znaki postanejo del ene same alfanumerične pojavnice v nizih, ki so s pomočjo regularnega izraza prepoznani some blue textuuukot URL-ji ali naslovi.
Informacija o tem, da pojavnici ne sledi presledek (npr. d.o.o. proti d. o. o.), je navedena s SpaceAfter=No v stolpcu MISC.