Označevalne smernice
V tem poglavju so predstavljenezbrane označevalne smernice za tokenizacijo.
Presledek je glavna ločnica med pojavnicami.Besede, ki jih lahko pišemo skupaj ali narazen, ne da bi spremenile pomen (npr.kdorkoli,kdor koli), se ravnajo po prvem načelu, tj. tvorijo eno ali dve pojavnici – odvisno od presledka.V procesu tokenizacije so vse pojavnice prepoznane kot besedne (alfanumerične) ali pa kot znaki.Znaki so določeni s pomočjo vnaprej določenega seznama, na katerem so ločila, simboli in podobno (odvisno od označevalnega sistema, recimo UD ali JOS/MULTEXT-East). Ta seznam je vključen v tokenizator, sestavljen pa je le iz posameznih znakov. Zaporedja dveh ali več znakov (npr.?!) se obravnavajo kot zaporedja ločenih znakov.