Označevalne smernice
V tem poglavju so predstavljene označevalne smernice za tokenizacijo.
- Presledek je glavna ločnica med pojavnicami.
- Besede, ki jih lahko pišemo skupaj ali narazen, ne da bi spremenile pomen (npr. kdorkoli, kdor koli), se ravnajo po prvem načelu, tj. tvorijo eno ali dve pojavnici – odvisno od presledka.
- V procesu tokenizacije so vse pojavnice prepoznane kot besedne (alfanumerične) ali pa kot znaki.
- Znaki so določeni s pomočjo vnaprej določenega seznama, na katerem so ločila, simboli in podobno (odvisno od označevalnega sistema, recimo UD ali JOS/MULTEXT-East). Ta seznam je vključen v tokenizator, sestavljen pa je le iz posameznih znakov. Zaporedja dveh ali več znakov (npr. ?!) se obravnavajo kot zaporedja ločenih znakov.