Označevalne smernice
V tem poglavju so predstavljene označevalne smernice za tokenizacijo.
- Presledek je glavna ločnica med pojavnicami.
Zaporedja besed,Besede, ki jih lahkozapišpišemotakoskupajsalipresledkom kot brez njega,narazen, ne da bipri tem spremenili njihovspremenile pomen (npr.kdorkoli,kdorkoli, kdorkoli)koli), se ravnajo pozgornjemprvem načeluelu,intj.gledetvorijona prisotnost presledka postanejo enaeno ali dvepojavnici.pojavnici – odvisno od presledka.- V procesu tokenizacije
sesovsivseznakipojavnicerazporedijoprepoznane kot besedne (alfanumerične) ali pa kot znaki. - Znaki so določeni s pomočjo vnaprej določenega seznama, na katerem so ločila, simboli in podobno (odvisno od označevalnega sistema, recimo UD ali JOS/MULTEXT-East). Ta seznam je vključen v
dvetokenizator,kategoriji:sestavljenbesedepa je le iz posameznih znakov. Zaporedja dveh ali več znakov (W)npr.in?!)znakise(C).obravnavajo kot zaporedja ločenih znakov.