Označevalne smernice
V tem poglavju so predstavljene označevalne smernice za tokenizacijo.
- Presledek je glavna ločnica med pojavnicami.
- Zaporedja besed, ki jih lahko zapišemo tako s presledkom kot brez njega, ne da bi pri tem spremenili njihov pomen (npr. kdorkoli, kdor koli), se ravnajo po zgornjem načelu in glede na prisotnost presledka postanejo ena ali dve pojavnici.
- V procesu tokenizacije se vsi znaki razporedijo v dve kategoriji: besede (W) in znaki (C).