Skip to main content

Označevalne smernice

V tem poglavju so predstavljene označevalne smernice za tokenizacijo.

  • Presledek je glavna ločnica med pojavnicami.
  • Besede, ki jih lahko pišemo skupaj ali narazen, ne da bi spremenile pomen (npr. kdorkoli, kdor koli), se ravnajo po prvem načelu, tj. tvorijo eno ali dve pojavnici – odvisno od presledka.
  • V procesu tokenizacije so vse pojavnice prepoznane kot besedne (alfanumerične) ali pa kot znaki.
  • Znaki so določeni s pomočjo vnaprej določenega seznama, na katerem so ločila, simboli in podobno (odvisno od označevalnega sistema, recimo UD ali JOS/MULTEXT-East). Ta seznam je vključen v tokenizator, sestavljen pa je le iz posameznih znakov. Zaporedja dveh ali več znakov (npr. ?!) se obravnavajo kot zaporedja ločenih znakov.