Skip to main content

Označevalne smernice

V tem poglavju so predstavljene označevalne smernice za tokenizacijo.

  • Presledek je glavna ločnica med pojavnicami.
  • Zaporedja besed,Besede, ki jih lahko zapišpišemo takoskupaj sali presledkom kot brez njega,narazen, ne da bi pri tem spremenili njihovspremenile pomen (npr. kdorkoli,kdorkoli, kdor koli)koli), se ravnajo po zgornjemprvem načeluelu, intj. gledetvorijo na prisotnost presledka postanejo enaeno ali dve pojavnici.pojavnici – odvisno od presledka.
  • V procesu tokenizacije seso vsivse znakipojavnice razporedijoprepoznane kot besedne (alfanumerične) ali pa kot znaki.
  • Znaki so določeni s pomočjo vnaprej določenega seznama, na katerem so ločila, simboli in podobno (odvisno od označevalnega sistema, recimo UD ali JOS/MULTEXT-East). Ta seznam je vključen v dvetokenizator, kategoriji:sestavljen besedepa je le iz posameznih znakov. Zaporedja dveh ali več znakov (W)npr. in?!) znakise (C).obravnavajo kot zaporedja ločenih znakov.