Skip to main content

Predstavitev normalizacije

V tem poglavju je strnjeno predstavljen potek normalizacije nestandardnih besed. Podrobnejšo predstavitev najdete v smernicah v poglavju Označevalne smernice.

Normalizacija tvitov, v tabeli razdeljenih na pojavnice, je potekala hkrati s tokenizacijo.
Šlo je za 5 vrst ročnih popravkov:

  • Beseda, ki ji je bilo treba zgolj pripisati normalizirano ustreznico, npr. 'tukó', ki je bil ročno normaliziran v tako'tako'.
  • Več besed, ki so bile nestandardno zapisane skupaj in jih je bilo treba razdružiti ter po potrebi še normalizirati, npr. nauta'nauta' v ne'ne' in bosta,'bosta', pri čemer je presledek med pojavnicama označen z navpičnico |; (gl. tabelo.Tabelo 1).
  • Beseda, ki je bila nestandardno zapisana v več pojavnicah in jo je bilabilo treba združiti v eno in združek po potrebi normalizirati, npr. o'o' ga'ga' bn'bn' v ogabno;'ogabno'; odvečne vrstice (gl. tabelo)Tabelo 1) so bile označene s sosledjesosledjem znakov $0.
  • Beseda, ki jo je tokenizator avtomatsko razdružil; npr. s'm (narečni zapis pomožnega glagola »sem«) v tri pojavnicepojavnice: s + ' + m. Tovrstne pojavnice so bile najprej ročno združene in po potrebi normalizirane. 
  • Beseda, ki jo je tokenizator avtomatsko združil, npr. 5km kot ena pojavnica, kar je bilo treba ročno razdružiti in po potrebi normalizirati.
Pojavnice tokenizacija normalizacija
zato
tukó tako
nauta ne l bosta
s s’m sem
$0 $0
m $0 $0
pršva prišla

Tabela 1: Normalizacija in tokenizacija tvita.