Predstavitev normalizacije
V tem poglavju je strnjeno predstavljen potek normalizacije nestandardnih besed. Podrobnejšo predstavitev najdete v smernicah v poglavju Označevalne smernice.
Normalizacija tvitov, v tabeli razdeljenih na pojavnice, je potekala hkrati s tokenizacijo.
Šlo je za 5 vrst ročnih popravkov:
- Beseda, ki ji je bilo treba zgolj pripisati normalizirano ustreznico, npr. 'tukó', ki je bil ročno normaliziran v
tako'tako'.
- Več besed, ki so bile nestandardno zapisane skupaj in jih je bilo treba razdružiti ter po potrebi še normalizirati, npr.
nauta'nauta' vne'ne' inbosta,'bosta', pri čemer je presledek med pojavnicama označen z navpičnico |;(gl.tabelo.Tabelo 1).
- Beseda, ki je bila nestandardno zapisana v več pojavnicah in jo je
bilabilo treba združiti v eno in združek po potrebi normalizirati, npr.o'o'ga'ga'bn'bn' vogabno;'ogabno'; odvečne vrstice (gl.tabelo)Tabelo 1) so bile označene ssosledjesosledjem znakov $0.
- Beseda, ki jo je tokenizator avtomatsko razdružil; npr. s'm (narečni zapis pomožnega glagola »sem«) v tri
pojavnicepojavnice: s + ' + m. Tovrstne pojavnice so bile najprej ročno združene in po potrebi normalizirane.
- Beseda, ki jo je tokenizator avtomatsko združil, npr. 5km kot ena pojavnica, kar je bilo treba ročno razdružiti in po potrebi normalizirati.
Pojavnice | tokenizacija | normalizacija |
---|---|---|
zato | ||
tukó | tako | |
nauta | ne l bosta | |
s | s’m | sem |
‘ | $0 | $0 |
m | $0 | $0 |
pršva | prišla |
Tabela 1: Normalizacija in tokenizacija tvita.