Skip to main content

Predstavitev segmentacije

V tem poglavju je strnjeno predstavljen potek stavčne segmentacije.

Glavno vodilo za razmejevanje povedi je kombinacija končnega ločila, presledka in besede, zapisane z veliko začetnico. Temu se pridružujejo dodatna pravila, ki zajemajo okrajšave. Te se namreč zapisujejo s piko, ki je lahko hrati tudi končno ločilo (kadar okrajšava stoji na koncu povedi, npr. 'itd.') ali pa ne (kadar okrajšava stoji sredi povedi, recimo 'tj.'). Končen nabor okrajšav, ki spadajo v eno in v drugo kategorijo, je vključek v orodje Obeliks.

Za segmentacijo nestrandardnih besedil veljajo še dodatna pravila:


Segmentacija govorjene slovenščine je zaenkrat izvedena ročno na podlagi prozodično oz. semantično zaključenih enot.