Predstavitev segmentacije
V tem poglavju je strnjeno predstavljen potek stavčne segmentacije.
Glavno vodilo za razmejevanje povedi je kombinacija končnega ločila, presledka in besede, zapisane z veliko začetnico. Temu se pridružujejo dodatna pravila, ki zajemajo okrajšave. Te se namreč zapisujejo s piko, ki je lahko hrati tudi končno ločilo (kadar okrajšava stoji na koncu povedi, npr. 'itd.') ali pa ne (kadar okrajšava stoji sredi povedi, recimo 'tj.'). Končen nabor okrajšav, ki spadajo v eno in v drugo kategorijo, je vključek v orodje Obeliks.
Za segmentacijo nestrandardnih besedil veljajo še dodatna pravila:
👳
Segmentacija govorjene slovenščine je zaenkrat izvedena ročno na podlagi prozodično oz. semantično zaključenih enot.