08 Imenske entitete
Imenske entitete (angl. named entities; NE) so samostalniki in samostalniške besedne zveze, ki identificirajo neko osebo, lokacijo, organizacijo ali drug edinstven objekt v realnem prostoru in času (poleg tega v širšem smislu tudi svojilne pridevnike, izpeljane iz osebnega lastnega imena, npr. DERIV-PER[Obamova] izvolitev). Na ortografski ravni so pogosto izražene z veliko začetnico (Slovenska tiskovna agencija) ali kratico (STA), vendar pa velika začetnica in kratica ne označujeta samo imenskih entitet (npr. BDP). Identifikacija imenskih entitet v besedilu je pomembna za luščenje informacij iz besedila, odkrivanje koreferenčnosti, analiziranje sentimenta, ekstrakcijo informacij, povezav in dogodkov ter drugih nalog, povezanih s procesiranjem naravnega jezika.
Predstavitev oznak
V tem poglavju so navedene in strnjeno predstavljene oznake za imenske entitete (angl. named entities; NE). Podrobnejšo predstavitev najdete v smernicah v poglavju Označevalne smernice.
| Kategorija | Podkategorija | Primeri | Ne spada v to kategorijo |
|---|---|---|---|
| PER some white text | Oseba (ime in/ali priimek) | Janez Novak, da Vinci, Ludvik XIV. | dr., gospa, sv. |
| Ime domače živali | Fifi | ||
| Umetniško ime, psevdonim | Madonna, mati Terez(ij)a, Banksy | ||
| Imena fiktivnih oseb (iz filmov, knjig ipd.) | Ana Karenina, Rdeča kapica | ||
| Vzdevki | (Boštjan Gorenc -) Pižama, Zvezdica89 | ||
| Poimenovane skupine ljudi (družina ali lokalno omejena skupnost) | Angleži, Nemec, Ljubljančan; Novakovi | ||
| Omembe oz. sklici na Twitterju | @pizama, @Nike | ||
| DERIV-PER some white text | Svojilni pridevnik iz osebnega imena | Novakov (pes) | Alzheimerjeva (bolezen) |
| ORG | Organizacije | EU, Nato, Rimskokatoliška cerkev | parlament, vlada |
| Podjetja | Microsoft, Pasadena d.o.o. | ||
| Upravljalci letališč | Aerodrom Ljubljana | Letališče Jožeta Pučnika | |
| Izobraževalne ustanove | Filozofska fakulteta | ||
| Instituti | Institut “Jožef Stefan” | ||
| Muzeji, knjižnice | Prirodoslovni muzej | ||
| Gledališča, kinematografi ipd. | MGL, Kinodvor | ||
| Mediji (TV, radio, časopisi) | Dnevnik, Delo, Radio Center | ||
| Restavracije, hoteli, lokali | Kavarna Zvezda, [hH]otel Lev | ||
| Zdravstvene ustanove | [zZ]dravstveni dom Ribnica | ||
| Glasbene skupine | U2, Beatli, [aA]nsambel Avsenik | ||
| Institucije | [oO]bčina Piran, NPK | ||
| Politične stranke in druga civilna združenja | DeSUS, Zveza potrošnikov Slovenije | ||
| Športni klubi, društva in združenja | (HDD SIJ) Acroni Jesenice, (FC) Barcelona | ||
| Kulturne organizacije (tudi amaterske) | [mM]ešani pevski zbor Divača | ||
| LOC | Nebesna telesa (planeti ipd.) | Mars, Andromeda, Halleyjev komet | |
| Celine | Južna Amerika | ||
| Države, dežele (pretekle in sedanje) | Slovenija, Združene države (Amerike) | EU | |
| Regije | Primorska, Valonija, Nova Anglija | ||
| Mesta in predeli mest, kraji in deli krajev | Ljubljana, Šiška, Vrhnika, Na klancu | ||
| Ulice, trgi | Jamova cesta 39 | A2, gorenjska AC | |
| Nakupovalna središča | Citypark, Supernova | ||
| Letališča | Letališče Jožeta Pučnika | ||
| Cerkve (kot poimenovane stavbe) | [cC]erkev sv. Nikolaja | Rimskokatoliška cerkev | |
| Krajevne znamenitosti (kulturne, naravne) | Tromostovje, Triglavski narodni park | ||
| Druge poimenovane zgradbe (brez org. strukture) | [kK]ulturni dom Ljubno, WTC 2 | Cankarjev dom (ima org. strukturo, npr. direktorja) | |
| Gore, jezera, reke in druge poimenovane georgrafske entitete | Triglav, Blejsko jezero, Sava, Logarska dolina | ||
| MISC | Sistemi, programi, aplikacije | Windows 10, Word, Android 5.1 Lollipop | .docx, pdf, OCR |
| Naslovi knjig, filmov, nanizank, slik in drugih umetniških del; naslovi dokumentov ipd. (tudi imena zakonov), oddaje | Vojna in mir, Ko jagenjčki obmolknejo, Sopranovi, Guernica; Uradni list RS | ||
| Registrirana imena ali modeli naprav (avti, mobiteli, računalniki, igre ipd.) in drugi komercialni izdelki (znamke) | Galaxy Note 7, Nokia Lumia 950, Toyota RAV4, Minecraft, Človek ne jezi se | ||
| Imena prireditev in drugih dogodkov | Oskarji, Zlata lisica, 10. mednarodna konferenca Jezikovne tehnologije | shod nacifašistov | |
| Imena projektov | Obzorje 2020 | ||
| Borzni indeksi | SBI20, Dow Jones, Nasdaq | Bonitetne ocene (AAA) |
Označevalne smernice
V tem poglavju so zbrane označevalne smernice za imenske entitete.
Različica 1.1
projekt Janes - Viri, orodja in metode za raziskovanje nestandardne spletne slovenščine
ZUPAN, Katja; LJUBEŠIĆ, Nikola in ERJAVEC, Tomaž, 2017: Smernice Janes-NER za označevanje imenskih entitet v slovenskem jeziku: Različica 1.1. [PDF]
Reference in povezave
V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal ter uporabljal.
Projekti, na katerih se je označevalni sistem razvijal oz. uporabljal
MUC-6 Named Entity Task Definition
CONLL 2003
BSNLP 2017 shared task
Janes - Viri, orodja in metode za raziskovanje nestandardne spletne slovenščine
Razvoj slovenščine v digitalnem okolju
Reference
Marc Reznicek: Linguistische Annotation von Nichtstandardvarietäten / Guidelines und
„Best Practices" Guidelines NER (version 1.5). https://www.linguistik.huberlin.de/de/institut/professuren/korpuslinguistik/forschung/nosta-d/nosta-d-ner-1.5
LDC - Linguistic Data Consortium: ACE (Automatic Content Extraction) English Annotation Guidelines for Entities, Version 6.6 2008.06.13, http://projects.ldc.upenn.edu/ace (Dostopano dne: 2. november 2020).