# 08 Imenske entitete

# Predstavitev oznak

V tem poglavju so navedene in strnjeno predstavljene oznake za imenske entitete (angl. *named entities*; NE). Podrobnejšo predstavitev najdete v smernicah v poglavju Označevalne smernice.

<table id="bkmrk-kategorija-podkatego"><thead><tr><th>**Kategorija**</th><th>**Podkategorija**</th><th>**Primeri**</th><th>**Ne spada v to kategorijo**</th></tr></thead><tbody><tr><td>**PER** <span style="color:white">some white text</span></td><td>Oseba (ime in/ali priimek)</td><td>Janez Novak, da Vinci, Ludvik XIV.</td><td>dr., gospa, sv.</td></tr><tr><td></td><td>Ime domače živali</td><td>Fifi</td><td></td></tr><tr><td></td><td>Umetniško ime, psevdonim</td><td>Madonna, mati Terez(ij)a, Banksy</td><td></td></tr><tr><td></td><td>Imena fiktivnih oseb (iz filmov, knjig ipd.)</td><td>Ana Karenina, Rdeča kapica</td><td></td></tr><tr><td></td><td>Vzdevki</td><td>(Boštjan Gorenc -) Pižama, Zvezdica89</td><td></td></tr><tr><td></td><td>Poimenovane skupine ljudi (družina ali lokalno omejena skupnost)</td><td>Angleži, Nemec, Ljubljančan; Novakovi</td><td></td></tr><tr><td></td><td>Omembe oz. sklici na Twitterju</td><td>@pizama, @Nike</td><td></td></tr><tr><td>**DERIV-PER** <span style="color:white">some white text</span></td><td>Svojilni pridevnik iz osebnega imena</td><td>Novakov (pes)</td><td>Alzheimerjeva (bolezen)</td></tr><tr><td>**ORG**</td><td>Organizacije</td><td>EU, Nato, Rimskokatoliška cerkev</td><td>parlament, vlada</td></tr><tr><td></td><td>Podjetja</td><td>Microsoft, Pasadena d.o.o.</td><td></td></tr><tr><td></td><td>Upravljalci letališč</td><td>Aerodrom Ljubljana</td><td>Letališče Jožeta Pučnika</td></tr><tr><td></td><td>Izobraževalne ustanove</td><td>Filozofska fakulteta</td><td></td></tr><tr><td></td><td>Instituti</td><td> Institut “Jožef Stefan”</td><td></td></tr><tr><td></td><td>Muzeji, knjižnice</td><td> Prirodoslovni muzej</td><td></td></tr><tr><td></td><td>Gledališča, kinematografi ipd.</td><td> MGL, Kinodvor</td><td></td></tr><tr><td></td><td>Mediji (TV, radio, časopisi)</td><td> Dnevnik, Delo, Radio Center</td><td></td></tr><tr><td></td><td>Restavracije, hoteli, lokali</td><td> Kavarna Zvezda, \[hH\]otel Lev</td><td></td></tr><tr><td></td><td>Zdravstvene ustanove</td><td> \[zZ\]dravstveni dom Ribnica</td><td></td></tr><tr><td></td><td>Glasbene skupine</td><td> U2, Beatli, \[aA\]nsambel Avsenik</td><td></td></tr><tr><td></td><td>Institucije</td><td> \[oO\]bčina Piran, NPK</td><td></td></tr><tr><td></td><td>Politične stranke in druga civilna združenja</td><td> DeSUS, Zveza potrošnikov Slovenije</td><td></td></tr><tr><td></td><td>Športni klubi, društva in združenja</td><td> (HDD SIJ) Acroni Jesenice, (FC) Barcelona</td><td></td></tr><tr><td></td><td>Kulturne organizacije (tudi amaterske)</td><td> \[mM\]ešani pevski zbor Divača</td><td></td></tr><tr><td>**LOC**</td><td>Nebesna telesa (planeti ipd.)</td><td> Mars, Andromeda, Halleyjev komet</td><td></td></tr><tr><td></td><td>Celine</td><td> Južna Amerika</td><td></td></tr><tr><td></td><td>Države, dežele (pretekle in sedanje)</td><td> Slovenija, Združene države (Amerike)</td><td>EU</td></tr><tr><td></td><td>Regije</td><td> Primorska, Valonija, Nova Anglija</td><td></td></tr><tr><td></td><td>Mesta in predeli mest, kraji in deli krajev</td><td> Ljubljana, Šiška, Vrhnika, Na klancu</td><td></td></tr><tr><td></td><td>Ulice, trgi</td><td> Jamova cesta 39</td><td> A2, gorenjska AC</td></tr><tr><td></td><td>Nakupovalna središča</td><td> Citypark, Supernova</td><td></td></tr><tr><td></td><td>Letališča</td><td> Letališče Jožeta Pučnika</td><td></td></tr><tr><td></td><td>Cerkve (kot poimenovane stavbe)</td><td> \[cC\]erkev sv. Nikolaja</td><td>Rimskokatoliška cerkev</td></tr><tr><td></td><td>Krajevne znamenitosti (kulturne, naravne)</td><td> Tromostovje, Triglavski narodni park</td><td></td></tr><tr><td></td><td>Druge poimenovane zgradbe (brez org. strukture)</td><td>\[kK\]ulturni dom Ljubno, WTC 2</td><td>Cankarjev dom (ima org. strukturo, npr. direktorja)</td></tr><tr><td></td><td>Gore, jezera, reke in druge poimenovane georgrafske entitete</td><td>Triglav, Blejsko jezero, Sava, Logarska dolina</td><td></td></tr><tr><td>**MISC**</td><td>Sistemi, programi, aplikacije</td><td>Windows 10, Word, Android 5.1 Lollipop</td><td> .docx, pdf, OCR</td></tr><tr><td></td><td>Naslovi knjig, filmov, nanizank, slik in drugih umetniških del; naslovi dokumentov ipd. (tudi imena zakonov), oddaje</td><td>Vojna in mir, Ko jagenjčki obmolknejo, Sopranovi, Guernica; Uradni list RS</td><td></td></tr><tr><td></td><td>Registrirana imena ali modeli naprav (avti, mobiteli, računalniki, igre ipd.) in drugi komercialni izdelki (znamke)</td><td>Galaxy Note 7, Nokia Lumia 950, Toyota RAV4, Minecraft, Človek ne jezi se</td><td></td></tr><tr><td></td><td>Imena prireditev in drugih dogodkov</td><td>Oskarji, Zlata lisica, 10. mednarodna konferenca Jezikovne tehnologije</td><td>shod nacifašistov</td></tr><tr><td></td><td>Imena projektov</td><td>Obzorje 2020</td><td></td></tr><tr><td></td><td>Borzni indeksi</td><td>SBI20, Dow Jones, Nasdaq</td><td> Bonitetne ocene (AAA)</td></tr></tbody></table>

# Označevalne smernice

V tem poglavju so zbrane označevalne smernice za imenske entitete.

**Različica 1.1  
projekt [Janes - Viri, orodja in metode za raziskovanje nestandardne spletne slovenščine](https://nl.ijs.si/janes/)**  
ZUPAN, Katja; LJUBEŠIĆ, Nikola in ERJAVEC, Tomaž, 2017: *Smernice Janes-NER za označevanje imenskih entitet v slovenskem jeziku*: Različica 1.1. [\[PDF\]](https://wiki.cjvt.si/attachments/30)

# Reference in povezave

V tem poglavju so zbrane relevantne reference in povezave na projekte, v katerih se je označevalni sistem razvijal ter uporabljal.

**Projekti, na katerih se je označevalni sistem razvijal oz. uporabljal** [MUC-6 Named Entity Task Definition](http://cs.nyu.edu/faculty/grishman/NEtask20.book_1.html)   
[CONLL 2003](http://www.cnts.ua.ac.be/conll2003/ner/annotation.txt)   
[BSNLP 2017 shared task](http://bsnlp-2017.cs.helsinki.fi/shared_task.html)  
[Janes - Viri, orodja in metode za raziskovanje nestandardne spletne slovenščine](https://nl.ijs.si/janes/)  
[Razvoj slovenščine v digitalnem okolju](https://rsdo.slovenscina.eu/)

**Reference**  
Marc Reznicek: *Linguistische Annotation von Nichtstandardvarietäten / Guidelines und „Best Practices" Guidelines NER* (version 1.5). [https://www.linguistik.huberlin.de/de/institut/professuren/korpuslinguistik/forschung/nosta-d/nosta-d-ner-1.5](https://www.linguistik.huberlin.de/de/institut/professuren/korpuslinguistik/forschung/nosta-d/nosta-d-ner-1.5)

LDC - Linguistic Data Consortium: ACE (Automatic Content Extraction) English Annotation Guidelines for Entities, Version 6.6 2008.06.13, [http://projects.ldc.upenn.edu/ace](http://projects.ldc.upenn.edu/ace) (Dostopano dne: 2. november 2020).