Proceedings - Natural Language Server - IJS

More documents

Recommendations

Info

3.1. Enobesedni terminološki kandidati Predstavili bomo le analizo vrhnjega dela seznama samostalniških terminoloških kandidatov, ki smo ga ocenjevali z dveh vidikov: (a) v primerjavi s pogostostnim seznamom samostalnikov iz KoRP in (b) glede na oceno terminološkosti, ki sta jo dala dva strokovnjaka s področja odnosov z javnostmi. a) Že ob primerjalnem ogledu zgolj prvih 20 izluščenih samostalnikov in prvih 20 samostalnikov po pogostosti (Tabela 3) opazimo nekaj razlik: pri luščenju so med prvimi dvajsetimi poimenovanja management, deležnik, model in novinar (v Tabeli 3 krepki tisk), ki jih na pogostostnem seznamu med prvimi dvajsetimi ni; nasprotno pa so na pogostostnem seznamu samostalnikov višje, tj. do dvajsetega mesta, uvrščeni človek, skupnost in stran (ležeči tisk). Terminološko luščenje: prvih 20 samostalnikov Pogostost: prvih 20 samostalnikov javnost javnost odnos odnos organizacija organizacija komuniciranje podjetje podjetje komuniciranje medij medij znamka znamka informacija leto leto informacija cilj cilj okolje primer management skupina področje okolje primer program skupina področje program človek deležnik (zaposleni)* vloga vloga model skupnost novinar stran Tabela 3: Vrhnji del seznama izluščenih samostalnikov in samostalnikov po pogostosti v KoRP. * Pri luščenju med prvimi dvajsetimi, vendar pri pridevnikih. Pregled razlik, ki so se pokazale do stotega mesta tabele, pokaže, da so pri uporabljenem luščenju višje uvrščeni (torej med prvimi stotimi) dejavnik, izvajanje, javnost, komunikator, manager, menedžment, tveganje, uspešnost, vedenje in zaupanje; medtem ko so pri pogostostnem seznamu višje uvrščene besede kot, mesto, načrt, Publica, služba, str., svet in vlada. Tudi če pogledamo spremembe mest terminoloških kandidatov znotraj stotega mesta, so premiki zanimivi: management, ki je pri terminološkem luščenju na 12. mestu, je po pogostosti na 60. mestu, in tako npr. še deležnik − 17. (41.), oglaševanje − 29. (44.), manager − 31. (130.), marketing − 36. (59.), praktik − 40. (87.), načrtovanje − 53. (81.), komunikator − 65. (198.), uspešnost − 85. (111.), tveganje − 97. (122.). Nazadovali pa so pri luščenju samostalniki človek − 29. mesto, po pogostosti pa 17. mesto, stran − 33. (20.), sistem − 94. (64.), podatek − 96. (71.) ipd. b) Strokovnjaka odnosov z javnostmi sta za potrebe priprave terminološkega slovarja pregledala celotni pogostostni seznam samostalnikov, ki je obsegal skoraj 137 12.500 enot. 1 Če kot načeloma potrjene s pogostostnega seznama vzamemo le tiste, ki so s strani obeh strokovnjakov dobili kljukico (druge oznake so bile še: nekaj manjka, prečrtano, vprašaj), ugotovimo, da jih je med prvimi dvestotimi takih 117. Če na enak način pogledamo tudi seznam terminološko izluščenih samostalniških kandidatov, je rezultat nekoliko boljši: med prvimi dvestotimi izluščenimi je dvojno kljukico dobilo 125 kandidatov. Če preverimo npr. še mesta od 700 do 800 na obeh seznamih, zopet ugotovimo rahlo prednost terminološko izluščenega seznama, in sicer v razmerju 42 : 38. Pri mestih od 1.000 do 1.100 pa je uporabljeno luščenje glede na odločitve obeh strokovnjakov v še večji prednosti: 41 : 28. Povzamemo lahko, da med vrhnjim delom seznama samostalnikov, ki se kot terminološki kandidati kažejo po luščenju, in vrhnjim delom pogostostnega seznama samostalnikov ni zelo velikih razlik, a so te z vidika ocene terminološkosti vedno v prid terminološko izluščenim seznamom, kar pomeni, da je pri naboru enobesednih terminov za geslovnik bolj smiselno izhajati iz slednjih. Mesto na seznamu pri terminološkem luščenju Terminološki kandidat 1. odnos z javnost 4. korporativen identiteta 5. odnos z medij 6. komunikacijski menedžment 10. uglednosten kapital 11. lokalen skupnost 13. ciljen javnost 15. krizen management 17. deležniški skupina 22. posloven komunikator 25. komunikacijski aktivnost 27. odnos z zaposleni 31. komunikacijski kompetenca 32. komunikacijski program 33. komunikacijski management Tabela 4: Prvih 15 izluščenih večbesednih terminoloških kandidatov (luščenje iz leta 2007), potrjenih s strani dveh strokovnjakov odnosov z javnostmi. 3.2. Večbesedni terminološki kandidati Uspešnost samodejne ekstrakcije večbesednih terminoloških kandidatov smo s pomočjo dveh strokovnjakov s področja odnosov z javnostmi ocenili že pri prvem luščenju, ki smo ga izvedli leta 2007 in v katerega smo zajeli osem samostalniških oblikoskladenjskih vzorcev (prvih osem v Tabeli 1). Za ponazoritev podajamo vrhnji del takratnega seznama, ki prikazuje terminološke kandidate, za katere sta oba strokovnjaka potrdila, da gre za termine odnosov z javnostmi (Tabela 4). Skupno oceno uspešnosti takratnega luščenja lahko strnemo v ugotovitev, da pri prvih 1.000 1 Tovrstno ocenjevanje terminološkosti zgolj po seznamu, brez vpogleda v sobesedilo, brez posvetovanja s še drugimi področnimi strokovnjaki, pa tudi brez zelo jasnega predstave o končnem slovarju odpira več vprašanj ter ima omejitve in pomanjkljivosti − pri projektu smo ga izvedli tudi zato, da nanje opozorimo in premislimo alternativne rešitve.
enotah na seznamu "v drugi polovici /.../ sicer narašča delež kolokacij, vendar je na tem seznamu veliko terminov" (Logar, Vintar, 2008: 13). 2 V nadaljevanju izmed vseh 39 na novo luščenih oblikoskladenjskih vzorcev povzemamo le oceno terminološke zanimivosti vzorcev z glagolom, tj. zvez glagola s prislovom, glagolskih predložnih zvez in zvez glagola s podrednim veznikom kot (zadnjih devet vzorcev v Tabeli 1; o enobesednih glagolskih terminih, tudi izluščenih, gl. več v Logar, Vintar, 2008: 8−9, 11). Analiza je pokazala, da le dva od devetih vzorcev dasta nekaj enot, ki bi jih kot celoto lahko vključili kot samostojno geslo v terminološki slovar odnosov z javnostmi, in da je ob teh dveh vzorcih le še eden, ki ima tovrsten potencial − gre za: R G in G R ter G D S. Natančnejši pregled vseh treh je najprej zajel odstranitev primerov z biti, morati, želeti in jesti pri G D S (kar je s seznama odstranilo 20 % nerelevantnih primerov) ter pri R G/G R še moči, hoteti, smeti, imeti, začeti, postati, dobiti, iti; lahko, tako, treba, mogoče, bolj, vedno, sam, potrebno, rad, nekaj, najbolj, zato, sicer, pri G R pa še dodatno veliko, glede, čim in vse. Na ta način so se pri vzorcu R G podatki zmanjšali za polovico, pri G R pa za 68 %. Potencialnih glagolskih večbesednih terminov je bilo, kot rečeno, le nekaj, in sicer po naši presoji vsi kot zveza glagola komunicirati in prislovov dvosmerno, strateško, simetrično, javno, individualno, osebno, rutinsko ter navzven. Vse ostalo pri teh treh vzorcih (pa tudi pri drugih, čeprav manj) je tako predvsem upoštevanja vreden prikaz kolokacijskega okolja glagolov in samostalnikov, ki so njihov del − če so ti glagoli in samostalniki terminološki, bodo seveda tudi njihovi besedni nizi ob ustrezni pogostosti kot kolokacije prišli v slovar, sicer pa ne, npr.: − komunicirati: komunicirati z/s [ljudmi, deležniki, javnostmi, mediji, novinarji, okoljem, organizacijo, potrošniki, predstavniki /.../, tržiščem, vlagatelji]; [dobro, učinkovito, nenehno, pravilno, premalo, prepričljivo, uspešno] komunicirati; − informacija: [seznaniti, razpolagati, početi, povezati] z informacijo; [iti] za informacijo; [temeljiti, nanašati se] na informacijo; [soditi] med informacije; [zaupati] glede informacije; [predelati] v informacijo; [priti] do informacije. Lahko torej povzamemo, da so v našem primeru z luščenjem glagolskih vzorcev nastali seznami, ki z vidika nabora samostojnih iztočnic niso pomembno dopolnilo terminografskega dela, z vidika vsebine slovarja (podatkov znotraj iztočnic) pa to vendarle lahko so − zlasti če predpostavljamo, da želimo v slovar vključiti tudi značilno besedilno okolje terminov. Pri slednjem si je sicer mogoče pomagati tudi z naprednimi korpusnimi orodji, ki tovrstne podatke prikazujejo samodejno, tak je npr. program Besedne skice/Sketch Engine (Krek, Kilgarriff, 2006). Uporabnost tega in sorodnih orodij za 2 Pri tem smo ločili med (a) večbesednim terminom kot stalno zvezo, poimenovanjem in (b) kolokacijo kot leksikalno in/ali pragmatično povezano ponovljivo sopojavitvijo vsaj dveh leksikalnih enot, ki sta med seboj v neposrednem skladenjskem razmerju (Bartsch, 2004, nav. po Heid, 2006: 980), a v ožjem pomenu, tj. kot prosto zvezo. Razmejitev je seveda groba (prim. Vintar, 2003: 74; Erjavec, Vintar, 2004: 104; Logar, Vintar, 2008: 12−14), jo pa ohranjamo tudi v tem prispevku. 138 pripravo terminoloških slovarjev bomo preizkusili v nadaljevanju projekta. Analiza je obenem izpostavila seznam glagolov in prislovov, ki bi jih bilo pri eventualnih prihodnjih luščenjih glagolskih zvez smiselno avtomatsko izločiti iz končnega seznama rezultatov in s tem podatke vnaprej selekcionirati; gre denimo za glagole biti, imeti, iti, dati, modalne glagole, deloma fazne glagole ipd. ter del prislovov, predvsem tistih, ki so v jeziku zelo pogosti, pomensko pa zelo splošni (tako, zelo, lahko, vedno itd.). 3.3. Priklic Kot je razvidno iz dosedanje razprave, se je natančnost luščenja pri posameznih vzorcih močno razlikovala, različne evalvacije iz preteklih eksperimentov pa kažejo, da se pri osnovnem naboru oblikoskladenjskih vzorcev natančnost luščenja za prvih 100 kandidatov giblje med 70 in 90 % (Vintar in Erjavec, 2008; Vintar, 2010). A medtem ko je merjenje natančnosti razmeroma enostavno, saj moramo zgolj pregledati vrh seznama predlaganih kandidatov in ugotoviti, koliko jih je pravih terminov, je ugotavljanje priklica bistveno težje. S priklicem pri jezikovnih tehnologijah merimo sposobnost sistema, da v množici podatkov prepozna zadovoljiv odstotek iskanih primerov. Z drugimi besedami: pri našem eksperimentu nas je zanimalo, koliko terminov, ki se v besedilu pojavijo, ostane neizluščenih. V ta namen smo izbrali znanstveni članek s področja odnosov z javnostmi in prosili dva področna strokovnjaka (ne ista strokovnjaka, kot sta pregledovala sezname), da v članku označita vse terminološko relevantne izraze. Iz obeh člankov smo nato izpisali označene termine in opazovali dvoje: a) v kolikšni meri se mnenji obeh strokovnjakov o terminološkosti ujemata (Tabela 5); b) v kolikšni meri se nabor "človeško" izbranih terminov ujema s samodejno izluščenim seznamom (Tabela 6). Prvi strokovnjak 184 Drugi strokovnjak 261 Presek 109 Unija 415 Ujemanje med strokovnjakoma (IAA) 0,26 Tabela 5: Ujemanje pri oceni terminološkosti med obema strokovnjakoma. Kot vidimo, sta strokovnjaka v istem besedilu označila zelo različno število terminov, saj je presek med njima le 109. Če njuna izbora združimo, dobimo unijo v velikosti 415 terminov, v nadaljevanju pa merimo priklic na obeh seznamih. Vsi izluščeni terminološki kandidati (63.179) Priklic na preseku Priklic na uniji 0,93 0,85 Prvih 10.000 0,84 0,72 Prvih 5.000 0,75 0,63 Tabela 6: Priklic izluščenih terminoloških kandidatov.
Page 2 and 3:
Zbornik 15. mednarodne multikonfere
Page 4 and 5:
PREDGOVOR MULTIKONFERENCI INFORMACI
Page 6 and 7:
KONFERENČNI ODBORI CONFERENCE COMM
Page 8 and 9:
KAZALO / TABLE OF CONTENTS Jezikovn
Page 10:
Zbornik 15. mednarodne multikonfere
Page 13 and 14:
RECENZENTI • doc. dr. Simon Dobri
Page 15 and 16:
language similarity as a feature of
Page 17 and 18:
ually annotating 345 sentences and
Page 19 and 20:
Disambiguating vectors for bilingua
Page 21 and 22:
Language POS Source word Slovene se
Page 23 and 24:
4. Evaluation and discussion of the
Page 25 and 26:
, Iztok Kosem**, Berginc*** * Troj
Page 27 and 28:
vseh besed, se pravi, da bi ta
Page 29 and 30:
3. Spletni vmesnik za dostop do kor
Page 31 and 32:
SPOOK.Sem: semantično označevanje
Page 33 and 34:
uporabili samo za angleški del kor
Page 35 and 36:
Vsekakor pa nas je pri označevanju
Page 37 and 38:
Sistem vsebinskega priporočanja do
Page 39 and 40:
poljubno, avtor pa svetuje vrednost
Page 41 and 42:
Tabela 5: Filtriranje z dinamično
Page 43 and 44:
Luka *, * Artificial Intelligence
Page 45 and 46:
4. Technical approaches and algorit
Page 47 and 48:
Tehnologije govorjenega jezika v pa
Page 49 and 50:
zma. Možno jih je namre uporabiti
Page 51 and 52:
Kaja Dobrovoljc, 1 Simon Krek, 2 Ja
Page 53 and 54:
3.1.4. fazah: v prvi fazi s
Page 55 and 56:
(del, dol, vez, skup) in pri poveza
Page 57 and 58:
ˇSirjenje slovarja in dvoprehodni
Page 59 and 60:
Uporabili smo orodje s katerim smo
Page 61 and 62:
zbirka besedil, korpus, slovar Toma
Page 63 and 64:
-8"?> -c.org/ns/1.0" type="pb" xml:
Page 65 and 66:
6. Dostopnost virov dejanska možn
Page 67 and 68:
prinašajo 185 milijonov besed oz.
Page 69 and 70:
Ugotovimo lahko, da po številu pol
Page 71 and 72:
predlog, zadeva, podatek, podlaga,
Page 73 and 74:
Their main differences between them
Page 75 and 76:
The corpus was PoS-tagged and lemma
Page 77 and 78:
5. Conclusions In this paper we pre
Page 79 and 80:
2000) is an English computer tutor
Page 81 and 82:
Table 5: Classifier performance wit
Page 83 and 84:
forms of Croatian proper names, but
Page 85 and 86:
on the output of the first CRF. We
Page 87 and 88:
Table 4: CroNER performance dependi
Page 89 and 90:
Table 1: Description of the picture
Page 91 and 92:
syntactic movement out of the objec
Page 93 and 94:
and other agreement markers are use
Page 95 and 96: Figure 2. A FST representing a simp
Page 97 and 98: encoded text representation as seen
Page 99 and 100: Izhodišče segmentacijsko-tokeniza
Page 101 and 102: 3. Učni korpus ssj500k 4 Učni kor
Page 103 and 104: azreševanje stavčne ali celo meds
Page 105: težavnosti; pri oceni berljivosti
Page 110 and 111: Kako dobro programi popravljajo vej
Page 112 and 113: okviru projekta ESS Uspešno vklju
Page 114 and 115: Besana opozarja na manjkajoče veji
Page 116 and 117: Umetno tvorjenje slovenskega govora
Page 118 and 119: Tabela 1: Analiza čistopisa zbirke
Page 120 and 121: Distributional Semantics Approach t
Page 122 and 123: 3.2.1. Random indexing Random index
Page 124 and 125: Table 2: Accuracy for all considere
Page 126 and 127: Avtomatsko luščenje leksikalnih p
Page 128 and 129: 3.1. Metodologija in zaporedje post
Page 130 and 131: začetku povedi in upoštevanje t.
Page 132 and 133: Izdelava XML-shem za slovarske proj
Page 134 and 135: standardi še niso bili vzpostavlje
Page 136 and 137: nepričakovan zapis ali napačen za
Page 138 and 139: Building Named Entity Recognition M
Page 140 and 141: corpus token transfer type transfer
Page 142 and 143: morphological information, for Slov
Page 144 and 145: Luščenje terminoloških kandidato
Page 148 and 149: Rezultati priklica so dobri. Od 109
Page 150 and 151: Event and Temporal Relation Extract
Page 152 and 153: Table 1: Event annotation summary E
Page 154 and 155: Table 3: Event extraction performan
Page 156 and 157: Korpusna analiza slovenskega delež
Page 158 and 159: Vrsta besedila Izbrana področja (i
Page 160 and 161: primerih (11) in (12), ne pa za del
Page 162 and 163: Identifying Fear Related Content in
Page 164 and 165: not present” by 23 annotators. Th
Page 166 and 167: A Web Service Implementation of Lin
Page 168 and 169: equired to install the specific sof
Page 170 and 171: In both figures the same workflow i
Page 172 and 173: Termania - prosto dostopni spletni
Page 174 and 175: informacije so poleg same vsebine g
Page 176 and 177: Izdelava slovensko-srbskega vzpored
Page 178 and 179: dovoljeno odstopanje do 1 sekunde.
Page 180 and 181: Poleg navedenih težav so se pojavl
Page 182 and 183: Topic ontology construction from En
Page 184 and 185: Fig. 2: English topic ontology afte
Page 186 and 187: 4. Topic ontologies constructed fro
Page 188 and 189: Translating news to CycL using the
Page 190 and 191: and the Cyc concept, which correspo
Page 192 and 193: without parsing. One type of such s
Page 194 and 195: Guessing the Correct Inflectional P
Page 196 and 197:
noted that the distribution of LPPs
Page 198 and 199:
Table 1: Feature selection analysis
Page 200 and 201:
Razpoznavanje imenskih entitet v sl
Page 202 and 203:
N − log Z(x (i) ) − i=1 K k=1
Page 204 and 205:
F1 1.0 0.8 0.6 0.4 0.2 0.0 0.63 0.4
Page 206 and 207:
sloWCrowd: orodje za popravljanje w
Page 208 and 209:
2.2. Uporabniški vmesnik Osnovna f
Page 210 and 211:
uporabnikov z večanjem stopnje zan
Page 212 and 213:
Korpus slovenskega znakovnega jezik
Page 214 and 215:
Posnetki se v anonimizirani obliki
Page 216 and 217:
ZEN: zasnova glasovnih e-storitev v
Page 218 and 219:
Rešitev je bila izvedena na podlag
Page 220 and 221:
predpisane aktivnosti v poteku zdra
Page 222 and 223:
Indeks avtorjev / Author index Agi
show all

Proceedings - Natural Language Server - IJS

Create successful ePaper yourself

Delete template?

Save as template?