Proceedings - Natural Language Server - IJS

More documents

Recommendations

Info

2.2. Uporabniški vmesnik Osnovna funkcionalnost orodja sloWCrowd je potrjevanje in zavračanje literalov. Po prijavi uporabnika se prikaže glavno okno, kjer uporabnik rešuje naloge. Na Sliki 1 je prikazan primer take naloge. Na vrhu zaslona so navodila za reševanje naloge, v konkretnem projektu preverjanje ustreznosti avtomatsko prevedenega slovenskega izraza za izbran koncept. Nato so za lažje odločanje navedene še dodatne informacije, kot na primer angleške sopomenke in angleška defiinicija za isti koncept. Na dnu zaslona so trije gumbi, med katerimi izbira uporabnik, in sicer DA, NE in NE VEM, s katerim vprašanje preskoči. Slika 1. Potrjevanje in zavračanje literalov V vsakem sklopu se uporabniku prikaže 10 naključno izbranih vprašanj. Delež rešenih vprašanj v posameznem sklopu je prikazan na dnu zaslona. Orodje uporabniku ponudi določen delež novih in že rešenih nalog, s katerimi se ugotavlja zanesljivost uporabnika. Glede na pravilnost uporabnikovih odgovorov se uporabniku prikaže večji ali manjši delež nalog iz referenčne datoteke. Lestvica je progresivna, saj se z višanjem deleža pravilnih odgovorov iz referenčne množice viša delež novih, še neoznačenih vprašanj. Poleg ugotavljanja zanesljivosti uporabnikov glede na referenčne naloge orodje beleži tudi stopnjo ujemanja z drugimi uporabniki. Za motivacijo uporabnikov pri reševanju nalog se njihovi odgovori točkujejo, najboljših pet uporabnikov pa je nato prikazanih na lestvici najboljših ocenjevalcev. Uporabnik točke dobi za vsak pravilen odgovor glede na referenčno datoteko in odgovore ostalih uporabnikov v bazi. 2.3. Administratorski vmesnik V orodje je vključen tudi administratorski vmesnik, ki je namenjen skrbnikom orodja. V njem lahko urejajo aktivne projekte in definirajo nove. Skrbnik doda nov projekt tako, da vnese ime, opis projekta, v sistem naloži referenčno datoteko odgovorov, datoteko še nerešenih odgovorov in izbere eno od besedilnih datotek, v kateri je definirana celotna tekstovna vsebina projekta. V primeru, da skrbnik želi definirati projekt v drugem jeziku ali vzpostaviti projekt z drugimi funkcionalnostmi, le izbere ustrezno besedilno datoteko. Ob potrditvi se v bazi avtomatsko kreirajo tabele, ki jih projekt potrebuje in uporabniki lahko začnejo z reševanjem nalog projekta. Preostale funkcionalnosti so skupne vsem definiranim projektom in služijo pregledu poteka reševanja. 199 Prva funkcionalnost vmesnika je pregled vseh registriranih uporabnikov, razvrščenih po številu točk, ki so jih dosegli, njihova zanesljivost, na zahtevo pa tudi prikaz posameznih odgovorov. Uporabnike, ki ne dosežejo zadovoljive zanesljivosti, je mogoče onemogočiti z izklopom kljukice v polju Aktiven, s čimer se njegovi odgovori pri prikazu ne upoštevajo. Primer seznama uporabnikov je prikazan na Sliki 2. Slika 2. Pregled vseh uporabnikov (imena uporabnikov so prekrita zaradi varovanja osebnih podatkov) Naslednja funkcionalnost je prikaz seznama vseh rešenih nalog, število odgovorov na posamezno nalogo ter število potrditev in zavrnitev s strani uporabnikov. Na Sliki 3 je prikazan del odgovorov uporabnikov, ki smo jih zbrali med validacijo avtomatsko generiranih prevodov v sloWNetu. Literali, ki imajo v stolpcu GS (gold standard) zeleno kljukico, so iz datoteke z referenčnimi odgovori. Iz števila potrditev in zavrnitev lahko vidimo, da že z razmeroma majhnim številom zbranih odgovorov na posamezno vprašanje skupni rezultat hitro konvergira k pravilni rešitvi. Opazimo lahko namreč, da so v večini primerov uporabniki izbrali enak odgovor. Naj omenimo, da je v izvedenem eksperimentu množica referenčnih odgovorov precej večja od množice neoznačenih nalog, zato je število zbranih odgovorov za posamezni literal iz referenčne množice precej manjše od števila odgovorov na nove literale. Na Sliki 3 tako lahko vidimo, da so iz referenčne datoteke samo trije primeri: en odgovor za literal »simbol«, dva odgovora za literal »slovo« in eden za literal »soba«. Slika 3. Seznam odgovorov
Orodje omogoča tudi enostavno filtriranje odgovorov, saj lahko skrbnik izbere, ali naj se literali iz referenčne datoteke prikažejo med rezultati ali ne. Pri izbiri posameznega literala se prikaže seznam, ki vsebuje vse odgovore uporabnikov, ki so se odločali o tem literalu. Za vsakega uporabnika se prikaže datum odgovora, ali je literal iz referenčne datoteke in pravilna rešitev. Vsakemu reševalcu je pripisana tudi njegova zanesljivost (glej Slika 4). Poleg tega lahko skrbnik izbira med prikazom uporabnikov, ki so literal zavrnili in uporabnikov, ki so literal potrdili. Slika 4. Seznam odgovorov. Zadnja funkcionalnost je izvoz vseh odgovorov v besedilno datoteko (Slika 5). Uporabnik lahko izbira, kateri podatki bodo vključeni v izvoz: samo potrditve ali zavrnitve literalov, ali naj bodo vključeni tudi odgovori na literale iz referenčne datoteke in odgovori uporabnikov, ki zaradi nezanesljivosti ne bodo upoštevani. Slika 5. Izvoz podatkov Izvoženi podatki so grupirani po literalih, kar pomeni, da so odgovori vseh uporabnikov za isti literal izpisani skupaj. Izvoženim podatkom je poleg vseh informacij o literalu dodano še uporabniško ime ocenjevalca, datum odgovora in njegova odločitev. 3. Preizkus orodja sloWCrowd 3.1. Opis eksperimenta Razvito orodje smo preizkusili v manjšem eksperimentu, v katerem smo 10 uporabnikov, večinoma študentov in diplomantov prevajalstva ter tujih jezikov, prosili, da se prijavijo v orodje in rešijo 5 sklopov nalog, od katerih vsak vsebuje po 10 vprašanj. Za reševanje smo jim dali 10 dni časa. Pri tem smo jim dali naslednja navodila za reševanje: »Naloge rešuješ tako, da prebereš slovensko besedo, angleško definicijo in angleške sopomenke ter se odločiš, ali je slovenska beseda ustrezen prevod za to angleško definicijo in sopomenke. Če se s tem strinjaš, klikneš na gumb DA, če se ne strinjaš, klikneš NE, če pa besede ne razumeš ali nisi prepričan, ali je pravilna ali ne, pa klikneš NE VEM.« 200 Vprašanja so bila sestavljena iz 100 samostalniških literalov, ki so na podlagi prejšnje raziskave (Sagot in Fišer 2012) najbolj vprašljivi in najverjetneje napačni. Enak delež vprašanj, ki so se uporabnikom naključno prikazala, pa je bil iz referenčne datoteke, ki je vsebovala vnaprej rešene naloge in nam služi za izračun stopnje zanesljivosti posameznih uporabnikov. 3.2. Predstavitev in analiza rezultatov Pregled in analizo rezultatov začnemo s predstavitvijo sodelujočih pri eksperimentu. V Tabeli 1 so prikazani uporabniki, ki so sodelovali pri eksperimentu. Drugi stolpec v tabeli vsebuje število vseh literalov, o katerih so se uporabniki odločali. Od teh je v tretjem stolpcu prikazano število neoznačenih in v četrtem število označenih literalov. V četrtem stolpcu je prikazana zanesljivost uporabnikov, izračunana na podlagi odgovorov za literale iz referenčne datoteke, v zadnjem stolpcu pa je prikazana točnost odgovorov uporabnika za še neoznačene literale. Slednja je izračunana na podlagi odgovorov vseh uporabnikov (ang. inter-annotator agreement), pri čemer privzamemo, da je večinsko mnenje pravilno, odstopanja od njega pa nepravilna (čeprav bi v teoriji lahko tudi večina prispevala napačne odgovore, tovrstnih težav pri tej nalogi ne pričakujemo v omembe vrednem številu primerov). Iz primerjave stolpcev Zanesljivost in Točnost lahko ugotovimo, da so vrednosti obeh podobne in relativno visoke. Upor. Lit. Neozn. Ozn. Zanesljivost Točnost U1 122 77 45 80,0 % 90,1 % U2 110 94 16 82,3 % 91,5 % U3 90 79 11 83,3 % 89,9 % U4 78 56 22 78,3 % 87,5 % U5 48 38 10 81,8 % 97,4 % U6 49 35 14 92,8 % 88,6 % U7 48 36 12 91,7 % 86,1 % U8 48 36 12 91,7 % 91,7 % U9 42 30 12 92,3 % 96,7 % U10 40 29 11 81,8 % 75,9 % Tabela 1. Pregled rezultatov, zbranih v eksperimentu Iz tabele lahko opazimo, da so štirje uporabniki rešili veliko več nalog, kot je bilo od njih zahtevano, ostali pa nekaj nalog manj od zahtevanih 50. Ti uporabniki so verjetno nekajkrat izbrali možnost »Ne vem«, teh odgovorov pa v sistemu zaenkrat ne beležimo. Analiza odgovorov kaže, da so uporabniki so na splošno dosegli visoko zanesljivost v primerjavi z referenčno datoteko. Devet uporabnikov je doseglo zanesljivost, večjo od 80 %, štirje uporabniki pa celo zanesljivost nad 90 %. Povprečna dosežena zanesljivost pa znaša 85,6 %, kar je za naloge s področja leksikalne semantike zelo visok rezultat. Opazimo lahko tudi, da so uporabniki dosegli visoko stopnjo medsebojnega ujemanja. Tudi v tem primeru je le en uporabnik dosegel točnost, manjšo od 80 %, medtem ko povprečna točnost znaša 89,5 %. Na splošno pa so uporabniki dosegli večjo stopnjo točnosti kot zanesljivosti, kar pomeni, da so se bolj strinjali med seboj kot z referenčno množico. Opazimo pa trend, da se pri večini
Page 2 and 3:
Zbornik 15. mednarodne multikonfere
Page 4 and 5:
PREDGOVOR MULTIKONFERENCI INFORMACI
Page 6 and 7:
KONFERENČNI ODBORI CONFERENCE COMM
Page 8 and 9:
KAZALO / TABLE OF CONTENTS Jezikovn
Page 10:
Zbornik 15. mednarodne multikonfere
Page 13 and 14:
RECENZENTI • doc. dr. Simon Dobri
Page 15 and 16:
language similarity as a feature of
Page 17 and 18:
ually annotating 345 sentences and
Page 19 and 20:
Disambiguating vectors for bilingua
Page 21 and 22:
Language POS Source word Slovene se
Page 23 and 24:
4. Evaluation and discussion of the
Page 25 and 26:
, Iztok Kosem**, Berginc*** * Troj
Page 27 and 28:
vseh besed, se pravi, da bi ta
Page 29 and 30:
3. Spletni vmesnik za dostop do kor
Page 31 and 32:
SPOOK.Sem: semantično označevanje
Page 33 and 34:
uporabili samo za angleški del kor
Page 35 and 36:
Vsekakor pa nas je pri označevanju
Page 37 and 38:
Sistem vsebinskega priporočanja do
Page 39 and 40:
poljubno, avtor pa svetuje vrednost
Page 41 and 42:
Tabela 5: Filtriranje z dinamično
Page 43 and 44:
Luka *, * Artificial Intelligence
Page 45 and 46:
4. Technical approaches and algorit
Page 47 and 48:
Tehnologije govorjenega jezika v pa
Page 49 and 50:
zma. Možno jih je namre uporabiti
Page 51 and 52:
Kaja Dobrovoljc, 1 Simon Krek, 2 Ja
Page 53 and 54:
3.1.4. fazah: v prvi fazi s
Page 55 and 56:
(del, dol, vez, skup) in pri poveza
Page 57 and 58:
ˇSirjenje slovarja in dvoprehodni
Page 59 and 60:
Uporabili smo orodje s katerim smo
Page 61 and 62:
zbirka besedil, korpus, slovar Toma
Page 63 and 64:
-8"?> -c.org/ns/1.0" type="pb" xml:
Page 65 and 66:
6. Dostopnost virov dejanska možn
Page 67 and 68:
prinašajo 185 milijonov besed oz.
Page 69 and 70:
Ugotovimo lahko, da po številu pol
Page 71 and 72:
predlog, zadeva, podatek, podlaga,
Page 73 and 74:
Their main differences between them
Page 75 and 76:
The corpus was PoS-tagged and lemma
Page 77 and 78:
5. Conclusions In this paper we pre
Page 79 and 80:
2000) is an English computer tutor
Page 81 and 82:
Table 5: Classifier performance wit
Page 83 and 84:
forms of Croatian proper names, but
Page 85 and 86:
on the output of the first CRF. We
Page 87 and 88:
Table 4: CroNER performance dependi
Page 89 and 90:
Table 1: Description of the picture
Page 91 and 92:
syntactic movement out of the objec
Page 93 and 94:
and other agreement markers are use
Page 95 and 96:
Figure 2. A FST representing a simp
Page 97 and 98:
encoded text representation as seen
Page 99 and 100:
Izhodišče segmentacijsko-tokeniza
Page 101 and 102:
3. Učni korpus ssj500k 4 Učni kor
Page 103 and 104:
azreševanje stavčne ali celo meds
Page 105:
težavnosti; pri oceni berljivosti
Page 110 and 111:
Kako dobro programi popravljajo vej
Page 112 and 113:
okviru projekta ESS Uspešno vklju
Page 114 and 115:
Besana opozarja na manjkajoče veji
Page 116 and 117:
Umetno tvorjenje slovenskega govora
Page 118 and 119:
Tabela 1: Analiza čistopisa zbirke
Page 120 and 121:
Distributional Semantics Approach t
Page 122 and 123:
3.2.1. Random indexing Random index
Page 124 and 125:
Table 2: Accuracy for all considere
Page 126 and 127:
Avtomatsko luščenje leksikalnih p
Page 128 and 129:
3.1. Metodologija in zaporedje post
Page 130 and 131:
začetku povedi in upoštevanje t.
Page 132 and 133:
Izdelava XML-shem za slovarske proj
Page 134 and 135:
standardi še niso bili vzpostavlje
Page 136 and 137:
nepričakovan zapis ali napačen za
Page 138 and 139:
Building Named Entity Recognition M
Page 140 and 141:
corpus token transfer type transfer
Page 142 and 143:
morphological information, for Slov
Page 144 and 145:
Luščenje terminoloških kandidato
Page 146 and 147:
3.1. Enobesedni terminološki kandi
Page 148 and 149:
Rezultati priklica so dobri. Od 109
Page 150 and 151:
Event and Temporal Relation Extract
Page 152 and 153:
Table 1: Event annotation summary E
Page 154 and 155:
Table 3: Event extraction performan
Page 156 and 157:
Korpusna analiza slovenskega delež
Page 158 and 159: Vrsta besedila Izbrana področja (i
Page 160 and 161: primerih (11) in (12), ne pa za del
Page 162 and 163: Identifying Fear Related Content in
Page 164 and 165: not present” by 23 annotators. Th
Page 166 and 167: A Web Service Implementation of Lin
Page 168 and 169: equired to install the specific sof
Page 170 and 171: In both figures the same workflow i
Page 172 and 173: Termania - prosto dostopni spletni
Page 174 and 175: informacije so poleg same vsebine g
Page 176 and 177: Izdelava slovensko-srbskega vzpored
Page 178 and 179: dovoljeno odstopanje do 1 sekunde.
Page 180 and 181: Poleg navedenih težav so se pojavl
Page 182 and 183: Topic ontology construction from En
Page 184 and 185: Fig. 2: English topic ontology afte
Page 186 and 187: 4. Topic ontologies constructed fro
Page 188 and 189: Translating news to CycL using the
Page 190 and 191: and the Cyc concept, which correspo
Page 192 and 193: without parsing. One type of such s
Page 194 and 195: Guessing the Correct Inflectional P
Page 196 and 197: noted that the distribution of LPPs
Page 198 and 199: Table 1: Feature selection analysis
Page 200 and 201: Razpoznavanje imenskih entitet v sl
Page 202 and 203: N − log Z(x (i) ) − i=1 K k=1
Page 204 and 205: F1 1.0 0.8 0.6 0.4 0.2 0.0 0.63 0.4
Page 206 and 207: sloWCrowd: orodje za popravljanje w
Page 210 and 211: uporabnikov z večanjem stopnje zan
Page 212 and 213: Korpus slovenskega znakovnega jezik
Page 214 and 215: Posnetki se v anonimizirani obliki
Page 216 and 217: ZEN: zasnova glasovnih e-storitev v
Page 218 and 219: Rešitev je bila izvedena na podlag
Page 220 and 221: predpisane aktivnosti v poteku zdra
Page 222 and 223: Indeks avtorjev / Author index Agi
show all

Proceedings - Natural Language Server - IJS

Create successful ePaper yourself

Delete template?

Save as template?