Proceedings - Natural Language Server - IJS

More documents

Recommendations

Info

Poleg navedenih težav so se pojavljale še druge, na primer neoznačena menjava govorca, manjkajoči sklop podnapisov, časovno zamaknjene datoteke ali časovno raztegnjene datoteke ipd. 4.3. Postopek evalvacije Za evalvacijo poravnavanja je bil iz celotnega korpusa izločen testni nabor, in sicer za vsak jezikovni par 1.000 podnapisov in pripadajočih povedi. Material je bil izbran tako, da je odražal delež zastopanosti posameznih žanrov iz celotnega korpusa, in sicer: • za evalvacijo poravnavanja povedi smo uporabili 50 vzporednih slovensko-srbskih zaporednih podnapisov, razcepljenih po povedih, iz 10 različnih parov datotek, • za evalvacijo poravnavanja podnapisov smo uporabili 50 vzporednih slovensko-srbskih zaporednih podnapisov iz 10 različnih parov datotek. Ročno poravnavanje testnega nabora po povedih in po podnapisih je izvajalo 6 oseb. Navodilo je bilo, da se poravnajo samo tiste povedi in podnapisi, ki jih je mogoče smiselno poravnati; če določen podnapis ali poved v drugem jeziku ni imel para, je ostal neporavnan. Pri ročni poravnavi smo tvorili dva tipa datotek, ene so vsebovale slovenske in druge vzporedne srbske podnapise. Neporavnani podnapisi so bili izločeni. Če je bil istopomenski podnapis v slovenskem jeziku predstavljen v eni vrstici, v srbskem jeziku pa v dveh, smo podnapis v srbskem jeziku predstavili v eni vrstici ter dodali tri znake "~~~" med združenima vrsticama. Na ta način smo lahko uporabili skripte, ki smo jih uporabljali za postprocesiranje poravnav, ki smo jih dobili s pomočjo programa Hunalign. Tabela 6 prikazuje primer takšne ročne poravnave. Slovenski podnapis Izvorni Te pokličeva pozneje . Rada vaju imam ! Je to avtobus za žuranje ? Ročno poravnan Te pokličeva pozneje . Rada vaju imam ! Je to avtobus za žuranje ? Srbski podnapis Izvorni Zvaćemo te kasnije . Volim vas . Da li je ovo autobus za zabavu ? Ročno poravnan Zvaćemo te kasnije . ~~~ Volim vas . Da li je ovo autobus za zabavu ? Tabela 6: Primer ročne poravnave podnapisov Za boljši pregled nad poravnavami in lažjo evalvacijo smo ustvarili še tretjo datoteko, v kateri so bile oštevilčene vrstice podnapisov in usklajene glede na to, katere vrstice so dejanski vzporedni pari prevodov. Primer vsebine takšne datoteke je podan v tabeli 7. 171 Za slovenske podnapise Za srbske podnapise 1 2 Tabela 7: Označevanje začetkov vrstic vzporednih prevodov Številke v tabeli 7 pomenijo, da je vrstica 1 v datoteki s srbskim prevodom prevod vrstice 1 v datoteki s slovenskim prevodom, vrstica 2 v datoteki s srbskim prevodom nima prevoda v slovenskem delu korpusa, vrstica 3 v datoteki s srbskim prevodom pa je prevod vrstice 2 v datoteki s slovenskim prevodom. 4.4. Rezultati evalvacije Po opravljeni avtomatski poravnavi in ročno poravnanem testnem naboru smo ocenili avtomatsko poravnavo testnega nabora. Ocene smo dodelili po naslednjih formulah: • pravilnost = tp + tn / (tp + tn + fp + fn), • natančnost = tp / (tp + fp), • priklic = tp / (tp + fn), pri čemer predstavlja tp število pravilno poravnanih enot, tn število pravilno neporavnanih enot, fp število napačno poravnanih enot in fn število napačno neporavnanih enot. Po opravljenem poravnavanju smo izvedli še primerjavo uspešnosti različnih načinov poravnavanj. Rezultate evalvacije prikazuje tabela 8. Enota Poravnava Pravilnost Natančnost Priklic poved časovne kode 45 % 81 % 43 % poved besedilo 74 % 74 % 99 % podnapis časovne kode 47 % 74 % 49 % podnapis besedilo 51 % 54 % 78 % Tabela 8: Uspešnost poravnavanja korpusa SUMAT Rezultati evalvacije kažejo nizko uspešnost poravnavanja. Razlog je v gradivu. To smo potrdili z eksperimentom, v katerem smo z algoritmom poravnavanja na osnovi časovnih kod poravnavali korpus OpenSubtitle v.2. Poravnave povedi v tem korpusu so zapisane tudi kot dodatna informacija. Oboje smo primerjali z ročno narejenimi poravnavami. Rezultate prikazuje tabela 9. Poravnave, zapisane v korpusu, smo poimenovali OPUS (tj. ime projekta, v katerem je korpus nastal). Iz tabele 9 je razvidno, da daje naš algoritem poravnavanja na osnovi časovnih kod boljše rezultate kot algoritem, uporabljen pri gradnji korpusa OpenSub. S tem je bila potrjena pravilnost metod, implementiranih v našem algoritmu. Enota Poravnava Pravilnost Natančnost Priklic poved časovne kode 93 % 94 % 98 % poved OPUS 85 % 87 % 96 % podnapis časovne kode 73 % 81 % 85 % Tabela 9: Uspešnost poravnavanja korpusa OpenSubtitle v.2 V naslednjem koraku smo se odločali, kateri način poravnavanja ohraniti v ciljnem korpusu. Če primerjamo uspešnost obeh načinov poravnavanj na povedih, vidimo, da je le natančnost poravnavanja na osnovi časovnih kod 1 3
večja, priklic in pravilnost pa sta bistveno slabša. Odločili smo se, da v primeru korpusa poravnanih povedi ohranimo poravnave, ki jih je tvorilo poravnavanje na osnovi besedila. V primeru poravnavanja podnapisov razlika v pravilnosti obeh postopkov ni tako izrazita, natančnost pa kaže spet v prid poravnavanja na osnovi časovnih kod. V tem primeru smo se odločili, da korpus poravnanih podnapisov sestavimo iz poravnav, ki jih je tvorilo poravnavanje na osnovi časovnih kod. V tabeli 10 je podana velikost končnega korpusa SUMAT, ki obsega okrog 110.000 poravnanih enot. Primerjava z obsegom izvornega korpusa kaže veliko izgubo materiala (okrog 40 %). Razlog je verjetno v načinu priprave izvornega gradiva, ki smo ga opisali v drugem poglavju. Enota Poravnanih enot v korpusu poved 110.481 podnapis 112.293 Tabela 10: Vzporedni korpus SUMAT 5. Zaključek V članku smo opisali postopke, ki smo jih izvedli pri pripravi vzporednega korpusa SUMAT. Korpus bomo uporabili za učenje sistema za strojno prevajanje podnapisov. Korpus omogoča primerjavo uspešnosti sistemov za strojno prevajanje na osnovi podnapisov in povedi. Ker je korpus po obsegu precej skromen in ne dosega želenih lastnosti za optimalno učenje strojnega prevajanja, bo potrebno opiranje na druge obstoječe slovensko-srbske vzporedne korpuse, kot je na primer korpus OpenSubtitles. Korpus SUMAT bo v prihodnje tudi avtomatsko oblikoslovno označen, da bomo lahko preizkusili vpliv oblikoslovnih oznak na kvaliteto statističnega strojnega prevajanja. Korpus žal ne bo dostopen za javnost, ampak samo v okviru projektnega konzorcija, saj podjetja, ki so tekstodajalci, izredno zaščitniško skrbijo za svoja gradiva in ne dovolijo, da bi v kakršni koli obliki prišla v javnost. 6. Literatura Abdul-Rauf, S., Fishel, M., Lambert, P., Noubours, S., Sennrich, R. (2010). Evaluation of Sentence Alignment Systems. Available at: http://lium3.univlemans.fr/mtmarathon2010/ProjectFinalPresentation/Se ntenceAlignment/sentence_alignment.pdf. Braune, F., Fraseer, A. (2010). Improved unsupervised sentence alignment for symmetrical and asymmetrical parallel corpora. V: COLING 2010, Peking, Kitajska. European Commision (2010). Audiovisual Media Services Directive (AVMSD – 2010/13/EU). Official Journal of the European Union, 10 March 2010. Gale, W.A., Church, K. W. (1993). A program for aligning sentences in bilingual corpora. Comput. Linguist. 19(1): 75-102. Koehn, P. (2005). Europarl: A Parallel Corpus for Statistical Machine Translation, MT Summit. Koehn, P., H. Hoang, A. Birch, C. Callison-Burch, M. Federico, N. Bertoldi, B. Cowan, W. Shen, C. Moran, R. Zens, C. Dyer, O. Bojar, A. Constantin and E. Herbst. (2007). Moses: open source toolkit for statistical machine translation. In: ACL 2007: 172 proceedings of demo and poster sessions, Prague, Czech Republic, pp. 177–180. Kovačič., I. (1996). Subtitling strategies: a flexible hierarchy of priorities. In: Traduzione multimediale per il cinema, la televisione e la scena / Multimediale Übersetzung für Film, Fernsehen und Bühne / Multimedia translation for film, television and the stage: atti del convegno internazionale. Forlì, 26-28 October 1995 (pp. 297--305). Media Consulting Group (2007). Study on dubbing and subtitling needs and practices in the European audiovisual industry. On behalf of the Information Society and Media Directorate General and the Culture Directorate of the European Commission, November 2007. Moore, R. E. (2002). Fast and accurate sentence alignment of bilingual corpora. V: AMTA'02 proceedings, London, Velika Britanija (pp. 135—144). Rojc, M., Kačič, Z. (2007). Time and space-efficient architecture for a corpus-based text-to-speech synthesis system. Speech commun. 49(3): 230-249. Sennrich, R., Volk, M. (2010). MT-based sentence alignment for OCR-generated parallel texts. V: AMTA’10 proceedings, Denver, Kolorado. de Sousa, S., Aziz, W., Specia, L. (2011). Assesing the Post-Editing Effort for Automatic and Semi-Automatic Translations of DVD Subtitles. Proceesings of Recent Advances in Natural Language Processing Conference (RANLP-2011). Hissar, Bulgaria. Tiedemann, J. (2009). News from OPUS – A Collection of Multilingual Parallel Corpora with Tools and Interfaces. In: N. Nicolov, K. Bontcheva, G. Angelova,, R. Mitkov (eds.): Recent Advances in Natural Language Processing (vol. V) (pp. 237--248). Amsterdam, Philadelphia: John Benjamins. Varga, D., L. Németh, P. Halácsy, A. Kornai, V. Trón, V. Nagy (2005). Parallel corpora for medium density languages. In: Proceedings of the RANLP 2005 (pp. 590--596). Volk, M. (2008). The Automatic Translation of Film Subtitles: A Machine Translation Success Story? In: J. Nivre, M. Dahllof, B. Megyesy (eds.): Resourfceful language Technology: Festschrift in Honor of Anna Sagvall Hein (vol 7 of Studia Linguistica Upsaliensia, Uppsala, Sweden) (pp. 202—214).
Page 2 and 3:
Zbornik 15. mednarodne multikonfere
Page 4 and 5:
PREDGOVOR MULTIKONFERENCI INFORMACI
Page 6 and 7:
KONFERENČNI ODBORI CONFERENCE COMM
Page 8 and 9:
KAZALO / TABLE OF CONTENTS Jezikovn
Page 10:
Zbornik 15. mednarodne multikonfere
Page 13 and 14:
RECENZENTI • doc. dr. Simon Dobri
Page 15 and 16:
language similarity as a feature of
Page 17 and 18:
ually annotating 345 sentences and
Page 19 and 20:
Disambiguating vectors for bilingua
Page 21 and 22:
Language POS Source word Slovene se
Page 23 and 24:
4. Evaluation and discussion of the
Page 25 and 26:
, Iztok Kosem**, Berginc*** * Troj
Page 27 and 28:
vseh besed, se pravi, da bi ta
Page 29 and 30:
3. Spletni vmesnik za dostop do kor
Page 31 and 32:
SPOOK.Sem: semantično označevanje
Page 33 and 34:
uporabili samo za angleški del kor
Page 35 and 36:
Vsekakor pa nas je pri označevanju
Page 37 and 38:
Sistem vsebinskega priporočanja do
Page 39 and 40:
poljubno, avtor pa svetuje vrednost
Page 41 and 42:
Tabela 5: Filtriranje z dinamično
Page 43 and 44:
Luka *, * Artificial Intelligence
Page 45 and 46:
4. Technical approaches and algorit
Page 47 and 48:
Tehnologije govorjenega jezika v pa
Page 49 and 50:
zma. Možno jih je namre uporabiti
Page 51 and 52:
Kaja Dobrovoljc, 1 Simon Krek, 2 Ja
Page 53 and 54:
3.1.4. fazah: v prvi fazi s
Page 55 and 56:
(del, dol, vez, skup) in pri poveza
Page 57 and 58:
ˇSirjenje slovarja in dvoprehodni
Page 59 and 60:
Uporabili smo orodje s katerim smo
Page 61 and 62:
zbirka besedil, korpus, slovar Toma
Page 63 and 64:
-8"?> -c.org/ns/1.0" type="pb" xml:
Page 65 and 66:
6. Dostopnost virov dejanska možn
Page 67 and 68:
prinašajo 185 milijonov besed oz.
Page 69 and 70:
Ugotovimo lahko, da po številu pol
Page 71 and 72:
predlog, zadeva, podatek, podlaga,
Page 73 and 74:
Their main differences between them
Page 75 and 76:
The corpus was PoS-tagged and lemma
Page 77 and 78:
5. Conclusions In this paper we pre
Page 79 and 80:
2000) is an English computer tutor
Page 81 and 82:
Table 5: Classifier performance wit
Page 83 and 84:
forms of Croatian proper names, but
Page 85 and 86:
on the output of the first CRF. We
Page 87 and 88:
Table 4: CroNER performance dependi
Page 89 and 90:
Table 1: Description of the picture
Page 91 and 92:
syntactic movement out of the objec
Page 93 and 94:
and other agreement markers are use
Page 95 and 96:
Figure 2. A FST representing a simp
Page 97 and 98:
encoded text representation as seen
Page 99 and 100:
Izhodišče segmentacijsko-tokeniza
Page 101 and 102:
3. Učni korpus ssj500k 4 Učni kor
Page 103 and 104:
azreševanje stavčne ali celo meds
Page 105:
težavnosti; pri oceni berljivosti
Page 110 and 111:
Kako dobro programi popravljajo vej
Page 112 and 113:
okviru projekta ESS Uspešno vklju
Page 114 and 115:
Besana opozarja na manjkajoče veji
Page 116 and 117:
Umetno tvorjenje slovenskega govora
Page 118 and 119:
Tabela 1: Analiza čistopisa zbirke
Page 120 and 121:
Distributional Semantics Approach t
Page 122 and 123:
3.2.1. Random indexing Random index
Page 124 and 125:
Table 2: Accuracy for all considere
Page 126 and 127:
Avtomatsko luščenje leksikalnih p
Page 128 and 129:
3.1. Metodologija in zaporedje post
Page 130 and 131: začetku povedi in upoštevanje t.
Page 132 and 133: Izdelava XML-shem za slovarske proj
Page 134 and 135: standardi še niso bili vzpostavlje
Page 136 and 137: nepričakovan zapis ali napačen za
Page 138 and 139: Building Named Entity Recognition M
Page 140 and 141: corpus token transfer type transfer
Page 142 and 143: morphological information, for Slov
Page 144 and 145: Luščenje terminoloških kandidato
Page 146 and 147: 3.1. Enobesedni terminološki kandi
Page 148 and 149: Rezultati priklica so dobri. Od 109
Page 150 and 151: Event and Temporal Relation Extract
Page 152 and 153: Table 1: Event annotation summary E
Page 154 and 155: Table 3: Event extraction performan
Page 156 and 157: Korpusna analiza slovenskega delež
Page 158 and 159: Vrsta besedila Izbrana področja (i
Page 160 and 161: primerih (11) in (12), ne pa za del
Page 162 and 163: Identifying Fear Related Content in
Page 164 and 165: not present” by 23 annotators. Th
Page 166 and 167: A Web Service Implementation of Lin
Page 168 and 169: equired to install the specific sof
Page 170 and 171: In both figures the same workflow i
Page 172 and 173: Termania - prosto dostopni spletni
Page 174 and 175: informacije so poleg same vsebine g
Page 176 and 177: Izdelava slovensko-srbskega vzpored
Page 178 and 179: dovoljeno odstopanje do 1 sekunde.
Page 182 and 183: Topic ontology construction from En
Page 184 and 185: Fig. 2: English topic ontology afte
Page 186 and 187: 4. Topic ontologies constructed fro
Page 188 and 189: Translating news to CycL using the
Page 190 and 191: and the Cyc concept, which correspo
Page 192 and 193: without parsing. One type of such s
Page 194 and 195: Guessing the Correct Inflectional P
Page 196 and 197: noted that the distribution of LPPs
Page 198 and 199: Table 1: Feature selection analysis
Page 200 and 201: Razpoznavanje imenskih entitet v sl
Page 202 and 203: N − log Z(x (i) ) − i=1 K k=1
Page 204 and 205: F1 1.0 0.8 0.6 0.4 0.2 0.0 0.63 0.4
Page 206 and 207: sloWCrowd: orodje za popravljanje w
Page 208 and 209: 2.2. Uporabniški vmesnik Osnovna f
Page 210 and 211: uporabnikov z večanjem stopnje zan
Page 212 and 213: Korpus slovenskega znakovnega jezik
Page 214 and 215: Posnetki se v anonimizirani obliki
Page 216 and 217: ZEN: zasnova glasovnih e-storitev v
Page 218 and 219: Rešitev je bila izvedena na podlag
Page 220 and 221: predpisane aktivnosti v poteku zdra
Page 222 and 223: Indeks avtorjev / Author index Agi
show all

Proceedings - Natural Language Server - IJS

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?