Proceedings - Natural Language Server - IJS

More documents

Recommendations

Info

NRB [%] 35 30 25 20 15 10 0 10 10 1 Stevilo hipotez Slika 2: Napake vN-najboljˇsih seznamih. 10 2 60k 2g 60k 3g 300k 2g 300k 3g dar ni opaznih razlik do podanih rezultatov uspeˇsnosti in faktorja realnega časa pri uporabi ˇstirigramskega modela. Iz rezultatov lahko predvidevamo, da dodatno viˇsanje reda običajnih jezikovih modelov ne bo prineslo dodatnih izboljˇsav. Tabela 3: Rezultati drugega prehoda. 1. prehod 2. prehod NRB [%] ∆NRB [%] RTF 60k 2g 60k 4g 31,01 -2,88 0,02 60k 3g 60k 4g 30,73 -0,01 0,02 300k 2g 300k 4g 25,85 -3,37 0,03 300k 3g 300k 4g 25,64 -0,01 0,03 V zadnjem stolpcu so podani ˇse faktorji realnega časa drugega prehoda. Ker v drugem prehodu delamo le z omejenim ˇstevilom hipotez in uporabljamo le jezikovne modele, so ti faktorji zelo majhni v primerjavi s faktorji prvega prehoda. Skupni faktor realnega časa za dvoprehodni algoritem dobimo tako, da faktorja obeh prehodov seˇstejemo. Čas, ki je potreben za pretvorbo besednih grafov v sezname N-najboljˇsih hipotez je v primerjavi s časom delovanja algoritma zanemarljiv. Za hitrost delovanja algoritma je torej pomemben predvsem prvi prehod. Vidimo, da smo z uporabo bigramskega modela v prvem prehodu in ˇstirigramskega v drugem prehodu dosegli uspeˇsnost razpoznavanja primerljivo (razlika 0,12% oz. 0,2%) z uspeˇsnostjo enoprehodnega algoritma s trigramskim modelom, ki pa zahteva trikrat več časa za razpoznavanje. 6. Zaključek V članku smo predstavili nekatere rezultata iz trenutnega razvoja razpoznavalnika UMB Broadcast News. Z uporabo razˇsirjenega slovarja smo uspeli zmanjˇsati napako razpoznavanja na 25,65%. Uporaba dvoprehodnega algoritma pa nam je omogočila doseganje primerljivih rezultatov s trikrat krajˇsim časom razpoznavanja. Predstavljeni rezultati nakazujejo, da z dodatnim večanjem slovarja in vpeljavo običajnih jezikovnih modelov viˇsjih redov, kot pa smo jih sedaj uporabljali, ni več 10 3 51 mogoče pričakovati bistvenih izboljˇsanj v uspeˇsnosti razpoznavalnika. Izboljˇsanja lahko pričakujemo s kombiniranjem predstavljenih pristopov in nekaterih drugih ˇze pripravljenih izboljˇsav razpoznavalnika, kot so interpolirani jezikovni in izboljˇsani akustični modeli. Predstavljen sistem dvoprehodnega algoritma pa nam omogoča začetek raziskovanja na zapletenejˇsih jezikovnih modelih, ki bi jih zgradili z uporabo morfosintaktičnih oznak iz korpusa FidaPLUS. 7. Literatura Arhar ˇS., Gorjanc, V. 2007. Korpus FidaPLUS: nova generacija slovenskega referenčnega korpusa. Jezik in slovstvo, 52(2):95–110. Aubert., X.L. 2002. An overview of decoding techniques for large vocabulary continuous speech recognition. Computer Speech and Language, 16(1):89–114. Biem A., Mcdermott A., Katagiri, S. 2005. A discriminative filter bank model for speech recognition. In ESCA Eurospeech 2005, Lizbona, Portugalska. HTK domača stran, http://htk.eng.cam.ac.uk Nouza, J., Zdansky, J., Cerva, P., Silovsky, J. 2010. Development of Multimodal Interfaces: Active Listening and Synchrony, pogl. Challenges in speech processing of slavic languages (case studies in speech recognition of czech and slovak) Springer Berlin / Heidelberg Rotovnik, T., Sepesy Maučec, M., Kačič Z. 2003. Large vocabulary continuous speech recognition of an inflected language using stems and endings. Speech Communication, 49(6):437–452. Stolcke, A. 2002. SRILM - an extensible language modeling toolkit. In International Conference on Speech and Language Processing, Denver, Colorado. Zablotskiy, S., Zablotskaya K., Minker W. 2010. Some approaches for russian speech recognition. In Sixth Internation Conference on Intelligent Environments, Kuala Lumpur, Malezija. ˇZgank, A., Sepesy Maučec, M. 2006. Osnovna zgradba razpoznavalnika slovenskega tekočega govora UMB Broadcast News. Jezikovne tehnologije 2006, Ljubljana, Slovenija ˇZgank, A., Kos, M., Kotnik, B., Sepesy Maučec, M., Rotovnik, T., Kačič, Z. 2008. Nadgradnja sistema za razpoznavanje slovenskega tekočega govora UMB Broadcast News Jezikovne tehnologije 2008, Ljubljana, Slovenija ˇZgank, A., Verdonik, D., Kačič, Z. 2008. Slovenska baza BNSI Broadcas News za razpoznavanje tekočega govora. Elektrotehniˇski vestnik, 75(3):85–90. ˇZgank, A., Sepesy Maučec, M. 2010. Razpoznavalnik tekočega govora UMB Broadcast News 2010: nadgradnja akustičnih in jezikovnih modelov. Jezikovne tehnologije 2010, Ljubljana, Slovenija
zbirka besedil, korpus, slovar Tomaž Erjavec Odsek za tehnologije znanja, Institut »Jožef Stefan« Jamova cesta 39, Ljubljana tomaz.erjavec@ijs.si Povzetek V prispevku e, z redigirano transkripcijo besedila in faksimili, korpus sestavlja besedilo strani, njena lema in leksikalna oblikoskladenjska oznaka, slovar pa zapisani skladno s smernicami za zapis besedil TEI (Text Encoding Initiative Guidelines) in dostopni na spletu za pregledovanje in preiskovanje, kot tudi za prenos pod licenco Creative Commons – priznanje avtorstva. Ti viri po eni strani predstavljajo podatkovno infrastrukturo za razvoj jezikovnih tehnologij za , koslovne raziskave in približajo starejša besedila in leksiko sodobnemu bralcu. Viri IMP so dostopni na http://nl.ijs.si/imp/. Language resources for historical Slovene The paper presents three language resources for historical Slovene: the text collection or digital library, a linguistically annotated reference corpus and a dictionary or lexicon. The text collections contains mostly books with hand corrected transcriptions and facsimile, the corpus comprises sampled pages from this text collections, where each word token has been manually annotated with its contemporary equivalent, its lemma and part-of-speech tag, while the lexicon was automatically extracted from the (extended) annotated corpus. The three resources are encoded according to the Text Encoding Initiative Guidelines and are available on the web for browsing and searching, as well as for download under the Creative Commons – Attribution licence. The resources, on the one hand, constitute a data infrastructure for the development of language technologies for historical Slovene, and, on the other, enable corpus based diachronic studies of Slovene and bring old texts and vocabulary closed to today's readers. The IMP language resources are available from http://nl.ijs.si/imp/. 1. Uvod V prispevku predstavimo tri medsebojno povezane digitalne vire starejšega slovenskega jezika, ki predstavljajo , imajo pa tudi namen razširiti ponudbo spletnih diahrone jezikoslovne študije. na jezikovnotehnološke vidike uporabe, imajo viri naslednji namen: zbirka besedil za izboljšanje avtomatskega prepoznavanja besedil iz slik (OCR); zbirka služi tudi kot osnovna podatkovna množica, ki jo lahko korpusa in leksikona; jezikoslovno šolanje oblikoskladenjskih oz jezik in razvoj programov za avtomatsko posodabljanje starih besedil jih naredijo bolj razumljiva sodobnemu bralcu; slovar posodabljanje in lematizacijo besed in je uporaben za podporo programom za iskanje po celotnem besedilu digitalnih knjižnic. S formalno validacijo in upoštevanjem standardov poskrbimo, da so jezikovni da je njihova struktura dobro dokumentirana. Viri IMP so skladno zapisani in medsebojno povezani, upoštevajo dvoje specifikacij: 52 shema XML IMP definira strukturo XML posameznih, sicer strukturno zelo raznovrstnih virov; oblikoskladenjske specifikacije IMP definirajo nabor oblikoskladenjskih oznak, ki se uporabljajo v korpusu oz. slovarju. Izdelava predstavljenih virov je bil razmeroma dolgotrajen in drag proces, zato je smiselno poskrbeti, da so ne samo dostopni neposredno na spletu skozi izvedene oblike (HTML), obenem pa tudi za prenos, pod licenco Creative Commons – Priznanje avtorstva. 2. Glede na možnost prenosa celotnih virov je format, v katerem so zapisani, pomemben tudi za druge uporabnike. Viri IMP so zapisani v skladu s smernicami za zapis besedil TEI »Text Encoding Initiative Guidelines«, (TEI, 2007). Smernice temeljijo na standardu XML (Extensible Markup Language) in so namenjene za zapis besedil v kompleksnejših izdaj v digitalnih knjižnicah kot tudi za Smernice TEI definirajo in dokumentirajo nabor oznak (elemente in atribute XML) za zapis strukturnih in konceptualnih lastnosti besedil. Smernice so izražene kot modularna in razširljiva shema XML, ki ji je pridružena podrobna dokumentacija, dostopne pa so pod odprtokodno licenco. Prva je iz leta 1994, zadnja izdaja smernic, ki se sicer sproti dopolnjuje in popravlja, pa je TEI P5 iz leta 2007 in je usklajena z ustreznimi smernicami W3C in ISO, ki jih s tem upoštevajo tudi naše izdaje.
Page 2 and 3:
Zbornik 15. mednarodne multikonfere
Page 4 and 5:
PREDGOVOR MULTIKONFERENCI INFORMACI
Page 6 and 7:
KONFERENČNI ODBORI CONFERENCE COMM
Page 8 and 9:
KAZALO / TABLE OF CONTENTS Jezikovn
Page 10: Zbornik 15. mednarodne multikonfere
Page 13 and 14: RECENZENTI • doc. dr. Simon Dobri
Page 15 and 16: language similarity as a feature of
Page 17 and 18: ually annotating 345 sentences and
Page 19 and 20: Disambiguating vectors for bilingua
Page 21 and 22: Language POS Source word Slovene se
Page 23 and 24: 4. Evaluation and discussion of the
Page 25 and 26: , Iztok Kosem**, Berginc*** * Troj
Page 27 and 28: vseh besed, se pravi, da bi ta
Page 29 and 30: 3. Spletni vmesnik za dostop do kor
Page 31 and 32: SPOOK.Sem: semantično označevanje
Page 33 and 34: uporabili samo za angleški del kor
Page 35 and 36: Vsekakor pa nas je pri označevanju
Page 37 and 38: Sistem vsebinskega priporočanja do
Page 39 and 40: poljubno, avtor pa svetuje vrednost
Page 41 and 42: Tabela 5: Filtriranje z dinamično
Page 43 and 44: Luka *, * Artificial Intelligence
Page 45 and 46: 4. Technical approaches and algorit
Page 47 and 48: Tehnologije govorjenega jezika v pa
Page 49 and 50: zma. Možno jih je namre uporabiti
Page 51 and 52: Kaja Dobrovoljc, 1 Simon Krek, 2 Ja
Page 53 and 54: 3.1.4. fazah: v prvi fazi s
Page 55 and 56: (del, dol, vez, skup) in pri poveza
Page 57 and 58: ˇSirjenje slovarja in dvoprehodni
Page 59: Uporabili smo orodje s katerim smo
Page 63 and 64: -8"?> -c.org/ns/1.0" type="pb" xml:
Page 65 and 66: 6. Dostopnost virov dejanska možn
Page 67 and 68: prinašajo 185 milijonov besed oz.
Page 69 and 70: Ugotovimo lahko, da po številu pol
Page 71 and 72: predlog, zadeva, podatek, podlaga,
Page 73 and 74: Their main differences between them
Page 75 and 76: The corpus was PoS-tagged and lemma
Page 77 and 78: 5. Conclusions In this paper we pre
Page 79 and 80: 2000) is an English computer tutor
Page 81 and 82: Table 5: Classifier performance wit
Page 83 and 84: forms of Croatian proper names, but
Page 85 and 86: on the output of the first CRF. We
Page 87 and 88: Table 4: CroNER performance dependi
Page 89 and 90: Table 1: Description of the picture
Page 91 and 92: syntactic movement out of the objec
Page 93 and 94: and other agreement markers are use
Page 95 and 96: Figure 2. A FST representing a simp
Page 97 and 98: encoded text representation as seen
Page 99 and 100: Izhodišče segmentacijsko-tokeniza
Page 101 and 102: 3. Učni korpus ssj500k 4 Učni kor
Page 103 and 104: azreševanje stavčne ali celo meds
Page 105: težavnosti; pri oceni berljivosti
Page 110 and 111:
Kako dobro programi popravljajo vej
Page 112 and 113:
okviru projekta ESS Uspešno vklju
Page 114 and 115:
Besana opozarja na manjkajoče veji
Page 116 and 117:
Umetno tvorjenje slovenskega govora
Page 118 and 119:
Tabela 1: Analiza čistopisa zbirke
Page 120 and 121:
Distributional Semantics Approach t
Page 122 and 123:
3.2.1. Random indexing Random index
Page 124 and 125:
Table 2: Accuracy for all considere
Page 126 and 127:
Avtomatsko luščenje leksikalnih p
Page 128 and 129:
3.1. Metodologija in zaporedje post
Page 130 and 131:
začetku povedi in upoštevanje t.
Page 132 and 133:
Izdelava XML-shem za slovarske proj
Page 134 and 135:
standardi še niso bili vzpostavlje
Page 136 and 137:
nepričakovan zapis ali napačen za
Page 138 and 139:
Building Named Entity Recognition M
Page 140 and 141:
corpus token transfer type transfer
Page 142 and 143:
morphological information, for Slov
Page 144 and 145:
Luščenje terminoloških kandidato
Page 146 and 147:
3.1. Enobesedni terminološki kandi
Page 148 and 149:
Rezultati priklica so dobri. Od 109
Page 150 and 151:
Event and Temporal Relation Extract
Page 152 and 153:
Table 1: Event annotation summary E
Page 154 and 155:
Table 3: Event extraction performan
Page 156 and 157:
Korpusna analiza slovenskega delež
Page 158 and 159:
Vrsta besedila Izbrana področja (i
Page 160 and 161:
primerih (11) in (12), ne pa za del
Page 162 and 163:
Identifying Fear Related Content in
Page 164 and 165:
not present” by 23 annotators. Th
Page 166 and 167:
A Web Service Implementation of Lin
Page 168 and 169:
equired to install the specific sof
Page 170 and 171:
In both figures the same workflow i
Page 172 and 173:
Termania - prosto dostopni spletni
Page 174 and 175:
informacije so poleg same vsebine g
Page 176 and 177:
Izdelava slovensko-srbskega vzpored
Page 178 and 179:
dovoljeno odstopanje do 1 sekunde.
Page 180 and 181:
Poleg navedenih težav so se pojavl
Page 182 and 183:
Topic ontology construction from En
Page 184 and 185:
Fig. 2: English topic ontology afte
Page 186 and 187:
4. Topic ontologies constructed fro
Page 188 and 189:
Translating news to CycL using the
Page 190 and 191:
and the Cyc concept, which correspo
Page 192 and 193:
without parsing. One type of such s
Page 194 and 195:
Guessing the Correct Inflectional P
Page 196 and 197:
noted that the distribution of LPPs
Page 198 and 199:
Table 1: Feature selection analysis
Page 200 and 201:
Razpoznavanje imenskih entitet v sl
Page 202 and 203:
N − log Z(x (i) ) − i=1 K k=1
Page 204 and 205:
F1 1.0 0.8 0.6 0.4 0.2 0.0 0.63 0.4
Page 206 and 207:
sloWCrowd: orodje za popravljanje w
Page 208 and 209:
2.2. Uporabniški vmesnik Osnovna f
Page 210 and 211:
uporabnikov z večanjem stopnje zan
Page 212 and 213:
Korpus slovenskega znakovnega jezik
Page 214 and 215:
Posnetki se v anonimizirani obliki
Page 216 and 217:
ZEN: zasnova glasovnih e-storitev v
Page 218 and 219:
Rešitev je bila izvedena na podlag
Page 220 and 221:
predpisane aktivnosti v poteku zdra
Page 222 and 223:
Indeks avtorjev / Author index Agi
show all

Proceedings - Natural Language Server - IJS

Create successful ePaper yourself

Delete template?

Save as template?