Proceedings - Natural Language Server - IJS

More documents

Recommendations

Info

3.4. Razpoznavanje psihofizinega stanja govorcev Tehnologija razpoznavanja psihofizinega stanja govorcev je v osnovi precej podobna tehnologiji razpoznavanja govorcev (uporaba UBM-MAP modela itd), pri emer se govorne posnetke razvrša namesto v razrede govorcev v nekaj razredov obravnavanih psihofizinih stanj (Gajšek et al., 2012). Za razloljiva psihofizina stanja govorcev, ki bi jih naj bilo mogoe razpoznati na podlagi akustine analize govornega signala, se navadno obravnava nekaj izbranih emocionalnih stanj (strah, jeza, preseneenje, ipd) ter psihofizina stanja, ki so posledica alkoholiziranosti ali vpliva mamil. Precej spodbude razvoju na tem podroju so dala tekmovanja, ki so organizirana v okviru serije najvejih mednarodnih konferenc na podroju tehnologij govorjenega jezika Interspeech (Schuller et al., 2009). Tovrstne sisteme bi se dalo neposredno uporabiti za razpoznavanje agresivnega obnašanja ali prestrašenosti posameznikov, ki so prisotni v varovanem prostoru. 4. Pravna in etina vprašanja Predstavljene tehnologije in njihova uporaba v razlinih varnostno-nadzornih scenarijih odpirajo precej pravnih in etinih vprašanj, še posebej v Evropi, kjer se daje precej poudarka lovekovim pravicam do varovanja osebnih podatkov in pravici do zasebnosti. Veljavna zakonodaja v Evropi je precej nedoreena glede vprašanja varovanja teh pravic pri samodejni obdelavi in izmenjavi varnostnonadzornih podatkov (Cannataci, 2010). Veljavna zakonodaja tako praktino onemogoa uporabo pametnih avdionadzornih sistemov za varnostni nadzor javnih prostorov in to kljub temu, da bi ti sistemi lahko v precej primerih reševali življenja. Obstaja namre upravien strah, da bi tovrstni sistemi omogoili varnostno-obveševalnim službam neupravieno prisluškovanje pogovorom ljudi v nadziranih prostorih. To skrb je potrebno upoštevati, zato bi se moralo v obravnavane tehnologije vgraditi sistemske varovalke, ki bi onemogoile zlorabo v druge namene, kot je bilo prvotno zamišljeno (denimo, onemogoanje nepotrebnega shranjevanja zajetih govornih posnetkov ipd). Sodelavci našega laboratorija sodelujemo pri evropskih projektih, ki naslavljajo ta vprašanja in katerih cilj je podpora modernizaciji in izboljšanju uinkovitosti sredstev in delovanja organov kazenskega pregona ter izmenjavi informacij na tem podroju za izmenjavo dobrih praks ter pripravo smernic in modelnih zakonov, ki bi vsebovali primerne zašitne ukrepe za državljane pri implementaciji pametnih nadzornih tehnologij. Pridobljeno znanje v okviru teh projektov v laboratoriju upoštevamo tudi pri svojem razvojno-raziskovalnem delu, ki ga izvajamo na tem podroju. 5. Sklep V lanku je obravnavana problematika uporabe tehnologih govorjenega jezika v pametnih nadzornih sistemih. To podroje ponuja precej priložnosti za bolj intenzivno razvojno in raziskovalno delo tudi pri nas, saj so te tehnologije v veliki meri odvisne od govorjenega jezika in ni priakovati, da bodo tuji razvijalci v kratkem razvili tovrstne sisteme, ki bodo uspešno delovali tudi za sloven- 41 sko govorno podroje. V laboratoriju imamo dolgoletne izkušnje z razvojem vseh omenjenih tehnologij za slovenski govorjeni jezik, vkljuno z razvojem emocionalnega sintetizatorja govora. V prihodnosti se imamo zato namen bolj posvetiti razvoju teh tehnologij tudi za uporabo v izbranih primernih varnostno-nadzornih scenarijev. 6. Zahvala Delo, predstavljeno v tem prispevku, je bilo deloma podprto s financiranjem iz Sedmega okvirnega programa Evropske unije (FP7-SEC-2010-1) na podlagi sporazuma o financiranju številka 261727. Raziskovalno delo drugega avtorja je delno financirala Evropska unija iz Evropskega sklada za regionalni razvoj v okviru Operativnega programa krepitve regionalnih razvojnih potencialov za obdobje 2007-2013 po pogodbi št. 3211- 10-000468 KC OpComm. 7. Literatura Clavel, C., Vasilescu, I., Devillers, L., Ehrette, T. in Richard, G., 2006, The SAFE Corpus: fear-type emotions detection for surveillance applications. In Proc. LREC’06, Genoa, Italy, pp. 1099–1104. Cannataci, J. A., 2010, Squaring the circle of smart surveillance and privacy, Fourth Inter. Conf. on Digital Society, DOI 10.1109/ICDS.2010.55, pp. 323-328. Dehak, N., Kenny, P., Dehak, R. in Dumouchel, P., 2011, »Front-End Factor Analysis for Speaker Verification«. IEEE Trans. Audio, Speech, Lang. Process., zv. 19, št. 4, pp. 788-798. Gajšek, R., Miheli, F., Dobrišek, S., 2012, "Speaker state recognition using an HMM-based feature extraction method", Computer Speech & <strong>Language</strong>, DOI 10.1016/j.csl.2012.01.007. Jelinek, F., 1998. Statistical Methods for Speech Recognition. MIT Press, Cambridge, MA, USA. Kenny, P., Boulianne, G., Ouellet, P. in Dumouchel, P., 2007, »Speaker and Session Variability in GMM-Based Speaker Verification«. IEEE Trans. on Audio, Speech, and <strong>Language</strong> Processing, 15 (4), pp. 1448–1460. Keyrouz, F., Diepold, K., Keyrouz, S., 2007, »High performance 3D sound localization for surveillance applications«, In Proc. IEEE AVSS '07, London, UK, pp. 563-566. Mohri, M., Pereira, F. C. N. in Riley, M., 2008. Speech recognition with weighted finite-state transducers, pogl. Part E: Speech recognition. Springer-Verlag, Germany. Onut, I.V., Aldridge, D., Mondel, M. in Perelgut, S., 2011. 2nd Workshop on Smart Surveillance System Applications. In Proc. CASCON '11, IBM Corp., Riverton, NJ, USA, pp. 382-384. Piciarelli, C. in Foresti, G. L., 2011, “Surveillanceoriented event detection in video streams”, IEEE Intelligent Systems, vol. 26, issue 3, pp. 32–41. Reynolds, D. A., Quatieri, T. F. in Dunn, R. B., 2000, »Speaker Verification using Adapted Gaussian Mixture Models«. Digital Signal Processing, 10, pp. 19–41. Schuller, B., Steidl, S., Batliner, A., 2009. The Interspeech 2009 emotion challenge. In: Proc. Interspeech 2009, ISCA, Brighton, UK, pp. 627: 312–315
Kaja Dobrovoljc, 1 Simon Krek, 2 Jan Rupnik 3 1 Trojina, zavod za uporabno slovenistiko kaja.dobrovoljc@trojina.si 2 Laboratorij Jamova cesta 39, 1000 Ljubljana simon.krek@ijs.si 3 Jamova cesta 39, 1000 Ljubljana jan.rupnik@ijs.si Povzetek -Spanning Tree Parser) in je bil izdelan v okviru projekta Sporazumevanje v slovenskem jeziku, ki vsebuje h povedi, enih po sistemu odvisnostne drevesnice JOS. Pri sistemu JOS je n 90,43 % za napovedane povezave in 87,52 , sistem odvisnostne drevesnice JOS. Jedro prispevka je podrobna analiza skladenjskih oznakah, na koncu prispevka pa za e lenjevalnika na podlagi analize. je prosto dostopen pod licenco Apache License V2.0. Dependency Parser for Slovene This paper introduces the dependency parser for Slovene based on the MSTParser (Minimum-Spanning Tree Parser), which was developed as part of the Communication in Slovene project. It was trained on the ssj500k training corpus, containing 11.411 manually annotated sentences, parsed in accordance with the JOS Dependency Treebank system. For the JOS system, the parser's accuracy measures 90.43% for unlabelled dependencies and 87.52% for labelled dependencies. The paper presents the design of the parser, the ssj500k training corpus and the JOS Dependency Treebank system. The core of this paper consists of a detailed analysis of t accuracy in relation to dependency labels, which also serves as the basis for the final part of the paper, in which we present possibilities for further improvement. The parser is freely available under the Apache License v2.0. 1. Uvod in podpira jezikovne tehnologije, kot so strojno prevajanje, govorno komuniciranje, avtomatsko povzemanje, uporabljenim (teoretskim) jeziko(slo)vnim Jezikoslovni modeli, uporabljen skupini: sistem odvisnostnih drevesnic ter frazna gramatik za jezike, ki imajo prost besedni red (npr. slovanski jeziki), druga pa za jezike s stalnim besednim redom (npr. . informacije tako o odvisnostnih razmerjih kot o notranji sestavi zvez. Po drugi strani so strojne metode, uporabljene pri eh vrst vnaprej pripravljenih pravil 1 , uporabljena kombinacija obeh metod. delujejo na podlagi pravil, za svoje delovanje potrebujejo 1 http://besana.amebis.si/preverjanje/. 42 nasprotni strani so ne potrebujejo vnaprej pripravljenih informacij o jeziku, potrebujejo pa o ic, iz katerega im interpretirajo nova, neznana besedila. Obe metodi imata svoje prednosti in slabosti. K je potreben za hitro doseganje razmeroma dobrih rezultatov, -ih . MSTParser, ki kot minimalnega vpetega drevesa v usmerjenih grafih in nadaljevanju. 2. Odvisnostni model Pri je bil uporabljen odvisnostni model, razvit v okviru projekta Jezikoslovno ) (Ledinek in Erjavec, 2009; Erjavec et al., 2010). Sistem obsega 10 oznak, ki jih glede na strukturnoskladenjsko raven delimo na tri skupine. Povezave prvega nivoja (oznake del, dol, vez, skup, prir ujejo razmerja znotraj besednih zvez med jedrnim in nejedrnim delom povedka, predlogom in oz. prilastki in odnosnico, modalnim glagolom in dopolnilom
Page 2 and 3: Zbornik 15. mednarodne multikonfere
Page 4 and 5: PREDGOVOR MULTIKONFERENCI INFORMACI
Page 6 and 7: KONFERENČNI ODBORI CONFERENCE COMM
Page 8 and 9: KAZALO / TABLE OF CONTENTS Jezikovn
Page 10: Zbornik 15. mednarodne multikonfere
Page 13 and 14: RECENZENTI • doc. dr. Simon Dobri
Page 15 and 16: language similarity as a feature of
Page 17 and 18: ually annotating 345 sentences and
Page 19 and 20: Disambiguating vectors for bilingua
Page 21 and 22: Language POS Source word Slovene se
Page 23 and 24: 4. Evaluation and discussion of the
Page 25 and 26: , Iztok Kosem**, Berginc*** * Troj
Page 27 and 28: vseh besed, se pravi, da bi ta
Page 29 and 30: 3. Spletni vmesnik za dostop do kor
Page 31 and 32: SPOOK.Sem: semantično označevanje
Page 33 and 34: uporabili samo za angleški del kor
Page 35 and 36: Vsekakor pa nas je pri označevanju
Page 37 and 38: Sistem vsebinskega priporočanja do
Page 39 and 40: poljubno, avtor pa svetuje vrednost
Page 41 and 42: Tabela 5: Filtriranje z dinamično
Page 43 and 44: Luka *, * Artificial Intelligence
Page 45 and 46: 4. Technical approaches and algorit
Page 47 and 48: Tehnologije govorjenega jezika v pa
Page 49: zma. Možno jih je namre uporabiti
Page 53 and 54: 3.1.4. fazah: v prvi fazi s
Page 55 and 56: (del, dol, vez, skup) in pri poveza
Page 57 and 58: ˇSirjenje slovarja in dvoprehodni
Page 59 and 60: Uporabili smo orodje s katerim smo
Page 61 and 62: zbirka besedil, korpus, slovar Toma
Page 63 and 64: -8"?> -c.org/ns/1.0" type="pb" xml:
Page 65 and 66: 6. Dostopnost virov dejanska možn
Page 67 and 68: prinašajo 185 milijonov besed oz.
Page 69 and 70: Ugotovimo lahko, da po številu pol
Page 71 and 72: predlog, zadeva, podatek, podlaga,
Page 73 and 74: Their main differences between them
Page 75 and 76: The corpus was PoS-tagged and lemma
Page 77 and 78: 5. Conclusions In this paper we pre
Page 79 and 80: 2000) is an English computer tutor
Page 81 and 82: Table 5: Classifier performance wit
Page 83 and 84: forms of Croatian proper names, but
Page 85 and 86: on the output of the first CRF. We
Page 87 and 88: Table 4: CroNER performance dependi
Page 89 and 90: Table 1: Description of the picture
Page 91 and 92: syntactic movement out of the objec
Page 93 and 94: and other agreement markers are use
Page 95 and 96: Figure 2. A FST representing a simp
Page 97 and 98: encoded text representation as seen
Page 99 and 100: Izhodišče segmentacijsko-tokeniza
Page 101 and 102:
3. Učni korpus ssj500k 4 Učni kor
Page 103 and 104:
azreševanje stavčne ali celo meds
Page 105:
težavnosti; pri oceni berljivosti
Page 110 and 111:
Kako dobro programi popravljajo vej
Page 112 and 113:
okviru projekta ESS Uspešno vklju
Page 114 and 115:
Besana opozarja na manjkajoče veji
Page 116 and 117:
Umetno tvorjenje slovenskega govora
Page 118 and 119:
Tabela 1: Analiza čistopisa zbirke
Page 120 and 121:
Distributional Semantics Approach t
Page 122 and 123:
3.2.1. Random indexing Random index
Page 124 and 125:
Table 2: Accuracy for all considere
Page 126 and 127:
Avtomatsko luščenje leksikalnih p
Page 128 and 129:
3.1. Metodologija in zaporedje post
Page 130 and 131:
začetku povedi in upoštevanje t.
Page 132 and 133:
Izdelava XML-shem za slovarske proj
Page 134 and 135:
standardi še niso bili vzpostavlje
Page 136 and 137:
nepričakovan zapis ali napačen za
Page 138 and 139:
Building Named Entity Recognition M
Page 140 and 141:
corpus token transfer type transfer
Page 142 and 143:
morphological information, for Slov
Page 144 and 145:
Luščenje terminoloških kandidato
Page 146 and 147:
3.1. Enobesedni terminološki kandi
Page 148 and 149:
Rezultati priklica so dobri. Od 109
Page 150 and 151:
Event and Temporal Relation Extract
Page 152 and 153:
Table 1: Event annotation summary E
Page 154 and 155:
Table 3: Event extraction performan
Page 156 and 157:
Korpusna analiza slovenskega delež
Page 158 and 159:
Vrsta besedila Izbrana področja (i
Page 160 and 161:
primerih (11) in (12), ne pa za del
Page 162 and 163:
Identifying Fear Related Content in
Page 164 and 165:
not present” by 23 annotators. Th
Page 166 and 167:
A Web Service Implementation of Lin
Page 168 and 169:
equired to install the specific sof
Page 170 and 171:
In both figures the same workflow i
Page 172 and 173:
Termania - prosto dostopni spletni
Page 174 and 175:
informacije so poleg same vsebine g
Page 176 and 177:
Izdelava slovensko-srbskega vzpored
Page 178 and 179:
dovoljeno odstopanje do 1 sekunde.
Page 180 and 181:
Poleg navedenih težav so se pojavl
Page 182 and 183:
Topic ontology construction from En
Page 184 and 185:
Fig. 2: English topic ontology afte
Page 186 and 187:
4. Topic ontologies constructed fro
Page 188 and 189:
Translating news to CycL using the
Page 190 and 191:
and the Cyc concept, which correspo
Page 192 and 193:
without parsing. One type of such s
Page 194 and 195:
Guessing the Correct Inflectional P
Page 196 and 197:
noted that the distribution of LPPs
Page 198 and 199:
Table 1: Feature selection analysis
Page 200 and 201:
Razpoznavanje imenskih entitet v sl
Page 202 and 203:
N − log Z(x (i) ) − i=1 K k=1
Page 204 and 205:
F1 1.0 0.8 0.6 0.4 0.2 0.0 0.63 0.4
Page 206 and 207:
sloWCrowd: orodje za popravljanje w
Page 208 and 209:
2.2. Uporabniški vmesnik Osnovna f
Page 210 and 211:
uporabnikov z večanjem stopnje zan
Page 212 and 213:
Korpus slovenskega znakovnega jezik
Page 214 and 215:
Posnetki se v anonimizirani obliki
Page 216 and 217:
ZEN: zasnova glasovnih e-storitev v
Page 218 and 219:
Rešitev je bila izvedena na podlag
Page 220 and 221:
predpisane aktivnosti v poteku zdra
Page 222 and 223:
Indeks avtorjev / Author index Agi
show all

Proceedings - Natural Language Server - IJS

Create successful ePaper yourself

Delete template?

Save as template?