Proceedings - Natural Language Server - IJS

More documents

Recommendations

Info

Tabela 1: Analiza čistopisa zbirke povedi slovenskega leposlovja Analizirana postavka Povedne povedi Vpraˇsalne povedi Vzklične povedi Skupaj ˇSt. povedi 166223 14552 9891 190666 ˇSt. edinstvenih besed 106507 12462 17811 112126 ˇSt. vseh besed 1434211 66694 98548 1599453 ˇSt. edinstvenih trifonov 28218 15336 17591 28673 Procent zastopanosti trifonov 33,12 18,00 20,65 33,66 ˇSt. vseh trifonov 6580055 280368 432537 7292960 Tabela 2: Analiza sklopa izbranih 200 povedi za snemanje zbirke slovenskega govora Analizirana postavka Povedne povedi Vpraˇsalne povedi Vzklične povedi Skupaj ˇSt. povedi 160 20 20 200 ˇSt. edinstvenih besed 115 115 111 102 ˇSt. vseh besed 1476 152 139 1767 ˇSt. edinstvenih trifonov 3568 610 577 4004 Procent zastopanosti trifonov 4,19 0,72 0,68 4,7 ˇSt. vseh trifonov 7014 707 605 8376 dili v pod-sklope glede na količino besed. Vsaki povedi smo pripisali monofonsko zastopanost in jih uredili po velikosti od največje do najmanjˇse zastopanosti. Iz vsakega pod sklopa smo proporcionalno glede na celotno zastopanost posamezne skupine povedi v zbirki naključno izbrali 160 povednih povedi, 20 vzkličnih povedi ter 20 vpraˇsalnih povedi. Pri tem smo upoˇstevali, da smo iz vsakega pod sklopa naključno izbirali le v prvi polovici (bolj zastopane) monofonske zastopanosti. Zastopanost sklopa povedi prikazuje tabela 2. 3. Zajem zbirke govora Za snemanje govora na podlagi besedilne zbirke smo uporabili program Red Start, ki je del programskega orodja Mary TTS. Program omogoča snemanje predvidenih povedi tako, da uporabniku nudi velik izpis povedi, omogoča enostaven izris posnetega akustičnega signala v časovnem in frekvenčnem prostoru, detekcijo ˇsuma, ter večkratno ponavljanje snemanja izbrane povedi. S snemanjem zbirke smo pridobili pribliˇzno 10 min govora. 4. Sploˇsen sistem PMM sistema za umetno tvorjenje govora Za udejanjanje lastnega sintezizatorja s pomočjo tehnike PMM je potrebno poznavanje orodja HTS ter njegovih komponent. V sploˇsnem sestoji iz treh ločenih komponent, ki si sledijo po vrstnem redu; analiza govornega signala, učni proces sintetizatorja ter generiranje akustičnega signala (sinteza). 4.1. Priprava govornih signalov za gradnjo PMM sintetizatorja Vsak akustični signal, ki je namenjen gradnji PMM sintetizatorja mora biti opremljen z grafemskim prepisom. S pomočjo grafemsko fonemske pretvorbe lahko pridobimo tudi fonemski zapis akustičnega signal. Za uspeˇsno gradnjo 109 PMM sintetizatorja moramo priskrbeti tudi časovno poravnavo med fonemi in akustičnim signalom. V kolikor imamo na razpolago ročno označeno fonemsko poravnano, lahko pričakujemo boljˇso kvaliteto sintetiziranega govora, kar nakazuje, da natančna poravnava fonemov in akustičnega signala igra pomembno vlogo pri gradnji PMM sintetizatorja. Velikokrat ne razpolagamo z ročno označeno zbirko govornih signalov. V takem primeru moramo uporabiti avtomatsko označevanje trajanja posameznih fonemov vsakega govornega signala v zbirki. Postopki za avtomatično označevanje niso tako natančni kot ročna poravnava, vendar je natančnost pri primerno obseˇznem govornem signalu zadovoljiva. Avtomatično poravnavo govorne zbirke lahko izvedemo z orodjem EHMM (Prahallad et al., 2006) ali kar neposredno z uporabo orodja HTK. Ko pridobimo fonemsko poravnavo z govornim signalom, lahko pričnemo s potrebnim luˇsčenjem značilk govornega signala. Moderni sistemi omogočajo luˇsčenje spektralnih značilk, kot tudi značilk govornega trakta. Najbolj pogosto uporabljene spektralne značilke so koeficienti melodičnega kepstra (ang. mel frequency cepstral coefficinets, MFCC). Pridobimo jih lahko s pomočjo orodja SPTK (Takuda et al., 2009) ali ESP (Black et al., 2003). Za pravilno modeliranje osnovne frekvence potrebujemo tudi ustrezna orodja. Za to je na voljo več prosto dostopnih programov, v naˇsem delu smo uporabili orodje Praat (Boersma and Weenink, 2001). 4.2. Gradnja PMM sintetizatorja Učni proces je podoben učnemu procesu pri razpoznavanju govora. Spektralne značilke ter značilke vzbujanja (kot na primer logaritem osnovne frekvence ter njene dinamične zančilke ali trajanje posamezne osnovne enote) se pridobivajo iz zbirke govornih posnetkov in so modelirane z mnoˇzico kontekstno odvisnih PMM. Parametre PMM modelov nato na podlagi teh značilk določimo po kriteriju maksimalnega verjetja (ang. maximum likelihood), v nadalje-
vanju ML, ˆλ = argmaxλ{p(O|W,λ)}, (1) kjer je λ vektor parametrov modela,O vektor učnih podatkov in W vektor zaporednih manjˇsih besednih enot, ki pripadajo vektorju O. Parametri govora, o = o1,...,oT , se tvorijo s pomočjo vektorja ocenjenih modelov ˆ λ za dan vektor manjˇsih besednih enot, ki bodo sintetizirane, ω, na način, da bodo izhodne verjetnosti največje ô = argmaxo{p(o|ω, ˆ λ)}. (2) Modeliranje trajanja govornega segmenta je enostavnejˇse, saj v sploˇsnem lahko na podlagi informacije koliko časa ostaja PMM v nekem stanju ocenimo trajanje. Trajanje lahko enostavno ocenimo iz matrike porazdelitve verjetnosti prehodov med stanji. Proces učenja smo v tem prispevku izvedli s pomočjo orodja HTS (Yoshimura et al., 1999). 4.3. Izvedba PMM sintetizatorja s tehnikami prilagajanja Z razvojem tehnik prilagajanja (ang. adaptation) govorca na različna akustična okolja pri razpoznavanju govora, so se te tehnike začele uporabljati tudi pri sistemih za umetno tvorjenje govora. Tako moderni sistemi za umetno tvorjenje govora s pomočjo PMM omogočajo najprej gradnjo sploˇsnega modela posameznega jezika, ki zajema posploˇsen akustični model, posploˇsen model trajanja ter posploˇsen model vzbujanja. S tehnikami kot sta postopek maksimizacije posteriorne porazdelitve (ang. maximum posteriori, MAP) ter postopek linearne regresije z maksimalnim verjetjem (ang. constrained, maksimum likelihood regression, CMLLR) je mogoče vplivati na parametre PMM sploˇsnega modela govora z namenom prilagajanja parametrov sploˇsnih modelov na posameznega govorca. S takim načinom pridobimo umetno tvorjen govor, ki je podoben lastnemu govoru govorca, oziroma posnetkov, ki jih imamo na razpolago za prilagajanje, pri čemer izrabimo tudi vse akustične značilnosti sploˇsnega modela govora. ˇZe z relativno majhno količino posnetkov namenjenih za prilagajanje je mogoče prilagoditi sploˇsni modela jezika. Na tem mestu moramo opozoriti, da v kolikor fonemi v govoru niso zastopani, se tudi slabˇse prilagodijo na sploˇsni model, kar se odraˇza tudi pri sintezi. S pomočjo demonstracijskih programov na spletni strani skupine HTS, smo tako izvedli tudi sintetizator na način, da smo adaptirali posneto govorno zbirko na sploˇsen model, ki smo ga izvedli s pomočjo petih govorcev (1 ˇzenska govorka, 4 moˇski govorci) zbirke VNTV ( ˇZibert and Mihelič, 2000). 4.4. Sinteza govora Proces sinteze je obrnjen proces razpoznave govora. Vhod v postopek predstavlja niz osnovnih govornih enot. Na podlagi tega niza se ustrezni modeli poveˇzejo v verigo. Nato se izbere najbolj verjetna pot (niz stanj) skozi to verigo glede na porazdelitve verjetnosti trajanj posameznih stanj. Ta najbolj verjetna veriga odda niz vektorjev v katerih so zdruˇzene značilke vzbujanja ter govornega trakta. Iz poteka značilk vzbujanja se nazadnje tvori ˇse vzbujanje, ki ga vodimo na vhod filtra, ki smo ga določili s pomočjo 110 spektralnih značilk. Na izhodu filtra dobimo sintetiziran govor (Yoshimura et al., 1999). 5. Zaključek Čeprav v prispevku nismo ovrednotili udejanjenih sistemov za umetno tvorjenje govora, smo pokazali, da je mogoče s pomočjo PMM sinteze z relativno majhno količino podatkov in pravilno izbiro slovenske pisane besede za gradnjo govorne zbirke izdelati sintetizator slovenskega govora. V nadaljnjem delu bomo nedvomno ovrednotiti udejanjene sisteme ter preizkusili tudi naprednejˇse algoritme za pridobivanje fonemsko bogatih sklopov povedi v namen snemanja ustreznih govornih zbirk, primernih za sintezo govora. Obenem pa bomo poizkusili določiti ˇse priporočljive najmanjˇse količine govornega materiala, s katerim lahko ˇse udejanjimo slovenski sintetizator govora s pomočjo PMM. 6. Literatura A. W. Black, Taylor P., Caley R., Clark R., in S. King. 2003. The edingburgh speech tools library. Tehnično poročilo. Paul Boersma in David Weenink. 2001. Praat, a system for doing phonetics by computer. Glot International, 5(9/10):341–345. Jerneja Gros. 1997. Samodejno tvorjenje govora iz besedil. Doktorsko delo, Fakulteta za elektrotehniko, Univerza v Ljubljani. Kishore Prahallad, Alan W Black, in Ravishankhar Mosur. 2006. Sub-phonetic modeling for capturing pronunciation variation in conversational speech synthesis. V: in <strong>Proceedings</strong> of IEEE Int. Conf. Acoust., Speech, and Signal Processing. Marc Schröder, Marcela Charfuelan, Sathish Pammi, in Ingmar Steiner. 2011. Open source voice creation toolkit for the mary tts platform. V: <strong>Proceedings</strong> of Interspeech 2011. ISCA. K. Takuda, Masuko T., Koishida K., Sako S., Zen H. Imai S., in Kobayashi T. 2009. Speech signal processing toolkit (sptk). Tehnično poročilo. Junichi Yamagishi, Bela Usabaev, Simon King, Oliver Watts, John Dines, Jilei Tian, Yong Guan, Rile Hu, Keiichiro Oura, Yi-Jian Wu, Keiichi Tokuda, Reima Karhila, in Mikko Kurimo. 2010. Thousands of voices for hmmbased speech synthesis: analysis and application of tts systems built on various asr corpora. Trans. Audio, Speech and Lang. Proc., 18(5):984–1004, July. Takayoshi Yoshimura, Keiichi Tokuda, Takashi Masuko, Takao Kobayashi, in Tadashi Kitamura. 1999. Simultaneous modeling of spectrum, pitch and duration in hmmbased speech synthesis. V: EUROSPEECH’99, str. –1–1. S. J. Young, G. Evermann, M. J. F. Gales, T. Hain, D. Kershaw, G. Moore, J. Odell, D. Ollason, D. Povey, V. Valtchev, in P. C. Woodland. 2006. The HTK Book, version 3.4. Cambridge University Engineering Department, Cambridge, UK. Janez ˇZibert in France Mihelič. 2000. Slovenian weather forecast speech database. V: Proc, SoftCOM, str. 199–206.
Page 2 and 3:
Zbornik 15. mednarodne multikonfere
Page 4 and 5:
PREDGOVOR MULTIKONFERENCI INFORMACI
Page 6 and 7:
KONFERENČNI ODBORI CONFERENCE COMM
Page 8 and 9:
KAZALO / TABLE OF CONTENTS Jezikovn
Page 10:
Zbornik 15. mednarodne multikonfere
Page 13 and 14:
RECENZENTI • doc. dr. Simon Dobri
Page 15 and 16:
language similarity as a feature of
Page 17 and 18:
ually annotating 345 sentences and
Page 19 and 20:
Disambiguating vectors for bilingua
Page 21 and 22:
Language POS Source word Slovene se
Page 23 and 24:
4. Evaluation and discussion of the
Page 25 and 26:
, Iztok Kosem**, Berginc*** * Troj
Page 27 and 28:
vseh besed, se pravi, da bi ta
Page 29 and 30:
3. Spletni vmesnik za dostop do kor
Page 31 and 32:
SPOOK.Sem: semantično označevanje
Page 33 and 34:
uporabili samo za angleški del kor
Page 35 and 36:
Vsekakor pa nas je pri označevanju
Page 37 and 38:
Sistem vsebinskega priporočanja do
Page 39 and 40:
poljubno, avtor pa svetuje vrednost
Page 41 and 42:
Tabela 5: Filtriranje z dinamično
Page 43 and 44:
Luka *, * Artificial Intelligence
Page 45 and 46:
4. Technical approaches and algorit
Page 47 and 48:
Tehnologije govorjenega jezika v pa
Page 49 and 50:
zma. Možno jih je namre uporabiti
Page 51 and 52:
Kaja Dobrovoljc, 1 Simon Krek, 2 Ja
Page 53 and 54:
3.1.4. fazah: v prvi fazi s
Page 55 and 56:
(del, dol, vez, skup) in pri poveza
Page 57 and 58:
ˇSirjenje slovarja in dvoprehodni
Page 59 and 60:
Uporabili smo orodje s katerim smo
Page 61 and 62:
zbirka besedil, korpus, slovar Toma
Page 63 and 64:
-8"?> -c.org/ns/1.0" type="pb" xml:
Page 65 and 66:
6. Dostopnost virov dejanska možn
Page 67 and 68: prinašajo 185 milijonov besed oz.
Page 69 and 70: Ugotovimo lahko, da po številu pol
Page 71 and 72: predlog, zadeva, podatek, podlaga,
Page 73 and 74: Their main differences between them
Page 75 and 76: The corpus was PoS-tagged and lemma
Page 77 and 78: 5. Conclusions In this paper we pre
Page 79 and 80: 2000) is an English computer tutor
Page 81 and 82: Table 5: Classifier performance wit
Page 83 and 84: forms of Croatian proper names, but
Page 85 and 86: on the output of the first CRF. We
Page 87 and 88: Table 4: CroNER performance dependi
Page 89 and 90: Table 1: Description of the picture
Page 91 and 92: syntactic movement out of the objec
Page 93 and 94: and other agreement markers are use
Page 95 and 96: Figure 2. A FST representing a simp
Page 97 and 98: encoded text representation as seen
Page 99 and 100: Izhodišče segmentacijsko-tokeniza
Page 101 and 102: 3. Učni korpus ssj500k 4 Učni kor
Page 103 and 104: azreševanje stavčne ali celo meds
Page 105: težavnosti; pri oceni berljivosti
Page 110 and 111: Kako dobro programi popravljajo vej
Page 112 and 113: okviru projekta ESS Uspešno vklju
Page 114 and 115: Besana opozarja na manjkajoče veji
Page 116 and 117: Umetno tvorjenje slovenskega govora
Page 120 and 121: Distributional Semantics Approach t
Page 122 and 123: 3.2.1. Random indexing Random index
Page 124 and 125: Table 2: Accuracy for all considere
Page 126 and 127: Avtomatsko luščenje leksikalnih p
Page 128 and 129: 3.1. Metodologija in zaporedje post
Page 130 and 131: začetku povedi in upoštevanje t.
Page 132 and 133: Izdelava XML-shem za slovarske proj
Page 134 and 135: standardi še niso bili vzpostavlje
Page 136 and 137: nepričakovan zapis ali napačen za
Page 138 and 139: Building Named Entity Recognition M
Page 140 and 141: corpus token transfer type transfer
Page 142 and 143: morphological information, for Slov
Page 144 and 145: Luščenje terminoloških kandidato
Page 146 and 147: 3.1. Enobesedni terminološki kandi
Page 148 and 149: Rezultati priklica so dobri. Od 109
Page 150 and 151: Event and Temporal Relation Extract
Page 152 and 153: Table 1: Event annotation summary E
Page 154 and 155: Table 3: Event extraction performan
Page 156 and 157: Korpusna analiza slovenskega delež
Page 158 and 159: Vrsta besedila Izbrana področja (i
Page 160 and 161: primerih (11) in (12), ne pa za del
Page 162 and 163: Identifying Fear Related Content in
Page 164 and 165: not present” by 23 annotators. Th
Page 166 and 167: A Web Service Implementation of Lin
Page 168 and 169:
equired to install the specific sof
Page 170 and 171:
In both figures the same workflow i
Page 172 and 173:
Termania - prosto dostopni spletni
Page 174 and 175:
informacije so poleg same vsebine g
Page 176 and 177:
Izdelava slovensko-srbskega vzpored
Page 178 and 179:
dovoljeno odstopanje do 1 sekunde.
Page 180 and 181:
Poleg navedenih težav so se pojavl
Page 182 and 183:
Topic ontology construction from En
Page 184 and 185:
Fig. 2: English topic ontology afte
Page 186 and 187:
4. Topic ontologies constructed fro
Page 188 and 189:
Translating news to CycL using the
Page 190 and 191:
and the Cyc concept, which correspo
Page 192 and 193:
without parsing. One type of such s
Page 194 and 195:
Guessing the Correct Inflectional P
Page 196 and 197:
noted that the distribution of LPPs
Page 198 and 199:
Table 1: Feature selection analysis
Page 200 and 201:
Razpoznavanje imenskih entitet v sl
Page 202 and 203:
N − log Z(x (i) ) − i=1 K k=1
Page 204 and 205:
F1 1.0 0.8 0.6 0.4 0.2 0.0 0.63 0.4
Page 206 and 207:
sloWCrowd: orodje za popravljanje w
Page 208 and 209:
2.2. Uporabniški vmesnik Osnovna f
Page 210 and 211:
uporabnikov z večanjem stopnje zan
Page 212 and 213:
Korpus slovenskega znakovnega jezik
Page 214 and 215:
Posnetki se v anonimizirani obliki
Page 216 and 217:
ZEN: zasnova glasovnih e-storitev v
Page 218 and 219:
Rešitev je bila izvedena na podlag
Page 220 and 221:
predpisane aktivnosti v poteku zdra
Page 222 and 223:
Indeks avtorjev / Author index Agi
show all

Proceedings - Natural Language Server - IJS

Create successful ePaper yourself

Delete template?

Save as template?