24.07.2013 Views

Ing. Miroslav Katrák Rozpoznávanie reči použitím ... - TUKE

Ing. Miroslav Katrák Rozpoznávanie reči použitím ... - TUKE

Ing. Miroslav Katrák Rozpoznávanie reči použitím ... - TUKE

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

TechnickáuniverzitavKošiciach<br />

Fakultaelektrotechnikyainformatiky<br />

Katedraelektronikyamultimediálnychtelekomunikácií<br />

<strong>Ing</strong>.<strong>Miroslav</strong><strong>Katrák</strong><br />

<strong>Rozpoznávanie</strong><strong>reči</strong><strong>použitím</strong><br />

neurónovýchsietí<br />

Písomnáprácakdizertačnejskúške<br />

Študijnýprogram:Telekomunikácie<br />

Študijnýodbor:5.2.15Telekomunikácie<br />

Školiteľ:doc.<strong>Ing</strong>.JozefJuhár,CSc.<br />

Formaštúdia:denná<br />

Košice2007


Poďakovanie<br />

ToutocestoubysomsachcelpoďakovaťBohu,priateľom,avneposled-<br />

nomrademôjmuvedúcemudoc.<strong>Ing</strong>.JozefoviJuhárovi,CSc.,zapomocpri<br />

vypracovanítejtopráce.


Obsah<br />

Úvod 1<br />

1 Neurónovésiete 2<br />

1.1 Úvod. ............................... 2<br />

1.2 Vlastnostineurónovejsiete.................... 3<br />

1.3 Výhodyneurónovýchsieti .................... 3<br />

1.4 História . ............................. 4<br />

1.5 Prečopráveumeléneurónovésiete? . .............. 6<br />

1.6 Činnosťneurónovejsiete . .................... 6<br />

1.7 Aplikácieneurónovýchsietí . .................. 7<br />

1.8 Perceptrón............................. 9<br />

1.9 Neurón............................... 10<br />

1.10 Typyneurónovýchsietí...................... 11<br />

2 Doprednéneurónovésiete 12<br />

2.1 Deltapravidlo........................... 13<br />

2.2 Metódaspätnéhošíreniachyby(backpropagationoferror) . . 14<br />

2.3 Momentum . ........................... 16<br />

2.4 SupportVectorMachines(SVM) ................ 17<br />

2.4.1 Úvod. ........................... 17<br />

2.4.2 Aktívneučeniedynamickýmvýberomtrénovacíchvek-<br />

torov. ........................... 17<br />

3 Rekurentnéneurónovésiete 20<br />

3.1 LSTMrekurentnáneurónovásieť ................ 21<br />

3.1.1 VýhodyLSTM ...................... 24<br />

3.2 BidirectionalLSTM(BLSTM).................. 24<br />

3.3 SpikingNeuralNetworks(SNNs) ................ 25<br />

3.4 Elmanovéneurónovésiete(ENNs)................ 27<br />

3.5 Neurónovásieťsechostavmi(ESN). .............. 29


4 <strong>Rozpoznávanie</strong><strong>reči</strong> 30<br />

4.1 Súčasnýstavvosvete....................... 30<br />

4.2 Metódyrozpoznávania<strong>reči</strong>.................... 33<br />

4.2.1 Skrytémodely(HMMs) . ................ 33<br />

4.2.2 Neurónovésiete(NN). .................. 33<br />

4.2.3 Dynamickéskresleniečasu(DTW) . .......... 33<br />

4.2.4 StateTransitionMatrix(STM) . ............ 34<br />

4.3 Softwareprerozpoznávanie<strong>reči</strong> . ................ 35<br />

4.3.1 Voľnýsoftvér ....................... 35<br />

4.3.2 Komerčnýsoftvér . .................... 36<br />

5 Tézydizertačnejpráce 37<br />

Zoznampoužitejliteratúry 38<br />

Zoznampríloh 43<br />

Zoznamobrázkov 43<br />

Zoznamtabuliek 43


Predhovor<br />

”najväčšírozdielmedzičasomapriestoromje,ženemôžeš<br />

znovupoužiťčas”<br />

(MerrickFurst)<br />

Kvýberutejtominimovejprácesomsarozhodolkvôlizáujmuhlbšie<br />

spoznaťproblematikuneurónovýchsietíarozpoznávania<strong>reči</strong>.Taktiežrozho-<br />

dujúcimkrokombolamyšlienkaurobiťvýskumvurčitejoblastitejtoprob-<br />

lematiky.


Zoznampoužitýchskratiek<br />

ANN,NN „ArtificialNeuralNetworks<br />

(umeléneurónovésiete)<br />

RCNN,RNN „RecurrentNeuralNetworks<br />

(rekurentnéneurónovésiete)<br />

FFNN „FeedforwardNeuralNetworks<br />

(doprednéneurónovésiete)<br />

HMM,HMMs „HiddenMarkovModels<br />

(skrytémarkovémodely)<br />

SVM „SupportVectorMachines<br />

(technikyvyuživajúcepodpornévektory)<br />

SVNT „SupportVectorNeuralTraining<br />

(trénovaniepomocoupodpornýchvektorov)<br />

SV „Synapticweight(synaptickáváha)<br />

NN-HMM „NeuralNetwork-HiddenMarkovModel<br />

(neurónovésiete-skrytéMarkovovemodely,<br />

tzv.hybridnésystémy)<br />

DTW „Dynamictimewarping<br />

(dynamickéskresleniečasu)<br />

ASR „Automaticspeechrecognition<br />

(automatickérozpoznávani<strong>reči</strong>)<br />

SNNs „SpikingNeuralNetworks<br />

(impulzneneurónovésiete)<br />

STM „StateTransitionMatrix<br />

(statetransitionmatrix)<br />

LSTM „LongShort-Termmemoryrecurrentneuralnetworks<br />

(LSTMrekurentnéneurónovésiete)<br />

BLSTM „BidirectionalLSTM<br />

(BidirectionalLSTM)<br />

ENNs „ElmanNeuralNetwork


(Elmanoveneurónovesiete)<br />

ESN „EchoStateNetwork<br />

(neurónovásieťsechostavmi)<br />

LMS „Leastmeansquare<br />

(minimálnastrednáhodnota)


FEITUvKošiciach Listč.1<br />

Úvod<br />

Rečjeprirodzenáformakomunikáciemedziľuďmi.Počasdetstvabezakých-<br />

koľvekinštrukciízískavamevšetkydôležitéskúsenosti.Pokračujemevučení<br />

aspoliehamesanakomunikáciupočasceléhonášhoživota.Prichádzato<br />

takprirodzene,žesianineuvedomujemeakázložitájeľudskáreč.Ľudský<br />

hlasjebiologickýorgánsnelineárnymivlastnosťami,ktoréhooperácienie<br />

súpodkontrolouvedomia,alesúovplyvnenéfaktormipohybujúcimisaod<br />

rodupovýchovuemocionálnehostavu.Vydávanieľudskéhohlasusamôže<br />

meniťzhľadiskaakcentu,výslovnosti,artikulácie,hrubosti,hovorenianosom,<br />

hlasitosti,rýchlostiatď.Vzorkyhlasumôžubyťskreslenéhlukompozadia,<br />

ozvenami,podobneakojetomuvelektrickomsignáli.Všetkytietopríčiny,<br />

nestálostispôsobujúvľudskomrozpoznávanízložitýproblém[1].Rozhodol<br />

somsapozrieťnaproblematikurozpoznávaniaľudskej<strong>reči</strong>pomocouneuróno-<br />

výchsieti.Prečopráveneurónovésiete?Pretožeľudskýmozogjerekurentná<br />

neurónovásieťalebodoprednáneurónovásieť:sieťneurónovsospätnými<br />

prepojeniami.[43]<br />

Činnosť nervovej sústavy spúšťajú a uskutočňujú nervové bunky (ne-<br />

uróny),ktoréprenášajúinformácievpodobeelektrickýchimpulzov.Každý<br />

neurónmáspojeniasostovkamiďalšíchneurónov,čovytvárahustúkomu-<br />

nikačnúsieť.Niektorénervovébunkyreagujúpriamonasignálysprostred-<br />

kovanézmyslami,napríkladzrakom,sluchomahmatom.Vysielajúrýchle<br />

„salvynervovýchimpulzov,ktorézachytiainéneurónyaprenesúichďa-<br />

lej.Signálynapokondosiahnucieľovétkanivá,napríkladbunkyvsvaloch,<br />

orgánochalebožľazách,atelozareagujenapodnet.Okremneurónovsav<br />

nervovejsústavenachádzaajmnožstvoinýchdruhovbuniek,ktorévyživujú<br />

achrániatietobunky[?].


FEITUvKošiciach Listč.2<br />

1 Neurónovésiete<br />

1.1 Úvod<br />

Privytváraníinteligentnýchsystémovbolourobenýchmnožstvopokrokov.<br />

Niektoréznichboliinšpirovanébiologickýmineurónovýmisieťami.<br />

Výskumnícizmnohýchvednýchdisciplínvytvoriliumeléneurónovésiete<br />

(ANNs)súmyslomvyriešiťmnožstvoproblémovvrozpoznávanítvaru,pre-<br />

dikcii, optimalizácii, asociačnej pamäte. [14] ANNs sú masívne paralelné<br />

výpočtovésystémypozastavajúcezextrémneveľkéhopočtujednoduchých<br />

procesovsmnohýmiprepojeniami.ANNsposkytujúrozličnéalternatívy,z<br />

ktorýchmôžuťažiťmnohéaplikácie.Umeléneurónovésietemôžubyťpri-<br />

meranecharakterizovanéako„výpočtovémodelysurčitýmivlastnosťami,<br />

akoschopnosťadaptovaťsa,aleboučiťsa,zovšeobecňovať,zoskupovať,alebo<br />

organizovaťdáta.<br />

Ľudskýmozogpracujenainomprincípeakokonvenčnýčíslicovýpočítač.<br />

Základnéstavebnéprvkymozgu-neurónysúpomalšieo5-6rádovvoči<br />

kremíkovýmlogickýmhradlám.Mozogjevysokokomplexný,nelineárnya<br />

paralelnýsystémspracovaniainformácií.<br />

Neurónovúsieť(NN)jemožnédefinovaťakoparalelnýdistribuovanýpro-<br />

cesor,ktorýmáschopnosťuchovávaťpoznatkyzískanéskúsenosťouamaťich<br />

kdispozíciinapoužitie.Podobásamozguvdvochohľadoch:<br />

•sieťzískavapoznatkyprocesomučenia<br />

•nauchovaniepoznatkovsapoužívajúmedzi-neurónovéspojeniaznáme<br />

akosynaptickéváhy(SV)[27].<br />

Neurónovúsieťvšakmôžemedefinovaťajčistozmatematickéhohľadiska<br />

pomocouteóriegrafov:[29]<br />

Neurónovásieťještruktúrapreparalelnéadistribuovanéspracovanie<br />

informáciívtvareorientovanéhografusnasledujúcimiobmedzeniami:<br />

•uzlygrafovsanazývajúvýpočtovéprvky


FEITUvKošiciach Listč.3<br />

•hranygrafusanazývajúspojenia<br />

•každývýpočtovýprvokmôžeobsahovaťľubovoľnýpočetvstupných<br />

spojení<br />

•každývýpočtovýprvokmôžemaťľubovoľnýpočetvýstupnýchspojení<br />

-vskutočnostisajednáotenistývýstup,ktorýsarozvetvuje.<br />

•výpočtovéprvkymôžumaťlokálnupamäť<br />

•každývýpočtovýprvokobsahujeprenosovú(aktivačnú)funkciu,ktorá<br />

môževyužiťlokálnupamäť,vstupnésignályaktorávytvorívýstupný<br />

signálvýpočtovéhoprvku.<br />

1.2 Vlastnostineurónovejsiete<br />

Základnouvlastnosťouneurónovejsietejeschopnosťabstrakciepravidiel<br />

medzivstupnýmiavýstupnýmihodnotamiprezentovanýmivovhodnejforme<br />

anáslednouaplikáciouzískanýchpravidielnaakékoľvekvstupnéhodnoty.<br />

Pretosačastovyužívavregulačnejasimulačnejtechnike.<br />

Procesabstrakciesanazývaučenie,amôžeprebiehaťsučiteľomalebo<br />

bezučiteľa.Počastohtoprocesusaaktualizujúhodnotyváhovýchspojení.<br />

Vliteratúrejeuvedenýchniekoľkoučiacichalgoritmov.Poukončeníučenia,<br />

saužhodnotyváhnemeniaasieťprodukujevýstupypodľauvedenéhopra-<br />

vidlaaplikovanéhonavstupnéhodnoty.<br />

1.3 Výhodyneurónovýchsieti<br />

•Paralelnéspracovanieinformácií,ktoréumožňujeprivhodnomhardvéri<br />

rozdeliťvýpočetnaniekoľkosúbežnýchprocesorov.<br />

•Nevyžadujúakúkoľvekinformáciuoštruktúreprocesu,naktorýsúap-<br />

likované.<br />

•Rýchlostsietiimplementovanýchbezučiacehoalgoritmu.


FEITUvKošiciach Listč.4<br />

•Umožňujúabstrahovaťriadiacepravidláinéhoregulátora(napr.člo-<br />

veka,aleboregulátorasdlhýmivýpočtovýmičasmi)anahradiťich.<br />

•Zahŕňajúvsebemožnosťadaptácienazmenuparametrov,pokiaľsa<br />

aplikujeajsučiacimalgoritmom.<br />

•Súvhodnépreúlohyidentifikácie,aproximácie,klasifikácieatriedenia<br />

vzorov.<br />

•Poskytujúredukciurozmerudátdomenejrozmernéhopriestoru.<br />

•Súuniverzálnymaproximátorom,schopnýmaproximovaťakúkoľvekspo-<br />

jitúfunkciusľubovoľnoupresnosťou.<br />

1.4 História<br />

VýskumnícivoblastiANNzažilitrifázyrozsiahlychaktivít:<br />

•Prvápochádzazroku1940zásluhouvýskumníkovMcCullochaPitt<br />

•Ďalšiavzniklavroku1960sRosenblattovýmperceptrónomokon-<br />

vergenčnejteoréme[23]aprácouvýskumníkovMinskéhoaPaperta,<br />

ktorísazaoberaliohraničeniamijednoduchéhoperceptrónu[22].<br />

•Vroku1982Hopfieldvosvojomvýskumeobjavilučiacialgoritmus<br />

backpropagationurčenýpreviacvrstvovédoprednéneurónovésiete.<br />

[18].TentoalgoritmusbolnavrhnutýWerbosom[25],niekoľkokrát<br />

upravovaný,potomspopularizovanýRumelhartomvroku1986[24].


FEITUvKošiciach Listč.5<br />

vstupna vrstva<br />

in1<br />

in2<br />

skryta vrstva<br />

h2<br />

h3<br />

h1<br />

2. skryta vrstva<br />

Obr.1:Doprednáneurónovásieť<br />

vstupna vrstva<br />

in1<br />

in2<br />

skryta vrstva<br />

h1<br />

h2<br />

h3<br />

h4<br />

Obr.2:Rekurentnáneurónovásieť<br />

j1<br />

j2<br />

j3<br />

j4<br />

vystupna vrstva<br />

out1<br />

out2<br />

vystupna vrstva<br />

out2<br />

out1


FEITUvKošiciach Listč.6<br />

1.5 Prečopráveumeléneurónovésiete?<br />

Dlhývývojevolúciedalľudskémumozguvhodnécharakteristikynezahrnuté<br />

vovonNeumanovýchalebovmodernýchparalelnýchpočítačoch.Tentovývoj<br />

zahrňuje:<br />

•masívnyparalelizmus,<br />

•distribuovanúreprezentáciúapočítanie,<br />

•učiaceschopnosti,<br />

•generalizačnéschopnosti,<br />

•adaptivitu,<br />

•prirodzenékontextovéspracovanieinformácii,<br />

•odolnosťvočichybám.<br />

Modernépočítačeprekonávajúľudívoblastimatematickýchvýpočtova<br />

manipuláciousosymbolmi.Architektúrabiologickýchneurónovýchsystémov<br />

jeúplnerozdielnaodvonNeumannovejarchitektúry.<br />

1.6 Činnosťneurónovejsiete<br />

Činnosťneurónovejsietesadározdeliťnadvezákladnéfázy,fázuučeniaa<br />

fázuživota.Vofázeučeniadochádzakukladaniuznalostídosynaptických<br />

váh.Tietováhysavofázeučeniamenia(1).<br />

∂dW<br />

=0 (1)<br />

∂dT<br />

Druháfázačinnostineurónovejsiete,fázaživota,jeužsamotnévyužitie<br />

získaných(naučených)vedomostizfázyučenia.Vtejtofázesasynaptické<br />

váhynemenia(2)<br />

∂dW<br />

∂dT<br />

=0 (2)


FEITUvKošiciach Listč.7<br />

Podľaspôsobuučeniamôžemerozdeliťsamotnéučenieneurónovejsiete<br />

nakontrolovanéanekontrolovanéučenie.Kontrolovanéučeniejeučenies<br />

učiteľom,spočívavtom,ženeurónovejsietisúpredkladanévzoryaobrazy.<br />

Prinekontrolovanomučenísúpredkladanéibavzory.<br />

1.7 Aplikácieneurónovýchsietí<br />

Neurónovésietesúvpodstatepoužiteľnévkaždejsituácii,vktorejexis-<br />

tujevzťahmedzipredikčnýmipremennými(nezávislosti,vstupy)apredpo-<br />

vedanýmipremennými(závislosti,výstupy).Vzťahjeveľmizložitýanieje<br />

jednoduchozrozumiteľnývnormálnychpodmienkachzo„vzájomnýchvzťa-<br />

hov.Medziproblémy,ktoréboliúspešneriešenépomocouneurónovýchsietí<br />

možnozaradiť:[26]<br />

•Detekcialekárskychjavov.Jemožnémonitorovaťmnožstvozdravot-<br />

nýchukazovateľov(napr.kombináciumeraniatepu,úroveňrozličných<br />

látokvkrvi).<br />

•Burzacennýchpapierov.Kolísaniecenyakciíaukazovateľovakciísú<br />

ďalšímpríkladomkomplexného,viacrozmerného,alezaurčitýchokol-<br />

nostíprinajmenšomčiastočne-deterministickéhofenoménu.Mnohíana-<br />

lyticipoužívajúneurónovésietenavytvoreniepredikciíocenáchakcií<br />

založenýchnamnožstvefaktorovakopredchádzajúcivýkonarozličné<br />

ekonomickéukazovatele.<br />

•Pridelenieúveru.Napožiadanieúverujepotrebnémnožstvoinformá-<br />

cií.Napr.vek,vzdelanie,povolanieaďalšiefakty.Ponatrénovaníne-<br />

urónovejsietenahistorickýchdátachmôžeanalýzaneurónovejsiete<br />

identifikovaťmnožstvopodstatnýchcharakteristíkatietopoužiťnakla-<br />

sifikáciuuchádzačaakodobréalebozléúverovériziká.<br />

•Monitorovaniestavuzariadenia.Neurónovésietemôžubyťtrénované<br />

narozlišovaniemedzizvukom,ktorývytvorístrojkeďbežínormálne<br />

oprotitomukeďjenahraniciproblému.Potejtotrénovanejperióde


FEITUvKošiciach Listč.8<br />

môžebyťodbornýposudokpoužitýnaupozornenieodborníkaonovej<br />

poruchepredtýmnežnastaneneočákavaný”časovýprestoj”.<br />

•Reguláciamotora.Neurónovésietemôžubyťpoužiténaanalýzuvstupu<br />

senzorovmotora.Kontrolujúrozličnéparametrespolusfunkciamimo-<br />

tora, za účelom dosiahnuť špeciálny cieľ ako napr. minimalizovanie<br />

spotrebypaliva.<br />

Vovšeobecnostimôžemevymenovaťniekoľkooblastívyužitianeuróno-<br />

výchsietí:problémyaproximáciefunkcií,klasifikáciedotried,klasifikácia<br />

situácií,riešeniepredikčnýchproblémov,problémyriadeniaprocesov,trans-<br />

formáciasignálov,asociačnéproblémysimuláciapamäte.[27]


FEITUvKošiciach Listč.9<br />

1.8 Perceptrón<br />

PerceptrónbolnavrhnutýRosenblattom[23]ajeurčenýnadichotomickú<br />

klasifikáciu,tj.rozdelenieobjektovdodvochtried,priktorýchsapredpo-<br />

kladá,žetriedysúlineárneseparovateľnévpríznakovompriestore.Vpod-<br />

stateideonajjednoduchšítypneurónovejsieteazvyčajnesapoužívapred<br />

klasifikáciou.Podlineárnouseparovateľnosťoudvochtriedrozumiemesitu-<br />

áciu,vktorejexistujemožnosťoddeliťobjektyvpríznakovompriestorepo-<br />

mocounadrovinynapr.priamkav2-rozmernomaleborovinav3-rozmernom<br />

priestore.[27]<br />

Uperceptrónuspôsobučeniakonvergujekvektoruváh,ktorýkorektne<br />

klasifikujevšetkylineárneseparovateľnétrénovaciepríklady(3).<br />

Obr.3:Lineárneseparovateľnéaneseparovateľnépríklady<br />

Perceptrónmátrivrstvy:<br />

•senzorovávrstva<br />

•asociatívnavrstva<br />

•výstupnýneurón<br />

Základnouvlastnosťouučiacehopravidlaperceptrónuje,žeakexistuje<br />

množinaváh,ktorávyriešiproblém,takperceptróntietováhynájde.<br />

Naobrázku4jemožnévidieťjednoduchýperceptrón,kde


FEITUvKošiciach Listč.10<br />

Obr.4:Perceptrón<br />

• x1,x2,...,xnsúvstupyamôžutobyťceléčíslaaleboboolovskéhodnoty<br />

závisléodproblému<br />

• yjevýstupajetoboolovskáhodnota<br />

• w1,w2,...,wnsúváhyasútoreálnehodnoty<br />

•Tjeprahajetoreálnahodnota<br />

Výstup yje1akakvstupsiete,ktorýje<br />

w1x1+ w2x2+ ...+wnxn<br />

jeväčšíakoprahT.Ináčjevýstup0.<br />

1.9 Neurón<br />

Jejasné,ževäčšinutoho,očomvnašomživotepremýšľamezapríčiňuje<br />

aktivitanervovéhosystému(hlavnemozog).Nervovýsystémjezloženýz<br />

biliónabuniek,najdôležitejšiesúnervovébunkynazývanéneuróny,ktoré<br />

prenášajúinformácievpodobeelektrickýchimpulzov[?].Odhadujesa,žev<br />

našomnervovomsystémejeaž100biliónovneurónov.<br />

(3)


FEITUvKošiciach Listč.11<br />

Neurónsaskladázčastí,ktorémôžemaťajakákoľvekinábunka,no<br />

navyšeobsahujeniekoľkošpecializovanýchštruktúr,ktorésúzvlášťpripojené.<br />

Hlavnáčasťbunkysanazývasomaalebotelobunky,ktoréobsahujejadro<br />

sgenetickýmmateriálomvoformechromozómov.<br />

Neurónymajúobrovskýpočetnadstavcov,ktorésanazývajúdendridy.<br />

Častovyzerajúakovetvyalebošpičkyrozšírenémimotela.Dendridyzachy-<br />

távajúimpluzy(príjmajúsprávy)zincýhneurónov.<br />

Jednanadstavbajeodlišnáodinýchanazývasaaxón-nervovýroz-<br />

vetvenývýbežok.Úlohouaxónujedoručovaťelektrochemickýsignáldo<br />

inýchneurónov,niekedynanemalúvzdialenosť.Vneurónoch,ktorétvoria<br />

nervyspustenéodmiechykprstomnanohách,môžubyťaxónydlhéaž1<br />

meter.<br />

Dlhéaxónysúzvyčajnepokryté-plášťommyelin,nazývanýmajmy-<br />

elinovápošvaradomtučnýchbuniek.Tukovýobalizolujeaxónyniektorých<br />

nervovýchbuniekaurychľujeprocesimpluzov,vykonávajúpodobnúfunkciu<br />

akoizoláciaokoloelektrickéhodrôtu.<br />

Vukončeníaxónu,ktorýsanazývabouton,synaptickýuzol,alebopäta<br />

axónusaelektrochemickýsignál,ktorýprejdepocelejdĺžkeaxónuskonver-<br />

tujedochemickejsprávy,ktorápokračujedoďalšiehoneuŕonu.<br />

Medzizakončenímnervovéhovýbežkuadendridomďalšiehoneurónuje<br />

veľmitenkýotvornazývanýsynapsia(alebosynaptickýotvor,alebosynap-<br />

tickátrhlina).Každýneurónmáod1000do10000synapsií[28].<br />

1.10 Typyneurónovýchsietí<br />

Podľatopológiemôžemeneurónovésieterozdeliťna:<br />

•dopredné(feed-forwardneuralnetworks)<br />

•rekurentné(recurentneuralnetworks)


FEITUvKošiciach Listč.12<br />

Obr.5:Príkladbiologickéhoneurónu<br />

2 Doprednéneurónovésiete<br />

Pridoprednýchneurónovýchsieťiachsúneurónyjednejvrstvyspojenéibas<br />

neurónminasledujúcichvrstiev.Prirekurentnýchsieťachexistujúajspätné<br />

slučkyvrámcivrstievalinkysmerujúcezneurónuksebesamému.Re-<br />

kurentnésietemôžemenahradiťdoprednouneurónovousieťou,pričomna<br />

jejvstupprivádzameinformáciuohistóriisprávaniasasystému,t.j.časovo<br />

oneskorenévstupy,respektívevýstupysystému.Topológiatakejtosietesa<br />

označujeakočasovooneskorenádoprednáneurónovásieť(time-delayfeed-<br />

forwardneuralnetwork).Neurónovésietezískavajúznalostivofázeučenia.<br />

Podučenímneurónovejsieterozumiemecielenúzmenuichvnútornýchpara-<br />

metrov,ktorávediekpožadovanémusprávaniusasiete,alebokextrahovaniu<br />

informáciízponúknutýchdát.Učiacealgoritmyjemožnérozdeliťdonasle-<br />

dujúcichskupín:<br />

•kontrolovanéučenie(učeniesučiteľom-supervisedlearning)-pri<br />

tomtotypeučeniaučiteľposkytujeneurónovejsietiinformáciu,ako<br />

máreagovaťnaprichádzajúcevstupy.Metódakontrolovanéhoučenia


FEITUvKošiciach Listč.13<br />

súnapr.učenienazákladeopravychyby(errorcorrectionlearning),<br />

stochastickéučenie(stochasticlearning)aučenienazákladehodnotenia<br />

činnosti(reinforcementlearning).<br />

•nekontrolovanéučenie(učeniebezučiteľa-unsupervisedlearning)<br />

-vtomtoprípadeneurónovejsietiponúkameibavstupy,neurónová<br />

sieťvstupspracujeasamaurčujevýstupnazákladeurčitýchzákoni-<br />

tosti.Kmetódamnekontrolovanéhoučeniapatrínapr.Hebbovoučenie<br />

(Hebbianlearning),kooperačnéakonkurenčnéučenie(cooperativeand<br />

competitivelearning).<br />

2.1 Deltapravidlo<br />

Totopravidlopredstavujeveľmidôležitýpostupprivýpočtezmenysynap-<br />

tickýchváh(∆wij)[30].Lineárnaaktivačnáfunkciavneuróneiprejedno-<br />

vrstvovúsieťsMvstupnýmineurónmimátvar<br />

M<br />

xi= fi(ini) ini= wijxj+ θi<br />

j=1<br />

Chybovúfunkciu,ktorámácharakterfuncienajmenšíchštvorcovvyjad-<br />

rímetakto<br />

N<br />

J(t)= Ji(t)=<br />

i=1<br />

1<br />

N<br />

(evi(t) − xi(t))<br />

2 i=1<br />

2<br />

Toplatívprípade,ževýstupnáfunkciajeidentická(xi= outi),pričom<br />

evi(t)jeočakávaná, xi(t)vypočítanáhodnotana i-tomvýstupezneurónovej<br />

sieteaNjepočettýchtovýstupov.Metódanajmenšíchštvorcovleastmean<br />

square(LMS)hľadáhodnotyzmenysynaptickejváhypriminimalizáciitejto<br />

chybovejfunkcie.<br />

Zmenusynaptickejváhyvzávislostiodnegatívnejparciálnejderivácie<br />

chybovejfunkciepodľaváhyvyjadrímevzťahom<br />

∆wij(t)= −γ ∂J<br />

∂wij<br />

kde γjeučiaciparameter.Pravústranuvovzťahu6jemožnéupraviť<br />

(4)<br />

(5)<br />

(6)


FEITUvKošiciach Listč.14<br />

∂J(t)<br />

∂wij(t)<br />

= ∂J(t) ∂xi(t)<br />

∂xi(t)<br />

Prvýčlenpravejstrany(7)saďalejrovná<br />

∂J(t)<br />

∂wij(t)<br />

∂wij(t)<br />

(7)<br />

= −(evi(t) − xi(t)) (8)<br />

adruhýčlenvzťahu(7)nazákladevzťahu(4)sarovná<br />

∂xi(t)<br />

∂wij(t)<br />

= xj(t) (9)<br />

Ak-(evi(t)-xi(t)))označímeako δi(t),takvýslednývzorecprevýpočet<br />

zmenypriľubovoľnomvstupemátvar<br />

∆wij= γδi(t)xj(t) (10)<br />

Taktovypočítanázmenasynaptickejváhypodľadeltapravidladalazá-<br />

kladjehoďalšímmodifikáciám,čoprispelokjehorozšíreniuaaplikáciipri<br />

určeníneurónovýchsietí.Signál δ(t)nazývamechybovýmsignálom.<br />

2.2 Metódaspätnéhošíreniachyby(backpropagation<br />

oferror)<br />

Deltapravidlojezákladomučeniasospätnýmšírenímchybyaumožňuje<br />

použitieľubovoľnejaktivačnejfunkcief ajnelineárnehotypu,ktoráspĺňa<br />

podmienkudiferencovateľnosti<br />

x=f(in) = in (11)<br />

Priurčovanízmiensynaptickýchváhbudepostupanalogickýakoprizá-<br />

kladnomdeltapravidlezapodmienky,žefunkcianiejelineárnaajediferen-<br />

covateľná.<br />

Stavneurónuipriľubovoľnomvstupedoneurónovejsietemátvar<br />

xi(t)=f(ini(t)) (12)


FEITUvKošiciach Listč.15<br />

kde<br />

M<br />

ini(t)= xj(t)wij(t)+θi<br />

j=1<br />

(13)<br />

Základnýmproblémomjestanoveniepríslušnéhochybovéhosignálu δipre<br />

každýneurón.Vedietokjednoduchémurekurzívnemuvzťahuprevýpočet<br />

jednotlivýchchybovýchsignálov δi,ktorépredstavujúspätnéšíreniechyby<br />

smeromodvýstupuneurónovejsiete.Keďže<br />

potom<br />

δi(t)=− ∂J(t)<br />

∂init<br />

δi(t)=− ∂J(t) ∂xi(t)<br />

∂xi(t) ∂ini(t)<br />

(14)<br />

(15)<br />

Najskôrsivyriešimedruhýčlenpravejstranyvzťahu(15)avzhľadomna<br />

vzťah(12)homôžemezapísaťtakto<br />

∂xi(t)<br />

∂ini(t) = f ′ (ini(t)) (16)<br />

Prevýpočetprvéhočlenapravejstranyrovnice(15)musímeuvažovaťdva<br />

prípady:<br />

•neurón ijevýstupnýmneurónom-vtedymáhľadanáparciálnaderi-<br />

váciatvar<br />

∂Ji(t)<br />

∂xi(t) =(evi(t) − xi(t)), (17)<br />

atýmmámechybovýsignál δi(t)nazákladerovníc(16)a(17)vyriešený<br />

vtvare<br />

δi(t)=(evi(t) − xi(t))f ′ (ini(t)) (18)


FEITUvKošiciach Listč.16<br />

•neurón iniejevýstupnýmneurónom-výpočetjezložitejšíapostupuje<br />

sanasledovne<br />

∂J(t)<br />

∂xi(t) =<br />

N<br />

h=1<br />

∂J(t) ∂inh(t)<br />

∂inh(t) ∂xi(t)<br />

(19)<br />

kdeNjepočetvýstupnýchneurónov,resp.početneurónovvovrstve<br />

napravoodvrstvy,vktorejjeneurón i.<br />

Chybovýsignál δh(t)súchybovýmisignálmiodneurónovzvýstupnej<br />

vrstvy,alebovrstvynapravoodnejawhi(t)súsynaptickéváhyod<br />

neurónu ikukaždémuzneurónovvnasledujúcejvrstve.<br />

2.3 Momentum<br />

Jeznáme,žepovrchniejesférický,atedaučeniemôžebyťcelkompomalé,<br />

pretožemieraučeniamusíbyťmalá.Jetokvôlitomu,abyzabrániladiver-<br />

genciipozdĺžprudkýchzakrivenýchsmerov.<br />

Obr.6:Príkladdivergencieneurónovejsiete<br />

JedenzospôsobovakotovyriešiťjepoužiťinverznýHessian(korelačnú<br />

maticuprelineárnesiete)akomaticuučiacehoučenia.Tovšakmôžebyť<br />

problematické,pretožeHessianmôžebyťveľkoumaticou,ktorújeťažkozme-<br />

niť.Previacvrstvovésiete,Hessianniejekonštanta(t.j.menísatakako<br />

sameniaváhy).PrepočítanieinverznéhoHessianuvkaždejiteráciibybolo<br />

neúmernenákladnéanieveľmivhodnépredodatočnépočítanie.Omnoho<br />

jednoduchšoumetódoujepoužitiepripočítaniačlenamomentum.


FEITUvKošiciach Listč.17<br />

w(t+1)=w(t) − µ ∂E<br />

+ β(w(t) − w(t −1)) (20)<br />

∂W<br />

kde w(t)jeváhaviterácii t.Inaknapísané<br />

∆w(t+1)=−µ ∂E<br />

+ β∆w(t) (21)<br />

∂W<br />

kde∆w(t)=w(t) −w(t −1).Tedaveľkosťzmenyváhyjepodielnegatív-<br />

nehogradientupluszmenapredchádzajúcejváhy.Parametermomentumsa<br />

označuje b,amusívyhovovaťpodmienke0


FEITUvKošiciach Listč.18<br />

Obr.7:SupportVectorMachines<br />

tried).Tietoparametresúaktualizovanépokaždomkrokuučeniatrénova-<br />

cíchdátT,podľarozdielumedzipožadovanýmiavýstupnýmihodnotami<br />

siete Yk − Mk(X;W):<br />

∆Wij= −η ∂E(W)<br />

Akjerozdiel<br />

∂Wij<br />

K<br />

= η (Yk − Mk(X;W))<br />

k=1<br />

∂Mk(X;W)<br />

∂Wij<br />

(22)<br />

ε(X)= <br />

|Yk − Mk(X;W)| (23)<br />

k<br />

dostatočnemalý,vzorka Xbudemaťzanedbateľnývplyvnatrénovacíproces.<br />

Vzorky,ktorésúblízkeokrajomrozhodovaniamôžuspôsobiťzávažnéchybya<br />

taksamusiapoužiťpriučení.Predkaždoutrénovacouepochousamôžeurčiť,<br />

ktorýmvektorombudeumožnené,abymalivplyvnatrénovaciuprocedúru.<br />

Vektory,prektoréplatí ε(X) > εminbudúzahrnutédoaktuálnejtrénovacej<br />

množinyapoužitévnasledujúcejepoche,inévektorynemajúžiadnušancu<br />

ovplyvňovaťďalšípriebehučenia.Početvektorovvybranýchpreučeniezávisí<br />

kritickynaprahu εmin.<br />

Vprvejtrénovacejepoche εmin =0súpoužitévšetkyučiacevektory.<br />

Rôzneprístupynavrhujúmeniťtentoparameterlentýmsmerom,ktorývedie<br />

kúspešnémukoncuučenia.Vnajjednoduchšomprípadesaparameter εmin


FEITUvKošiciach Listč.19<br />

pokaždejepochezvýšio∆ε=0.01.<br />

Stúpanie εminbymaloviesťkdynamickejredukciipočtuvektorov,kým<br />

neostanúlenpodpornévektorypotrebnénarozhodovanieblízkopriokra-<br />

joch.No,priveľkézvyšovanietejtohodnotybyodstránilodôležitépodporné<br />

vektoryapresnosťsatýmzníži.Keďženiejezaručené,žekonvergenciabude<br />

monotónna,budenutnéustúpiťaznížiťprah εmin.<br />

Početsúčasnevybranýchpodpornýchvektorovjecitlivýindikátor.Aksa<br />

tentopočetponasledujúcomvýberezvýšiviacakoo5%zaktuálnehopočtu<br />

vektorov,tak εminsamusízvýšiť,kýmsaučiaciprocesnestabilizuje.<br />

Vychádzamezoskutočnosti,že<br />

σ(W.X − θ)=σ(β(W ′ .X − σ ′ )), (24)<br />

β= ||W ||,W ′ = W/||W ||aθ ′ = θ/||W || (25)<br />

Sieťsistanovíostrejšiurozhodovaciuhranicu,odstránipodpornévektory,<br />

ktorémajú ε(X) > εmin;.<br />

AlgoritmusSupportVectorNeuralTraining(SVNT):<br />

1.inicializáciavšetkýchparametrovsiete W (váhyinicializujnáhodnez<br />

intervalu < −1;1 >),∆ε, εmin = 0,množina SV = T (trénovacia<br />

množina).<br />

Pokiaľneboladosiahnutáposlednáiteráciavykonaj:<br />

2.spusťfeedforwardkrokna Taurčiveľkosťchybykaždéhovektora<br />

3.vezmivšetky SV taképrektoréplatí SV= {X ∈ T |ε(X) > εmin}.<br />

4.aksapočetvektorov |SV |neznížioviacako0.05 ∗ |SV |,<br />

εmin= εmin+∆ε<br />

inak<br />

εmin= εmin −∆ε<br />

∆ε=∆ε/1.2


FEITUvKošiciach Listč.20<br />

5.optimalizujparametresietenavšetkýchvektorochzmnožiny SV<br />

Strednákvadratickáchybabymalavždybyťurčovanánacelejmnožine<br />

dát.Variantytohtoalgoritmumôžuzahrňovaťzmenyzákladnýchparamet-<br />

rov,viacdômyselnýchplánovnazmenyparametrov,napríkladnárastpočtu<br />

iterácií Noptmedzivýberompodpornýchvektorov,ktorémôžuurýchliťpri-<br />

bližovaniekukoncuučeniaamnohoiného.[47]<br />

3 Rekurentnéneurónovésiete<br />

Rekurentnáneurónovásieť(RCNN,RNN)prestavujedynamickyzložitejší<br />

systémdoprednejneurónovejsiete(FFNN).RNNjetakásieť,ktorejpod-<br />

množinaneurónov(rekurentnýchneurónov)uchovávainformáciuosvojich<br />

aktivitáchzpredošlýchstavov.Doprednáneurónovásieťmáširoképoužite.<br />

Zichvlastnostívšakvyplýva,ženiesúschopnériešiťúlohysčasovousú-<br />

vislosťou.ProblémompriRCNNjeichglobálnastabilitaakonvergencia.O<br />

výstupezneurónunerozhodujelenmomentálnyvstupvčase t,aleajvstupy<br />

zminulosti.Učiacealgoritmymusiatútoskutočnosťbraťdoúvahy.Signálv<br />

FFNNješírenýibajednýmsmerom-dopredu.Sieťniejeschopnápracovať<br />

shistóriou,vdátachnevierozoznaťčasovúzávislosť.AbyFFNNdokázala<br />

zachytiťtútočasovúzávislosť,jepotrebnéjumierneupraviť.Rekurentné<br />

sietesúvšakschopnévytvoriťsistavovúreprezentáciučasovéhokontextu,<br />

apretojevýhodnejšiepoužiťichvúlohách,kdekladiemedôraznačasovú<br />

zložkuukrytúvdátach.Uplatnenierekurentnýchneurónovýchsietímôžeme<br />

rozdeliťdotrochkategórií:<br />

•klasifikačné-asociačnéúlohysčasovouzávislosťou-sieťmusírozhod-<br />

núť,čidanápostupnosťvstupovpatrídonejakejtriedy.<br />

•predikčnéúlohy-vdanejštruktúrečasovozávislýchdátmálneurónová<br />

sieťnájsťzávislosťmedzidátamianazákladečasovéhoúsekuurčiť<br />

hodnotuvnasledujúcomčase.


FEITUvKošiciach Listč.21<br />

•generatívneúlohy-zložitejšiaverziapredikcie,kdesieťnazákladepozo-<br />

rovaniaúsekudátmusívedieťpokračovaťvčasovomradedátvzhľadom<br />

nazákladnútendenciudát,skrytúvdanejpostupnosti.<br />

Rekurentnéneurónovésiete(RNNs)sapoužívajúnapredikciuvektorov<br />

vrámcoch<strong>reči</strong>[4].<br />

Ľudskýmozogjetiežrekurentnáneurónovásieť-sieťneurónovsospät-<br />

nýmispojeniami.Rekurentné,podobneajdoprednéneurónovésietesúbiolo-<br />

gickyviachodnovernéavýpočtovoviacvýkonnénežďalšieadaptívnemodely<br />

akoSkrytéMarkovovemodely(HMM),doprednéneurónovésieteaSu-<br />

portVectorMachines(SVM).Vprincípemôžurekurentnéneurónové<br />

sieteimplementovaťtakmerľubovoľnésekvenčnésprávanie,rozpoznávanie<br />

<strong>reči</strong>,kompozíciuhudby,amnohéďalšieaplikácie[32].<br />

3.1 LSTMrekurentnáneurónovásieť<br />

Rekurentnéneurónovésietesazdajúbyťnajsľubnejšímineurónovýmisieťami<br />

preautomatickérozpoznávanie<strong>reči</strong>.NarozdielodinýchNNsmajúRNNs<br />

potenciálnaučiťsadynamickýmodelzosegmentáciefoném[13].<br />

LongShort-Termmemory(LSTM)saučígenerovaťpresnenelineárne<br />

prvkynadširokýmokruhomfrekvencií,apretojeschopnáriešiťajprob-<br />

lém,ktorýštandardnéRNNsnedokážuatokvôlistrácajúcemusaproblému<br />

gradientu[10].<br />

AplikáciaLSTMprirozpoznávaní<strong>reči</strong>jepomernejednoduchá.PrváLSTM<br />

sieťmapujekaždýrámecakustickéhorečovéhosignáludosúborucieľových<br />

foném.Nato,jepotrebnýkorpussoznačenýmifonémami.Hlavnouvýzvou<br />

preprvúsieťjevybudovaťjednoduchúreprezentáciuštruktúrufonémy,takže<br />

satodotýkaefektov,akosúčasovézarovnanieakoartikulácia.DruháLSTM<br />

sieťsapotomtrénujenapredikciusekvenciíslovzosekvenciefonémvyge-<br />

nerovanýchprvousieťous<strong>použitím</strong>trénovacíchdát.Primárnymcieľompre<br />

tútodruhúsieťjeextrahovaťgramatikufonémdoslovzhlučnéhoprostre-<br />

dia.Abysatátoúlohazjednodušila,natrénovanieNNsúpoužitésekvencie<br />

foném,ktorésúbezšumu.


FEITUvKošiciach Listč.22<br />

NedávneexperimentysLSTMpriadaptáciirečníkapoukazujúnato,<br />

žeopätovnétrénovaniejerýchleaefektívnenamalomkorpuse,ataktiežže<br />

výsledkyzpredchádzajúcehoučeniaazovšeobecneniesazlepšujúspodporou<br />

náhodnéhovybratiapodmnožinyzdát[12].<br />

Vrekurentnýchneurónovýchsieťachjeinformáciauloženávdvochod-<br />

lišnýchcestách.Aktiváciejednotieksúfunkciezposlednejhistóriemodelu.<br />

Váhysúmodifikovanénazákladeskúsenosti,avšakčasovámieraváhysa<br />

meníomnohopomalšienežtenodaktivácie.Tietováhysanazývajúkrát-<br />

kodobápamäť.ModelLSTMjepokusumožniťaktiváciejednotkytak,aby<br />

uložilidôležitéinformácienadčonajdlhšoučasovouperiódouod10do12<br />

časovýchkrokov.<br />

Obr.8:LSTMsieť<br />

Obr.9znázorňujejednoduchúLSTMsieťsjednýmvstupom,jedným<br />

výstupom,ajednýmpamäťovýmblokomnamiesteskrytéhobloku.Každý<br />

blokmádveasociačnévstupnéjednotky.Každávrstvamôžemaťsamozrejme<br />

viacnásobnéjednotkyalebobloky.Vklasickejkonfiguráciijeprvávrstva<br />

zostavenázovstupovdoblokovabrán.Potomsútamrekurentnéspojenia<br />

zjednéhoblokudoďalšíchblokovataktieždobrán.Nakoniecsútamváhy<br />

zblokovdovýstupu.<br />

Skrytéjednotkyztradičnejrekurentnejneurónovejsietesúnahradené<br />

pamäťovýmiblokmi,každáznichobsahujejedenaleboviacpamäťovýchbu-<br />

niek.Bunkajejednoduchálineárnajednotkasjednoduchýmsamo-rekurentným<br />

spojenímsváhounastavenouna1.0.Totospojenieslúžinauloženieaktuál-


FEITUvKošiciach Listč.23<br />

Obr.9:LSTMsieťpodrobnejšie<br />

nehostavuzjednéhomomentudodruhého.Okremtohovsamo-rekurentných<br />

spojeniach,bunkydostávajúvstupzovstupnýchjednotiek,ďalšíchbunieka<br />

brán.Bunkysúzodpovednézaudržiavanieinformáciepočasdlhejčasovej<br />

periódy.<br />

Vstupdojednotkysaodovzdávaceznelineárnufunkciu g(x),čojetypická<br />

logickáfunkcianormovanánainterval .Výsledokjenásobenývýstu-<br />

pomzovstupnejjednotky.Aktiváciazbránysapohybujevrozmedzí ,<br />

takžeakjeaktiváciablízkonuly.Ničnemôževstúpiťdobunky.Akvstupná<br />

bránajedostatočneaktívna,signálmôževstúpiť.Podobne,ničnevystúpiz<br />

bunkypokiaľniejeaktívnavýstupnábrána.Aksazachovástavvnútornej


FEITUvKošiciach Listč.24<br />

bunkyvlineárnejjednotke,jehoaktivačnýokruhjenekonečný,takževýstup<br />

zbunkyjeopäťstlačený,akonáhlejevypustený.Bránysúsamoosebenič<br />

viacnežbežnéjednotkysosigmoidálnymiaktivačnýmifunkciamiškálované<br />

vrozmedzí ,akaždáznichdostanevstupzovstupnýchjednotieksiete<br />

azďalšíchbuniek.<br />

Výstupbunkytedaje:<br />

y cj out<br />

(t)=y j (t)h(scj (t)) (26)<br />

kde y out<br />

j (t)jeaktiváciazvýstupnejbrányastav, scj (t)jedaný<br />

kdepre tplatí t >0.<br />

scj (0)=0, (27)<br />

scj (t)=scj (t −1)+yin j(t)g(netcj (t)) (28)<br />

Vstupnébránytedarozhodnú,čouložiť.Bunkaukladáinformáciuavý-<br />

stupnábránarozhodneotom,ktoráinformáciabudeaplikovaná.Vďakatomu<br />

samôžuhlavnéudalostizapamätaťpočasľubovoľnejčasovejperiódy.Zapo-<br />

mociniekoľkýchtakýchtopamäťovýchblokovmôžesieťefektívneobsluhovať<br />

udalostiprirozličnýchčasovýchmierkach[9].<br />

3.1.1 VýhodyLSTM<br />

•Rekurentnéneurónovésietesaučiarýchlejšie-ajprihľadanínáhodných<br />

váh<br />

•lepšiageneralizácia<br />

3.2 BidirectionalLSTM(BLSTM)<br />

VýstupzklasickejRNNsjezaloženýnaúplnejhistóriipredchádzajúcichvstu-<br />

pov.Avšak,existujemnožstvosekvenčnýchúloh,kdesúužitočnéajďalšie<br />

vstupy.Jetokvôlitomu,žeexistujúreverznékorelácie.Napríkladv<strong>reči</strong>,


FEITUvKošiciach Listč.25<br />

artikulačnýsystémsipripravujebudúceprejavy.Riešeniespočívavoboj-<br />

smernomtrénovaní.Vstupjezobrazovanýdopreduadozaduvdvochodliš-<br />

nýchneurónovýchsieťach,zktorýchsúspojenédorovnakejvýstupnejvrstvy.<br />

Podľatejtometódy,môžubyťchybyzavedenéakonormálneaspätnešírené<br />

cezsiete.SúčasnévýsledkysBLSTMukazujú,žetátometódaprekonáva<br />

klasickúLSTMakoajSVM[11].<br />

3.3 SpikingNeuralNetworks(SNNs)<br />

SNNsúodlišnéod„štandardnýchneurónovýchsietí.Simulátoryneuróno-<br />

výchsietí,funkciemozgu,majúmnožstvodetailov.Pretojeveľmizložité<br />

vybraťtie,ktorébudúneskôružitočné.Jedenzdetailovjeveľmiprirodzený,<br />

atosíceten,ženeurónposiela„lektrochemickýsignálinémuneurónu.Väč-<br />

šinazosimuláciídnešnýchneurónovýchsietívie:<br />

•využívaťnejakúmetódusynchronizácie(rovnakoakotorobiaprocesory<br />

digitálnehopočítača),ktoréšpecifikujúmomenty,vktorýchmôžubyť<br />

poslanésignálymedzineurónmi<br />

•akneurónchceposlaťsignálinémuneurónu,jehoamplitúdajekon-<br />

štantnápočascelého„životaneurónovejsiete [45].<br />

SNNsúsimulácieneurónovejsiete,ktorésapokúšajúvyužiťpresnejší<br />

„hrotový(spiking)modelzvýstupunervovýchsignálov.SNNssatiežna-<br />

zývajú„impulzovouneurónovousieťou(SNN).Medzipopulárnená-<br />

strojenasimuláciuSNNspatríamygdala.[46]<br />

SNNjevhodnejšiapreaplikácie,kdečasovanievstupnýchsignálovnesie<br />

dôležitúinformáciu(napr.rozpoznávanie<strong>reči</strong>aďalšieaplikáciesignálového<br />

spracovania).<br />

SNNssúbiologickyviacvhodnýmimodelmipretožepoužívajúnako-<br />

munikáciuimpulz(spike)[48].Oproti„klasickýmneurónovýmsietiamajú<br />

výhoduvtom,ženespotrebujútoľkozdrojov(akideoimplementáciuna<br />

hardveri).


FEITUvKošiciach Listč.26<br />

Vstupzkaždéhoneurónujeváženýšpičkami.Neurónyvovnútripou-<br />

žívajúLeaky Integrate-adn-Fire(LIF)membránovýmodeladvatypy<br />

synaptickýchmodelov:<br />

•Diracovimpulz<br />

•impulzexponenciálnehotypu.<br />

Vkaždomkrokusúdomembránypridanévšetkyaktívnevstupy.Keď<br />

napätiemembránydosiahnehodnotuprahu,zresetujesaavygenerujesa<br />

výstupnýimpulz.Membránasastanenecitlivounavstupzovšetkýchsynap-<br />

tickýchmodelov,čosanazývažiaruvzdornosť.VSNNssapracujesdvoma<br />

základnýmioperáciami,ktorýmisú:súčetarozdiel.<br />

Keďžeideo„veľkéneurónovésiete(10až1000neurónov),sčítavanie<br />

váhtvoríjednuzhlavnýchoperácii.Môžetobyťdosiahnutésériovoalebo<br />

paralelne:<br />

•Paralelnéspracovanie.Sčítavaniejevykonanéparalelneimplemen-<br />

tovanímanalógovejsčítačkyvhardvéri.<br />

•Sériové spracovania.Sčítavaniejeriešenésériovoprostredníctvom<br />

akumulátora.Spracovaniezmembrányasynaptickýchmodelovmôže<br />

byťtiežimplementovanévrovnakomakumulátore<strong>použitím</strong>mnohoná-<br />

sobnýchregistrov.<br />

Aritmetikapoužívanánapočítaniepotenciálumembrányzneurónovmá<br />

veľkývplyvnaveľkosťarýchlosťimplementácie.Ztohohľadiskasarozlišujú<br />

dvezákladnéaritmetiky:<br />

•Paralelnáaritmetika.Všetkyoperáciesúvykonanévmnohonásobnom<br />

vektore.Tátovoľbaposkytujerýchleoperácie,alezároveňzaberáviacej<br />

prostriedkov.<br />

•Sériováaritmetika.Veľkosťjeredukovaná,avšakrýchlosťklesá.<br />

Vzávislostinaimplementáciimôžeelementspracovaniapodporovaťzdie-<br />

ľaniečasuamôžetoposkytnúťviacnežjednémuneurónu.


FEITUvKošiciach Listč.27<br />

3.4 Elmanovéneurónovésiete(ENNs)<br />

Ideošpeciálnytypneurónovejsiete,ktorábolavytvorenášpeciálnepreroz-<br />

poznávanie<strong>reči</strong>.Jetodvojvrstvováneurónovásieť,vktorejdruhávrstvaje<br />

rekurentná.<br />

Výstupyzoskrytejvrstvy,ktorésúzachovanézpredchádzajúcehokroku<br />

sanazývajúkontextovéjednotky.VýstupyzENNssúfukciamipredchádza-<br />

júcehostavuadoterajšíchjednotiek.Toznamená,žekeďsasieťjavíako<br />

sústavajednotiek,môžesanaučiťodovzdaťvhodnévýstupyvzávislostiz<br />

predchádzajúcichstavovzosiete.<br />

VýhodaENNsvporovnanís„plnerekurentnýmineurónovýmisieťami<br />

jevtom,ženatrénovaniesietesapoužívametódabackpropagation,čonie<br />

jemožnévinýchRNN,vktorýchsútrénovaciealgoritmyomnohokomplex-<br />

nejšieatedaajpomalšie.[6]<br />

PrekaždéslovosapoužívasamostatnáENN.Funkcioukaždejsieteje<br />

rozpoznaťibaurčenéslovoazamietnuťďalšieslová.Kvôlitomujetrénovanie<br />

rozdelenédodvochkrokov:<br />

•postupnétrénovanie<br />

•selektívnetrénovanie<br />

Klasifikáciaslovsinouvýslovnosťu,nežmápriradenéslovo,jezaloženána<br />

porovnávanívýstupnéhosklonu ssminimálnymsklonom smmedzisklonmi<br />

dosiahnutýmizovšetkýchvýslovnostizpriradenéhoslova.<br />

•Ak s > sm,potomtovediekchybeklasifikácie<br />

•Ak s < sm,potomnenastanechybaklasifikácie<br />

Akchybaklasifikáciejeväčšiaakozvolenýprah,sieťjepretrénovaná<br />

podľa„najväčšiehovinníka(slovo,ktoréskončilovnajväčšomsklone)a<br />

podľadvochnáhodnevybratýchvýslovnostijjj.<br />

<strong>Rozpoznávanie</strong>fonémuENNsjespravidlaimplementované<strong>použitím</strong>pre-<br />

dikčnejchybyakomeradladeformácievoViterbihoalgoritme.Pripoužití


FEITUvKošiciach Listč.28<br />

ANNako„prediktora,ANNmapujeposlednévektorypozorovaniadopre-<br />

dikovanéhovektorapozorovania,avoViterbihodekódovanísapoužijetáto<br />

chybapredikovania.TedanazákladetohojemožnépoužiťRNNsakopredik-<br />

toryrámcov<strong>reči</strong>.RNNsdovoľujúzahrnúťsúvisiacuinformáciuoposledných<br />

rámcochvtvarezpredchádzajúcichstavovskrytejvrstvyvrekurentných<br />

spojeniach.<br />

Obr.10:ArchitektúraElmanovejrekurentnejsiete<br />

Naobrázku10jemožnévidieťzákladnúarchitektúruENN,kde Si(t)<br />

predstavujestavyzovstupnejvrstvy, Sh(t)stavyzoskrytejvrstvyaSo(t)<br />

stavyzvýstupnejvrstvy.<br />

Prekaždúfonémuzdatabázysapoužívajednaneurónovásieť,ktorá<br />

predikujeaktuálnyrámec<strong>reči</strong>nazákladeposlednýchrámcov<strong>reči</strong>.Spravidla<br />

savyberajúdvaposlednévektorypozorovania(x(t −1)ax(t −2))akovstup<br />

doNNtak,abypredikovalivektorpozorovania x(t −2).Natrénovaniesa<br />

používametódabackpropagation(??)zaúčelomminimalizovaťpredikčnú<br />

chybudanúvzťahom<br />

T<br />

E= (x(t) − xi(t))<br />

t=1<br />

2<br />

(29)


FEITUvKošiciach Listč.29<br />

kde T jepočetvektorovpozorovaniavhodnýchpretrénovanie, x(t)je<br />

vektorpozorovaniaaxi(t)jepredikovanývektorpozorovania.Jednouzne-<br />

výhodENNsje,žeakjesieťprepožadovanúúlohuprílišveľká,alebotréno-<br />

vaciadatabázajeprílišmalá,neurónysamôžustaťneaktívnealebosazle<br />

natrénovať.Spravidlasapoužívasigmoidálnaaktivačnáfunkciapreskrytú<br />

vrstvualineárnaaktivačnáfunkciaprevýstupnúvrstvu.<br />

3.5 Neurónovásieťsechostavmi(ESN)<br />

Zaistýchpodmienokjestavrekurentnejsietefunkciouhistórievstupov,teda<br />

môžebyťchápanýakoozvena(echo)tejtohistórie.Odtiaľpravdepodobne<br />

pochádzapomenovanietejtoarchitektúry[2].NajjednoduchšiaverziaESN<br />

jetakmerzhodnásSRN.<br />

Obr.11:Neurónovásieťsechostavmi.Čiarkovanéspojeniasapritrénovaní<br />

modifikujú.<br />

Oprotinejmávšaknavyšeajspojeniazovstupnejdovýstupnejvrstvy.<br />

Zložitejšieverziemôžuobsahovaťspätnoväzobné spojenia,tedaoneskorené<br />

rekurentnéspojeniazvýstupnejvrstvydostavovej,prípadnelaterálne,teda<br />

oneskorenérekurentnéspojeniamedzineurónmivýstupnejvrstvy.Podstat-<br />

nouzmenouuESNje,žepritrénovanísaupravujúibaváhyvýstupnejvrstvy.<br />

Totoznačnezjednodušujeprocestrénovania.Pojemechostatevlastnosťza-<br />

viedolJaeger[3].


FEITUvKošiciach Listč.30<br />

4 <strong>Rozpoznávanie</strong><strong>reči</strong><br />

4.1 Súčasnýstavvosvete<br />

Čojenajmodernejšievrozpoznávaní<strong>reči</strong>?Odpoveďnatútootázkujeveľmi<br />

zložitáotázka,pretožepresnosťrozpoznávaniazávisíodpodmienok,prikto-<br />

rýchjerozpoznávanievykonávané.Takmerkaždýsystémdosiahne,zadosta-<br />

točnepresnýchpodmienok,prenosťpodobnúčloveku.Omnohozložitejšieje<br />

všakdosiahnuťspoľahlivévýsledkyzabežnýchpodmienok.<br />

Podmienkyvyhodnoteniaaztohodôvoduajpresnosťsystémusamôže<br />

zmeniťpodľanasledujúcichdimenzií:<br />

•Veľkosť slovníka.Zabežnýchpodmienok,jejednoduchérozlišovať<br />

medzimalouskupinouslov,avšakchybovosťsazvyšujenarastaním<br />

veľkostislovníka.Napríklad,10číslicod0do9jevpodstatemožno<br />

rozpoznaťperfektne[16],avšakprislovníkochoveľkosti200,5000alebo<br />

10000slovmôžechybovosťnarásťo3%,7%,45%[19,20].<br />

•Závislosť,nezávislosťodrečníka.Jeveľmizložitédosiahnuťnezá-<br />

vislosťodrečníkapretožesystemovéparametresúladenénarečníka<br />

aleborečníkov,sktorým(ktorými)prebehlotrénovanie.Tietopara-<br />

metremajúsklonkvysokejzávislostiodrečníka.Chybovosťjezvyčajne<br />

3až5krátvyššiaprerečnikovonezávislésystémyakoprerečnikovo<br />

závislésystémy[21].<br />

•Izolovaná, nespojitá alebo spojitá reč.Izolovaná reč znamená<br />

jednoslovo;Diskrétna(spojitá)rečznamenácelévety,vktorýchkaždé<br />

slovojeumelooddelenétichom.Kontinuálnareč označujeprirodzene<br />

hovorenévety.Izolovanáanespojitárečjepomernejednoduchápretože<br />

hraniceslovsúdetekovanéaslováinklinujúkčistejvýslovnosti.Spojitá<br />

rečjeomnohozložitejšiapretožehraniceslovsúnejasnéaichvýslovnosť<br />

jeviacnarušenámedzislovnouamedzivetnoukoartikuláciou.<br />

•ÚlohaajazykovéobmedzeniaObmedzeniamôžubyť:


FEITUvKošiciach Listč.31<br />

–Závisléodúlohy.Napr.priotázkachnaairolinkáchjemožné<br />

zamietnuťhypotézu„Jablkoječervené.<br />

–Sémantické.Príkladzamietnutia:„Jablkoječervené.<br />

–Syntaktické.Príkladzamietnutia:„Jazeleninuaľúbimovocie.<br />

Obmedzeniasúčastoreprezentovanégramatikou,ktoráideálne<br />

filtrujenezrozumiteľnévety,takžerozpoznávač<strong>reči</strong>vyhodnocuje<br />

ibahodnovernévety.<br />

•Čítanie verzus spontánna reč.Systémmôžebyťvyhodnotenýz<br />

<strong>reči</strong>,ktorájebuďčítanázpripravenýchskriptov,aleboz<strong>reči</strong>,ktorá<br />

jespontánnevyslovovaná.Spontánnarečjenesmiernezložitá,pretože<br />

máobsahovaťnerečovézvuky,akokoktanie,kašľanie,smiechataktiež<br />

slovnázásobajeneobmedzená,takžesystémmusíbyťschopnýinteli-<br />

gentnepracovaťsneznámymislovami(t.j.detekovanieaindikáciajej<br />

výskytuapridaniedoslovníka,čomôžepožadovaťďalšiuinterakcius<br />

užívateľom).<br />

•Nepriaznivépodmienky.Výkonsystémumôžebyťtieždegradovaný<br />

rozsahomnepriaznivýchpodmienok[17].Tiezahrňujúrušenieprostre-<br />

dia(napr.hlukvautealebozávod),akustickédeformácie(napr.oz-<br />

vena,akustikamiestnosti),rozličnémikrofóny(napr.telefón),obme-<br />

dzenéfrekvenčnépásmo(vdosahutelefónu)astriedavéchovanie(krik,<br />

rýchlerozprávanie,atď.).<br />

Hlavnáotázkaprirozpoznávaní<strong>reči</strong>jejednaniespremenlivosťou.Vsú-<br />

časnosti,systémyrozpoznávaniarozlišujúdvadruhypremenlivosti:<br />

•akustická<br />

•časová.<br />

Akustickápremenlivosťzahrňujerozličnéakcenty,výslovnosti,kolísania,<br />

hlasitostiatakďalej.Pričasovejpremenlivosťdochádzakukrátkodobýmale<br />

ajdlhodobejšímzmenámarozdielomvtempeavrytme<strong>reči</strong>.[1]


FEITUvKošiciach Listč.32<br />

Ztýchtodvochdimenziíjejednoduchšiedosiahnuťdočasnúvariabilitu.V<br />

počiatočnýchvýskumochboladočasnávariabilitalineárnerozširovanáalebo<br />

obmedzovaná(„deformovanie).Lineárnedeformovaniesaukázalonedosta-<br />

točnénakoľkosaprejavmôžezrýchľovaťalebospomaľovaťvľubovoľnom<br />

čase.Nariešenietohtoproblémubolčoskoronavrhnutýefektívnyalgoritmus<br />

známyakoDynamicTimeWarping.Tentoalgoritmusje(vurčitejforme)<br />

praktickypoužívanývkaždomsystémenarozpoznávanie<strong>reči</strong>aproblémdo-<br />

časnejvariabilityjezveľkejčastipovažovanýzavyriešený.<br />

Akustickávariabilitajeomnohozložitejšiapremodelovanie,čiastočne<br />

preto,žejevprírodeheterogénna.Vdôsledkutohosavýskumvrozpoznávaní<br />

<strong>reči</strong>väčšinouzameriavalnaúsiliemodelovaťakustickúvariabilitu.Posledné<br />

výskumyvrozpoznávaní<strong>reči</strong>spadajúdotrochhlavnýchkategórii:<br />

•Vzorovo-založenémetódy.Vtýchtometódachjeneznámarečpo-<br />

rovnávanávočimnožinepredznačenýchslov(vzory),zaúčelomnájsť<br />

najlepšiuzhodu.Totomávýhoduodpoužitiaperfektných,precíznych<br />

slovnýchmodelov.Mátovšaktiežnevýhodu,žepredznačenévzorysú<br />

fixné,takžezmenav<strong>reči</strong>môžebyťmodelovanáiba<strong>použitím</strong>mnohých<br />

vzorovpreslovo,čosanapokonstávanepraktické.<br />

•Znalostne-založenémetódy.Vtýchtometódachsúznalosti„experta<br />

ozmenáchv<strong>reči</strong>zakódovanédosystému.Tojevýhodaodexplicitného<br />

modelovaniazmienv<strong>reči</strong>,aležiaľtakétoznalostijezložitédosiahnuťa<br />

úspešnepoužiť.Takžetátometódabolaposúdenázanepraktickú,ale<br />

napriektomubolihľadanéautomatickéučiaceprocedúry.<br />

•Štatisticky-založenémetódy.Zmenyv<strong>reči</strong>súmodelovéštatisticky<br />

(napr.SkrytéMarkovémodely(HMMs)s),s<strong>použitím</strong>automatických<br />

učiacichprocedúr.Tátometódareprezentujesúčasnenajmodernejší<br />

stav.Hlavnánevýhodaštatistickýchmodelovje,žemusiavytvoriťmo-<br />

delovaciepredpoklady,ktorésúnáchylnébyťnepresnými,poškodené<br />

výkonomsystému.Neurónovésietevšakpomáhajúobíjsťtento<br />

problém.


FEITUvKošiciach Listč.33<br />

4.2 Metódyrozpoznávania<strong>reči</strong><br />

4.2.1 Skrytémodely(HMMs)<br />

Modernéuniverzálnerozpoznávaciesystémysúzaloženénaskrytýchmar-<br />

kovýchmodeloch(HMMS).Ideoštatistickúmetódu,ktorejvýstupomje<br />

sekvenciasymbolov.<br />

JednazmožnýchpríčinprečosúHMMspoužitéprirozpoznávanírečí<br />

jeten,žesignál<strong>reči</strong>jemožnévidieťakokrátkodobýnemennýsignál.Tento<br />

signáljemožnépredvídaťvrozsahunapr.10milisekúnd.Rečmôžebyťap-<br />

roximovanáako„nehybnýproces.<br />

Ďalšiapríčina,prečosúHMMspopulárneje,žemôžubyťtrénovanéau-<br />

tomatickyasújednoduchoavýpočtovoreálneprepoužitie.<br />

4.2.2 Neurónovésiete(NN)<br />

Neurónovésietesúschopnériešiťomnohoviackomplikovanérozpoznávacie<br />

úlohy,alenevediasatakdobreprispôsobiťakoHMMspriveľkýslovníkoch.<br />

NiektorésystémymôžudosiahnuťväčšiupresnosťnežHMM.Prerozsiahlejší<br />

výskumsaneurónovésietepoužívajúprirozpoznávanífoném.Vsúčasnosti<br />

jetoaktívnepoleprevýskumavšeobecnedosahujúlepšievýsledkynež<br />

HMMs.TaktiežexistujúNN-HMMhybridnésystémy,ktorépoužívajúne-<br />

urónovésiete,akočasťprerozpoznávaniefonémaskrytémarkovémodely<br />

akomodelovaciučasťpremodelovaniejazyka.<br />

4.2.3 Dynamickéskresleniečasu(DTW)<br />

Dynamickéskresleniečasujealgoritmuspremeraniepodobnostimedzidvomi<br />

sekvenciami,ktorémôžubyťodlišnévčasearýchlosti.Napríklad,podobnosť<br />

chôdzebybolodetekované,ajkebyvjednomvideuosobakráčalapomaly<br />

avďalšombysapohybovalarýchlejšie,aleboajkebypripozorovaníbolo<br />

urýchlenieaspomaľovanie.DTWboloaplikovanénavideo,audio,grafiku.<br />

Akékoľvekdáta,ktorésamôžumeniťdolineárnejreprezentáciemôžubyť<br />

analyzovanésDTW[33].Vovšeobecnostiideometódu,ktoráumožňuje


FEITUvKošiciach Listč.34<br />

počítačunájsťoptimálnuzhodumedzidvomasekvenciami(napr.časovýrad)<br />

surčitýmiobmedzeniami,napr.sekvenciesú„obaľovanénelineárne,abysa<br />

navzájomzhodovali.Tátosekvenčnenastavovaciametódasačastopoužíva<br />

vkontexteHMMs.<br />

4.2.4 StateTransitionMatrix(STM)<br />

Yang,EraGaoprezentovalinovústratégiupremetódureprezentácieprízna-<br />

kov.Veria,ženeurónovésietebudúschopnérealizovaťdostatočnérozpoz-<br />

návanie<strong>reči</strong>,aknebudúzaťažovanésdočasnýmiprechodnýmiproblémami.<br />

PretohlavnouúlohoupoužitiaSTMjeodvodiťstatickýmodel<strong>reči</strong>.STMje<br />

veľmijednoduchá,takžepotrebujeibajednovrstvovýperceptrón.Jetokvôli<br />

tomuabysatakdosiahlavysokápresnosť.<br />

STMdosahujevobochprípadoch(závislýchodrečníkaazávislýchod<br />

viacerorečníkov)vysokúpresnosť.Vtestochzávislýchodrečníkadosahuje<br />

priemernúpresnosťokolo95%,vtestochzávislýchodviacejrečníkovjeto<br />

okolo87%.[49]


FEITUvKošiciach Listč.35<br />

4.3 Softwareprerozpoznávanie<strong>reči</strong><br />

4.3.1 Voľnýsoftvér<br />

•XvoiceXvoicejespojitýrozpoznávač<strong>reči</strong>,ktorýjemožnépoužiťsroz-<br />

ličnýmioknovýmiaplikáciami.Xvoicepožadujestiahnuťanainštalovať<br />

IBMViaVoicepreLinux.Xvoiceumožňujespojiténahrávanieakon-<br />

trolu<strong>reči</strong>preväčšinuXaplikácii[34].<br />

•OpenMindSpeechTentoprojektbolodštartovanývroku1999.Nie-<br />

koľkokrátsavšakzmenil.VolalsaVoiceControl,neskôrSpeechInput,<br />

potomFreeSpeechadnesjesúčasťouOpenMindInitiative.Jeto<br />

otvorenýprojekt,primárneurčenýprevývojárov[35].<br />

•CMUSphinxSphinxoriginálnezačalnaCMUanedávnovyšielako<br />

opensource.Ideopomerneveľkýprogram,ktorýzahrňujemnožstvo<br />

nástrojovainformácii.Jestálevovývoji.Zahrňujevšaktrénovače,<br />

rozpoznávače,akustickémodely,jazykovémodelyadokumentáciu[36].<br />

•NicoANNTookit.Niconástrojjetookit,ktorýpoužívaneurónové<br />

sieteoptimalizovanépreaplikácieurčenénarozpoznávaniehlasu.Pri-<br />

márnejeurčenýprevývojárov[37].<br />

•MayerHiddenMarkovModelSoftware.Tentosoftwarejevytvorený<br />

RichardomMayeromaobsahujeHMMalgoritmus,ktorýnapísanýv<br />

jazykuC++.PoskytujepríkladaučiacinástrojpreHMMmodelyopí-<br />

sanévKniheL.Rabinera:„Podstatarozpoznávania<strong>reči</strong>[38].<br />

•JialondSpeechRecognitionResearchTool.Napriektomu,žetentoná-<br />

strojneboloriginálnenapísanýpreLinux,jemožnéhopodnimskom-<br />

pilovať.Obsahujetrirozličnétypyrozpoznávačov:DTW,skrytéMar-<br />

kovovemodelyaspojitézaťaženieskrytéhoMarkovovhomodelu.Tento<br />

nástrojjeužitočnýprevýskumnéavývojárskepoužitiealeniejetoplne<br />

funkčnýsystémprerozpoznávanie<strong>reči</strong>.Obsahujevšakveľmiužitočné<br />

nástroje[39].


FEITUvKošiciach Listč.36<br />

•SprachSprachjeprojekt,ktorýreprezentujealgoritmyprerozpoznáva-<br />

nie<strong>reči</strong>.Ideohybridnýrozpoznávač<strong>reči</strong>,podporujúciangličtinu,fran-<br />

cúzštinu,portugalčinu.JedenzvýsledkovprojektuSprachbolaverzia<br />

programovýchprostriedkovprerozpoznávanie<strong>reči</strong>pomocouneuróno-<br />

výchsieti[5].<br />

4.3.2 Komerčnýsoftvér<br />

•IBMViaVoice.IchkomerčnýproduktIBMViaVoiceDictationpre<br />

Linuxjedostupnýnainternetovejadrese[40].Jehosystémovépožia-<br />

davkysúporovnateľnésďalšímizákladnýmisystémamiprerozpoz-<br />

návanie<strong>reči</strong>(64MRAMa233MHzPentium).Podporujeviacerých<br />

používateľov.Balíkobsahuje:dokumentáciu(PDF),trenóvač,dikto-<br />

vacísystém,inštalačnéskripty.ASRSDKjevoľnedostupnýazahrňuje<br />

IBMSMAPI,gramatikuAPI,dokumentáciu,amnožstvojednoduchých<br />

programov.ViaVoiceRunTimeKitposkytujeASR(automaticspe-<br />

echrecognition)prostriedokasúborúdajovprediktovaciefunkciea<br />

pomocnéprogramypreužívateľa.ViaVoiceCommandaControlRun<br />

TImeKitzahrňujeASRprostriedokasúborúdajovprepríkazyakon-<br />

trolnéfunkcieapomocnéprogramypreužívateľa.SDKaKitpožaduje<br />

128MRAMaLinuxsjadrom2.2alebonovším[40].<br />

•BabelTechnologies.Jetosystémnezávislýodrečníkov,založenýna<br />

HMMaumelýchneurónovýchsieťach.Tietotechnológiemajúmnož-<br />

stvoproduktovpreprevodtextudo<strong>reči</strong>,overovanierečníkaafonémovú<br />

analýzu[41].<br />

•Abbot/AbbotDemo.Ideosystémsveľkýmslovníkom,ktorýjenezá-<br />

vislýodrečníka.PôvodnebolvyvinutýskupinouConnectionistSpeech<br />

GroupnaUniverziteCambridge.Neskôrbolprepísaný(skomercializo-<br />

vaný)doSoftSound.AbbotDemojedemonštračnýbalíkAbbotu.Toto<br />

demomáslovníks5000slovamipoužívaalgoritmusHMM[42].


FEITUvKošiciach Listč.37<br />

5 Tézydizertačnejpráce<br />

Problematikaautomatickéhorozpoznávania<strong>reči</strong>predstavujemnožstvočias-<br />

tkovýchproblémov,úloh,riešeníaprístupov.Predmetomdizertačnejpráce<br />

bymalbyťnávrhmodelu,implementáciaaexperimentálneovereniesystému<br />

ARRnabázeneurónovejsiete,ktorýbudekombinácioudoprednýcha„me-<br />

taneurónovýchsietí.Vrámcitohopotenciálnymiprínosmiazatiaľtézami<br />

dizertačnejprácebude:<br />

•Návrhnovejmetódyrozpoznávaniafonémslovenskéhojazykapomocou<br />

doprednýchneurónovýchsietís<strong>použitím</strong>metóderrorofbackpropaga-<br />

tion,bpmomentumasupportvectormachinesaichporovnanie.<br />

•Návrhnových,efektívnejšíchmetódtrénovania(učenia)sohľadomna<br />

zvýšeniediskriminačnejschopnostineurónovejsieteafonetickúsadu<br />

zvukovslovenskéhojazyka<br />

•Návrhnovejmetódyrozpoznávaniaslovslovenskéhojazykapomocou<br />

„metaneurónovýchsietísvyužitímmetódpredoprednéneurónové<br />

siete.


FEITUvKošiciach Listč.38<br />

Zoznampoužitejliteratúry<br />

[1]Tebelskis.J.: Speechrecognitionusingneuralnetwork.PhDDissertation,<br />

carnegieMellonUniversity,1995.<br />

[2]Cernak.M.: Učenienesusednýchzávislostípomocourekurentnýchneuró-<br />

novýchsietí.Bratislava,2005.<br />

[3]Jaeger.H.: Shorttermmemoryinechostatenetworks.TechnicalReport<br />

GMDReport152,GermanNationalResearchCenterforInformation<br />

Technology,2001.<br />

[4]Freitag,F.-Monte,E.: Acoustic-phoneticdecodingbasedonelmanpre-<br />

dictiveneuralnetworks.UniversitatPolitecnicadeCatalunya,Spain,<br />

2005.<br />

[5]Wernicke, TheSPRACHcoresoftwarepackage.,2006<br />

[6]Gers,Winston,R.-Choubassi,E.M.-Khoury,El.E.H.-Alagha,<br />

J.-Skaf,A.J.-AlA.M.: ArabicSpeechRecognitionUsingRecurrent<br />

NeuralNetworks.,SignalProcessingandInformationTechnology,T2003.<br />

Proceedingsofthe3rdIEEEInternationalSymposiumonVolume,Issue,<br />

2003<br />

[7]Gers,Winston,R., Clovek.Ikar,2005<br />

[8]BoereeG.:Theneuron.GeneralPsychology,2003.Dostupnéna<br />

http,//www.ship.edu/cgboeree/theneuron.html<br />

[9]Cspeech LSTMnetwork.Dostupnéna<br />

http://cspeech.ucd.ie/fred/teaching/oldcourses/ann98/lstm.html<br />

[10]Gers,F.-Schraudolph,N.-Schmidhuber,J.: JournalofMachineLear-<br />

ningResearch.LearningprecisetimingwithLSTMrecurrentnetworks.<br />

pages115-143.(JMLR),2002<br />

[11]Graves,A.-Schmidhuber,J.: Framewisephonemeclassificationwith<br />

bidirectionallstmnetworks.InInternationalJointConferenceonNeural<br />

Networks,July-August,2005


FEITUvKošiciach Listč.39<br />

[12]Beringer,N.-Graves,A.-Schile,F.-Schmidhuber,J., Classifying<br />

unpromtedspeechbyretrainingLSTMNets,Switzerland,Germany,<br />

[13]Eck,D.-Graves,A.-Schmidhuber,J.: Anewapproachtocontinu-<br />

ousspeechrecognitionusingLSTMrecurrentneuralnetworks,Technical<br />

ReportNo.IDSIA-14-03,July2003<br />

[14]Anik,K.-JianchangMaoJ.-MohiuddinK.M.: Artificialneuralne-<br />

tworks.IBMAlmadenResearchCenter,1996<br />

[15]Furui,S.: TowardsRobustSpeechRecognitionUnderAdverseConditi-<br />

ons.InProc.oftheESCAWorkshoponSpeechProcessingandAdverse<br />

Conditions,pp.pages31-41,Cannes-Mandelieu,France,1993<br />

[16]Doddington: PhoneticallySensitiveDiscriminantsforImprovedSpeech<br />

Recognition.Proc.IEEEInternatonalConferenceonAcoustics,Speech,<br />

andSignalProcessing,1989<br />

[17]Furui,S.: TowardsRobustSpeechRecognitionUnderAdverseConditi-<br />

ons.InProc.oftheESCAWorkshoponSpeechProcessingandAdverse<br />

Conditions,pp.31-41,Cannes-Mandelieu,France,1993<br />

[18]HopfieldJ.: NeuralNetworksandPhysicalSystemswithEmergentCol-<br />

lectiveComputationalAbilities.InProc.Nat‘lAcademyofSciences,USA<br />

79,pp.2,554-2,558,1982<br />

[19]Itakura,F.: MinimumPredictionResidualPrincipleAppliedtoSpeech<br />

Recognition.InIEEETrans.onAcoustics,Speech,andSignalProcessing,<br />

23(1),67-72,February1975.ReprintedinWaibelandLee,1990<br />

[20]Kimura,S.: 100,000-WordRecognitionUsingAcoustic-SegmentNe-<br />

tworks.InIEEEInternatonalConferenceonAcoustics,Speech,andSig-<br />

nalProcessing,1999<br />

[21]Lee,K.F.: LargeVocabularySpeaker-IndependentContinuousSpeech<br />

Recognition.,TheSPHINXSystem.PHDThesis,CarnegieMellonUni-<br />

versity,1988


FEITUvKošiciach Listč.40<br />

[22]Minsky,M.: Perceptorns,AnIntroductiontoComputationalGeometry.<br />

MITPress,Cambridge,Mass,1962<br />

[23]Rosenblatt,R.:PrinciplesofNeurodynamics,SpartanBooks.NewYork<br />

,1962<br />

[24]Rumelhart,E.D.-McClelland,L.J.: ParallelDistributedProcessing,<br />

ExplorationintheMicrostructureofCognition.MITPress,Cambridge,<br />

Mass,1986<br />

[25]WerbosP.: NewToolsforPredictionandAnalysisintheBehavioral<br />

Sciences.PhDthesis,Dept.ofAppliedMathematics,HarvardUniversity,<br />

Cambridge,Mass,1974<br />

[26]Statsoft: Statistica is a trademark of StatSoft, Inc.<br />

Neural Networks, (1984-2003). Dostupné na adrese<br />

http,//www.statsoft.com/textbook/stneunet.html#apps<br />

[27]Sinčák P. - Andrejková G.: Neurónové siete - inžinier-<br />

sky prístup (1.diel)., Dostupné na adrese http,//neuron-<br />

ai.tuke.sk/cig/source/publications/books/NS1/html/Elfa,Košice,1996<br />

[28]BoereeG.:Theneuron.GeneralPsychology,2003.Dostupnénaadrese<br />

http,//www.ship.edu/cgboeree/theneuron.html<br />

[29]KurčíkM.: <strong>Rozpoznávanie</strong>zašumenéhorečovéhosignálupomocoune-<br />

urónovýchsieti.Košice,2000<br />

[30]Šidlovský,J.: Využitieneurónovýchsietíprerozpoznávaniefliašpri<br />

recyklácii.Košice,2005<br />

[31]Koščák,J., Experimentálnaanalýzaalgoritmubackpropagationthrough<br />

timepreučenierekurentnýchneurónovýchsietí.,Košice,2005<br />

[32]Schmidhuber, J.: Recurrent Neural Networks. Dostupné na adrese<br />

http,//www.idsia.ch/juergen/rnn.html,2006<br />

[33]Myers, C. S. - Rabiner, R. L.: A comparative study of se-<br />

veral dynamic time-warping algorithms for connected word recog-


FEITUvKošiciach Listč.41<br />

nition. 60(7),1389-1409, September (1981). Dostupné na adrese<br />

http,//en.wikipedia.org/wiki/Speechrecognition<br />

#Approachesofstatisticalspeechrecognition<br />

[34]Xvoice Xvoice-speechrecognizer.,Diktovaniekontinuálnej<strong>reči</strong>,kon-<br />

trola<strong>reči</strong>preaplikácievoperačnomsystemelinuxDostupnénaadrese<br />

http://xvoice.sourceforge.net/<br />

[35]OpenMindSpeech OpenMindSpeech-speechrecognitiontoolsand<br />

applications.,Dostupnénaadrese<br />

http,//freespeech.sourceforge.net/<br />

[36]CMUSphinx OpenMindSpeech-speechrecognitiontoolsandappli-<br />

cations.,Dostupnénaadresehttp,//freespeech.sourceforge.net/<br />

[37]NICO ANN Tookit NICO ANN Tookit., Dostupné na adrese<br />

http,//nico.nikkostrom.com/<br />

[38]Myers Hidden Markov Model Software Učiaci<br />

nástroj pre HMM modely., Dostupné na adrese<br />

http,//www.itl.atr.co.jp/comp.speech/Section6/Recognition/myers.hmm.html<br />

[39]Jialong: JialongspeechrecognitionResearchtool.Nástrojobsahujúcitri<br />

typyrozpoznávačov.Určenýprevývojavýskum..,Dostupnénaadrese<br />

http,//www.itl.atr.co.jp/comp.speech/Section6/Recognition/jialong.html<br />

[40]IBM ViaVoice Komerčný nástroj pre diktovanie ur-<br />

čený pre linux. ., Dostupné na adrese http,//www-<br />

4.ibm.com/software/speech/dev/sdklinux.html<br />

[41]Babel Technologies Rečníkovo závislý systém založený na HMM a<br />

ANN.,Dostupnénaadresehttp,//www.babeltech.com<br />

[42]Abbot/AbbotDemo ASRsystémsobrovskýmslovníkov.,Dostupnéna<br />

adresehttp,//www.softsound.com.


FEITUvKošiciach Listč.42<br />

[43]Schmidhuber,J.:RecurrentNeuralNetwork.2003.Dostupnénaadrese<br />

http,//www.idsia.ch/juergen/rnn.html<br />

[44]Wikipedia, Neurónové siete Neurónové siete., Dostupné na adrese<br />

http,//sk.wikipedia.org/wiki/<br />

[45]Amygdala,SpikingNeuralNetworkAmygdala,Spikingneuralnetwork.,<br />

Dostupnénaadresehttp,//amygdala.sourceforge.net/understandsnn.php<br />

[46]Maass.W.:Computationwithspikingneuralnetwork.,TheHandbookof<br />

BrainTheoryandNeuralNetwork,MITPress(Cambridge),2ndedition<br />

,2001<br />

[47]PatlevicP.: PoužitietechníkSupportVectorMachinespriučeníneuró-<br />

novýchsietí.,Košice,2005<br />

[48]Schrauwen,B.-Haene,D.: Compactdigitalhardwareimplementation<br />

ofspikingneuralnetworks.,2005<br />

[49]Yang, S. - Er, M. J., and Gao, Y., A High Performance Neural-<br />

Networks-BasedSpeechRecognitionSystem.ProceedingsofInternational<br />

JointConferenceonNeuralNetworks,2001


FEITUvKošiciach Listč.43<br />

Zoznampríloh<br />

1.Zoznamobrázkovatabuliek<br />

Tátočasťobsahujezoznamvšetkýchtabuliekaobrázkovspolusuvedením<br />

číslastrany.<br />

Zoznamobrázkov<br />

1 Doprednáneurónovásieť . .................... 5<br />

2 Rekurentnáneurónovásieť .................... 5<br />

3 Lineárneseparovateľnéaneseparovateľnépríklady....... 9<br />

4 Perceptrón............................. 10<br />

5 Príkladbiologickéhoneurónu. .................. 12<br />

6 Príkladdivergencieneurónovejsiete. .............. 16<br />

7 SupportVectorMachines. .................... 18<br />

8 LSTMsieť............................. 22<br />

9 LSTMsieťpodrobnejšie . .................... 23<br />

10 ArchitektúraElmanovejrekurentnejsiete . .......... 28<br />

11 Neurónovásieťsechostavmi.Čiarkovanéspojeniasapritré-<br />

novanímodifikujú. . ....................... 29<br />

Zoznamtabuliek

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!