04.16 Kalbos atpaÅ¾inimas

P. Kasparaitis. Kompiuterinė lingvistika. Kalbos atpažinimas 

Kalbos atpažinimas 

Kalbos atpažinimo proceso etapai 

Panašiai, kaip ir bet kurį atpažinimo procesą, kalbos atpažinimą galima 

išskaidyti į tris pagrindinius etapus: duomenų įvedimą, požymių išskyrimą ir 

atpažinimą. Pirmiausiai mikrofono pagalba kalbos signalas įvedamas, o tada 

paverčiamas skaitmeniniu pavidalu. Kadangi kalbos signalą charakterizuoja trys 

dydžiai: laikas, dažnis ir amplitudė, tai antrame etape fiksuotais laiko momentais 

imami tam tikro ilgio kalbos signalo kadrai, kuriuose skaičiuojami tam tikrų dažnio 

juostų energiją charakterizuojantys parametrai. Šie parametrai naudojami trečiame 

atpažinimo (klasifikacijos) etape, kuriame nustatoma, kokios fonemos ar žodžiai yra 

kalbos signale. Kadangi kalbos atpažinimas yra sudėtingas uždavinys, tai kituose 

skyreliuose panagrinėsime, kas nulemia sudėtingumą ir kokie specifiniai atpažinimo 

metodai taikomi. 

Kalbos atpažinimo sudėtingumo priežastys 

Kalbos atpažinimas yra labai sudėtingas uždavinys. Prireikė trisdešimties metų, 

kol atsirado pirmosios praktiškai naudojamos sistemos. Uždavinio sudėtingumą 

nulemia tokios priežastys ([ 1 ], [ 2 ]): 

1. Keletą kartų ištarto tam tikro garso akustinė realizacija labai skiriasi, net jei jį 

ištarė tas pats diktorius ir tame pačiame žodyje; 

2. Kalbėjimo greitis gali labai kisti, todėl skiriasi kelių to paties žodžių 

akustinių realizacijų ilgis. Kintant žodžių ilgiui atskirų garsų ilgis kinta netiesiškai; 

3. Garso akustinė realizacija priklauso nuo gretimų garsų, tai vadinama 

koartikuliacija; 

4. Kalbėjimo sraute nėra aiškių garsų ar žodžių ribų; 

5. Kiekvieno žmogaus tartis yra skirtinga, todėl reikalingas arba apmokymas 

konkrečiam diktoriui, arba sistema kūrimo metu turi būti apmokyta su kuo didesniu 

diktorių skaičiumi; 

6. Jei kuriama atpažinimo sistema remiasi žodžių atpažinimu, žodžių etalonų 

skaičius gali būti pernelyg didelis; 

7. Kalbėjimo sraute gali būti ir nekalbinių fragmentų (pvz., kosulys), kuriuos 

reikia atskirti ir pašalinti; 

8. Praktiniuose taikymuose papildomų problemų sukelia foninis triukšmas. 

Dinaminis laiko skalės iškraipymas (angl. Dynamic Time 

Warping - DTW) 

Kalbos tempo kitimas pasireiškia kai kurių garsų, jų dalių ar pauzių trukmės 

pasikeitimais. Šių deformacijų neutralizavimas yra vienas iš sudėtingiausių kalbos 

atpažinimo uždavinių. Klasikinė atpažinimo teorija šių uždavinių nenagrinėja, tai yra 

grynai kalbos atpažinimo problema. 

Tam, kad sulyginti žodį su etalonu, reikia deformuojant laiko ašį surikiuoti greta 

tuos pačius garsus atitinkančius fragmentus ir tada apskaičiuoti atstumus tarp jų ir 

juos susumuoti. 

Eksperimentiškai buvo įsitikinta, kad šios deformacijos yra netiesinės, todėl 

tiesiniai metodai čia netinka. 

1


Netiesiniam deformavimui naudojami gradientinis arba DTW metodai [ 3 ]. 

Antrasis metodas duoda geresnius rezultatus, todėl yra žymiai populiaresnis. 

DTW algoritmas. Tarkime, kad lyginamas žodis A ir etalonas B pateikti kaip 

požymių vektorių sekos 

A = a 1 , ..., a I ; 

B = b 1 , ..., b J . 

Tarkime, kad požymių vektorių erdvėje apibrėžta metrika D(i,j), leidžianti 

nustatyti atstumą tarp vektorių a i ir b j . Tada kalbos tempo išlyginimas susiveda į 

optimalios trajektorijos radimą plokštumoje (i,j), kuri minimizuotų visų atstumų su 

tam tikrais svorio koeficientais esančių ant šios trajektorijos sumą. 

DTW algoritmai remiasi rekurentinėmis DTW lygtimis, kurios skiriasi 

deformacijų pobūdžiu ir svorio koeficientais. Pvz.: 

g( 

i, 

j −1) 

+ d( 

i, 

j) 

 

 

 

g ( i, 

j) 

= min 

 

 

 

g( 

i −1, 

j −1) 

+ 2d( 

i, 

j) 

g( 

i −1, 

j) 

+ d( 

i, 

j) 

 

 

 

g( 

i −1, 

j − 2) + 2d( 

i, 

j −1) 

+ d( 

i, 

j) 

 

 

 

g ( i, 

j) 

= min 

g( 

i −1, 

j −1) 

+ 2d( 

i, 

j) 

 

 

 

g( 

i − 2, j −1) 

+ 2d( 

i −1, 

j) 

+ d( 

i, 

j) 

 

g( 

i −1, 

j − 3) + 2d( 

i, 

j − 2) + d( 

i, 

j −1) 

+ d( 

i, 

j) 

 

 

 

 

g( 

i −1, 

j − 2) + 2d( 

i, 

j −1) 

+ d( 

i, 

j) 

 

g ( i, 

j) 

= min 

g( 

i −1, 

j −1) 

+ 2d( 

i, 

j) 

 

g( 

i − 2, j −1) 

+ 2d( 

i −1, 

j) 

+ d( 

i, 

j) 

 

 

 

g( 

i − 3, j −1) 

+ 2d( 

i − 2, j) 

+ d( 

i −1, 

j) 

+ d( 

i, 

j) 

 

Čia funkcija g(i,j) - atstumas tarp žodžio A atkarpos, kurios ilgis lygus i, ir 

etalono B atkarpos, kurios ilgis lygus j. Atstumas tarp A ir B lygus g(I,J). 

Prieš pradedant skaičiavimus reikia apibrėžti pradines sąlygas, pvz. g(0,0) = 0; 

d(1,1) = g(1,1); g(0,j) = g(i,0) = K, kur K > g(i,j) kiekvienam i,j. 

Eksperimentiškai įrodyta, kad geriausius rezultatus duoda antroji g(i,j) išraiška. 

Paslėptos Markovo grandinės (angl. Hidden Markov 

Model - HMM) 

Šis skyrius parengtas pagal doc. A. Lipeikos paskaitų konspektus. Paslėptų 

Markovo grandinių teorija buvo atspausdinta šešto dešimtmečio gale ir septinto 

dešimtmečio pradžioje Baum ir jo kolegų straipsniuose [ 4 ] - [ 8 ]. 

Pavyzdys 

Panagrinėkime tokį pavyzdį: tarkime, kad turime N urnų, kiekvienoje urnoje yra 

daug spalvotų kamuolių, kurie nuspalvoti M skirtingų spalvų. Pagal kokią nors 

atsitiktinę procedūrą pasirenkama pradinė urna, iš jos atsitiktinai paimamas kamuolys 

ir jo spalva yra užfiksuojama kaip stebėjimas. Tada kamuolys padedamas atgal į urną, 

o nauja urna yra parenkama pagal atsitiktinę išrinkimo procedūrą, surištą su dabartine 

urna, ir kamuolio išrinkimo procesas yra pakartojamas. Šis procesas generuoja 

2


baigtinę spalvų stebėjimų seką, kurią mes norėtume modeliuoti kaip HMM stebimą 

išėjimą. 

Turėtų būti akivaizdu, kad paprasčiausias HMM, kuris atitinka urnos ir 

kamuolio procesą yra tas, kuriame kiekviena būsena atitinka konkrečią urną ir 

kuriame (kamuolio) spalvos tikimybė yra apibrėžta kiekvienai būsenai. Urnų 

pasirinkimą diktuoja HMM būsenų perėjimų matrica. 

Reikėtų pastebėti, kad kamuolių spalvos kiekvienoje urnoje gali būti tos pačios 

ir skirtumas tarp įvairių urnų yra tas, kaip sudarytas spalvotų kamuolių rinkinys 

konkrečioje urnoje. Todėl atskiras konkrečios spalvos stebėjimas ne iš karto pasako iš 

kurios urnos kamuolys yra ištrauktas. 

HMM elementai 

Dabar mes formaliai apibrėšime HMM elementus. HMM diskretinių simbolių 

stebėjimams, tokiems kaip anksčiau minėtas urnos ir kamuolio modelis, yra 

apibūdinamas šitaip: 

1. N - būsenų skaičius modelyje. Nors būsenos yra paslėptos, daugelyje 

praktinių taikymų dažnai modelio būsenoms ar būsenų aibėms yra priskiriama kokia 

nors fizikinė prasmė. Pvz., urnos ir kamuolio modelyje būsenos atitinka urnas. Bendru 

atveju būsenos surišamos taip, kad kiekviena būsena gali būti pasiekta iš bet kokios 

kitos būsenos (t. y., ergodinis modelis 3a pav.); tačiau dažnai domina kiti galimi 

būsenų tarpusavio jungimai ir jie gali geriau tikti kalbos apdorojimo taikymams. Mes 

žymime atskiras būsenas {1, 2, …, N} ir būseną laiko momentu t žymime q t . 

2. M - skirtingų stebėjimo simbolių būsenoje skaičius. Stebėjimo simboliai 

atitinka modeliuojamos sistemos fizikinį išėjimą. Pvz., urnos ir kamuolio modelyje tai 

buvo iš urnų paimtų kamuolių spalvos. Atskirus simbolius žymime V={v 1 , v 2 , …, v M }. 

3. Būsenų perėjimo tikimybinis pasiskirstymas A={a ij }, kur 

a ij = P[q t+1 = j | q t = i], 1 ≤ i, j ≤ N. 

Specialiam atvejui, kuriame kiekviena būsena gali pasiekti kiekvieną kitą būseną per 

vieną žingsnį, mes turime a ij > 0 visiems i, j. Kitiems HMM tipams mes turėtume 

a ij = 0 vienai ar daugiau (i, j) porų. 

4. Stebėjimų simbolio tikimybinis pasiskirstymas B={b j (k)}, kuriame 

b j (k) = P[o t = v k | q t = j], 1 ≤ k ≤ M 

apibrėžia simbolių pasiskirstymą būsenoje j, j = {1, 2, …, N}. 

5. Pradinės būsenos pasiskirstymas π = {π i }, kuriame 

π i = P[q t = i], 1 ≤ i ≤ N. 

Iš to, kas buvo pasakyta anksčiau, galima matyti, kad HMM pilnas 

apibūdinimas reikalauja dviejų modelio parametrų N ir M apibūdinimo ir trijų aibių A, 

B ir π tikimybinių matų apibūdinimo. Patogumui yra naudojamas kompaktinis 

žymėjimas λ = (A, B, π). Žinoma, ši parametrų aibė apibrėžia O tikimybinį matą , t. y., 

P(O|λ), kuris bus aptariamas vėliau. 

Stebėjimų HMM generatorius 

Esant nusakytoms N, M, A, B ir π reikšmėms HMM gali būti naudojamas kaip 

generatorius, kad gautume stebėjimų seką O = (o 1 o 2 … o T ), kurioje kiekvienas 

stebėjimas o t priklauso aibei V, o T yra stebėjimų skaičius sekoje. Stebėjimų seka 

gaunama taip: 

1. Parenkama pradinė būsena q 1 =i sutinkamai su pradinės būsenos 

pasiskirstymu π. 

2. Nustatoma t=1. 

3


3. Parenkama o t =v k sutinkamai su simbolio tikimybiniu pasiskirstymu būsenoje 

i, t.y., b j (k). 

4. Pereinama į naują būseną q t+1 =j sutinkamai su būsenų tikimybiniu 

pasiskirstymu būsenai i, t. y., a ij . 

5. Nustatoma t=t+1, sugrįžtama į 3 žingsnį, jeigu t


Pirmos problemos sprendimas – tikimybės paskaičiavimas 

Mes norime paskaičiuoti stebimos sekos O = (o 1 o 2 … o T ) tikimybę P(O|λ), kai 

duotas modelis λ = (A, B, π). Pats paprasčiausias būdas tai padaryti yra sunumeruoti 

visas galimas ilgio T būsenų sekas. Tokių būsenų sekų yra N T . Nagrinėkime vieną 

tokią fiksuotų būsenų seką 

q = (q 1 q 2 … q T ). 

Statistiškai nepriklausomų stebėjimų sekos O tikimybė žinant būsenų seką q 

yra 

P 

T 

( O | q, 

λ ) = ∏ P( 

ot 

| qt 

, λ) 

= bq 

( o ) ⋅b 

1 q2 

t= 

1 

1 

( o2) 

⋅... 

⋅b 

( o ). 

Būsenų sekos q tikimybė gali būti užrašyta 

P ( q | λ ) = π 

q 

aq 

q 

aq 

q 

. . . a 

1 1 2 2 3 q T − 1 q T 

. 

Bendra O ir q tikimybė, t. y., tikimybė, kad O ir q pasirodys vienu metu, yra 

P ( O, 

q | λ ) = P( 

O | q, 

λ ) P( 

q | λ ) 

Stebėjimų sekos O tikimybė (esant duotam modeliui) yra gaunama, sumuojant 

šią bendrą tikimybę pagal visas galimas būsenų sekas q. Mes gauname 

P( O | λ ) = P( 

O | q, 

λ ) P( 

q | λ ) = π b ( o ) a b ( o ) a ... a b ( o 

 

visas q 

 

q q 1 q q q 2 q q qT 

− qT 

qT 

T 

) 

1 1 

1 2 2 

2 3 

1 

q1 

q2 

... qT 

Galima įsitikinti, kad P ( O | λ ) skaičiavimas naudojant tiesioginį apibrėžimą 

T 

reikalautų eilės 2 T ⋅ N skaičiavimo operacijų. Tai padaryti neįmanoma netgi 

mažoms reikšmėms N ir T ; pvz., kai N = 5 (būsenos) ir T = 100 (stebėjimų), 

100 72 

skaičiavimo operacijų skaičius yra eilės 2 ⋅ 100 ⋅5 

≈ 10 . Šiai problemai spręsti 

egzistuoja žymiai efektyvesnė taip vadinama ėjimo į priekį procedūra. 

Ėjimo į priekį procedūra 

Nagrinėkime ėjimo į priekį kintamąjį α 

t 

(i), apibrėžiamą kaip 

α 

t 

( i) 

= P( 

o1o2 

. . . ot 

, qt 

= i | λ) 

t. y. dalinės stebėjimų sekos, o 

1 

o2 

. . . ot 

(iki laiko momento t ) ir būsenos i laiko 

momentu t , esant duotam modeliui λ , tikimybę. Mes galime skaičiuoti α 

t 

(i) 

naudodami matematinės indukcijos metodą tokiu būdu: 

1. Inicializacija 

α 

1( i) 

= π 

ibi 

( o1 

), 1 ≤ i ≤ N. 

2. Indukcija 

N 

 

α 

t+ 1( j) 

= α 

t 

( i) 

aij 

b 

j 

( ot+ 

1), 

i= 

1 

1≤ 

t ≤ T −1, 

1≤ 

j ≤ N. 

3. Nutraukimas 

 

P( O | λ ) = α ( i). 

1 žingsnis inicializuoja ėjimo į priekį tikimybes kaip bendrą būsenos i ir pradinio 

stebėjimo o 

1 

tikimybę. Indukcijos žingsnis, kuris yra ėjimo į priekį skaičiavimų esmė, 

yra pailiustruotas 1a pav. Jame parodyta kaip būsena j gali būti pasiekta laiko 

momentu t + 1 iš N galimų būsenų i, 1 ≤ i ≤ N laiko momentu t . 

N 

i= 

1 

t 

qT 

T 

5


1 pav. (a) Operacijų sekos, reikalingos paskaičiuoti ėjimo į priekį kintamąjį 

α 

t+1( 

j) 

, iliustracija. (b) α 

t 

(i) 

skaičiavimo per stebėjimų t ir būsenų i groteles 

realizacija. 

Kadangi α 

t 

(i) 

yra jungtinio įvykio, kad o 

1 

o2 

. . . ot 

yra stebimas ir būsena laiko 

momentu t yra i , tikimybė, tada sandauga α (i) a yra jungtinio įvykio, kad yra 

stebimas o 

1 

o2 

. . . ot 

ir būsena j yra pasiekta laiko momentu t + 1 per būseną i laiko 

momentu t , tikimybė. Sumuojant šią sandaugą pagal visas N galimas būsenas, 

i, 1 ≤ i ≤ N laiko momentu t gauname j -tos būsenos tikimybę laiko momentu t + 1 

t 

ij 

6


su visais susijusiais ankstesniais daliniais stebėjimais. Kai tai yra padaryta ir j yra 

žinoma, yra nesunku matyti, kad α 

t+1( 

j) 

yra gauta atsižvelgiant į stebėjimą o 

t+ 1 

būsenoje j , t. y., padauginant sumuojamą dydį iš tikimybės b 

j 

( o t+ 1). 

Skaičiavimas 

indukcijos formulėje yra atliekamas visoms būsenoms j, 1 ≤ j ≤ N duotam t ; tada 

skaičiavimai yra atliekami iteratyviai su t = 1, 

2, . . . , T −1. Galiausiai 3 žingsnyje 

gauname laukiamą rezultatą P ( O | λ) 

kaip galutinių ėjimo į priekį kintamųjų α 

T 

(i) 

sumą. Tai yra būtent taip, kadangi pagal apibrėžimą 

αT ( i) 

= P( 

o1o2 

. . . oT 

, qT 

= i | λ) 

ir, vadinasi, P ( O | λ) 

yra α 

T 

(i) 

. 

Jeigu α 

T 

( j), 

1 ≤ t ≤ T , 1 ≤ j ≤ N skaičiavime mes nagrinėtume skaičiavimų 

apimtį, matytume, kad tai yra eilės N 2 T operacijų. Kai N = 5 , T = 100 , mums reikia 

apie 3000 operacijų ėjimo į priekį metodui vietoj 10 72 tiesioginiam skaičiavimui. 

Ėjimo į priekį tikimybės skaičiavimas yra faktiškai paremtas grotelių struktūra, 

parodyta 1b pav. Esmė yra ta, kad yra tiktai N būsenų (mazgų kiekviename laiko 

pjūvyje grotelėse) ir visos galimos būsenų sekos paklius į šiuos N mazgų, 

nepriklausomai nuo to, kokia ilga yra stebėjimų seka. 

Antros problemos sprendimas –“optimali” būsenų seka 

Skirtingai nuo 1 problemos, kuriai gali būti gautas tikslus sprendimas, yra 

keletas galimų 2 problemos sprendimo būdų, būtent, “optimalios” būsenų sekos, 

susietos su duota stebėjimų seka, radimo būdų. Sunkumai kyla apibrėžiant optimalią 

būsenų seką, t. y., yra keletas galimų optimalumo kriterijų. Pvz., vienas galimų 

optimalumo kriterijų yra parinkti būsenas q 

t 

taip, kad jos būtų individualiai labiausiai 

tikėtinos kiekvienu laiko momentu t . Šis optimalumo kriterijus maksimizuoja 

teisingų atskirų būsenų laukiamą skaičių. Kad realizuotume 2 problemos sprendimą, 

mums reikia apibrėžti aposteriorinės tikimybės kintamąjį 

γ 

t 

( i) 

= P( 

qt 

= i | O, 

λ) 

t. y., buvimo būsenoje i laiko momentu t , esant stebėjimų sekai O ir modeliui 

λ , tikimybę. Mes galime išreikšti γ 

t 

(i) 

keliais pavidalais 

P( 

O, 

qt 

= i | λ) 

P( 

O, 

qt 

= i | λ) 

γ 

t 

( i) 

= P( 

qt 

= i | O, 

λ) 

= 

= 

N 

P( 

O | λ) 

P( 

O, 

q = i | λ) 

Kadangi P( q t 

= i | O, 

λ) 

yra lygi α ( i) 

β ( i) 

, mes galime γ (i) 

užrašyti 

γ ( i) 

t 

t 

= N 

 

i= 

1 

t 

α ( i) 

β ( i) 

t 

α ( i) 

β ( i) 

kur mes matome, kad α 

t 

(i) 

surišta su daline stebėjimų seka o 

1 

o2 

. . . ot 

ir 

būsena i laiko momentu t , tuo tarpu kai β (i) 

surišta su likusia stebėjimų seka 

o 

t+ 1 

ot+2 

. . . oT 

esant duotai būsenai q t 

= i laiko momentu t . 

Naudodami γ 

t 

(i) 

mes galime spręsti paskutinę išraišką atskiros labiausiai 

∗ 

tikėtinos būsenos q 

t 

laiko momentu t atžvilgiu 

t 

t 

t 

t 

 

i= 

1 

t 

t 

7


q 

∗ 

t 

= arg max 

[ γ ( i) 

], 

1 ≤ t ≤ T. 

1 ≤ i ≤ N 

Gali būti kai kurių problemų, pvz., kai HMM turi būsenų perėjimus su nuline 

tikimybe (kokiems nors i ir j a 

ij 

= 0 ), “optimali” būsenų seka faktiškai gali 

neegzistuoti. Tai yra todėl, kad surandama labiausiai tikėtina būsena kiekvienu laiko 

momentu, nenagrinėdamas būsenų sekų pasirodymo tikimybės. 

Vienos geriausios būsenų sekos radimo formalus metodas, besiremiantis 

dinaminio programavimo metodais, vadinamas Viterbi algoritmu [15,16]. Jis panašus 

į ėjimo į priekį procedūrą. Pagrindinis skirtumas, kad indukcijos žingsnyje vietoje 

sumavimo naudojama maksimizacija pagal ankstesnes būsenas. Taip pat turėtų būti 

aišku, kad grotelių struktūra efektyviai realizuoja Viterbi procedūros skaičiavimą. 

Trečios problemos sprendimas - parametrų vertinimas 

Trečia ir pati sunkiausia HMM problema yra surasti metodą modelio parametrų 

( A , B, 

π ) radimui, kuris tenkintų kokį nors optimizavimo kriterijų. Nėra žinoma būdo, 

kaip analitiškai ieškoti modelio parametrų, kurie maksimizuotų stebėjimų sekos 

tikimybę. Tačiau mes galime parinkti λ = ( A, 

B, 

π ) taip, kad jo tikėtinumas P ( O | λ) 

būtų lokaliai maksimizuotas naudojant iteratyvią procedūrą, tokią kaip Baum-Welch 

metodas. 

HMM parametrų pakartotinio vertinimo procedūros aprašymui mes pirmiausia 

apibrėšime ξ 

t 

( i, 

j) 

, buvimo būsenoje i laiko momentu t ir būsenoje j laiko 

momentu t + 1 tikimybę, kai duotas modelis ir stebėjimų seka, t. y., 

ξ 

t 

( i, 

j) 

= P( 

qt 

= i, 

qt+ 

1 

= j | O, 

λ). 

Trajektorija, kuri tenkina keliamas sąlygas yra pailiustruota 2 pav. 

t 

2 pav. Operacijų sekos, reikalingos paskaičiuoti jungtinį įvykį, kad sistema yra 

būsenoje i laiko momentu t ir būsenoje j laiko momentu t + 1, iliustracija. 

Iš ėjimo į priekį ir atgal kintamųjų apibrėžimo mes galime užrašyti ξ ( i, 

j) 

taip: 

t 

8


ξ ( i, 

j) 

t 

P( 

q 

= i, 

q 

( ) ( ) 

t 1 

= j, 

O | λ) 

α 

t 

i aijb 

j 

ot+ 

1 

β 

t+ 

= 

P( 

O | λ) 

P( 

O | λ) 

( j) 

t 

+ 1 

= = 

N 

α 

t 

( i) 

aijb 

j 

( ot+ 

1) 

β 

t+ 

1( 

j) 

. 

N 

α ( i) 

a b ( o ) β ( j) 

 

i= 1 j= 

1 

Mes anksčiau esame apibrėžę γ 

t 

(i) 

kaip buvimo būsenoje i laiko momentu t 

tikimybę, kai duota visa stebėjimų seka ir modelis. Vadinasi, mes galime surišti γ 

t 

(i) 

su ξ ( i, 

j) 

, sumuodami pagal j : 

t 

N 

 

γ ( i) 

= ξ ( i, 

j) 

t 

Jeigu mes sumuojame γ 

t 

(i) 

pagal laiko indeksą t , mes gauname dydį, kuris 

gali būti interpretuotas kaip laukiamas (pagal laiką) skaičius kartų, kada patenkama į 

būseną i arba, ekvivalentiškai laukiamas perėjimų skaičius iš būsenos i (jeigu mes iš 

sumavimo eliminuojam t = T ). Panašiai ξ 

t 

( i, 

j) 

sumavimas pagal t (nuo t = 1 iki 

t = T −1) gali būti interpretuojamas kaip laukiamas perėjimų iš būsenos i į būseną j 

skaičius. Tokiu būdu 

T 

− 1 

t= 

1 

T 

− 1 

t= 

1 

γ ( i) 

= laukiamas perėjimų iš būsenos i stebėjimų sekoje O skaičius, 

t 

ξ ( i, 

j) 

= laukiamas perėjimų iš būsenos i į būseną j stebėjimų sekoje O skaičius. 

t 

Naudodami šias formules (ir įvykių pasirodymo skaičiavimo koncepciją), mes 

galime suformuluoti pagrįstą HMM pakartotinio parametrų vertinimo metodą. 

Parametrų π , A ir B pakartotinio vertinimo formulės yra tokios: 

π = laukiamas buvimo būsenoje i laiko momentu ( t = 1) = γ 

1( 

i) 

dažnis 

j 

b 

a 

j= 

1 

T −1 

 

t 

t= 

1 

ij 

= 

T −1 

 

t= 

1 

t 

ξ ( i, 

j) 

γ ( i) 

 

t 

T −1 

 

t 

t= 

1 

s. 

t. 

ot 

= vk 

j 

( k) 

= 

T −1 

t= 

1 

γ ( j) 

γ ( j) 

Pastarosios lygybės viršus yra laukiamas buvimo būsenoje j ir stebėjimo 

simbolį v 

k 

kartų skaičius. 

Jeigu mes apibrėžiame dabartinį modelį kaip λ = ( A, 

B, 

π ) ir jį naudojame 

paskaičiuoti paskutinių trijų lygybių kaires puses ir apibrėžiame pakartotinai įvertintą 

modelį λ = ( A, 

B, 

π ) kaip apibrėžtą jų dešinėse pusėse, tada Baum ir jo kolegų buvo 

įrodyta, kad arba (1) pradinis modelis apibrėžia tikėtinumo funkcijos kritinį tašką, tuo 

atveju λ = λ ; arba (2) modelis λ yra labiau tikėtinas negu modelis λ ta prasme, kad 

P ( O | λ ) > P( 

O | λ) 

; t. y., mes radome naują modelį λ , kurio atžvilgiu stebėjimų 

seka yra labiau panaši į tą, kuri buvo sugeneruota. 

t 

t 

ij 

j 

t+ 

1 

t+ 

1 

9


Remiantis šia procedūra, jei mes iteratyviai naudojame λ vietoje λ ir 

pakartojame pakartotinio vertinimo skaičiavimus, tada mes galime pagerinti tikimybę, 

kad yra stebimas O iš šio modelio, kol yra pasiekiamas koks nors ribojantis taškas. 

Pakartotinio vertinimo procedūros galutinis rezultatas yra HMM maksimalaus 

tikėtinumo (ML) įvertis. Reikia pabrėžti, kad ėjimo į priekį-atgal algoritmas veda tik 

prie lokalinių maksimumų ir kad daugelyje mus dominančių problemų tikėtinumo 

funkcija yra labai sudėtinga ir turi daug lokalinių maksimumų. 

HMM tipai 

Vienas HMM klasifikavimo tipas yra klasifikuoti pagal Markovo grandinės 

perėjimų matricos A struktūrą. Iki šiol mes nagrinėjome tik atskirą ergodinių arba 

pilnai surištų HMM atvejį, kuriame kiekviena modelio būsena gali būti (per vieną 

žingsnį) pasiekta iš kiekvienos modelio būsenos. (Griežtai kalbant, ergodinis modelis 

pasižymi savybe, kad kiekviena modelio būsena gali būti pasiekta iš kiekvienos 

modelio būsenos per baigtinį bet aperiodinį žingsnių skaičių). Kaip parodyta 3a pav. 

N = 4 būsenų modeliui, šis modelio tipas pasižymi savybe, kad kiekvienas 

koeficientas a 

ij 

yra teigiamas. Vadinasi 3a pav. mes turime 

a 

 

 

a 

A = 

a 

 

a 

11 

21 

31 

41 

a 

a 

a 

a 

12 

22 

32 

42 

a 

a 

a 

a 

13 

23 

33 

43 

a 

a 

a 

a 

14 

24 

34 

44 

 

 

. 

 

 

 

3 pav. Dviejų skirtingų HMM tipų iliustracija. (a) 4 būsenų ergodinis modelis. 

(b) 4 būsenų kairysis-dešinysis modelis. 

Kai kuriems taikymams buvo pastebėta, kad prie kai kurių signalo savybių kiti 

HMM tipai modeliavo geriau negu standartinis ergodinis modelis. Vienas toks 

modelis yra parodytas 3b pav. Šis modelis yra vadinamas kairiuoju-dešiniuoju 

modeliu, kadangi jo būsenų seka turi savybę, kad didėjant laikui būsenos indeksas 

10


didėja (arba lieka tas pats), t. y., sistemos būsenos keičiasi iš kairės į dešinę. Aišku, 

kad HMM kairysis-dešinysis tipas gali nesunkiai modeliuoti signalus, kurių savybės 

kinta laike nuosekliai, pvz., kalba. Pagrindinė visų kairės-dešinės HMM savybė yra, 

kad būsenų perėjimo koeficientai pasižymi savybe a ij 

= 0 , j 

perėjimai yra neleistini būsenoms, kurių indeksai yra žemesni negu dabartinė būsena. 

Dar daugiau, pradinės būsenos tikimybės pasižymi savybe 

0, 

i ≠ 1 

π 

i 

= , 

1, 

i = 1 

kadangi būsenų seka turi prasidėti 1 būsenoje (ir pasibaigti N -toje būsenoje). 

Dažnai kairės-dešinės modeliams papildomi apribojimai yra nustatomi būsenų 

perėjimų koeficientams, kad būtume tikri, jog dideli pokyčiai būsenų indeksuose 

neatsiras, pvz., a ij 

= 0 , j > i + ∆ i . Konkrečiai, 3b pav. ∆ i reikšmė yra 2, o būsenų 

perėjimo matricos forma yra 

a11 

a12 

a13 

0 

 

0 

 

 

a22 

a23 

a24 

A = 

. 

0 0 a 

33 

a34 

 

 

0 0 0 a44 

 

Turėtų būti aišku, kad paskutinei kairės-dešinės pusės modelio būsenai būsenų 

perėjimo koeficientai yra nustatomi taip: 

a 

NN 

= 1 

a 

N i 

= 0, i < N. 

Turėtų būti aišku, kad kairės-dešinės modelio apribojimų arba apriboto šuolio 

modelio apribojimų įvedimas iš esmės neturi įtakos pakartotinio vertinimo procedūrai. 

Tai yra todėl, kad kiekviena HMM parametrų aibė, iš pradžių prilyginta nuliui, 

pasiliks lygi nuliui per visą parametrų pakartotinio vertinimo procedūrą. 

Literatūra 

1. http://www.fask.uni-mainz.de/user/warth/Ki.html; 

2. http://r5.mnd.fh-wiesbaden.de/stud/berger/speech_r.html; 

3. Косарев, Ю. А. (1989). Естественная форма диалога с ЭВМ. 

Ленинград. Машиностроение; 

4. L.E. Baum and T. Petrie, “Statistical inference for probabilistic functions of 

finite state Markov chains, “Ann. Math. Stat., 37: 1554-1563,1966. 

5. L.E. Baum and J.A. Egon, “An inequality with applications to statistical 

estimation for probabilistic functions of a Markov process and to a model 

for ecology,” Bull. Amer. Meteorol. Soc., 73: 360-363, 1967. 

6. L.E. Baum and G.R.Sell, “Growth functions for transformations on 

manifolds, ” Pac.J. Math., 27(2): 211-227, 1968. 

7. L.E. Baum, T. Petrie, G. Soules, and N. Weiss, “A maximization technique 

occurring in the statistical analysis of probabilistic functions of Markov 

chains,” Ann. Math. Stat., 41(1): 164-171, 1970. 

8. L.E. Baum, “An inequality and associated maximization technique in 

statistical estimation for probabilistic functions of Markov processes, ” 

Inequalities, 3: 1- 8, 1972. 

11

04.16 Kalbos atpaÅ¾inimas

Create successful ePaper yourself

Delete template?

Save as template?