21.12.2012 Aufrufe

Klassifikation von Mustern

Klassifikation von Mustern

Klassifikation von Mustern

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

3.6. MERKMALE FÜR DIE SPRACHERKENNUNG (VA.1.2.2, 06.02.2004) 215<br />

Zahl <strong>von</strong> Koeffizienten kann eine Hauptachsentransformation verwendet werden. Wie schon in<br />

Abschnitt 3.2.4 dargelegt, hat die diskrete cosinus Transformation ähnliche Eigenschaften wie<br />

die Hauptachsentransformation, ist aber schneller zu berechnen, da sie problemunabhängig ist.<br />

Daher wird in (3.6.26) die diskrete cosinus Transformation verwendet. Mit ihr werden Nmc<br />

mel–Cepstrum Koeffizienten berechnet, wobei in der Regel 20 − 30 verwendet werden. Damit<br />

sind auch die Berechnungsschritte für das Cepstrum abgeschlossen, die nach der Logarithmierung<br />

eine weitere inverse DFT vorsehen; diese kann für reelle symmetrische Koeffizienten auch<br />

durch eine cosinus Transformation berechnet werden.<br />

Die Information über einen Laut liegt nicht nur in den zu einem Zeitfenster vorliegenden<br />

Daten, sondern auch in deren zeitlicher Änderung. Daher ist es sinnvoll und verbessert die<br />

Erkennungsraten bei der Worterkennung, wenn die ersten und zweiten zeitlichen Ableitungen<br />

der Koeffizienten (3.6.27) und (3.6.28) zum Merkmalsvektor (3.6.29) hinzugefügt werden.<br />

c (ls)<br />

τ,k =<br />

c (mf)<br />

τ,j<br />

c (mc)<br />

τ,k<br />

∆c (mc)<br />

τ,k<br />

∆∆c (mc)<br />

τ,k<br />

=<br />

=<br />

cτ =<br />

<br />

<br />

1<br />

<br />

N<br />

N−1 <br />

j=0<br />

(N/2)−1 <br />

k=0<br />

Nd <br />

j=1<br />

<br />

log<br />

<br />

wτ,jfj exp −i 2π jk<br />

<br />

N<br />

2 <br />

<br />

, k = 0, 1, . . . , (N/2) − 1 , (3.6.24)<br />

dj,k c (ls)<br />

τ,k , j = 1, . . . , Nd , (3.6.25)<br />

c (mf)<br />

τ,j<br />

<br />

k · (2j − 1)π<br />

· cos<br />

, k = 1, · · · , Nmc ≤ Nd (3.6.26)<br />

2Nd<br />

= c(mc)<br />

τ+1,k − c(mc)<br />

τ−1,k , (3.6.27)<br />

= ∆c(mc)<br />

τ+1,k<br />

<br />

c (mc)<br />

τ,k<br />

− ∆c(mc)<br />

τ−1,k<br />

, (3.6.28)<br />

T . (3.6.29)<br />

, ∆c(mc)<br />

τ,k , ∆∆c(mc)<br />

τ,k , k = 1, . . . , Nmc<br />

Zwei Varianten der mel–Cepstrum Koeffizienten, die insbesondere für Spracherkennung<br />

unter Einfluss <strong>von</strong> Störgeräuschen Vorteile haben, sind die root-Cepstrum und die µ–Law Koeffizienten.<br />

Die root–Cepstrum Koeffizienten erhält man, indem man (3.6.26) ersetzt durch<br />

c (rc)<br />

τ,k =<br />

Nd <br />

j=1<br />

<br />

<br />

j=0<br />

c (mf)<br />

τ,j r<br />

<br />

k · (2j − 1)π<br />

· cos<br />

, r ≈ 0, 2 − 0, 25 . (3.6.30)<br />

2Nd<br />

Die µ–Law Koeffizienten (oder mu–Law Koeffizienten) erhält man, indem man (3.6.26) ersetzt<br />

durch<br />

c (muL)<br />

τ,k =<br />

Nd <br />

c (mf)<br />

τ,max sign[c (mf)<br />

<br />

log 1 + µ|c<br />

τ,j ]<br />

(mf)<br />

τ,j |/c (mf)<br />

<br />

τ,max<br />

, µ ≈ 10<br />

log[1 + µ]<br />

5 − 10 7 . (3.6.31)<br />

Eine weitere Maßnahme zur Reduktion des Einflusses <strong>von</strong> Störgeräuschen ist die getrennte<br />

Berechnung der mel–Cepstrum Koeffizienten in unterschiedlichen Frequenzbändern.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!