21.12.2012 Aufrufe

Klassifikation von Mustern

Klassifikation von Mustern

Klassifikation von Mustern

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

214 KAPITEL 3. MERKMALE (VK.2.3.3, 13.04.2004)<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

Bild 3.6.3: Eine Bank <strong>von</strong> Dreiecksfiltern; sieben Filter linear gestuft mit Mittenfrequenzen<br />

150, 200, 250, . . . , 400 Hz, je sechs Filter logarithmisch gestuft in den drei Oktaven 0,5 – 1<br />

kHz, 1 – 2 kHz und 2 – 4 kHz. Jedes Band reicht <strong>von</strong> der Mittenfrequenz des linken zu der des<br />

rechten Nachbarfilters (mit Genehmigung des Autors aus [Schukat-Talamazzini, 1995])<br />

werden. Schließlich kann die zeitliche Information auch durch Einbeziehung <strong>von</strong> Koeffizienten<br />

c (mc)<br />

τ−i,k<br />

, c(mc)<br />

τ−i+1,k<br />

, . . . , c(mc)<br />

τ,k in den Merkmalsvektor berücksichtigt werden.<br />

Die Berechnung der mel–Cepstrum Koeffizienten orientiert sich zunächst an dem Modell<br />

der Sprachproduktion in Bild 3.6.1. Danach wird das Anregungsignal mit der Impulsantwort<br />

des Vokaltrakts gefaltet. Für die Spracherkennung ist die zeitlich sich relativ rasch ändernde<br />

Anregung uninteressant, wichtig ist die im Vergleich dazu langsam veränderliche Änderung<br />

des Vokaltrakts, da diese den geformten Laut bestimmt. Als Merkmale sind daher vor allem die<br />

Cepstrum Koeffizienten niederer Ordnung relevant. Die Faltung wird, wie in (3.2.25) – (3.2.30),<br />

S. 172, gezeigt, durch Bildung des Cepstrums in eine additive Verknüpfung transformiert. Die<br />

in (3.2.30) verwendete Betragsbildung ist bei Sprache dadurch gerechtfertigt, dass die Phase<br />

für den auditiven Eindruck nicht relevant ist. Zudem erhält sie die Transformation <strong>von</strong> Faltung<br />

in Addition und erlaubt die Verwendung des reellen Logarithmus. Daher wird in (3.6.24) das<br />

Betragsquadrat der FOURIER-Koeffizienten verwendet.<br />

Die Koeffizienten des Leistungsspektrum werden in (3.6.25) mit Dreiecksfiltern zusammengefasst.<br />

Diese orientieren sich zum einen an der <strong>von</strong> Versuchspersonen subjektiv empfundenen<br />

Tonhöhe, die als Tonheit bezeichnet und in der Einheit mel (melodische Tonheit) gemessen<br />

wird. Der Zusammenhang zwischen physikalischer Tonhöhe fHz [Hz] und Tonheit fmel [mel]<br />

ist nichtlinear. Eine Approximation ist<br />

<br />

fmel = 2595 · log 1 + fHz<br />

<br />

700<br />

. (3.6.23)<br />

Die Dreiecksfilter orientieren sich zum anderen an der Eigenschaft des menschlichen Ohres, die<br />

Lautstärke über Frequenzgruppen zu bilden, indem die Spektralanteile eines Frequenzbereichs<br />

bewichtet addiert werden. Der Frequenzbereich <strong>von</strong> 20 Hz bis 16 kHz wird <strong>von</strong> 24 nichtüberlappenden<br />

Frequenzgruppen überdeckt. Allerdings kann das Ohr an jeder Mittenfrequenz solche<br />

Gruppen bilden, sodass der Mensch (natürlich) mehr als 24 Tonhöhen unterscheiden kann.<br />

Für die Spracherkennung finden sich daher in der Literatur untschiedliche Zahl, Form und Frequenzaufteilungen<br />

für diese Filter. Ein Beispiel für die Filter dl,k zeigt Bild 3.6.3 in Form <strong>von</strong><br />

Nd = 25 Dreiecksfiltern.<br />

Von den so gewonnenen Koeffizienten wird in (3.6.26) der Logarithmus verwendet. Dieses<br />

ist zum einen wiederum der Charakteristik des Ohres nachempfunden, zum anderen für die Berechnung<br />

des Cepstrums erforderlich. Zur Reduktion der durch die obigen Schritte gewonnenen

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!