21.12.2012 Aufrufe

Klassifikation von Mustern

Klassifikation von Mustern

Klassifikation von Mustern

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

216 KAPITEL 3. MERKMALE (VK.2.3.3, 13.04.2004)<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

Bild 3.6.4: Verlauf der Maskierungskurve (durchgehende Linie) für einen 1 kHz Ton <strong>von</strong> 80<br />

dB, angedeutet durch •; der Verlauf der Hörschwelle (gestrichelte Linie)<br />

3.6.4 Lautheit<br />

Die „Lautheit“ bzw. Energie eines Sprachsignals ist erfahrungsgemäß für die Spracherkennung<br />

wichtig. Als Maß dafür wird jedoch nicht die Energie am Ausgang der Dreiecksfilter (3.6.26)<br />

oder der nullte Koeffizient der DCT in (3.6.26) genommen, sondern ein daraus abgeleiteter<br />

Wert. Objektiv messbar ist der Schallpegel<br />

<br />

ps<br />

Is<br />

L = 20 log = 10 log<br />

(3.6.32)<br />

p0<br />

I0<br />

mit der Einheit [dB]. Dabei ist ps der messbare Schalldruck (in Pascal, Pa), Is die Intensität<br />

[N m −2 ] und p0 = 2·10 −5 Pa, I0 = 10 −12 Nm −2 sind per Konvention festgelegte Bezugsgrößen.<br />

Der erforderliche Schallpegel für subjektiv mit gleicher Lautstärke wahrgenommene Töne wird<br />

mit Versuchspersonen ermittelt. Die maximale Empfindlichkeit des Ohres liegt danach bei etwa<br />

4 kHz. Sie nimmt zu niedrigeren und höheren Frequenzen stark ab.<br />

In Anlehnung daran wird als Maß für die Lautheit eine Größe wie<br />

L mf<br />

τ<br />

= <br />

j<br />

10 log c (mf)<br />

τ,j<br />

(3.6.33)<br />

verwendet. Diese wird oft als weitere Komponente zum Merkmalsvektor in (3.6.29) hinzugefügt.<br />

3.6.5 Normierung<br />

Zur Störungsreduktion wird oft die spektrale Subtraktion verwendet, die in (2.5.54), (2.5.55),<br />

S. 135, vorgestellt wurde. Eine weitere Maßnahme ist die Reduktion <strong>von</strong> Einflüssen des Mikrofons,<br />

des Raumes und der Sprechereigenschaften durch Normierung auf ein Langzeitspektrum.<br />

Eine Standardnormierung der Merkmale zu diesem Zweck ist der cepstrale Mittelwertabzug<br />

c (mc,n)<br />

τ,k<br />

= c(mc)<br />

τ,k − m(mc)<br />

k , (3.6.34)

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!