13.12.2012 Aufrufe

DAGA 2010 - Deutsche Gesellschaft für Akustik eV

DAGA 2010 - Deutsche Gesellschaft für Akustik eV

DAGA 2010 - Deutsche Gesellschaft für Akustik eV

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Programm <strong>DAGA</strong> <strong>2010</strong> 245<br />

and the direct modelling of statistical dependencies between consecutive<br />

feature vectors by the LDM, are exploited. Phone classification experiments<br />

conducted on the TIMIT database indicate the prospective use<br />

of this approach for the application to continuous speech recognition.<br />

Do. 8:55 Gauß B 501 Robuste Spracherkennung<br />

Filterung der Kurzzeit-Energieverläufe in Teilbändern zur Verbesserung<br />

der Spracherkennung bei Freisprechen<br />

A. Kitzig und H.-G. Hirsch<br />

Hochschule Niederrhein<br />

Beim Einsatz eines Spracherkennungssystems im Freisprechmodus in<br />

einer räumlichen Umgebung stellt man eine deutliche Verschlechterung<br />

der Erkennungsraten auf Grund des Nachhalls fest. Ein möglicher Ansatz<br />

zur Verbesserung der Erkennungsraten besteht in einer Vorverarbeitung<br />

des Sprachsignals zur Reduktion des Halls. Da zur Extraktion<br />

relevanter akustischer Merkmale im Bereich der Spracherkennung meist<br />

eine Analyse im Spektralbereich stattfindet, bietet sich der Einsatz eines<br />

im Frequenzbereich arbeitenden Verfahrens an. Der Nachhall führt zu<br />

einer Tiefpassfilterung des Verlaufs der Kurzzeit-Energie in einzelnen<br />

Teilbändern. Es gab bereits verschiedene Untersuchungen zur Verwendung<br />

einer inversen Filterung. Dabei wurden die Filter in der Regel aus<br />

einem einfachen Hallmodell abgeleitet, das auf einem exponentiell abfallenden<br />

Verlauf der Raumimpulsantwort beruht. Damit kann allerdings<br />

nur näherungsweise der Nachhall in realen Räumen modelliert werden.<br />

Im Rahmen dieser Untersuchungen werden zunächst verschiedene Filteransätze<br />

zur Modellierung des Nachhalls realer Räume im Frequenzbereich<br />

betrachtet. Dabei werden Filterstrukturen betrachtet, die eine<br />

bessere Modellierung im Vergleich zu den einfachen Hallmodellen erlauben.<br />

Aus den geeignetsten Filtermodellen wird eine zugehörige inverse<br />

Filterung abgeleitet. Die Verwendbarkeit einer derartigen Vorgehensweise<br />

zur Reduktion des Halls und zur Verbesserung der Spracherkennung<br />

wird im Rahmen von Erkennungsexperimenten mit Sprachdaten aufgezeigt,<br />

deren Aufnahme im Freisprechmodus durch Faltung mit realen<br />

Raumimpulsantworten nachempfunden wird.<br />

Do. 9:20 Gauß B 501 Robuste Spracherkennung<br />

Robustheit automatischer Spracherkennung mit Amplitudenmodulationsspektrogrammen.<br />

N. Moritz a , J. Anemüller b und B. Kollmeier b<br />

a Fraunhofer IDMT / Hör-, Sprach- und Audiotechnologie, Oldenburg;<br />

b Medizinische Physik, Carl-von-Ossietzky Universität Oldenburg<br />

Heutige automatische Spracherkennersysteme erreichen bei weitem<br />

nicht die Leistung des menschlichen Gehörs, wenn sie in akustisch<br />

schwierigen Bedingungen, wie etwa störgeräuschbehafteten oder halligen<br />

Umgebungen, eingesetzt werden. In diesem Beitrag wird zur Erhöhung<br />

der Robustheit der Ansatz einer am Gehör orientierten Musterextraktion<br />

durch Amplitudenmodulationsspektrogramme (AMS) verfolgt.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!