13.12.2012 Aufrufe

DAGA 2010 - Deutsche Gesellschaft für Akustik eV

DAGA 2010 - Deutsche Gesellschaft für Akustik eV

DAGA 2010 - Deutsche Gesellschaft für Akustik eV

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

246 <strong>DAGA</strong> <strong>2010</strong> Programm<br />

Diese sind motiviert durch psycho-physische und neuro-physiologische<br />

Erkenntnisse über die Verarbeitung von Amplituden-Modulationen im<br />

auditorischen System von Säugetieren. Mit den AMS wird die Verarbeitung<br />

von Modulationsfrequenzen durch den Menschen simuliert, indem<br />

<strong>für</strong> jeden Frequenzkanal der Kurzzeitspektralanalyse zusätzlich auch<br />

das Modulationsspektrum bestimmt wird.<br />

Die Standard-Merkmale in der automatischen Spracherkennung (ASR)<br />

sind die Mel-Frequency Cepstral Coefficients (MFCC), welche mit der<br />

Mel-Filterbank und dem logarithmierten Spektrum eine grobe Repräsentation<br />

des auditorischen Systems zeigen. Da jedoch die AMS ein detaillierteres<br />

Modell der auditorischen Verarbeitung darstellen, erscheint<br />

die Nutzung der AMS als Merkmalsvektoren zur ASR als sinnvoll. Es<br />

wird untersucht, ob diese Merkmale in Verbindung mit einer Klassifikation<br />

durch Hidden Markov Modelle (HMM) besonders unter schwierigen<br />

akustischen Bedingungen, wie Rauschen und Nachhall, Vorteile<br />

bieten. Zudem werden Aspekte der technischen Umsetzung diskutiert,<br />

beispielsweise wie die Länge der Merkmalsvektoren geeignet reduziert<br />

werden kann, da diese je nach Wahl der AMS Parameter sehr groß werden<br />

können.<br />

Do. 9:45 Gauß B 501 Robuste Spracherkennung<br />

Investigating the Complementarity of Spectral and Spectro-temporal<br />

Features<br />

M. Heckmann a , X. Domont b , F. Joublin a und C. Goerick a<br />

a Honda Research Insitute Europe GmbH; b TU Darmstadt<br />

Most common speech features as Mel Ceptstral Coefficients (MFCCs)<br />

and RASTA-PLP features use only spectral information. From measurements<br />

in the mammalian auditory cortex it is known that the mammalian<br />

brain jointly uses spectral and temporal information. To model this<br />

we previously developed Hierarchical Spectro-Temporal (HIST) features.<br />

They consist of two layers, the first capturing local spectro-temporal variations<br />

and the second integrating them into larger receptive fields. At<br />

both layers the receptive fields are learned in a data-driven unsupervised<br />

way. On the first layer we apply ICA (Independent Component Analysis)<br />

and in the second layer Non Negative Sparse Coding (NNSC). The dimensionality<br />

of the resulting features is reduced via the application of a<br />

Principal Component Analysis (PCA) and then fed into a Hidden Markov<br />

Model (HMM). In this paper we investigate the complementarity of these<br />

features to conventional spectral features. For doing so we carried out<br />

experiments in a continuous digit in noise recognition task, a setup very<br />

similar to the Aurora-2 task. Additionally we performed a correlation analysis<br />

between the features. The results show that the HIST features carry<br />

complementary information and that they can be beneficially combined<br />

with purely spectral features especially to reduce error rates in noise.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!