26.11.2012 Aufrufe

Jahresbericht informatik 2009 - KIT – Fakultät für Informatik

Jahresbericht informatik 2009 - KIT – Fakultät für Informatik

Jahresbericht informatik 2009 - KIT – Fakultät für Informatik

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Modellierung zu ermöglichen.<br />

Speaker Recognition<br />

Institut <strong>für</strong> Anthropomatik<br />

(T. Schultz, Q. Yang)<br />

Die Zuweisung von Stimmen zu Personen unter Verwendung von Informationen aus der<br />

Stimme wird als "Speaker Tracking" bezeichnet. In ein Speaker Tracking System gibt man<br />

den Audio File eines Sprechers. Ausgegeben werden die Bereiche des Audio Files, in denen<br />

der Zielsprecher eine Äußerung macht. Um die Identität eines Sprechers auszugeben, müssen<br />

die Namen der zu erkennenden Sprecher zuvor in das System eingegeben werden sowie<br />

Beispiel-Äußerungen der Sprecher, die <strong>für</strong> das Training des Systems verwendet werden.<br />

"Speaker Tracking" kann als eine Kombination aus unterschiedlichen Sprecher-<br />

Erkennungsdisziplinen verstanden werden wie die Speaker Diarization und die Open-set<br />

Speaker Identification. Es gibt viele potentielle Anwendungen wie z.B. das automatische<br />

Strukturieren und Indexieren von Audiodaten im Internet ohne manuellen Aufwand. Das<br />

Speaker Tracking System, das wir im Rahmen des Quaero Projektes entwickelten, besteht<br />

aus zwei Hauptkomponenten: Der Speaker Segmentation und der Open-set Speaker<br />

Identification. Für eine gegebene Audiodatei werden zunächst nicht-sprachliche Regionen<br />

entfernt, gefolgt von einer Segmentierung der Sprachregionen basierend auf den Wechseln<br />

der Sprecher. Die Sprachsegmente werden dann in einem Open-set Speaker Identification<br />

(SID) System weiterverarbeitet, um die entsprechenden Sprecher zu erkennen. Unsere<br />

Experimente wurden auf den ESTER2-Daten durchgeführt, die aus französischen<br />

Nachrichten bestehen. Das Baseline-System erreichte eine Half Total Error Rate in Bezug<br />

auf die Zeit (HTER-time) von 25.30% und 31.94% HTER im Bezug auf den Spracher<br />

(HTER-speaker). Nach der Frame-base Score Competition-Methode (FSC) sanken die<br />

HTER-time und die HTER-speaker auf 24.098% bzw. 31.319%. Für die Verbesserung des<br />

Baseline-Systems wurden verschiedene Ansätze untersucht. Beispielsweise kann multimodale<br />

Information kombiniert werden, um die Robustheit des Systems zu erhöhen, wie z.<br />

B. aus Video.<br />

Spektrale Methoden zur EMG-basierten Erkennung lautloser Sprache<br />

(T. Schultz, M. Wand)<br />

Diese Arbeit präsentiert neue Analysen und Resultate <strong>für</strong> die Spracherkennung mittels<br />

Elektromyographie (EMG), bei der die Aktivität der artikulatorischen Muskeln mittels<br />

geeigneter Elektroden direkt an der Hautoberfläche abgegriffen wird. Diese Technik ermöglicht<br />

Silent Speech Interfaces, da ein bloßes Artikulieren, ohne Produktion von akustischen<br />

Signalen, <strong>für</strong> die Spracherkennung ausreichend ist. Es hat sich herausgestellt, dass eine<br />

hohe Diskrepanz zwischen EMG-Signalen bei hörbarer und lautloser Sprache besteht, was<br />

negative Auswirkungen auf die Erkennungsleistung von EMG-basierten Spracherkennern<br />

hat.<br />

In dieser Arbeit wird eine Methode der spektralen Analyse vorgestellt, die es ermöglicht,<br />

diese Unterschiede zu analysieren und zu quantifizieren.<br />

257<br />

3

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!