Laborübung Spracherkennung

Laborübung Spracherkennung 

In dieser Laborübung sollen Sie mit einem einfachen Spracherkenner experimentieren, der 

zwischen den Wörtern ” Ja“ und ” Nein“ unterscheiden kann. Der Erkenner arbeitet wie viele 

industriell eingesetzte Systeme mit statistischer Modellierung durch Hidden Markov Modelle 

(HMM). In der Laborübung werden Sie einige Experimente mit selbst aufgenommener 

Sprache durchführen. 

Lesen Sie die Aufgabenstellung vor Ihrer Übung durch. Aufgabe 1 sollte 

schon vor der Übung von jedem Teilnehmer bearbeitet und handschriftlich 

gelöst werden. Für eine erfolgreiche Teilnahme muß ein Versuchsprotokoll 

angefertigt werden, es genügt eine handschriftliche Ausführung, die während 

des Versuchs erstellt werden kann. 

Inhaltsverzeichnis 

1 Einführung 1 

2 Hidden Markov Modelle 4 

3 Problemstellung der Laborübung 7 

4 Aufgaben 8 

1 Einführung 

In der maschinellen Spracherkennung möchte man algorithmisch aus einem gegebenen 

Sprachsignal die vom Sprecher produzierten Laute, Wörter oder Sätze erkennen. Mögliche 

Anwendungsgebiete für die Spracherkennung sind unter anderem die Steuerung von Maschinen 

durch Sprache (z. B. Autotelefon: Herstellen einer Verbindung durch Sprachkommandos), 

die hörende Schreibmaschine (z. B. DragonDictate, VoiceType), Dialogsysteme mit 

gesprochener Sprache als Dialogmedium (engl. spoken language dialog system (SLDS), Man 

kann Spracherkennungssysteme bezüglich der verwendeten Technologie, des unterstützten 

Wortschatzes, der vom Benutzer verlangten Sprechweise, der Sprecherabhängigkeit sowie 

der der Erkennung zugrundeliegenden Einheiten unterscheiden. 

Technologie Bezüglich der verwendeten Technologie kann man Spracherkennungssysteme 

grob zwischen regelbasiert/symbolisch und konnektionistisch unterscheiden. Den konnektionistischen 

Verfahren ist gemein, daß sie ihr phonetisches Wissen aus großen Datenmengen 

(Trainingsdaten) nahezu selbständig erwerben, während zur Implementierung regelbasierter 

Ansätze i.a. phonetisches Expertenwissen aufwendig in ein Spracherkennungs-

Laborübung Spracherkennung 2 

system integriert werden muß. In den letzten Jahren haben sich konnektionistische Verfahren 

gegenüber regelbasiert/symbolischen Ansätzen durchgesetzt. Die z.Z. am häufigsten 

verwendeten konnektionistischen Verfahren sind die Erkennung mit Hilfe von künstlichen 

neuronalen Netzen (NN) und die Erkennung, die sich statistischer Modellierung durch sog. 

Hidden-Markov-Modelle (HMMs) bedient. In dieser Laborübung beschäftigen wir uns mit 

einem HMM-basierten Spracherkenner. 

Wortschatz Die Anforderungen an den Wortschatz, also die Anzahl der vom Spracherkennungssystem 

verarbeitbaren Wörter, sind je nach Anwendungsgebiet sehr unterschiedlich. 

Für die Steuerung von Maschinen und sehr einfache Dialogsysteme, etwa ein durch 

Sprache steuerbarer Anrufbeantworter, kann ein Wortschatz von 10 – 100 Wörtern ausreichend 

sein. Für andere Anwendungen, z.B. Diktiersysteme, ist ein unbeschränkt großer 

Wortschatz wünschenswert, damit beispielsweise auch dem System nicht bekannte Eigennamen 

verstanden werden. In gängigen Systemen werden Wortschätze im Bereich 1000 – 

100000 Wörter verwendet. Manche Systeme können auch mit unbekannten Wörtern umgehen, 

indem sie beispielsweise den Benutzer nicht verstandene Wörter buchstabieren lassen. 

Mit der Größe des Wortschatzes steigen i.a. die technologischen Anforderungen an ein 

Spracherkennungssystem. Es ist einfacher, ein System mit kleinem Wortschatz zu befriedigender 

Leistung zu bringen als ein System mit großem Wortschatz. Aus diesem Grund 

beschränken wir uns in dieser Laborübung auf einen Mini-Spracherkenner, der zwischen 

den beiden Wörtern ” Ja“ und ” Nein“ unterscheiden soll. 

Sprechweise Besonders bei Dialogsystemen sind natürliche, das heißt einer Mensch- 

Mensch Gesprächssituation entsprechende Sprechweisen anzustreben. Diese Sprechweise 

wird als kontinuierliche oder verbundene Sprache bezeichnet (z.B. im englischen connected 

word recognition = Verbundworterkennung). Aus technologischen Gründen wird manchmal 

eine Sprechweise vorgeschrieben, bei der der Sprecher zwischen einzelnen Wörtern 

eine kurze Pause (typisch eine zehntel Sekunde) machen muß. Erkenner, die eine solche 

Sprechweise voraussetzen, werden Isoliertworterkenner genannt (Beispiele: DragonDictate, 

VoiceType). Diese Sprechweise vereinfacht das Erkennungsproblem, zum einen, weil 

bei dieser ungewohnten Sprechweise die Wörter meist deutlicher artikuliert werden, und 

zum anderen, weil die Grenzen zwischen den Wörtern klar algorithmisch erkannt werden 

können und nur noch entschieden werden muß, welches Wort zwischen zwei Pausen gesprochen 

wurde. Die Ungewißheit bei den Anfangs- und Endpunkten von Wörtern bei der 

Erkennung von verbundener Sprache vergrößert erheblich den zu durchmessenden Suchraum 

gegenüber der Isoliertworterkennung. Der größere Suchraum hat i.a. längere Erkennungszeiten 

und/oder eine schlechtere Erkennungsleistung zur Folge. Aus diesem Grund 

kann man i.a. den Wortschatz eines Isoliertworterkenners größer anlegen als bei Erkennern 

für kontinuierlich gesprochene Sprache. In der Laborübung wollen wir zunächst den 

Ja/Nein–Erkenner als Isoliertworterkenner einsetzen. In Aufgabe 7 und 8 unterstellen wir, 

daß das Finden der Pausen bereits erfolgt ist. In Aufgabe 9 erfolgt dann auch das Finden 

der Pausen durch den Erkenner. In der Aufgabe 10 schließlich werden Sie den Erkenner als 

Verbundworterkenner betreiben.


Sprecherabhängigkeit Man unterscheidet bei Spracherkennungssystemen zwischen 

sprecherabhängigen und sprecherunabhängigen Systemen. Sprecherabhängige Systeme sind 

an eine(n) oder wenige Sprecher(innen) angepaßt. Sie erfordern meist eine Trainingsphase, 

in der das System sich möglichst gut auf den oder die Sprecher einstellt. Sprecherunabhängige 

Systeme sollen sofort von Sprechern benutzbar sein, die das System noch nie 

zuvor ” gehört“ hat. I.a. haben sprecherabhängige Systeme einen größeren Wortschatz und 

werden in Situationen eingesetzt, bei denen der Benutzer nicht oder nur selten wechselt, 

beispielsweise bei Diktiersystemen. Bei SLDSs (spoken language dialog systems) wie der 

automatischen Zugauskunft sind Trainingsphasen nicht akzeptabel, deswegen werden hier 

sprecherunabhängige Systeme verwandt. Einzelne Systeme verfolgen eine Zwischenstrategie: 

sie sind sprecherunabhängig angelegt, können sich aber während des Dialogs auf sprecherspezifische 

Eigenheiten einstellen (Sprecheradaption). In der Laborübung verwenden 

wir sprecherunabhängig trainierte HMMs, so daß die Erkennung für alle Mitglieder Ihrer 

Übungsgruppe ohne vorheriges Training der HMMs möglich sein sollte. 

Verwendete Einheiten Ein weiteres Unterscheidungsmerkmal bei Spracherkennungssystemen 

ist die Granularität der gewählten Einheiten, die bei der Erkennung verwandt 

werden. Es gibt im wesentlichen Systeme, die auf der Erkennung von einzelnen Lauten 

beruhen und solche, die Wörter als Ganzes erkennen. Die Unterscheidung kann man hier 

nicht sehr streng vornehmen, da die meisten Systeme heute eine Mischform beider Ansätze 

benutzen. In der gesprochenen Sprache werden Laute in Abhängigkeit von ihrer Umgebung 

(also den vorausgehenden und nachfolgenden Lauten) sowie von Betonung, Sprechstil, 

Sprechtempo, syntaktischer oder pragmatischer Funktion etc. unterschiedlich realisiert. 

Aus diesem Grund ist es sinnvoll, möglichst lange Einheiten, das heißt ganze Äußerungen 

oder zumindest ganze Wörter, als kleinste Einheit bei der Erkennung zu verwenden. Dem 

gegenüber steht jedoch das Trainingsproblem: für jede zugrundeliegende Einheit müssen 

genügend Trainingsbeispiele vorhanden sein. Dies fällt umso leichter, je kleiner die Einheiten 

gewählt werden. Aus diesem Grund basieren die meisten Erkennungssysteme auf 

Lauten, auch wenn die Erkennung Wortweise oder gar Satzweise abzulaufen scheint. Im 

Training werden die Modelle oder Netze für einzelne Laute traininert, die jedoch aus unterschiedlichen 

Umgebungen (Wörtern) entnommen sind. Für die Erkennung werden diese 

Lauteinheiten dann zu Wortmodellen oder Wortnetzen zusammengefügt. Durch diese Technik 

ist es möglich, auch Wörter erkennen zu können, für die gar keine Trainingsbeispiele 

vorhanden sind. Andererseits werden in gängigen Spracherkennungssystemen auch größere 

Einheiten als Laute verwendet, falls für diese genügend Trainingsmaterial verfügbar ist. 

Am häufigsten wird dies bei Funktionswörtern praktiziert, da sie sehr häufig in der Sprache 

auftreten und oft stark reduziert sind. Um terminologische Probleme zu vermeiden spricht 

man bei der Modellierung auf Lautebene meist nicht von Phonemmodellen, sondern allgemeiner 

von Modellen für Wortuntereinheiten, da darunter auch mehrere zu einem Modell 

oder Netz zusammengefaßte Phoneme, kleinere Einheiten als Phoneme und sogar ganze 

Wörter verstanden werden können.


2 Hidden Markov Modelle 

In diesem Abschnitt wird beschrieben, was Hidden Markov Modelle sind und 

wie man sie zur Erkennung einsetzen kann. Dabei werden Konzepte aus der 

Wahrscheinlichkeitsrechnung und der Automatentheorie verwendet. Weitere Einzelheiten 

finden Sie z.B. in rotschenkel:/usr/local/HTK_V3.1.1/htkbook.{ps,pdf} und 

http://htk.eng.cam.ac.uk/ . 

Statistische Modellierung und die Regel von Bayes 

Spracherkennung durch HMMs basiert auf der Idee der statistischen Modellierung. Äußerlich 

betrachtet, wollen wir ausgehend von dem Schallereignis die wahrscheinlichste Wortfolge 

berechnen. Reduzieren wir zur Illustration das Spracherkennungsproblem auf den in 

dieser Übung betrachteten Ja/Nein–Erkenner. Die Aufgabenstellung lautet dann: gegeben 

die Äußerung O, ist es wahrscheinlicher, daß sie Ja oder daß sie Nein enthält? Diese Frage 

ist so direkt nicht einfach zu beantworten. Bei der Statistischen Modellierung wendet 

man deshalb einen Trick an, indem man die Aufgabenstellung gewissermaßen umkehrt. Die 

Aufgabenstellung im konkreten Fall würde sich dann in zwei Fragen verwandeln: Wenn 

wir annehmen es handelt sich um ” Ja“, wie wahrscheinlich ist dann das konkret gemessene 

Schallereignis O? Wie wahrscheinlich ist O, wenn wir annehmen, es handelt sich um ” Nein“? 

Die beiden Arten, das Erkennungsproblem zu formulieren, stehen in einem mathematischen 

Zusammenhang, den die Bayessche Regel beschreibt: 

P(Ai|B) = P(Ai)P(B|Ai) 

P(B) 

Voraussetzung für die Regel von Bayes ist � 

i P(Ai) = 1 und ∀i�=jAi ∩ Aj = ∅. Durch 

Anwenden der Bayesschen Regel kann man bedingte Wahrscheinlichkeiten ” umdrehen“, 

also P(Ai|B) durch P(B|Ai) ausdrücken. 

Was bedeutet nun die Formel im Falle unseres Ja/Nein–Erkenners? Da wir zwei Muster 

unterscheiden wollen, kann i die Werte 1 und 2 annehmen. Die linke Seite der Gleichung, 

P(Ai|B) ist die Größe, die uns eigentlich interessiert. A1 steht für das Ereignis ” Es wurde Ja 

gesagt“ bzw. A2 für das Ereignis ” Es wurde Nein gesagt“. B ist das Ereignis, das beschreibt, 

daß wir genau das vorliegende Sprachsignal gemessen haben. P(A1|B) beschreibt also die 

Wahrscheinlichkeit dafür, das unser gemessenes Sprachsignal ” Ja“ enthält, P(A2|B) die 

Wahrscheinlichkeit, daß es ” Nein“ enthält. Die Strategie, die der Erkenner verfolgt, müßte 

nun klar sein: Wenn P(A1|B) > P(A2|B), wird ” Ja“ ausgegeben, im anderen Fall ” Nein“. 

Die rechte Seite der Gleichung beschreibt, wie wir die beiden Werte ausrechnen können. 

P(A1) ist die Wahrscheinlichkeit, daß ” Ja“ gesagt wird, P(A2) ist die Wahrscheinlichkeit, 

daß ” Nein“ gesagt wird. Dieser Teil der Formel ist das Sprachmodell, er ist von der konkreten 

Äußerung unabhängig. Bei unserem Ja/Nein–Erkenner können wir hier Gleichverteilung 

annehmen, das heißt unterstellen, daß unserem Erkenner ” Ja“ genauso häufig wie ” Nein“ 

zur Erkennung vorgelegt wird, also P(A1) = P(A2) = 1 

2 . 

Die P(B|Ai) sind das Herzstück der statistischen Modellierung, die Stelle, an der die HMMs 

zum Zuge kommen. P(B|A1) ist die Wahrscheinlichkeit, daß sich eine ” Ja“–Äußerung als


das konkrete, gemessene Sprachsignal manifestiert. Entsprechend ist P(B|A2) die Wahrscheinlichkeit, 

daß sich eine ” Nein“–Äußerung als B messen läßt. Wie die Modellierung 

funktioniert, wird weiter unten beschrieben werden. 

Der Nenner der Formel, P(B), gibt an, wie wahrscheinlich unsere Beobachtung überhaupt 

ist. Diese Größe ist nur von der Messung und nicht davon abhängig, ob ” Ja“ oder ” Nein“ 

geäußert wurde. Da sie für alle Ai gleich ist, und uns nur interessiert, welches P(Ai|B) am 

größten ist, wird der Nenner bei Erkennern oft gar nicht berücksichtigt. 

Was sind Hidden Markov Modelle? 

HMMs sind endliche Automaten, denen zwei stochastische Prozesse unterlegt sind. Wie 

wir im vorherigen Abschnitt bereits angesprochen haben, sollen die HMMs modellieren, 

wie das Sprachsignal für einen bestimmten Laut, ein bestimmtes Wort oder Satz aussieht. 

Man kann sich also vorstellen, das HMM erzeuge dieses Sprachsignal (genauer: daraus 

berechnete Merkmalsvektoren). Außerdem soll mit ihnen die Wahrscheinlichkeit für eine 

bestimmte Folge von konkret observierten Daten angegeben werden können, also die Wahrscheinlichkeit, 

daß ein bestimmtes HMM eine bestimmte Folge von Daten erzeugt hat. 

Endlicher Automat (hier: nichtdeterministische Moore-Maschine) 

• endlich viele Zustände 

• in jeder Zeiteinheit wechselt das System in einen der 

möglichen Folgezustände 

• gibt das Ausgabezeichen des Zustands aus 

Der gezeigte Automat kann z.B. die Ausgaben aaabcc, ac, aaabc oder accc erzeugen. 

Markov–Kette oder Markov Modell (auch: zeit- und wertdiskreter stochastischer 

Prozeß) 

• Wechsel der Zustände erfolgt mit festgelegter Wahrscheinlichkeit 

• Bei den Markov–Ketten interessiert man sich u.a. für die 

Wahrscheinlichkeit einer bestimmten Abfolge. 

Bei der abgebildeten Markov–Kette ergibt sich für die Abfolge aabc die Wahrscheinlichkeit 

P(aabc) = 0.3 × 0.6 × 1.0 × 0.7 = 0.126. 

a 

0.3 

a 

0.6 

0.1 

b 

b 

c 

1.0 

c 

0.7 

0.3


Hidden Markov Modell (hier: mit stetiger Verteilungsdichte als Ausgabe) 

• Ausgabe unterliegt ebenfalls dem Zufall 

• Statt endlich vieler Ausgabesymbole reellwertige Emissionen 

• Ausführungsreihenfolge nicht beobachtbar (d.h. versteckt 

= ” hidden“) 

Wenn z.B. die Ausgaben der Zustände normalverteilt mit jeweils unterschiedlichem Mittelwert 

und Varianz sind, könnte sich dann für eine bestimmte Wertefolge ergeben: 

P(133.4,134.6,133.9, 145.7,170.9) = 0.095. 

HMMs für die Spracherkennung 

In der Spracherkennung wird meist nicht direkt das Sprachsignal (Zeitsignal) als Ausgabe 

der HMMs aufgefaßt, sondern daraus berechnete Merkmalsvektoren. Dazu wird für kleine 

Ausschnitte aus dem Zeitsignal (typisch 25,6 ms) eine Frequenzanalyse durchgeführt. Diese 

Analyse wird mit festem Abstand (typisch 10 ms) wiederholt über das ganze Sprachsignal 

immer wieder durchgeführt. Statt der eindimensionalen Wertefolge des Zeitsignals erhält 

man dadurch eine Folge von hochdimensionalen Vektoren (typische Dimension 10-40). Die 

Idee dabei ist, daß bei den Merkmalsvektoren die Unterschiede zwischen den zu unterscheidenden 

Klassen erhöht werden, aber die Unterschiede bei Mustern einer Klasse gegenüber 

der Betrachtung des Zeitsignals verringert werden. Gegenüber dem oben gezeigten HMM 

ändert sich nicht viel: Es werden eben statt eines einzigen Zufallswertes gleich mehrere 

Zufallswerte (Zufallsvektor) ausgegeben. 

Zusammenfassung: Allgemeiner Aufbau von HMM–basierten Spracherkennungssystemen 

HMM-Spracherkennungssysteme haben meist folgenden Aufbau: Die ankommenden Schallwellen 

werden an der Membran eines Mikrophons in elektrische Schwingungen umgewandelt 

und anschließend digitalisiert oder liegen bereits in digitalisierter Form vor. Aus dem digitalisierten 

Sprachsignal, dem sog. Zeitsignal, werden Merkmalsvektoren berechnet. Für 

verschiedene mögliche Wörter oder Wortfolgen wird die Wahrscheinlichkeit dafür errechnet, 

daß die vorliegenden Merkmalsvektoren von den Modellen der vom Erkenner in Betracht 

gezogenen Wörter erzeugt wurden. Unter Anwendung der Bayesschen Regel kann man errechnen, 

welches Modell eines Wortes oder einer Wortfolge am wahrscheinlichsten der Folge 

von Merkmalsvektoren entspricht. Die Möglichkeit mit der höchsten Wahrscheinlichkeit 

wird als erkanntes Wort bzw. erkannte Wortfolge ausgegeben. 

0.3 

0.6 

0.1 

1.0 

0.7 

0.3


3 Problemstellung der Laborübung 

In der Laborübung sollen Sie mit einem einfachen Spracherkenner experimentieren, der 

zwischen den Wörtern ” Ja“ und ” Nein“ unterscheiden kann. Wegen der nur begrenzt zur 

Verfügung stehenden Zeit werden Ihnen bereits trainierte HMMs für Wortuntereinheiten 

(Phoneme) zur Verfügung gestellt. Diese werden zusammengehängt und ergeben die Modelle 

für die beiden zu unterscheidenden Wörter. Da die Erkennung von Sprechpausen 

stark abhängig von Hintergrundgeräuschen (v.a. Lüfter der Workstations) ist, sollen Sie 

zunächst dieses Hintergrundrauschen aufnehmen und ein Hidden Markov Modell dafür 

trainieren. Anschließend werden Sie einige Experimente mit selbst aufgenommener Sprache 

durchführen. Es folgt eine Übersicht über die gestellten Aufgaben. 

Aufgabe Beschreibung Zeit 

1 Bayessche Regel Vorbereitung! 

2 Dateien kopieren 10min. 

3 Hintergrundgeräusch aufnehmen 10 min. 

4 Training Pausenmodell 15 min. 

5 hmmlist und net editieren 10 min. 

6 Einzelwörter aufnehmen 15 min. 

7 Erkennung & Auswertung Einzelwort 25 min. 

8 Unbekannte Wörter 30 min. 

9 Isoliertworterkenner, Auswertung 30 min. 

10 Verbundworterkenner, Auswertung 30 min. 

Aufgabe 1 ist unabhängig von den anderen Aufgaben bearbeitbar und die individuell erarbeitete, 

handschriftliche Lösung muss mitgebracht werden. Die anderen Aufgaben bauen 

aufeinander auf. Die Zeitangaben sind grobe Orientierungshilfen, die individuell verschieden 

sein können. Falls Sie an einer Aufgabe allzu lange knobeln müssen, setzen Sie sich mit 

Ihrem Betreuer in Verbindung. Für eine erfolgreiche Teilnahme muß ein Versuchsprotokoll 

angefertigt werden. Es genügt eine handschriftliche Ausführung, die während des Versuchs 

erstellt werden kann.


4 Aufgaben 

Aufgabe 1 Es liegt eine Folge O von Merkmalsvektoren vor, die aus einer Äußerung berechnet 

wurde, von der Sie wissen, daß sie entweder die Sequenz Pause-Ja-Pause oder Pause-Nein-Pause 

enthalten hat. Es existiert keine zugehörige Sprachdatei, so daß Sie nicht anhören können, welche 

der beiden Möglichkeiten gesprochen wurde. Sie können sich jedoch die Wahrscheinlichkeit 

P(O|Ja) dafür ausrechnen lassen, daß die Merkmalsvektoren von einem HMM1 für die Sequenz 

Pause-Ja-Pause erzeugt wurden, sowie die Wahrscheinlichkeit P(O|Nein), daß die Merkmalsvektoren 

von einem HMM2 für die Sequenz Pause-Nein-Pause erzeugt wurden. Wie groß sind 

die Wahrscheinlichkeiten P(Ja|O) und P(Nein|O), also die Wahrscheinlichkeiten, daß die 

gelöschte Datei Pause-Ja-Pause resp. Pause-Nein-Pause enthielt? Verwenden Sie zur Berechnung 

die Bayessche Formel und die Werte P(O|Ja) = 0.23 und P(O|Nein) = 0.84. Für P(O) 

können Sie 0.535, für P(Ja) = P(Nein) = 0.5 annehmen. 

Aufgabe 2 Loggen Sie sich an einer Unix-Workstation unter dem Account ’Seminar’ ein und 

besorgen Sie die für die folgenden Aufgaben nötigen Dateien. Führen Sie dazu die folgenden 

Schritte durch: 

1. Wechseln Sie nach soseXX und legen Sie dort, falls nicht vorhanden, mit mkdir gruppeN 

ein neues Arbeitsverzeichnis an. ’XX’ ist Platzhalter für die Jahreszahl, N ist die Nummer 

Ihrer Laborgruppe. 

2. Wechseln Sie in das neu angelegte Verzeichnis und kopieren Sie mit dem Befehl 

wget http://www.ims.uni-stuttgart.de/~wokurek/laboruebung.tar . die eingepackten 

Dateien in dieses Verzeichnis. 

3. Entpacken Sie mit dem Befehl tar xf laboruebung.tar die Dateien. 

i Nach Eingabe von cd laboruebung und ls sollte sich etwa folgender Bildschirminhalt 

ergeben: 

seminar@zilpzalp:~/sose98_spracherkennung/Gruppe1/Laboruebung> 

erkenne* net toolconf/ zeige* 

hmm/ nimmauf* train/ 

hmmlist test/ trainierepause*


Aufgabe 3 Nehmen Sie das Hintergrundgeräusch an Ihrem 

Arbeitsplatz auf. Zur Durchführung der Übung genügt 

das kleine Anclips-Mikrophon (s. Bild). Vergewissern Sie 

sich, daß das Mikrophon, das Sie benutzen wollen, richtig 

angeschlossen ist, und daß die Aussteuerung richtig eingestellt 

ist (so wie Sie das in der Laborübung Sprachaufnahme 

gelernt haben). Die Aussteuerung sollte für die folgenden 

Aufnahmen nicht mehr verändert werden müssen. Verwenden 

Sie zum Aufnehmen das Shellscript nimmauf. Es fragt 

nach einem Dateinamen (ohne die Extension.wav eingeben) 

und nimmt für drei Sekunden auf, nachdemOK... erscheint. 

Wählen Sie als Namen beispielsweise stilleslabor. 

i Sie müßten nun eine Datei mit den aufgenommenen Hintergrundgeräuschen in dem Unterverzeichnis 

test haben, die Sie mit aplay test/stilleslabor.wav anhören können. 

Als nächstes wird mit den von Ihnen aufgenommenen Hintergrundgeräuschen ein einfaches 

HMM trainiert. 

Aufgabe 4 Trainieren Sie Ihr Pausenmodell durch Aufruf 

des Shellscripts trainierepause. Sie müssen den oben gewählten Namen eingeben, um 

mitzuteilen, welche .wav-Datei beim Training verwandt werden soll. Das Script verschiebt 

Ihre .wav-Datei in das Unterverzeichnis train, berechnet dort aus der Datei Merkmalsvektoren 

und legt ein Labelfile an, das für das Training benötigt wird. Schließlich erzeugt es 

ein HMM, das den von Ihnen gewählten Namen hat. Machen Sie für das Versuchsprotokoll 

einen Ausdruck des von Ihnen trainierten Modells. (nützliche Kommandos: pr, fold -w70, 

lp -d miro, lpq, lprm) Die Modelle sind in dem Unterverzeichnis hmm als einzelne lesbare 

Textdateien abgelegt. 

i Bei der Verarbeitung wird aus der .wav-Datei eine .sph-Datei generiert. Die Extension 

.sph steht für NIST-Sphere-Format und wird im weiteren von den HTK-Tools benötigt. 

Eine .sph-Datei kann genauso wie eine wav-Datei mitpadsp /usr/local/ims/bin/wwplay 

angehört werden. 

Aufgabe 5 Damit der Spracherkenner Ihr neues Modell verwendet, editieren Sie die beiden 

Dateien hmmlist und net mit einem Editor Ihrer Wahl (s. Laborübung UNIX). Fügen Sie in 

der Datei hmmlist an beliebiger Stelle eine Zeile mit dem Namen Ihres Modells hinzu, damit es 

ebenfalls eingelesen wird. Ersetzen Sie in der ersten Zeile der Datei net das seitherige Modell 

für die Pause, sil, durch den Namen Ihres neuen Modells. 

i Die Datei hmmlist beinhaltet eine Liste der vom System eingelesenen HMMs. In jeder 

Zeile steht der Name eines Modells, jedes Modell entspricht in etwa einem Phonem. Zudem 

sind noch Modelle für Sprechpausen enthalten, nämlich sp und sil. Die Datei net 

beschreibt, welche Möglichkeiten der Erkenner berücksichtigen kann. Wir werden uns noch 

weiter unten mit der Syntax der Datei net auseinandersetzen.


Aufgabe 6 Jeder Teilnehmer Ihrer Übungsgruppe soll eine Datei aufnehmen, die einmal ” Ja“ 

sowie eine Datei, die einmal ” Nein“ enthält. Benutzen Sie dazu wieder das Kommando nimmauf 

und verwenden Sie Namen, die Sprecher und Inhalt charakterisieren, z.B. hugoja, hugonein, 

emmaja,. ..Sie werden automatisch in dem Unterverzeichnis test abgelegt. Überprüfen Sie 

einen Teil der Aufnahmen mit aplay. 

i Ein guter Platz für das Mikrophon bei der Aufnahme ist 5–10 cm entfernt schräg vor dem 

Mund des Sprechers. Wenn man das Mikrophon gerade vor dem Mund oder tief vor dem 

Gesicht hält, passiert es leicht, daß man beim Ausatmen durch Mund oder Nase auf das 

Mikrophon bläßt und Störgeräusche erzeugt, die die Erkennung beeinträchtigen können. 

Aufgabe 7 Starten Sie die Erkennung Ihrer aufgenommenen Testäußerungen durch Eingabe 

von erkenne. Dieses Script codiert die Sprachdaten im Unterverzeichnis test in Merkmalsvektoren 

und ruft den Erkenner HVite des HTK–Toolkits auf. Wenn die Erkennung ohne Fehlermeldungen 

abgelaufen ist, starten Sie mit zeige das HTK-Visualisierungsprogramm HSLab, das 

die aufgenommenen Sprachfiles aus test zusammen mit der vom Erkenner erzeugten Ausgabe 

darstellt (s. Abb.). Wieviele Ihrer Aufnahmen wurden richtig erkannt? 

Aufgabe 8 Probieren Sie aus, was passiert, wenn Sie etwas anderes als ” Ja“ oder ” Nein“ 

aufnehmen und erkennen lassen, z.B. ” jein“ oder ” Was?“. Können Sie sich die Ausgabe des 

Erkenners erklären? 

i Zur Bearbeitung der letzten beiden Aufgaben benötigen Sie nähere Informationen über 

den Aufbau der Datei net. Die Datei beschreibt, welche Möglichkeiten vom Erkenner in 

Betracht gezogen werden. Die Datei ist im folgenden wiedergegeben (ohne die von Ihnen 

in Aufgabe 5 durchzuführenden Änderungen). 

$Pause = sil%pause; 

$Nein = WD_BEGIN%Nein n aI n WD_END%Nein; 

$Ja = WD_BEGIN%Ja j a: WD_END%Ja; 

$Wort= $Ja | $Nein; 

( $Pause $Wort $Pause ) 

Die ersten vier Zeilen beschreiben Variablenersetzungen, die jeweils für die darauffolgenden 

Zeilen gelten sollen. Die eigentliche Beschreibung der Möglichkeiten, die der Erkenner in 

Erwägung ziehen soll, erfolgt in der letzten Zeile. Dort sehen wir, daß die ganze Äußerung 

aus drei Untereinheiten zusammengesetzt sein soll, einer Pause, einem Wort und wieder 

einer Pause. Das jeweils vorgestellte Dollarzeichen soll bedeuten, daß es sich nicht um 

den Namen eines HMMs, sondern um eine Variable handelt, die weiter oben in der Datei 

definiert wurde. 

Für $Pause gibt es nur eine Ersetzung, hier im abgedruckten Fall wird Pause durch das 

HMM mit dem Namen sil ersetzt, bei der Ausgabe wird pause ausgegeben. Wörter ohne 

vorgestelltes Dollarzeichen werden also nicht als Variablen sondern als Modellnamen 

verstanden, mit einem nachgestellten Prozentzeichen kann man eine vom Modellnamen abweichende 

Ausgabe verlangen. Würde die erste Zeile $Pause = sil; lauten, so würde der


Name des Modells, sil, ausgegeben. Es ist auch möglich, die Ausgabe für bestimmte Modelle 

ganz zu unterdrücken, indem man zwei Prozentzeichen hinter den Namen des HMMs 

anhängt. Sie werden dennoch bei der Erkennung verwandt, nur wird eben nichts ausgegeben. 

Das ist zum Beispiel gerade für Pausenmodelle sinnvoll (hier aber nicht gemacht). 

Warum sollte man nun eine Variable für Pause definieren anstatt das Pausenmodell einfach 

unten zu benennen, wenn es doch keine Wahlmöglichkeit für den Erkenner gibt? Auf diese 

Weise ist es leichter, die Übersicht zu behalten, da man nur an einer Stelle eine Änderung 

z.B. des Modellnamens durchführen muß. 

Die mittlere Einheit der letzten Zeile ist am interessantesten, denn sie zeigt das Konstrukt 

für eine Alternative.$Wort kann ersetzt werden entweder durch$Ja oder$Nein (Zeile 4). Es 

ist also möglich, eine Variable selbst wieder durch eine oder mehrere Variablen zu ersetzen, 

solange diese bereits definiert sind. Wie Sie sehen können, ist das Zeichen für Alternativen 

der senkrechte Strich, |. 

Außer Alternativen können auch Wiederholungen definiert werden. Dazu müssen die zu 

wiederholenden Einheiten mit bestimmten Klammern zusammengefaßt werden. Alles, was 

innerhalb von spitzen Klammern, < und >, steht, kann wiederholt werden, also 1mal oder 

2mal oder 3mal usw. direkt hintereinander im zu erkennenden Signal auftauchen. Geschweifte 

Klammern, {}, beschreiben 0 oder mehr Wiederholungen, der Inhalt kann also entweder 

gar nicht oder 1mal, 2mal usw. im zu erkennenden Signal auftauchen. 

Schließlich gibt es noch die Möglichkeit, bestimmte Teile optional zu machen, indem man 

diese mit eckigen Klammern, [ und ] umschließt. Diese Teile können also 0 oder 1mal 

auftreten. 

Runde Klammern () haben nur die Funktion, Bereiche gruppieren zu können. Sie können 

verwendet werden, um anzuzeigen, wie weit das Alternativensymbol | wirken soll. 

Es bleiben die Zeilen 2 und 3: Sie beschreiben den Aufbau der Wörter ” Ja“ und ” Nein“ 

durch HMMs für Wortuntereinheiten. Wörter sind durch WD_BEGIN und WD_END Paare 

umschlossen (hier wird der auszugebende Name auch jeweils mit einem Prozentzeichen angehängt). 

Dazwischen stehen die Modellnamen der Wortuntereinheiten, durch Leerzeichen 

getrennt. (Verwenden Sie dafür nicht die Tabulatortaste!)


Aufgabe 9 Erstellen Sie eine andere Grammatik, die es erlaubt, mehrere aufeinanderfolgende 

” Ja“ und Nein“ zu erkennen. Die Grammatik soll Pausen zwischen den Wörtern vorschreiben. 

” 

Nehmen Sie einige Testäußerungen mit mehreren Ja“ bzw. Nein“ auf, bei denen Sie zwischen 

” ” 

den Wörtern eine kurze Pause lassen. Lassen Sie Ihre Testsätze erkennen und sehen Sie sich die 

Ergebnisse an. Funktioniert die Erkennung auch noch mit den nicht wiederholten Äußerungen? 

Wieviele Fehler macht der Erkenner? Können Sie sich die Fehler erklären? Drucken Sie die Datei 

net aus für das Protokoll. 

Aufgabe 10 Setzen Sie nun den Teil in der Dateinet, der für die Pause zwischen den Wörtern 

zuständig ist, in eckige Klammern, um ihn optional zu machen. Notieren Sie diese Änderung in 

Ihrem eben erstellten Ausdruck. Nehmen Sie einige verbundene ” Ja“/ ” Nein“–Wiederholungen 

auf, also ohne Pausen zwischen den einzelnen Wörtern zu lassen. Lassen Sie den Erkenner erneut 

laufen und werten Sie die Ergebnisse mit dieser Grammatik auch in Bezug zur letzten Aufgabe 

aus. 

Autoren: Stefan Rapp, Marcus Fach, Juni 1998 

Neueste Überarbeitung: Wolfgang Wokurek, Juni 2007 

Wir freuen uns über studentische Vorschläge, die die Durchführung der Laborübung oder das zugehörige 

Skript betreffen. Wenn Sie Anregungen oder Kritik äußern wollen, wenden Sie sich bitte an den jeweiligen 

Betreuer der Übung oder den Koordinator aller Laborübungen, Wolfgang Wokurek, Zimmer 3|17, e-mail 

wokurek@ims.uni-stuttgart.de.

Laborübung Spracherkennung

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?