Systeme der akustischen Mensch-Maschine-Kommunikation

Systeme der akustischen 

Mensch-Maschine-Kommunikation 

Prof. Dr.-Ing. Wolfgang Hess 

Sprache und Kommunikation 

Institut für Kommunikationswissenschaften 

Universität Bonn 

Poppelsdorfer Allee 47, 53115 Bonn 

wgh@ifk.uni-bonn.de 

Literaturempfehlung [1] 

Allgemein zur akustischen Mensch-Maschine-Kommunikation 

Fellbaum, Klaus (1984): Sprachsignalübertragung und Sprachsignalverarbeitung (Springer, Berlin) 

Holmes, John N. (1991): Sprachsynthese und Spracherkennung, (Oldenbourg, München) 

Konferenzberichte von ICASSP (IEEE, New York), EUROSPEECH (ISCA Archive, Bonn), ICSLP (ISCA Archive, Bonn) 

Speziell zu Kapitel 1 -- Übersichten 

Allen, Jonathan (1992): ”Overview of text-to-speech systems.” In Advances in speech signal processing; ed. by M. M. 

Sondhi and S. Furui (Marcel Dekker, New York), 741-790 

Cox, Richard V. / Kamm, Candace A. / Rabiner, Lawrence R. / Schroeter, Juergen / Wilpon, Jay G. (2000): “Speech and 

language processing for next -millennium communications services.” Proceedings of the IEEE 88, 1315-1337 

Dutoit, Thierry (1997): An Introduction to Text-To-Speech Synthesis (Diss., Univ. Mons; Kluwer Academic Publisher, Dordrecht) 

Hess, Wolfgang J. (1996): ”Neuere Entwicklungen in der Sprachsynthese” In ITG–Tagung Sprachkommunikation, 

Frankfurt/M, 17.–18.9.1996, hg. von A. Lacroix 

Hess, Wolfgang (2003a): “Akustische Mensch-Maschine-Kommunikation”. In Ringvorlesung Medienwissenschaft, C. 

Thimm (Hrsg). (Lang, Frankfurt a. M.) 

Klatt, Dennis H. (1987): ”Review of text-to-speech conversion for English.” J. Acoust. Soc. Am. 82, 737-793 

Schukat-Talamazzini, Ernst-Günter (1995): Automatische Spracherkennung. Statistische Verfahren der Musteranalyse 

(Vieweg, Braunschweig) [vergriffen, als Postscript-Datei abrufbar unter http://www.minet.uni -jena.de/www/fakultaet/ 

schukat/asebuch.html] 

05a 

30.09.2006 Systeme der akustischen 


1. Aufgaben der akustischen 


2. Spracheingabe 

3. Sprachausgabe 

4. Korpora gesprochener Sprache 

5. Ausgewählte Anwendungen 

04b 

Literaturempfehlung [2] 

Speziell zu Kapitel 1 -- Übersichten (Forts.) 

Wahlster, Wolfgang (ed.) (2000a): Verbmobil: Foundations of speech-to-speech translation (Springer, Berlin) 

Wendemuth, Andreas (2004): Stochastische Sprachsignalverarbeitung (Oldenbourg, München) 

Young, Steven J. (2002) “Talking to Machines (Statistically Speaking)”. In Proc. Intern. Conf. on Spoken Language Processing 

(ICSLP-02), Denver, CO, USA, 9-16 

Weitere Quellenangaben 

Fellbaum, Klaus (1996): “Einsatz der Sprachsynthese im Behindertenbereich.“ In Fortschritte der Akustik, DAGA-96, 

Bonn, Februar 1996 (DEGA, Berlin) 

Kompe, Ralf / Kießling, Andreas / Niemann, Heinrich / Nöth, Elmar / Schukat-Talamazzini, E.-Günter / Zottmann, A. / 

Batliner, Anton (1995): “Prosodic scoring of word hypothesis graphs.” In Proc. Eurospeech-95 (ISCA, Bonn), 

1333-1336 

Pieraccini, Robert (2000): “The technology of spoken dialog systems.” Presentation at the Heraeus Seminar, Bad Honnef, 

April 2000 

Wahlster, Wolfgang (2000b): “From speech recognition tpward speech understanding.” Presentation at the Heraeus 

Seminar, Bad Honnef, April 2000 

05a

Sprechererkennung/ 

-verifikation 

Spracherkennung(Diktiermaschine) 

04b sam_1.1 

Spracheingabe 

Akustische Mensch- 

Maschine-Kommunikation 

Sprachverstehenssysteme 

Sprecherverifikation 

Mensch- 

Maschine- 

Dialog 

Sprachausgabe 

Inhaltsgesteuerte 

Sprachsynthese 

Überblick 

TTS 

(Vorleseautomat) 

Sprechererkennung / -verifikation 

S Fragestellung: Ist die Person, die spricht, mit der angemeldeten/berechtigten 

Person identisch? 

S Hauptanwendungen: Zugangskontrolle, Autorisierung 

Sprechererkennung, Sprecheridentifizierung 

S Fragestellung: Wer spricht? 

S Anwendung: Unterstützung der Arbeit in der Forensik 

04b sam_1.3 


-verifikation 


04b sam_1.2 


-verifikation 


04b sam_1.4 

Sprechererkennung / -verifikation 

Spracheingabe 




Spracheingabe 



Dialog 

Sprachausgabe 








Dialog 

TTS 


Spracherkennung 

Sprachausgabe 



TTS 

(Vorleseautomat)

Regelbasierte versus 

stochastische/optimierende Ansätze 

Viele linguistische Ansätze sind regelbasiert (z. B. Grammatik 

einer natürlichen Sprache). 

S Regeln ergeben harte, üblicherweise lokale Entscheidungen. 

S In mehrstufigen Systemen sind einmal getroffene fehlerhafte 

Entscheidungen nicht korrigierbar. 

In der Sprachtechnologie haben sich dagegen stochastische 

und optimierende Ansätze durchgesetzt. 

S Diese Verfahren erlauben die Integration der Ergebnisse 

aus verschiedener Stufen zu einer einzigen Entscheidung 

am Ende der Gesamtverarbeitung. 

04b sam_1.5 

“Grundformel” der Spracherkennung 

[SCHUKAT-TALAMAZZINI, 1995] 

Erkennung kontinuierlicher Sprache mit 

stochastischen Ansätzen: Maximierung der 

Rückschlusswahrscheinlichkeit vom Sprachsignal X 

auf die gesprochene Wortfolge w. 

w * � arg max ( P(w|X) ) � arg max � � 

� P(X|w) � 

� 

P(w) 

P(X) � � 

� 

� 

A-Priori-Wahrscheinlichkeit, dass die Wortfolge 

w das Sprachsignal X generiert 

Akustisch-phonetische Modellierung 

(Satz von BAYES) Auftretenswahrscheinlichkeit der Wortfolge w 

Linguistisches Sprachmodell 

04b sam_1.7 

Rückschlusswahrscheinlichkeit (A-Posteriori-Wahrscheinlichkeit) 

vom Sprachsignal X auf die Wortfolge w 

Stochastische/optimierende Ansätze 

Stochastische Ansätze ermitteln und maximieren 

Wahrscheinlichkeiten (z. B. in der Spracherkennung: 

Rückschlusswahrscheinlichkeit von einem Sprachsignal auf 

die zugrunde liegende sprachliche Äußerung). 

Kostenbasierte optimierende Ansätze ermitteln und 

minimieren Kostenfunktionen (z. B. Suche nach einem 

optimalen Pfad durch ein Netzwerk). 

Beide Ansätze erlauben 

S “weiche” Entscheidungen 

S Weiterleitung von Alternativen 

S Integration von Ergebnissen suf verschiedenen Ebenen 

und ergeben somit maximale Flexibilität. 

04b sam_1.6 

Stochastischer Ansatz [1] 

S Die A-Priori-Wahrscheinlichkeit dafür, dass die Äußerung w 

das akustische Muster X produziert, wird durch ein Hidden- 

Markov-Modell (HMM) nachgebildet. 

S Das Hidden-Markov-Modell ist ein zweifacher stochastischer 

Prozess. 

S Durchlaufen wird ein Automat mit einer endlichen Zahl von Zuständen. 

Zu jedem Beobachtungszeitpunkt (typisch alle 10 ms) 

nimmt das Modell einen Zustand ein. Hierbei wird durch Übergangswahrscheinlichkeiten 

definiert, wie die Zustände aufeinander 

folgen können. 

S In jedem Zustand wird ein Symbol ausgegeben. Zustandsspezifische 

Ausgabewahrscheinlichkeiten bestimmen, welches Symbol 

mit welcher Wahrscheinlichkeit ausgegeben wird. 

04b sam_1.8


Der Beobachter sieht beim HMM von außen nur die Folge der ausgegebenen 

Symbole. Die Folge der Zustände bleibt ihm verborgen. 

04b sam_1.9 

HIDDEN 

Sprachmodell (Language Model) 

Die Auftretenswahrscheinlichkeit P(w) wird - meist auf 

Wortebene - durch das Sprachmodell (language model) nachgebildet. 

S P(w) ist kontextabhängig. 

S Das Sprachmodell bildet P(w) durch primitive stochastische 

Grammatiken (Bigramm, Trigramm) nach. 

S Es wird mit Hilfe sehr großer Textkorpora trainiert. 

04b sam_1.11 


S HMM’s können für die verschiedensten sprachlichen Einheiten 

aufgebaut werden - Wörter, Silben, Laute. 

S Bei Erkennung kontinuierlicher Sprache werden häufig kontextsensitive 

Lautmodelle eingesetzt. 

S HMM’s “verkleben” - HMM’s für Wortuntereinheiten können 

beispielsweise zu größeren HMM’s für ein ganzes Wort verkettet 

werden usw. 

S Vor dem Einsatz müssen HMM’s trainiert werden. Dies 

geschieht mit einer großen Menge von Trainingsdaten, die aus 

vorverarbeiteten Sprachaufzeichnungen stammen. 

“Gretchenfrage” an das HMM: Mit welcher Wahrscheinlichkeit 

hättest du das gegebene akustische Signal X generiert? 

04b sam_1.10 


-verifikation 


04b sam_1.12 

Spracheingabe 







Dialog 

Sprachausgabe 



TTS 

(Vorleseautomat)

Sprachverstehen 

“Sprachverstehen” heißt, die Maschine zu einer (für den 

Benutzer) sinnvollen Reaktion zu veranlassen. 

Dies können je nach Anwendung sehr verschiedene Dinge sein, 

beispielsweise: 

S Ausführung von Tätigkeiten (Roboter, Smart Home) 

S Beschaffung von Information (Auskunftssysteme) 

S Herstellung von Verbindungen (Telefon etc.) 

S ..... 

04b sam_1.13 

Spontansprache 

Spontansprache enthält eine Reihe von 

Phänomenen, die in anderen Sprechstilen so nicht 

enthalten sind, und die das System berücksichtigen muss. 

S Anaphern und Ellipsen 

-- Ist der neu? -- Nein, [...] mit Perwoll gewaschen. 

S Einfügen satzeinleitender Wörter und Floskeln 

-- Ja, wann können wir uns morgen treffen? 

S Kongruenzfehler, Reparaturen 

-- Ichwolltemitden nächsten Zug nach Frankfurt. 

-- Treffen wir uns doch am Montag, -- äh -- nein, amDienstag. 

S Aussprachevarianten (regionaler Akzent; Reduktion) 

-- Was hammer denn heut’ ? 

S Häsitationen und gefüllte Pausen 

S Abschweifungen 

-- Eigentlich will ich ja gar nicht dorthin, aber -- äh -wann 

fährt der nächste Zug nach Frankfurt? 

04b sam_1.15 

Acoustic 

Language Models 

Word Lists 

Grammar 

Lexical Meaning 

Discourse Context 

Knowledge about 

Discourse Domain 

04b sam_1.14 

Three Levels of Language Processing 

Speech (Telephone) Input 

Speech 

Recognition 

Speech 

Analysis 

Speech 

Understanding 

(WAHLSTER, 2000b) 

What did the caller 

say? 

[100 alternatives] 


mean? 

[10 alternatives] 


want? 

[Unambiguous 

Understanding in the 

Dialog Context] 

Reduction of Uncertainty 

Spontansprache undProsodie 

Spontansprache stützt sich in hohem 

Maß auf den Einsatz prosodischer Mittel, 

wo immer das möglich ist. 

S Kontrastfokus und enger Fokus spielen eine große Rolle in 

spontansprachlichen Dialogen. Mit prosodischen Mitteln lassen 

sie sich besonders ökonomisch realisieren. 

-- “Fahren Sie heute nach Frankfurt?” vs. 

-- “Wann fahren Sie nach Frankfurt? Heute?” 

S Die Länge einer zusammenhängenden spontansprachlichen 

Dialogäußerung (”Turn”) lässt sich nicht vorher festlegen, wenn 

der Benutzer die momentane Dialoginitiative hat. Sie kann von 

einem einzelnen Wort bis hin zu mehreren Sätzen reichen. 

04b sam_1.16

Untersuchung der Prosodie 

Eine Wortkette verlässt den Spracherkenner 

ohne Punkt und Komma. 

Ein Prosodie-Verarbeitungsmodul ist in der Lage, Satzzeichen 

hinzuzufügen. Darüber hinaus kann es Aussagen liefern zu 

S Satzmodus 

S Akzente und Kontrastbetonung 

S Strukturierung und Phrasierung einer Äußerung 

S Gliederung einer Äußerung in Dialogakte 

Beispiel: Satzzeichen (aus Verbmobil; KOMPE et al., 1995) 

S Worthypothesengraph (ohne Prosodie) 

- ja zur not geht’s auch am samstag 

S Mit Prosodie (Alternative 1) 

- ja, zur Not geht’s auch am Samstag. 

S Mit Prosodie (Alternative 2) 

- ja, zur Not. Geht’s auch am Samstag? 

04b sam_1.17 

Mögliche Struktur eines Dialogsystems 

(FELLBAUM, 2000) 

Mensch-Maschine-Dialoge sind auf sehr verschiedene Arten möglich. 

Natürliche gesprochene Sprache ist nur eine davon. 

S Ständige “Konkurrenz” anderer Dialogmodi; je nach Situation 

Verwendung gesprochener Sprache im Vorteil oder im Nachteil 

S Neuere Entwicklung: multimodale Dialoge (akustisch und visuell) 

04b sam_1.19 


-verifikation 


04b sam_1.18 

04b sam_1.20 

Spracheingabe 

Mensch-Maschine-Dialog 






Dialog 

Sprachausgabe 



TTS 


So arbeitet ein Dialogmanager-Modul 

(PIERACCINI, 2000)

Dialogstrategien [1] 

(PIERACCINI, 2000) 

Carry on the Conversation ... 

Whowouldyouliketospeakwith? 

 

Ididn’thearyou.Whowouldyouliketospeakwith? 

Uh, um -- I’d like to talk to Mark if he’s around. 

Sorry, I didn’t understand. Please say the name of the person 

you would like to speak with. 

Mark. 

We have more than one Mark. Which one do you want? 

Mark Levinson. 

Mark Levinson, correct? 

Yes. 

Okay. Please hold while I transfer... 

04b sam_1.21 

Timeout - keine Antwort 

S I didn’t hear you, please try again. 

Niedrige Konfidenz bei der Erkennung 

S I didn’t understand. 

Bestätigung 

S Did you say IBM? 



Der gleiche Fehler darf nicht mehrmals gemacht werden 

S Did you say Boston? -- Did you say Boston? 

Rückfallposition 

S I still can’t understand. Please spell that. 

Disambiguierung 

S Which Steve did you mean? 

04b sam_1.23 

Where would you like to fly? 

Boston. 

Was that “Austin?” 

No. 

My mistake. Please say it again. 

Boston. 

Was that “Austin?” 

ARRRRRRGHHHH! 



Ein Negativbeispiel 

Was macht das Dialogmanager-Modul hier falsch ...? 

04b sam_1.22 


-verifikation 


04b sam_1.24 

Spracheingabe 






Dialog 

Sprachausgabe 

Sprachausgabe 



TTS 

(Vorleseautomat)

Verschiedene Typen von Synthesesystemen 

für die verschiedenen Anwendungen 

S Textgesteuerte Synthese (Text-to-Speech, TTS): 

Vorleseautomat für einen beliebigen, in Rechtschrift 

vorliegenden Text. Die Maschine “weiß” nicht, was sie sagt. 

S Inhaltsgesteuerte Synthese (Concept-to-Speech oder 

Content-to-Speech, CTS): akustische Ausgabe von einer 

Datenbankabfrage oder aus einem Dialogsystem. Die 

Synthese erfolgt von einer semantischen Repräsentation 

mit Hilfe eines Generierungsmoduls. Die Maschine sollte 

genau “wissen”, was sie sagt. 

S Reproduktive Sprachsynthese (Sprachwiedergabe): 

akustische Ausgabe von vorgefertigten Versatzstücken 

(Mindestlänge: Phrase). Für streng begrenzte Domänen. 

04b sam_1.25 

Diskret 

Kontinuierlich 

04b sam_1.27 

TTS-System (Vorleseautomat) 

Symbolverarbeitung 

Umwandlung Rechtschrift in Lautschrift 

Bausteinauswahl 

Verkettung 

Signalsynthese 

Prosodiesteuerung 

Synthetisches Sprachsignal 

Text in Rechtschreibform 

Kette phonetischer Symbole 

mit Annotationen 

Akustisch/parametrische 

Darstellung 

Reproduktive Synthese 

(Sprachwiedergabe) 

S Wiedergabe vorgefertigter Versatzstücke aus einer 

Sprachdatensammlung ohne Manipulation 

S Verkettung von Versatzstücken in Sprachpausen 

S Natürliche Qualität bleibt (nahezu) erhalten 

S Heute bereits weite Anwendungsbereiche in Ansagediensten. 

S Eng begrenzte Domäne -wasnichtexplizitinderDatenbasis 

vorhanden ist, kann nicht wiedergegeben werden. 

04b sam_1.26 

Einsatz für Behinderte 

(FELLBAUM, 1996) 

Als Hilfsmittel für Behinderte haben Sprachsynthesesysteme 

bisher ihr größtes Einsatzgebiet gefunden: 

S Für Blinde: Vorleseautomat (Vorlesesystem), Textverarbeitungssystem 

mit Sprachausgabe, PC-Anwendungen, 

Warn- und Alarmsysteme. 

S Für Sprechbehinderte: Umsetzung von eingegebenem 

Text in Sprache, Übersetzung von unverständlicher in 

verständliche Sprache. 

S Für Taubstumme: Umsetzung von eingegebenem Text in 

Sprache. 

Sprachsynthesesysteme für Behinderte sind typische 

TTS-Einsatzgebiete. 

04b sam_1.28

Diskret 

Kontinuierlich 

04b sam_1.29 

CTS benötigt nicht alle TTS-Module ... 

... aber stets ein TTS-System im Hintergrund 

als Rückfallposition 

Symbolverarbeitung 

Umwandlung Rechtschrift in Lautschrift 

Bausteinauswahl 

Verkettung 

Signalsynthese 

Prosodiesteuerung 

Synthetisches Sprachsignal 

vom 

Generierungsmodul 

Kette phonetischer Symbole 

mit Annotationen 

Akustisch/parametrische 

Darstellung 

Paradigmen für die akustische Synthese 

(Regelbasierte) Parametrische Synthese 

S Synthese von einer parametrischen Repräsentation der akustischen 

Daten (akustisches Front-End) 

S Parameter werden generiert von gespeicherten Tabellen (regelbasiert) 

oder von natürlichsprachlichen Äußerungen 

S Neuere Entwicklung: Generierung der Parameter von trainierbaren 

Systemen (z. B. HMM) 

Verkettung vordefinierter Elemente und Bausteine 

S Synthese von natürlichen Sprachbausteinen, meist im Zeitbereich 

S Phonetisch/phonologisch motivierte Einheiten wie Diphone oder Halbsilben 

S Eine Instanz jedes Bausteins, entnommen aus einem Trägersatz, prosodisch neutral 

Synthese vom Korpus (Non-Uniform Unit Selection) 

S Keine vordefinierten Einheiten 

S Suche nach Folge optimaler Einheiten aus dem Korpus während der Synthese 

S Zahlreiche Instanzen jedes Elements; 

natürliche Prosodie wird bewahrt 

04b sam_1.31 

Einsatzgebiete für CTS 

Hauptanwendungen für CTS: Dialogsysteme (z. B. Verbmobil); 

Ansagedienste mit variablem Wortschatz; Auskunftssysteme 

(z.B. Zugauskunft); Navigationssysteme im Auto 

S alternativer/zusätzlicher Ausgabekanal bei Verfügbarkeit eines 

Bildschirms 

S alleinige Ausgabemöglichkeit bei Benutzung eines Telefons (ohne 

Displaytechnik mit größerer Kapazität) 

Alle diese Anwendungen haben eine begrenzte Domäne. Hierdurch 

gerät CTS in direkte Konkurrenz zur reproduktiven Sprachsynthese 

und ist dieser hinsichtlich Qualität hoffnungslos unterlegen. 

Korpusbasierte Synthese (Nonuniform Unit Selection) gestattet es 

TTS und CTS, sich der Technik der Sprachwiedergabe zu bedienen, 

um die Qualität zu verbessern. 

04b sam_1.30 


-verifikation 


04b sam_1.32 

Spracheingabe 

Abschließende Bemerkungen 






Dialog 

Sprachausgabe 



TTS 

(Vorleseautomat)

Bilanz und Ausblick 

S Für begrenzte Domänen und begrenzte Aufgaben sind 

leistungsfähige Systeme auf dem Markt. 

S Wo solche Systeme verfügbar sind, bringt ihr Einsatz Vorteile 

bezüglich Zugang, Zeitbedarf, Arbeitsqualität. 

S Systeme für größere Aufgaben sind noch sehr fragil. 

- Verständlichkeit der Sprachsynthese sinkt bei Lärm sehr schnell. 

- z.B. Verbmobil: 70% approximativ korrekte Übersetzungen. 

S Weiterentwicklung erfordert interdisziplinäre Zusammenarbeit 

von Informatikern, Ingenieuren, (Computer-)Linguisten, 

Phonetikern, Psychologen. 

S Erweiterung der Aufgabe hinsichtlich multimodaler Mensch- 

Maschine-Kommunikation wird neue Anwendungen schaffen. 

04b sam_1.33

Systeme der akustischen Mensch-Maschine-Kommunikation

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?