02.01.2013 Aufrufe

Systeme der akustischen Mensch-Maschine-Kommunikation

Systeme der akustischen Mensch-Maschine-Kommunikation

Systeme der akustischen Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Systeme</strong> <strong>der</strong> <strong>akustischen</strong><br />

<strong>Mensch</strong>-<strong>Maschine</strong>-<strong>Kommunikation</strong><br />

Prof. Dr.-Ing. Wolfgang Hess<br />

Sprache und <strong>Kommunikation</strong><br />

Institut für <strong>Kommunikation</strong>swissenschaften<br />

Universität Bonn<br />

Poppelsdorfer Allee 47, 53115 Bonn<br />

wgh@ifk.uni-bonn.de<br />

Literaturempfehlung [1]<br />

Allgemein zur <strong>akustischen</strong> <strong>Mensch</strong>-<strong>Maschine</strong>-<strong>Kommunikation</strong><br />

Fellbaum, Klaus (1984): Sprachsignalübertragung und Sprachsignalverarbeitung (Springer, Berlin)<br />

Holmes, John N. (1991): Sprachsynthese und Spracherkennung, (Oldenbourg, München)<br />

Konferenzberichte von ICASSP (IEEE, New York), EUROSPEECH (ISCA Archive, Bonn), ICSLP (ISCA Archive, Bonn)<br />

Speziell zu Kapitel 1 -- Übersichten<br />

Allen, Jonathan (1992): ”Overview of text-to-speech systems.” In Advances in speech signal processing; ed. by M. M.<br />

Sondhi and S. Furui (Marcel Dekker, New York), 741-790<br />

Cox, Richard V. / Kamm, Candace A. / Rabiner, Lawrence R. / Schroeter, Juergen / Wilpon, Jay G. (2000): “Speech and<br />

language processing for next -millennium communications services.” Proceedings of the IEEE 88, 1315-1337<br />

Dutoit, Thierry (1997): An Introduction to Text-To-Speech Synthesis (Diss., Univ. Mons; Kluwer Academic Publisher, Dordrecht)<br />

Hess, Wolfgang J. (1996): ”Neuere Entwicklungen in <strong>der</strong> Sprachsynthese” In ITG–Tagung Sprachkommunikation,<br />

Frankfurt/M, 17.–18.9.1996, hg. von A. Lacroix<br />

Hess, Wolfgang (2003a): “Akustische <strong>Mensch</strong>-<strong>Maschine</strong>-<strong>Kommunikation</strong>”. In Ringvorlesung Medienwissenschaft, C.<br />

Thimm (Hrsg). (Lang, Frankfurt a. M.)<br />

Klatt, Dennis H. (1987): ”Review of text-to-speech conversion for English.” J. Acoust. Soc. Am. 82, 737-793<br />

Schukat-Talamazzini, Ernst-Günter (1995): Automatische Spracherkennung. Statistische Verfahren <strong>der</strong> Musteranalyse<br />

(Vieweg, Braunschweig) [vergriffen, als Postscript-Datei abrufbar unter http://www.minet.uni -jena.de/www/fakultaet/<br />

schukat/asebuch.html]<br />

05a<br />

30.09.2006 <strong>Systeme</strong> <strong>der</strong> <strong>akustischen</strong><br />

<strong>Mensch</strong>-<strong>Maschine</strong>-<strong>Kommunikation</strong><br />

1. Aufgaben <strong>der</strong> <strong>akustischen</strong><br />

<strong>Mensch</strong>-<strong>Maschine</strong>-<strong>Kommunikation</strong><br />

2. Spracheingabe<br />

3. Sprachausgabe<br />

4. Korpora gesprochener Sprache<br />

5. Ausgewählte Anwendungen<br />

04b<br />

Literaturempfehlung [2]<br />

Speziell zu Kapitel 1 -- Übersichten (Forts.)<br />

Wahlster, Wolfgang (ed.) (2000a): Verbmobil: Foundations of speech-to-speech translation (Springer, Berlin)<br />

Wendemuth, Andreas (2004): Stochastische Sprachsignalverarbeitung (Oldenbourg, München)<br />

Young, Steven J. (2002) “Talking to Machines (Statistically Speaking)”. In Proc. Intern. Conf. on Spoken Language Processing<br />

(ICSLP-02), Denver, CO, USA, 9-16<br />

Weitere Quellenangaben<br />

Fellbaum, Klaus (1996): “Einsatz <strong>der</strong> Sprachsynthese im Behin<strong>der</strong>tenbereich.“ In Fortschritte <strong>der</strong> Akustik, DAGA-96,<br />

Bonn, Februar 1996 (DEGA, Berlin)<br />

Kompe, Ralf / Kießling, Andreas / Niemann, Heinrich / Nöth, Elmar / Schukat-Talamazzini, E.-Günter / Zottmann, A. /<br />

Batliner, Anton (1995): “Prosodic scoring of word hypothesis graphs.” In Proc. Eurospeech-95 (ISCA, Bonn),<br />

1333-1336<br />

Pieraccini, Robert (2000): “The technology of spoken dialog systems.” Presentation at the Heraeus Seminar, Bad Honnef,<br />

April 2000<br />

Wahlster, Wolfgang (2000b): “From speech recognition tpward speech un<strong>der</strong>standing.” Presentation at the Heraeus<br />

Seminar, Bad Honnef, April 2000<br />

05a


Sprechererkennung/<br />

-verifikation<br />

Spracherkennung(Diktiermaschine)<br />

04b sam_1.1<br />

Spracheingabe<br />

Akustische <strong>Mensch</strong>-<br />

<strong>Maschine</strong>-<strong>Kommunikation</strong><br />

Sprachverstehenssysteme<br />

Sprecherverifikation<br />

<strong>Mensch</strong>-<br />

<strong>Maschine</strong>-<br />

Dialog<br />

Sprachausgabe<br />

Inhaltsgesteuerte<br />

Sprachsynthese<br />

Überblick<br />

TTS<br />

(Vorleseautomat)<br />

Sprechererkennung / -verifikation<br />

S Fragestellung: Ist die Person, die spricht, mit <strong>der</strong> angemeldeten/berechtigten<br />

Person identisch?<br />

S Hauptanwendungen: Zugangskontrolle, Autorisierung<br />

Sprechererkennung, Sprecheridentifizierung<br />

S Fragestellung: Wer spricht?<br />

S Anwendung: Unterstützung <strong>der</strong> Arbeit in <strong>der</strong> Forensik<br />

04b sam_1.3<br />

Sprechererkennung/<br />

-verifikation<br />

Spracherkennung(Diktiermaschine)<br />

04b sam_1.2<br />

Sprechererkennung/<br />

-verifikation<br />

Spracherkennung(Diktiermaschine)<br />

04b sam_1.4<br />

Sprechererkennung / -verifikation<br />

Spracheingabe<br />

Akustische <strong>Mensch</strong>-<br />

<strong>Maschine</strong>-<strong>Kommunikation</strong><br />

Sprachverstehenssysteme<br />

Spracheingabe<br />

<strong>Mensch</strong>-<br />

<strong>Maschine</strong>-<br />

Dialog<br />

Sprachausgabe<br />

Inhaltsgesteuerte<br />

Sprachsynthese<br />

Akustische <strong>Mensch</strong>-<br />

<strong>Maschine</strong>-<strong>Kommunikation</strong><br />

Sprachverstehenssysteme<br />

<strong>Mensch</strong>-<br />

<strong>Maschine</strong>-<br />

Dialog<br />

TTS<br />

(Vorleseautomat)<br />

Spracherkennung<br />

Sprachausgabe<br />

Inhaltsgesteuerte<br />

Sprachsynthese<br />

TTS<br />

(Vorleseautomat)


Regelbasierte versus<br />

stochastische/optimierende Ansätze<br />

Viele linguistische Ansätze sind regelbasiert (z. B. Grammatik<br />

einer natürlichen Sprache).<br />

S Regeln ergeben harte, üblicherweise lokale Entscheidungen.<br />

S In mehrstufigen <strong>Systeme</strong>n sind einmal getroffene fehlerhafte<br />

Entscheidungen nicht korrigierbar.<br />

In <strong>der</strong> Sprachtechnologie haben sich dagegen stochastische<br />

und optimierende Ansätze durchgesetzt.<br />

S Diese Verfahren erlauben die Integration <strong>der</strong> Ergebnisse<br />

aus verschiedener Stufen zu einer einzigen Entscheidung<br />

am Ende <strong>der</strong> Gesamtverarbeitung.<br />

04b sam_1.5<br />

“Grundformel” <strong>der</strong> Spracherkennung<br />

[SCHUKAT-TALAMAZZINI, 1995]<br />

Erkennung kontinuierlicher Sprache mit<br />

stochastischen Ansätzen: Maximierung <strong>der</strong><br />

Rückschlusswahrscheinlichkeit vom Sprachsignal X<br />

auf die gesprochene Wortfolge w.<br />

w * � arg max ( P(w|X) ) � arg max � �<br />

� P(X|w) �<br />

�<br />

P(w)<br />

P(X) � �<br />

�<br />

�<br />

A-Priori-Wahrscheinlichkeit, dass die Wortfolge<br />

w das Sprachsignal X generiert<br />

Akustisch-phonetische Modellierung<br />

(Satz von BAYES) Auftretenswahrscheinlichkeit <strong>der</strong> Wortfolge w<br />

Linguistisches Sprachmodell<br />

04b sam_1.7<br />

Rückschlusswahrscheinlichkeit (A-Posteriori-Wahrscheinlichkeit)<br />

vom Sprachsignal X auf die Wortfolge w<br />

Stochastische/optimierende Ansätze<br />

Stochastische Ansätze ermitteln und maximieren<br />

Wahrscheinlichkeiten (z. B. in <strong>der</strong> Spracherkennung:<br />

Rückschlusswahrscheinlichkeit von einem Sprachsignal auf<br />

die zugrunde liegende sprachliche Äußerung).<br />

Kostenbasierte optimierende Ansätze ermitteln und<br />

minimieren Kostenfunktionen (z. B. Suche nach einem<br />

optimalen Pfad durch ein Netzwerk).<br />

Beide Ansätze erlauben<br />

S “weiche” Entscheidungen<br />

S Weiterleitung von Alternativen<br />

S Integration von Ergebnissen suf verschiedenen Ebenen<br />

und ergeben somit maximale Flexibilität.<br />

04b sam_1.6<br />

Stochastischer Ansatz [1]<br />

S Die A-Priori-Wahrscheinlichkeit dafür, dass die Äußerung w<br />

das akustische Muster X produziert, wird durch ein Hidden-<br />

Markov-Modell (HMM) nachgebildet.<br />

S Das Hidden-Markov-Modell ist ein zweifacher stochastischer<br />

Prozess.<br />

S Durchlaufen wird ein Automat mit einer endlichen Zahl von Zuständen.<br />

Zu jedem Beobachtungszeitpunkt (typisch alle 10 ms)<br />

nimmt das Modell einen Zustand ein. Hierbei wird durch Übergangswahrscheinlichkeiten<br />

definiert, wie die Zustände aufeinan<strong>der</strong><br />

folgen können.<br />

S In jedem Zustand wird ein Symbol ausgegeben. Zustandsspezifische<br />

Ausgabewahrscheinlichkeiten bestimmen, welches Symbol<br />

mit welcher Wahrscheinlichkeit ausgegeben wird.<br />

04b sam_1.8


Stochastischer Ansatz [2]<br />

Der Beobachter sieht beim HMM von außen nur die Folge <strong>der</strong> ausgegebenen<br />

Symbole. Die Folge <strong>der</strong> Zustände bleibt ihm verborgen.<br />

04b sam_1.9<br />

HIDDEN<br />

Sprachmodell (Language Model)<br />

Die Auftretenswahrscheinlichkeit P(w) wird - meist auf<br />

Wortebene - durch das Sprachmodell (language model) nachgebildet.<br />

S P(w) ist kontextabhängig.<br />

S Das Sprachmodell bildet P(w) durch primitive stochastische<br />

Grammatiken (Bigramm, Trigramm) nach.<br />

S Es wird mit Hilfe sehr großer Textkorpora trainiert.<br />

04b sam_1.11<br />

Stochastischer Ansatz [3]<br />

S HMM’s können für die verschiedensten sprachlichen Einheiten<br />

aufgebaut werden - Wörter, Silben, Laute.<br />

S Bei Erkennung kontinuierlicher Sprache werden häufig kontextsensitive<br />

Lautmodelle eingesetzt.<br />

S HMM’s “verkleben” - HMM’s für Wortuntereinheiten können<br />

beispielsweise zu größeren HMM’s für ein ganzes Wort verkettet<br />

werden usw.<br />

S Vor dem Einsatz müssen HMM’s trainiert werden. Dies<br />

geschieht mit einer großen Menge von Trainingsdaten, die aus<br />

vorverarbeiteten Sprachaufzeichnungen stammen.<br />

“Gretchenfrage” an das HMM: Mit welcher Wahrscheinlichkeit<br />

hättest du das gegebene akustische Signal X generiert?<br />

04b sam_1.10<br />

Sprechererkennung/<br />

-verifikation<br />

Spracherkennung(Diktiermaschine)<br />

04b sam_1.12<br />

Spracheingabe<br />

Sprachverstehenssysteme<br />

Akustische <strong>Mensch</strong>-<br />

<strong>Maschine</strong>-<strong>Kommunikation</strong><br />

Sprachverstehenssysteme<br />

<strong>Mensch</strong>-<br />

<strong>Maschine</strong>-<br />

Dialog<br />

Sprachausgabe<br />

Inhaltsgesteuerte<br />

Sprachsynthese<br />

TTS<br />

(Vorleseautomat)


Sprachverstehen<br />

“Sprachverstehen” heißt, die <strong>Maschine</strong> zu einer (für den<br />

Benutzer) sinnvollen Reaktion zu veranlassen.<br />

Dies können je nach Anwendung sehr verschiedene Dinge sein,<br />

beispielsweise:<br />

S Ausführung von Tätigkeiten (Roboter, Smart Home)<br />

S Beschaffung von Information (Auskunftssysteme)<br />

S Herstellung von Verbindungen (Telefon etc.)<br />

S .....<br />

04b sam_1.13<br />

Spontansprache<br />

Spontansprache enthält eine Reihe von<br />

Phänomenen, die in an<strong>der</strong>en Sprechstilen so nicht<br />

enthalten sind, und die das System berücksichtigen muss.<br />

S Anaphern und Ellipsen<br />

-- Ist <strong>der</strong> neu? -- Nein, [...] mit Perwoll gewaschen.<br />

S Einfügen satzeinleiten<strong>der</strong> Wörter und Floskeln<br />

-- Ja, wann können wir uns morgen treffen?<br />

S Kongruenzfehler, Reparaturen<br />

-- Ichwolltemitden nächsten Zug nach Frankfurt.<br />

-- Treffen wir uns doch am Montag, -- äh -- nein, amDienstag.<br />

S Aussprachevarianten (regionaler Akzent; Reduktion)<br />

-- Was hammer denn heut’ ?<br />

S Häsitationen und gefüllte Pausen<br />

S Abschweifungen<br />

-- Eigentlich will ich ja gar nicht dorthin, aber -- äh -wann<br />

fährt <strong>der</strong> nächste Zug nach Frankfurt?<br />

04b sam_1.15<br />

Acoustic<br />

Language Models<br />

Word Lists<br />

Grammar<br />

Lexical Meaning<br />

Discourse Context<br />

Knowledge about<br />

Discourse Domain<br />

04b sam_1.14<br />

Three Levels of Language Processing<br />

Speech (Telephone) Input<br />

Speech<br />

Recognition<br />

Speech<br />

Analysis<br />

Speech<br />

Un<strong>der</strong>standing<br />

(WAHLSTER, 2000b)<br />

What did the caller<br />

say?<br />

[100 alternatives]<br />

What did the caller<br />

mean?<br />

[10 alternatives]<br />

What did the caller<br />

want?<br />

[Unambiguous<br />

Un<strong>der</strong>standing in the<br />

Dialog Context]<br />

Reduction of Uncertainty<br />

Spontansprache undProsodie<br />

Spontansprache stützt sich in hohem<br />

Maß auf den Einsatz prosodischer Mittel,<br />

wo immer das möglich ist.<br />

S Kontrastfokus und enger Fokus spielen eine große Rolle in<br />

spontansprachlichen Dialogen. Mit prosodischen Mitteln lassen<br />

sie sich beson<strong>der</strong>s ökonomisch realisieren.<br />

-- “Fahren Sie heute nach Frankfurt?” vs.<br />

-- “Wann fahren Sie nach Frankfurt? Heute?”<br />

S Die Länge einer zusammenhängenden spontansprachlichen<br />

Dialogäußerung (”Turn”) lässt sich nicht vorher festlegen, wenn<br />

<strong>der</strong> Benutzer die momentane Dialoginitiative hat. Sie kann von<br />

einem einzelnen Wort bis hin zu mehreren Sätzen reichen.<br />

04b sam_1.16


Untersuchung <strong>der</strong> Prosodie<br />

Eine Wortkette verlässt den Spracherkenner<br />

ohne Punkt und Komma.<br />

Ein Prosodie-Verarbeitungsmodul ist in <strong>der</strong> Lage, Satzzeichen<br />

hinzuzufügen. Darüber hinaus kann es Aussagen liefern zu<br />

S Satzmodus<br />

S Akzente und Kontrastbetonung<br />

S Strukturierung und Phrasierung einer Äußerung<br />

S Glie<strong>der</strong>ung einer Äußerung in Dialogakte<br />

Beispiel: Satzzeichen (aus Verbmobil; KOMPE et al., 1995)<br />

S Worthypothesengraph (ohne Prosodie)<br />

- ja zur not geht’s auch am samstag<br />

S Mit Prosodie (Alternative 1)<br />

- ja, zur Not geht’s auch am Samstag.<br />

S Mit Prosodie (Alternative 2)<br />

- ja, zur Not. Geht’s auch am Samstag?<br />

04b sam_1.17<br />

Mögliche Struktur eines Dialogsystems<br />

(FELLBAUM, 2000)<br />

<strong>Mensch</strong>-<strong>Maschine</strong>-Dialoge sind auf sehr verschiedene Arten möglich.<br />

Natürliche gesprochene Sprache ist nur eine davon.<br />

S Ständige “Konkurrenz” an<strong>der</strong>er Dialogmodi; je nach Situation<br />

Verwendung gesprochener Sprache im Vorteil o<strong>der</strong> im Nachteil<br />

S Neuere Entwicklung: multimodale Dialoge (akustisch und visuell)<br />

04b sam_1.19<br />

Sprechererkennung/<br />

-verifikation<br />

Spracherkennung(Diktiermaschine)<br />

04b sam_1.18<br />

04b sam_1.20<br />

Spracheingabe<br />

<strong>Mensch</strong>-<strong>Maschine</strong>-Dialog<br />

Akustische <strong>Mensch</strong>-<br />

<strong>Maschine</strong>-<strong>Kommunikation</strong><br />

Sprachverstehenssysteme<br />

<strong>Mensch</strong>-<br />

<strong>Maschine</strong>-<br />

Dialog<br />

Sprachausgabe<br />

Inhaltsgesteuerte<br />

Sprachsynthese<br />

TTS<br />

(Vorleseautomat)<br />

So arbeitet ein Dialogmanager-Modul<br />

(PIERACCINI, 2000)


Dialogstrategien [1]<br />

(PIERACCINI, 2000)<br />

Carry on the Conversation ...<br />

Whowouldyouliketospeakwith?<br />

<br />

Ididn’thearyou.Whowouldyouliketospeakwith?<br />

Uh, um -- I’d like to talk to Mark if he’s around.<br />

Sorry, I didn’t un<strong>der</strong>stand. Please say the name of the person<br />

you would like to speak with.<br />

Mark.<br />

We have more than one Mark. Which one do you want?<br />

Mark Levinson.<br />

Mark Levinson, correct?<br />

Yes.<br />

Okay. Please hold while I transfer...<br />

04b sam_1.21<br />

Timeout - keine Antwort<br />

S I didn’t hear you, please try again.<br />

Niedrige Konfidenz bei <strong>der</strong> Erkennung<br />

S I didn’t un<strong>der</strong>stand.<br />

Bestätigung<br />

S Did you say IBM?<br />

Dialogstrategien [3]<br />

(PIERACCINI, 2000)<br />

Der gleiche Fehler darf nicht mehrmals gemacht werden<br />

S Did you say Boston? -- Did you say Boston?<br />

Rückfallposition<br />

S I still can’t un<strong>der</strong>stand. Please spell that.<br />

Disambiguierung<br />

S Which Steve did you mean?<br />

04b sam_1.23<br />

Where would you like to fly?<br />

Boston.<br />

Was that “Austin?”<br />

No.<br />

My mistake. Please say it again.<br />

Boston.<br />

Was that “Austin?”<br />

ARRRRRRGHHHH!<br />

Dialogstrategien [2]<br />

(PIERACCINI, 2000)<br />

Ein Negativbeispiel<br />

Was macht das Dialogmanager-Modul hier falsch ...?<br />

04b sam_1.22<br />

Sprechererkennung/<br />

-verifikation<br />

Spracherkennung(Diktiermaschine)<br />

04b sam_1.24<br />

Spracheingabe<br />

Akustische <strong>Mensch</strong>-<br />

<strong>Maschine</strong>-<strong>Kommunikation</strong><br />

Sprachverstehenssysteme<br />

<strong>Mensch</strong>-<br />

<strong>Maschine</strong>-<br />

Dialog<br />

Sprachausgabe<br />

Sprachausgabe<br />

Inhaltsgesteuerte<br />

Sprachsynthese<br />

TTS<br />

(Vorleseautomat)


Verschiedene Typen von Synthesesystemen<br />

für die verschiedenen Anwendungen<br />

S Textgesteuerte Synthese (Text-to-Speech, TTS):<br />

Vorleseautomat für einen beliebigen, in Rechtschrift<br />

vorliegenden Text. Die <strong>Maschine</strong> “weiß” nicht, was sie sagt.<br />

S Inhaltsgesteuerte Synthese (Concept-to-Speech o<strong>der</strong><br />

Content-to-Speech, CTS): akustische Ausgabe von einer<br />

Datenbankabfrage o<strong>der</strong> aus einem Dialogsystem. Die<br />

Synthese erfolgt von einer semantischen Repräsentation<br />

mit Hilfe eines Generierungsmoduls. Die <strong>Maschine</strong> sollte<br />

genau “wissen”, was sie sagt.<br />

S Reproduktive Sprachsynthese (Sprachwie<strong>der</strong>gabe):<br />

akustische Ausgabe von vorgefertigten Versatzstücken<br />

(Mindestlänge: Phrase). Für streng begrenzte Domänen.<br />

04b sam_1.25<br />

Diskret<br />

Kontinuierlich<br />

04b sam_1.27<br />

TTS-System (Vorleseautomat)<br />

Symbolverarbeitung<br />

Umwandlung Rechtschrift in Lautschrift<br />

Bausteinauswahl<br />

Verkettung<br />

Signalsynthese<br />

Prosodiesteuerung<br />

Synthetisches Sprachsignal<br />

Text in Rechtschreibform<br />

Kette phonetischer Symbole<br />

mit Annotationen<br />

Akustisch/parametrische<br />

Darstellung<br />

Reproduktive Synthese<br />

(Sprachwie<strong>der</strong>gabe)<br />

S Wie<strong>der</strong>gabe vorgefertigter Versatzstücke aus einer<br />

Sprachdatensammlung ohne Manipulation<br />

S Verkettung von Versatzstücken in Sprachpausen<br />

S Natürliche Qualität bleibt (nahezu) erhalten<br />

S Heute bereits weite Anwendungsbereiche in Ansagediensten.<br />

S Eng begrenzte Domäne -wasnichtexplizitin<strong>der</strong>Datenbasis<br />

vorhanden ist, kann nicht wie<strong>der</strong>gegeben werden.<br />

04b sam_1.26<br />

Einsatz für Behin<strong>der</strong>te<br />

(FELLBAUM, 1996)<br />

Als Hilfsmittel für Behin<strong>der</strong>te haben Sprachsynthesesysteme<br />

bisher ihr größtes Einsatzgebiet gefunden:<br />

S Für Blinde: Vorleseautomat (Vorlesesystem), Textverarbeitungssystem<br />

mit Sprachausgabe, PC-Anwendungen,<br />

Warn- und Alarmsysteme.<br />

S Für Sprechbehin<strong>der</strong>te: Umsetzung von eingegebenem<br />

Text in Sprache, Übersetzung von unverständlicher in<br />

verständliche Sprache.<br />

S Für Taubstumme: Umsetzung von eingegebenem Text in<br />

Sprache.<br />

Sprachsynthesesysteme für Behin<strong>der</strong>te sind typische<br />

TTS-Einsatzgebiete.<br />

04b sam_1.28


Diskret<br />

Kontinuierlich<br />

04b sam_1.29<br />

CTS benötigt nicht alle TTS-Module ...<br />

... aber stets ein TTS-System im Hintergrund<br />

als Rückfallposition<br />

Symbolverarbeitung<br />

Umwandlung Rechtschrift in Lautschrift<br />

Bausteinauswahl<br />

Verkettung<br />

Signalsynthese<br />

Prosodiesteuerung<br />

Synthetisches Sprachsignal<br />

vom<br />

Generierungsmodul<br />

Kette phonetischer Symbole<br />

mit Annotationen<br />

Akustisch/parametrische<br />

Darstellung<br />

Paradigmen für die akustische Synthese<br />

(Regelbasierte) Parametrische Synthese<br />

S Synthese von einer parametrischen Repräsentation <strong>der</strong> <strong>akustischen</strong><br />

Daten (akustisches Front-End)<br />

S Parameter werden generiert von gespeicherten Tabellen (regelbasiert)<br />

o<strong>der</strong> von natürlichsprachlichen Äußerungen<br />

S Neuere Entwicklung: Generierung <strong>der</strong> Parameter von trainierbaren<br />

<strong>Systeme</strong>n (z. B. HMM)<br />

Verkettung vordefinierter Elemente und Bausteine<br />

S Synthese von natürlichen Sprachbausteinen, meist im Zeitbereich<br />

S Phonetisch/phonologisch motivierte Einheiten wie Diphone o<strong>der</strong> Halbsilben<br />

S Eine Instanz jedes Bausteins, entnommen aus einem Trägersatz, prosodisch neutral<br />

Synthese vom Korpus (Non-Uniform Unit Selection)<br />

S Keine vordefinierten Einheiten<br />

S Suche nach Folge optimaler Einheiten aus dem Korpus während <strong>der</strong> Synthese<br />

S Zahlreiche Instanzen jedes Elements;<br />

natürliche Prosodie wird bewahrt<br />

04b sam_1.31<br />

Einsatzgebiete für CTS<br />

Hauptanwendungen für CTS: Dialogsysteme (z. B. Verbmobil);<br />

Ansagedienste mit variablem Wortschatz; Auskunftssysteme<br />

(z.B. Zugauskunft); Navigationssysteme im Auto<br />

S alternativer/zusätzlicher Ausgabekanal bei Verfügbarkeit eines<br />

Bildschirms<br />

S alleinige Ausgabemöglichkeit bei Benutzung eines Telefons (ohne<br />

Displaytechnik mit größerer Kapazität)<br />

Alle diese Anwendungen haben eine begrenzte Domäne. Hierdurch<br />

gerät CTS in direkte Konkurrenz zur reproduktiven Sprachsynthese<br />

und ist dieser hinsichtlich Qualität hoffnungslos unterlegen.<br />

Korpusbasierte Synthese (Nonuniform Unit Selection) gestattet es<br />

TTS und CTS, sich <strong>der</strong> Technik <strong>der</strong> Sprachwie<strong>der</strong>gabe zu bedienen,<br />

um die Qualität zu verbessern.<br />

04b sam_1.30<br />

Sprechererkennung/<br />

-verifikation<br />

Spracherkennung(Diktiermaschine)<br />

04b sam_1.32<br />

Spracheingabe<br />

Abschließende Bemerkungen<br />

Akustische <strong>Mensch</strong>-<br />

<strong>Maschine</strong>-<strong>Kommunikation</strong><br />

Sprachverstehenssysteme<br />

<strong>Mensch</strong>-<br />

<strong>Maschine</strong>-<br />

Dialog<br />

Sprachausgabe<br />

Inhaltsgesteuerte<br />

Sprachsynthese<br />

TTS<br />

(Vorleseautomat)


Bilanz und Ausblick<br />

S Für begrenzte Domänen und begrenzte Aufgaben sind<br />

leistungsfähige <strong>Systeme</strong> auf dem Markt.<br />

S Wo solche <strong>Systeme</strong> verfügbar sind, bringt ihr Einsatz Vorteile<br />

bezüglich Zugang, Zeitbedarf, Arbeitsqualität.<br />

S <strong>Systeme</strong> für größere Aufgaben sind noch sehr fragil.<br />

- Verständlichkeit <strong>der</strong> Sprachsynthese sinkt bei Lärm sehr schnell.<br />

- z.B. Verbmobil: 70% approximativ korrekte Übersetzungen.<br />

S Weiterentwicklung erfor<strong>der</strong>t interdisziplinäre Zusammenarbeit<br />

von Informatikern, Ingenieuren, (Computer-)Linguisten,<br />

Phonetikern, Psychologen.<br />

S Erweiterung <strong>der</strong> Aufgabe hinsichtlich multimodaler <strong>Mensch</strong>-<br />

<strong>Maschine</strong>-<strong>Kommunikation</strong> wird neue Anwendungen schaffen.<br />

04b sam_1.33

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!