AUTOMATISCHE SPRACHERKENNUNG

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung 

AUTOMATISCHE SPRACHERKENNUNG 

Kapitel 1 — Einführung 

Prof. E.G. Schukat-Talamazzini 

Vorlesung (V2) im Wintersemester 2006 · V1.1 vom 5. November 2007 


Durchschnittliche Übertragungsraten 

Tastenfeld trainiert 100–150 W/min 

untrainiert 10–25 W/min 

Tastenzahl & Tastenbelegung 

100% Erkennung (Tippfehler!) 

Handschrift 25 W/min m/o Übung 

· automat. Erkennung von Blockschrift gelöst 

· automat. Erkennung von Kursivschrift ungelöst 

Lautsprache 120–250 W/min m/o Übung 

Diktiermaschine 40 W/min 

automatische Erkennung ?? 


Wozu automatische Spracherkennung? 

Was ist maschinelles Sprachverstehen? 

Taxonomie sprachverstehender Systeme 

Warum ist Spracherkennung schwierig ? 

Geschichte und Stand der Spracherkennung 

Architektur eines Spracherkennungssystems 

Vorlesungsaufbau und Literatur 


Vorteile gesprochener MM-Kommunikation 

◮ hohe Datenrate 

zusätzlicher Kommunikationskanal 

◮ Hände & Augen sind frei für andere Aktivitäten 

◮ Nutzung existierender Übertragungskanäle (Telefon) 

◮ Bewegungsfreiheit 

keine mitzuführenden Armaturen 

◮ geringer Raumbedarf des Endgeräts (Mikrofon) 

◮ funktioniert auch im Dunkeln 

◮ unterstützt effizient kollektives Problemlösen 

◮ natürliche Kommunikationsform 

◮ wenig Übung erforderlich 

mnemonisch · keine Kürzel


Anwendungsgebiete maschineller Spracherkennung 

Haushalt Beleuchtung, Unterhaltungselektronik, Anrufbeantworter 

Büro Aktenhaltung, Informationsabfrage, Gerätebedienung, 

akustische Schreibmaschine 

Industrie Qualitätskontrolle, Inventur, Versand 

Zahlungsverkehr telefonischer Bankauftragsdienst, Börsenhandel, 

Kreditkartenwesen 

Personentransport Fahrzeugbedienung, Fahrplanauskunft, Reservierung 

Informationsdienste Wetterbericht, Veranstaltungskalender, Gelbe Seiten 

Ausbildung Fremdsprachenerwerb, rechnergestütztes Lernen 

Medizin Diagnosesysteme, Mikroskopie, Patientenrufanlage 

Militär Waffensystemkontrolle, Flugzeugbedienung, 

nachrichtendienstliche Observation 

Behindertenhilfe Sprechtraining für Gehörlose, Fahrzeugbedienung, 

Filmuntertitelung 

Sprachkommunikation maschinelle Telefonvermittlungen, automatische 

Dolmetschgeräte 

Datenerfassung · Gerätesteuerung · Informationsgewinnung 


Abfahrt 

Ankunft 

SPRACHERKENNUNG 

"Ich will morgen abend nach Frankfurt" 

Verbindungsauskunft 

SPRACHVERSTEHEN 

Datum 

Uhrzeit 

Ort 

Datum 

Uhrzeit 

Ort 

SPRACHVOLLSYNTHESE 

"Sie können ab Bonn fahren um ..." 

ANTWORTGENERIERUNG 

Freitag, 16. Juli 1993 

17:00 − 20:00 Uhr 

Bonn 

Freitag, 16. Juli 1993 

19:30 − 22:30 Uhr 

Frankfurt a.M. 


Auskunftsdialogsysteme 

System: Hier ist die automatische InterCity-Auskunft. Was 

kann ich für Sie tun? 

Nutzer: Ich will morgen abend nach Frankfurt. 

System: Sie können ab Bonn fahren um [. . . ] 

Nutzer: Gibt es auch noch einen früheren Zug? 

System: Bis wann möchten Sie spätestens in Frankfurt 

ankommen? 

Nutzer: Bis einundzwanzig Uhr. 

System: Sie können ab Bonn fahren um [. . . ] 

Nutzer: Vielen Dank. Auf Wiedersehen. 


Spracherkennung 

Sprachanalyse 

Analoges 

Signal 

Zeitlicher Amplitudenverlauf 

Physikalischer Schalldruck 

Parametrische 

Darstellung 

Kurzzeitanalyse 

Akustische bedeutsame Größen 

Textuelle 

Darstellung 

eine Folge von Wörtern 

Orthografische Notation 

AD/DA−Wandlung 

Vollsynthese 

Sprachverstehen 

DSP 

Natürlichsprachliche Verarbeitung 

System− 

(re)aktion 

Steuerimpuls, DB−Anfrage 

Dialogantwort, Übersetzung 

Dialog/Übersetzung/Kommando−Systeme 

Digitales 

Signal 

Rechnerinterne Darstellung 

abgetastet & quantisiert 

Symbolphonetische 

Darstellung 

ein "Strom" von Lauten, 

Silben, Intonationsformen 

Linguistische 

Strukturinformation 

Sprachkompression 

Phrasenstrukturbäume 

PL Formeln, Semant. Netze 

Sprachsynthese 

concept−to−speech 

Sprecherverifikation 

Sprecheridentifikation 

? 

ASV = ASE + NSV


Taxonomie sprachverstehender Systeme I 

Darbietungsform isolierte Einzelwörter 

kontinuierliche Sätze oder Passagen 

Kommunikationsmodus Kommandos 

Menü 

Dialog (wechsel-/gegensprechend) 

Übersetzung (MeMaMe) 

Wortschatz Umfang 

Schwierigkeitsgrad 

Adaptivität 


Taxonomie sprachverstehender Systeme II 

Sprachumfang Kommando-Set 

stark formalisierte Kunstsprache 

schriftsprachlich 

spontansprachlich 

Überdeckungsgrad 

Verzweigungsfaktor, Perplexität 

Diskursbereich klein · überschaubar · mittel · umfangreich · utopisch 

Versandbestellung, “home banking” 

Bahnauskunft, Flugreservierung 

Terminabsprache, “telephone rosé” 

Patentverzeichnis, ärztliche Diagnose 

Telefonseelsorge 


Wieviele Wortformen braucht der Mensch ? 

Alarmstopschalter 

Menü−Steuerung (J/N) 

Zahlen/Ziffern 

Gerätebedienung 

Auskunftsdialog 

Alltagssprache 

Diktiermaschine 

Deutsch ohne Fremdwörter 

1 

2 

10 + n 

20 − 200 

500 − 2000 

8 000 − 20 000 

20 000 − 50 000 

ca. 300 000 


Taxonomie sprachverstehender Systeme III 

Sprecherabhängigkeit ein Sprecher 

feste Sprechergruppe 

Sprechertypus (Geschlecht, Dialekt) 

beliebige Sprecher 

adaptiv 

Sprecherverhalten Diszipliniertheit 

Kooperativität 

Vertrautheitsgrad 

Streß, Disposition 

Sprachsignalqualität Bandbreite 

Störgeräusche 

Raumakustik


Warum ist Spracherkennung schwierig ? 

Guten Morgen, Herr Hauptkomissar Thanner. 

Gibt es irgendetwas Neues im Fall “Verbmobil”? 

Morgen, Thanner. 

Irgendwas Neues im Fall “Verbmobil”? 

morgen thanner irgendwas neues im fall verbmobil 

morgenthannerirgendwasneuesimfallverbmobil 

der Text in 

“Schönschrift” 

spontan gesprochene 

Sprache 

Großschreibung? 

Satzzeichen? 

kontinuierliche 

Sprache 

moangtannairgnwasneuesimfalwerpmobiehl Aussprachevarianten 

artikulatorische Verschleifung 

Störungen und Verzerrungen 

Fremdstimmen 

” Cocktailparty“ 


Sprechweise Tempo, Lautstärke, 

Kooperation, Anspannung 

Kontext Lautumgebung, Betonung 

Aufnahmekanal Mikrofon, Position, 

Nachhall, Wandlung 

AMBIGUITÄT 

Umgebung Stimmen, Verkehr, Maschinen 

Homophonie ” Rad“ und ” Rat“ 

Wortgrenzen ” Stau-becken“ und ” Staub-ecken“ 

Satzbau ... das Tonband, daß Nixon vernichtete ...“ 

” 

” Der gute Mann denkt an sich [,] selbst zuletzt“ 

Bedeutung Bienenhonig“ und Imkerhonig“ 

” ” 


Vier Problemfelder 

KONTINUITÄT 

Wahrnehmung Folge von Wörtern 

Folge von Silben 

Folge von Lauten 

Sprachsignal keinerlei akustische Grenzmarkierungen 

KOMPLEXITÄT 

Datenmengen z.B. 16 000 Abtastwerte/Sekunde 

Inventare 40–50 Phoneme, 

> 10 000 Silben, 

100–250 k Wörter 

Kombinatorik exponentielles Wachstum: 

Anzahl möglicher Sätze 

Restriktionen Grammatik versus Suchraum 

VARIABILITÄT 

Sprecher Anatomie, Dialekt, Idiolekt 


Kommunikation und Redundanz I 

” When we listen to a person speaking 

much of what we think we hear 

is supplied from our memory.“ William James (1899) 

◮ Subjektiver Eindruck 

Sprache bildet eine ” Perlenkette“ diskreter Segmente 

◮ Objektiver Tatbestand 

Das akustische Korrelat unserer Nachricht ist: 

kontinuierlich · variabel · kontextabhängig · gestört 

◮ Dekodierung gesprochener Mitteilungen 

Rekonstruktion aus einem hochredundanten Code 

Phonotaktik · Morphologie · Syntax · Semantik · Dialogkontext


Kommunikation und Redundanz II 

Folgerung 

” Eine sprechende Person sucht ihr Kommunikationsziel 

— verstanden zu werden — 

mit dem Minimum des unbedingt erforderlichen Aufwandes 

zu erreichen.“ (These, plausibel) 

Redundanz der Mitteilung 

Qualität der Artikulation 

Fakt 

Eine Person sollte unbedingt wissen, 

daß sie mit einer Maschine kommuniziert! 


Meilensteine II 

1970 Arbeitsplatzrechner in IC-Technik 

1971 Worterkenner mit Schablonenvergleich (DTW) 

1972 Sprecherverifikation 

1975 statistische Methode (HMM) · Harpy & Dragon 

1976 “text-to-speech”-Synthese (TTS) 

1980 Mel-Frequenz-Cepstrum 

Vektorquantisierung (LBG-Algorithmus) 

1981 Signalprozessoren (DSP) 

1985 kontextabhängige Phoneme 

Neuronale Netze (“error-back-propagation”) 

CELP-Sprachkodierung 

1989 PSOLA-Synthese 

sprecherunabhängige kontinuierliche ASE mit 1000 W. 

1993 Diktiersysteme von IBM, Philips, Dragon Systems, Kurzweil 

1996 Echtzeitsprecheradaption (MLLR/MAP) 


Meilensteine I 

1844 Telegraph 

1858 transatlantischer Telegraph 

1876 Telefon 

1927 transatlantisches Telefon (Funk) 

1939 Kanalvocoder 

1946 Klangspektrograph (“visible speech”) 

1948 akustische Theorie der Sprachproduktion 

1951 Formantsynthese 

1956 transatlantisches Telefon (Kabel) 

1958 kommerzieller Digitalrechner 

1962 PCM · Satellitenkommunikation 

1965 schnelle Fouriertransformation (FFT) 

1966 digitale Filterung 

1968 lineare Vorhersage (LPC) 


DARPA SUR Projekt (1971–76) 

GOAL (11/1971) HARPY (11/1976) 

accept connected speech YES 

from many 5 (3 male & 2 female) 

cooperative speakers YES 

in a quiet room computer terminal room 

using a good microphone close-talking mike 

with slight tuning/speaker 20 training sentences/talker 

accepting 1000 words 1011 

using an artificial syntax avg. branching factor = 33 

in a constrained task document retrieval 

with < 10% semantic error 5% 

in a few times real time 80 times real time 

on a 100 MIPS machine 4 MIPS PDP-KA10 

Department of Defense (DoD) Advanced Research Projects Agency · Speech Understanding Research


Methodische Entwicklung 

DARPA SUR 

DARPA Speech & Natural Language 

• HARPY 

• SPHINX 

• digitale Filterung 

• IBM Tangora 

• HMM zur Spracherkennung • Triphone 

• Lineare Vorhersage • stochastische N-Gramme 

• mel-Cepstrum 

• Sprecherverifikation• 

Verbundworterkennung 

• n beste Wortketten 

• Baum-Welch-Algorithmus 

• LBG-Algorithmus • TDNN 

• schnelle DFT 

• Sprachsynthese vom Text • Phonotopische Karte 

• LPC-Metrik 

• backpropagation-Algorithmus 

• DTW-Einzelworterkenner 

• Mikrofonfelder 

• Dynamische Zeitverzerrung (DTW) • Signalprozessoren 

1970 1980 1990 


Extrempositionen 

” Flugzeuge schlagen nicht mit den Flügeln.“ F. Jelinek 

” Each time I fired a phonetician, recognition rate increased 

by 3%“ F. Jelinek 

” With friends like statistics — who needs linguistics?“ H. Ney 

” Die KI in der Spracherkennung hat uns 10 Jahre gekostet!“ 

J. Mariani 

” We leave it to the computer to learn what we have failed to 

understand. It might do the job but can it tell us how?“G. Fant 

” What magical trick makes us intelligent? The trick is that 

there is no trick.“ J. Allen 


Paradigmenstreit 

” ... breaking the speech code 

by the knowledge-based approach?“ 

Künstliche Intelligenz Neuerer Konnektionismus 

Symbolverarbeitungsparadigma Subsymbolischer Ansatz 

Funktionsmodell Performanzmodell 

Perzeptionsforschung Sprachtechnologie 

lokale Repräsentation verteilte Repräsentation 

festverdrahtet selbstorganisierend 

wissensbasiert “black box” 

Wissensakquisition Lernen, Adaption 

regelbasiert parametrisch 

Linguistik Statistik 

Humanwissenschaften Ingenieurwissenschaften 

” ... training the computer to learn the task 

by statistical inference?“ 


Stand der Technik 

◮ es gibt kommerzielle Systeme für die Erkennung isoliert 

gesprochener Wörter 

10 bis wenige 100 Wörter 

mit kurzer Anpassungsphase oder sprecherunabhängig 

in ruhiger Umgebung oder robust gegen Fremdschall 

◮ es gibt kommerzielle Diktiermaschinen 

≥ 20 000 Wörter · sprecherabhängig · isolierte Wörter 

◮ es gibt Laborsysteme, die kontinuierlich gesprochene Sprache 

verstehen und eine sinnvolle Reaktion geben 

1000 oder mehr Wörter 

mit restriktivem Sprachmodell (Perplexität < 100) 

bei sehr guter Sprachqualität 

◮ es gelten einschneidende Beschränkungen hinsichtlich 

Wortschatz · Syntax · Dialekt · Problemkreis


Multimediale MMK der Zukunft 

Zukünftige Forschungen auf den Gebieten der Mustererkennung und der 

künstlichen Intelligenz werden zu multimedialen Systemen führen, welche 

◮ gesprochene Sprache erkennen 

◮ Hand- und Druckschrift lesen 

◮ Gesprochenes und Geschriebenes auch “verstehen” 

◮ Schrift und Sprache übersetzen 

◮ mittels Text, Graphik oder Sprache antworten 

◮ aktiv und kompetent Assistenz bieten 

◮ aus “Erfahrung” lernen 

◮ weltweit mit anderen Systemen kommunizieren 

◮ in Echtzeit arbeiten 

◮ klein, leicht, zuverlässig und preiswert sind 


Systemarchitektur eines Spracherkenners 

Signalverarbeitung 

physikalische Akustik 

Sprachsignalkurzzeitanalyse 

Physiologie 

Phonologie 

Informationstheorie 

Vektor- 

quantisierung 

Mustererkennung 

Linguistik 

statistische 

Dekodierung 

HMM 

Wortmodelle 

grammatisches 

Sprachmodell 

syntaxgesteuerte 

Suche 

Algorithmen 

der KI 

Statistik 


Fundamentalformel der ASE 

LINGUISTISCHE QUELLE 

Text− w Wort− 

erzeugung 

artikulation 

AKUSTISCHER KANAL SPRACHERKENNUNG 

Merkmal− 

berechnung 

X 

Statistische 

Dekodierung 

P(w) P(X | w) argmax w P(X, w) 

BAYES’sche Entscheidungsregel: 

Suche diejenige Wortfolge w mit maximaler a posteriori 

Wahrscheinlichkeit 

P(w|X) 

def P(w) · P(X|w) 

= 

P(X) 


Wissensquellen zur Spracherkennung 

Akustik Entstehung, Fortpflanzung und Erfassung von Schallwellen 

Digitale Signalverarbeitung Filterung und Spektralanalyse nichtstationärer, 1–D 

Signale 

Phonetik artikulatorische & akustische Korrelate der Sprachlaute 

Phonologie Systeme bedeutungsunterscheidender Sprachlaute & ihre 

Kombinatorik 

Prosodie Intonationsmittel (Sprachmelodie, Rhythmus, Akzentuierung) und 

ihre Verwendung zur Bedeutungsdifferenzierung 

Morphologie Form, innere Struktur, Funktion und Vorkommen der kleinsten 

bedeutungstragenden Einheiten 

Syntax Strukturanalyse der wohlgeformten Sätze einer Sprache 

Semantik Bedeutungsanalyse und -desambiguierung sprachlicher Ausdrücke 

Pragmatik Einordnung sprachlicher Konstrukte in den Aufgabenkontext 

Diskursanalyse Herstellung von Beziehungen zwischen Redebeiträgen 

w ∗


Kapitelübersicht 

Kapitel 1 

Einführung 

Kapitel 2 Kapitel 3 

Gesprochene Sprache Merkmalgewinnung 

Kapitel 4 

Klassifikation 

SPRACH− 

VERARBEITUNG 

Kapitel 5 Kapitel 6 

Markovmodelle 

Akustische Modelle 

Kapitel 7 MUSTERANALYSE 

Kapitel 8 

Grammat. Modelle MIT STATISTISCHEN 

MODELLEN 

Dekodierung 


E.G. Schukat-Talamazzini. 

Automatische Spracherkennung — Grundlagen, statistische Modelle und 

effiziente Algorithmen. 

Künstliche Intelligenz. Vieweg, Braunschweig, 1995. 

J.N. Holmes. 

Sprachsynthese und Spracherkennung. 

Oldenbourg, München, 1991. 

G. Ruske. 

Automatische Spracherkennung. 

Oldenbourg Verlag, München, 1988. 

B. Eppinger and E. Herter. 

Sprachverarbeitung. 

Hanser, München, 1993. 

Axel Susen. 

Spracherkennung. Kosten, Nutzen, Einsatzmöglichkeiten. 

VDE Verlag, Berlin, 1999. 

G. Sagerer. 


Literatur zur Spracherkennung 

Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, and Raj Reddy, editors. 

Spoken Language Processing: A Guide to Theory, Algorithm and System 

Development. 

Prentice Hall, 2001. 

L.R. Rabiner. 

Fundamentals of Speech Recognition. 

Signal Processing Series. Prentice Hall, Englewood Cliffs, NJ, 1993. 

S. Furui. 

Digital Speech Processing, Synthesis, and Recognition. 

Marcel Dekker, New York, 1989. 

Ben Gold and Nelson Morgan. 

Speech and Audio Processing: Processing and Perception of Speech and 

Music. 

John Wiley & Sons, 1999. 

Frederick Jelinek. 

Statistical Methods for Speech Recognition. 

MIT Press, Cambridge, MA, 1997. 


Automatisches Verstehen gesprochener Sprache, volume 74 of Reihe 

Informatik. 

Bibliographisches Institut, Mannheim, 1990. 

K.J. Kohler. 

Einführung in die Phonetik des Deutschen. 

Erich Schmidt Verlag, Berlin, 1977. 

B.C.J. Moore. 

An Introduction to the Psychology of Hearing. 

Academic Press, London, 1989. 

Manfred R. Schroeder. 

Computer Speech: Recognition, Compression, Synthesis, volume 35 of 

Springer Series in Information Sciences. 

Springer, 1999. 

J.D. Markel and A.H. Gray Jr. 

Linear Prediction of Speech, volume 12 of Communications and 

Cybernetics. 

Springer Verlag, Berlin, Heidelberg, New York, 1976. 

H. Niemann.


2007-11-05 

Pattern Analysis and Understanding, volume 4 of Series in Information 

Sciences. 

Springer, Berlin Heidelberg, 1990. 

X.D. Huang, Y. Ariki, and M.A. Jack. 

Hidden Markov Models for Speech Recognition. 

Number 7 in Information Technology Series. Edinburgh University Press, 

Edinburgh, 1990. 

Alejandro Acero. 

Acoustical and Environmental Robustness in Automatic Speech 

Recognition. 

Kluwer Academic Publ., Boston, MA, 1993. 

Eugene Charniak. 

Statistical Language Learning. 

MIT Press, Cambridge, Massachusetts, 1993. 

F. Jelinek. 

Self-Organized Language Modeling for Speech Recognition. 

In A. Waibel and K.F. Lee, editors, Readings in Speech Recognition, pages 

450–506. Morgan Kaufmann, San Mateo, CA, 1990. 

Automatische Spracherkennung 


EOF 


2007-11-05 

2007-11-05 



EOF 




EOF 

Literatur zur Spracherkennung

AUTOMATISCHE SPRACHERKENNUNG

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?