18.11.2012 Aufrufe

AUTOMATISCHE SPRACHERKENNUNG

AUTOMATISCHE SPRACHERKENNUNG

AUTOMATISCHE SPRACHERKENNUNG

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

<strong>AUTOMATISCHE</strong> <strong>SPRACHERKENNUNG</strong><br />

Kapitel 1 — Einführung<br />

Prof. E.G. Schukat-Talamazzini<br />

Vorlesung (V2) im Wintersemester 2006 · V1.1 vom 5. November 2007<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Durchschnittliche Übertragungsraten<br />

Tastenfeld trainiert 100–150 W/min<br />

untrainiert 10–25 W/min<br />

Tastenzahl & Tastenbelegung<br />

100% Erkennung (Tippfehler!)<br />

Handschrift 25 W/min m/o Übung<br />

· automat. Erkennung von Blockschrift gelöst<br />

· automat. Erkennung von Kursivschrift ungelöst<br />

Lautsprache 120–250 W/min m/o Übung<br />

Diktiermaschine 40 W/min<br />

automatische Erkennung ??<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Wozu automatische Spracherkennung?<br />

Was ist maschinelles Sprachverstehen?<br />

Taxonomie sprachverstehender Systeme<br />

Warum ist Spracherkennung schwierig ?<br />

Geschichte und Stand der Spracherkennung<br />

Architektur eines Spracherkennungssystems<br />

Vorlesungsaufbau und Literatur<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Vorteile gesprochener MM-Kommunikation<br />

◮ hohe Datenrate<br />

zusätzlicher Kommunikationskanal<br />

◮ Hände & Augen sind frei für andere Aktivitäten<br />

◮ Nutzung existierender Übertragungskanäle (Telefon)<br />

◮ Bewegungsfreiheit<br />

keine mitzuführenden Armaturen<br />

◮ geringer Raumbedarf des Endgeräts (Mikrofon)<br />

◮ funktioniert auch im Dunkeln<br />

◮ unterstützt effizient kollektives Problemlösen<br />

◮ natürliche Kommunikationsform<br />

◮ wenig Übung erforderlich<br />

mnemonisch · keine Kürzel


Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Anwendungsgebiete maschineller Spracherkennung<br />

Haushalt Beleuchtung, Unterhaltungselektronik, Anrufbeantworter<br />

Büro Aktenhaltung, Informationsabfrage, Gerätebedienung,<br />

akustische Schreibmaschine<br />

Industrie Qualitätskontrolle, Inventur, Versand<br />

Zahlungsverkehr telefonischer Bankauftragsdienst, Börsenhandel,<br />

Kreditkartenwesen<br />

Personentransport Fahrzeugbedienung, Fahrplanauskunft, Reservierung<br />

Informationsdienste Wetterbericht, Veranstaltungskalender, Gelbe Seiten<br />

Ausbildung Fremdsprachenerwerb, rechnergestütztes Lernen<br />

Medizin Diagnosesysteme, Mikroskopie, Patientenrufanlage<br />

Militär Waffensystemkontrolle, Flugzeugbedienung,<br />

nachrichtendienstliche Observation<br />

Behindertenhilfe Sprechtraining für Gehörlose, Fahrzeugbedienung,<br />

Filmuntertitelung<br />

Sprachkommunikation maschinelle Telefonvermittlungen, automatische<br />

Dolmetschgeräte<br />

Datenerfassung · Gerätesteuerung · Informationsgewinnung<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Abfahrt<br />

Ankunft<br />

<strong>SPRACHERKENNUNG</strong><br />

"Ich will morgen abend nach Frankfurt"<br />

Verbindungsauskunft<br />

SPRACHVERSTEHEN<br />

Datum<br />

Uhrzeit<br />

Ort<br />

Datum<br />

Uhrzeit<br />

Ort<br />

SPRACHVOLLSYNTHESE<br />

"Sie können ab Bonn fahren um ..."<br />

ANTWORTGENERIERUNG<br />

Freitag, 16. Juli 1993<br />

17:00 − 20:00 Uhr<br />

Bonn<br />

Freitag, 16. Juli 1993<br />

19:30 − 22:30 Uhr<br />

Frankfurt a.M.<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Auskunftsdialogsysteme<br />

System: Hier ist die automatische InterCity-Auskunft. Was<br />

kann ich für Sie tun?<br />

Nutzer: Ich will morgen abend nach Frankfurt.<br />

System: Sie können ab Bonn fahren um [. . . ]<br />

Nutzer: Gibt es auch noch einen früheren Zug?<br />

System: Bis wann möchten Sie spätestens in Frankfurt<br />

ankommen?<br />

Nutzer: Bis einundzwanzig Uhr.<br />

System: Sie können ab Bonn fahren um [. . . ]<br />

Nutzer: Vielen Dank. Auf Wiedersehen.<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Spracherkennung<br />

Sprachanalyse<br />

Analoges<br />

Signal<br />

Zeitlicher Amplitudenverlauf<br />

Physikalischer Schalldruck<br />

Parametrische<br />

Darstellung<br />

Kurzzeitanalyse<br />

Akustische bedeutsame Größen<br />

Textuelle<br />

Darstellung<br />

eine Folge von Wörtern<br />

Orthografische Notation<br />

AD/DA−Wandlung<br />

Vollsynthese<br />

Sprachverstehen<br />

DSP<br />

Natürlichsprachliche Verarbeitung<br />

System−<br />

(re)aktion<br />

Steuerimpuls, DB−Anfrage<br />

Dialogantwort, Übersetzung<br />

Dialog/Übersetzung/Kommando−Systeme<br />

Digitales<br />

Signal<br />

Rechnerinterne Darstellung<br />

abgetastet & quantisiert<br />

Symbolphonetische<br />

Darstellung<br />

ein "Strom" von Lauten,<br />

Silben, Intonationsformen<br />

Linguistische<br />

Strukturinformation<br />

Sprachkompression<br />

Phrasenstrukturbäume<br />

PL Formeln, Semant. Netze<br />

Sprachsynthese<br />

concept−to−speech<br />

Sprecherverifikation<br />

Sprecheridentifikation<br />

?<br />

ASV = ASE + NSV


Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Taxonomie sprachverstehender Systeme I<br />

Darbietungsform isolierte Einzelwörter<br />

kontinuierliche Sätze oder Passagen<br />

Kommunikationsmodus Kommandos<br />

Menü<br />

Dialog (wechsel-/gegensprechend)<br />

Übersetzung (MeMaMe)<br />

Wortschatz Umfang<br />

Schwierigkeitsgrad<br />

Adaptivität<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Taxonomie sprachverstehender Systeme II<br />

Sprachumfang Kommando-Set<br />

stark formalisierte Kunstsprache<br />

schriftsprachlich<br />

spontansprachlich<br />

Überdeckungsgrad<br />

Verzweigungsfaktor, Perplexität<br />

Diskursbereich klein · überschaubar · mittel · umfangreich · utopisch<br />

Versandbestellung, “home banking”<br />

Bahnauskunft, Flugreservierung<br />

Terminabsprache, “telephone rosé”<br />

Patentverzeichnis, ärztliche Diagnose<br />

Telefonseelsorge<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Wieviele Wortformen braucht der Mensch ?<br />

Alarmstopschalter<br />

Menü−Steuerung (J/N)<br />

Zahlen/Ziffern<br />

Gerätebedienung<br />

Auskunftsdialog<br />

Alltagssprache<br />

Diktiermaschine<br />

Deutsch ohne Fremdwörter<br />

1<br />

2<br />

10 + n<br />

20 − 200<br />

500 − 2000<br />

8 000 − 20 000<br />

20 000 − 50 000<br />

ca. 300 000<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Taxonomie sprachverstehender Systeme III<br />

Sprecherabhängigkeit ein Sprecher<br />

feste Sprechergruppe<br />

Sprechertypus (Geschlecht, Dialekt)<br />

beliebige Sprecher<br />

adaptiv<br />

Sprecherverhalten Diszipliniertheit<br />

Kooperativität<br />

Vertrautheitsgrad<br />

Streß, Disposition<br />

Sprachsignalqualität Bandbreite<br />

Störgeräusche<br />

Raumakustik


Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Warum ist Spracherkennung schwierig ?<br />

Guten Morgen, Herr Hauptkomissar Thanner.<br />

Gibt es irgendetwas Neues im Fall “Verbmobil”?<br />

Morgen, Thanner.<br />

Irgendwas Neues im Fall “Verbmobil”?<br />

morgen thanner irgendwas neues im fall verbmobil<br />

morgenthannerirgendwasneuesimfallverbmobil<br />

der Text in<br />

“Schönschrift”<br />

spontan gesprochene<br />

Sprache<br />

Großschreibung?<br />

Satzzeichen?<br />

kontinuierliche<br />

Sprache<br />

moangtannairgnwasneuesimfalwerpmobiehl Aussprachevarianten<br />

artikulatorische Verschleifung<br />

Störungen und Verzerrungen<br />

Fremdstimmen<br />

” Cocktailparty“<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Sprechweise Tempo, Lautstärke,<br />

Kooperation, Anspannung<br />

Kontext Lautumgebung, Betonung<br />

Aufnahmekanal Mikrofon, Position,<br />

Nachhall, Wandlung<br />

AMBIGUITÄT<br />

Umgebung Stimmen, Verkehr, Maschinen<br />

Homophonie ” Rad“ und ” Rat“<br />

Wortgrenzen ” Stau-becken“ und ” Staub-ecken“<br />

Satzbau ... das Tonband, daß Nixon vernichtete ...“<br />

”<br />

” Der gute Mann denkt an sich [,] selbst zuletzt“<br />

Bedeutung Bienenhonig“ und Imkerhonig“<br />

” ”<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Vier Problemfelder<br />

KONTINUITÄT<br />

Wahrnehmung Folge von Wörtern<br />

Folge von Silben<br />

Folge von Lauten<br />

Sprachsignal keinerlei akustische Grenzmarkierungen<br />

KOMPLEXITÄT<br />

Datenmengen z.B. 16 000 Abtastwerte/Sekunde<br />

Inventare 40–50 Phoneme,<br />

> 10 000 Silben,<br />

100–250 k Wörter<br />

Kombinatorik exponentielles Wachstum:<br />

Anzahl möglicher Sätze<br />

Restriktionen Grammatik versus Suchraum<br />

VARIABILITÄT<br />

Sprecher Anatomie, Dialekt, Idiolekt<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Kommunikation und Redundanz I<br />

” When we listen to a person speaking<br />

much of what we think we hear<br />

is supplied from our memory.“ William James (1899)<br />

◮ Subjektiver Eindruck<br />

Sprache bildet eine ” Perlenkette“ diskreter Segmente<br />

◮ Objektiver Tatbestand<br />

Das akustische Korrelat unserer Nachricht ist:<br />

kontinuierlich · variabel · kontextabhängig · gestört<br />

◮ Dekodierung gesprochener Mitteilungen<br />

Rekonstruktion aus einem hochredundanten Code<br />

Phonotaktik · Morphologie · Syntax · Semantik · Dialogkontext


Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Kommunikation und Redundanz II<br />

Folgerung<br />

” Eine sprechende Person sucht ihr Kommunikationsziel<br />

— verstanden zu werden —<br />

mit dem Minimum des unbedingt erforderlichen Aufwandes<br />

zu erreichen.“ (These, plausibel)<br />

Redundanz der Mitteilung<br />

Qualität der Artikulation<br />

Fakt<br />

Eine Person sollte unbedingt wissen,<br />

daß sie mit einer Maschine kommuniziert!<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Meilensteine II<br />

1970 Arbeitsplatzrechner in IC-Technik<br />

1971 Worterkenner mit Schablonenvergleich (DTW)<br />

1972 Sprecherverifikation<br />

1975 statistische Methode (HMM) · Harpy & Dragon<br />

1976 “text-to-speech”-Synthese (TTS)<br />

1980 Mel-Frequenz-Cepstrum<br />

Vektorquantisierung (LBG-Algorithmus)<br />

1981 Signalprozessoren (DSP)<br />

1985 kontextabhängige Phoneme<br />

Neuronale Netze (“error-back-propagation”)<br />

CELP-Sprachkodierung<br />

1989 PSOLA-Synthese<br />

sprecherunabhängige kontinuierliche ASE mit 1000 W.<br />

1993 Diktiersysteme von IBM, Philips, Dragon Systems, Kurzweil<br />

1996 Echtzeitsprecheradaption (MLLR/MAP)<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Meilensteine I<br />

1844 Telegraph<br />

1858 transatlantischer Telegraph<br />

1876 Telefon<br />

1927 transatlantisches Telefon (Funk)<br />

1939 Kanalvocoder<br />

1946 Klangspektrograph (“visible speech”)<br />

1948 akustische Theorie der Sprachproduktion<br />

1951 Formantsynthese<br />

1956 transatlantisches Telefon (Kabel)<br />

1958 kommerzieller Digitalrechner<br />

1962 PCM · Satellitenkommunikation<br />

1965 schnelle Fouriertransformation (FFT)<br />

1966 digitale Filterung<br />

1968 lineare Vorhersage (LPC)<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

DARPA SUR Projekt (1971–76)<br />

GOAL (11/1971) HARPY (11/1976)<br />

accept connected speech YES<br />

from many 5 (3 male & 2 female)<br />

cooperative speakers YES<br />

in a quiet room computer terminal room<br />

using a good microphone close-talking mike<br />

with slight tuning/speaker 20 training sentences/talker<br />

accepting 1000 words 1011<br />

using an artificial syntax avg. branching factor = 33<br />

in a constrained task document retrieval<br />

with < 10% semantic error 5%<br />

in a few times real time 80 times real time<br />

on a 100 MIPS machine 4 MIPS PDP-KA10<br />

Department of Defense (DoD) Advanced Research Projects Agency · Speech Understanding Research


Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Methodische Entwicklung<br />

DARPA SUR<br />

DARPA Speech & Natural Language<br />

• HARPY<br />

• SPHINX<br />

• digitale Filterung<br />

• IBM Tangora<br />

• HMM zur Spracherkennung • Triphone<br />

• Lineare Vorhersage • stochastische N-Gramme<br />

• mel-Cepstrum<br />

• Sprecherverifikation•<br />

Verbundworterkennung<br />

• n beste Wortketten<br />

• Baum-Welch-Algorithmus<br />

• LBG-Algorithmus • TDNN<br />

• schnelle DFT<br />

• Sprachsynthese vom Text • Phonotopische Karte<br />

• LPC-Metrik<br />

• backpropagation-Algorithmus<br />

• DTW-Einzelworterkenner<br />

• Mikrofonfelder<br />

• Dynamische Zeitverzerrung (DTW) • Signalprozessoren<br />

1970 1980 1990<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Extrempositionen<br />

” Flugzeuge schlagen nicht mit den Flügeln.“ F. Jelinek<br />

” Each time I fired a phonetician, recognition rate increased<br />

by 3%“ F. Jelinek<br />

” With friends like statistics — who needs linguistics?“ H. Ney<br />

” Die KI in der Spracherkennung hat uns 10 Jahre gekostet!“<br />

J. Mariani<br />

” We leave it to the computer to learn what we have failed to<br />

understand. It might do the job but can it tell us how?“G. Fant<br />

” What magical trick makes us intelligent? The trick is that<br />

there is no trick.“ J. Allen<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Paradigmenstreit<br />

” ... breaking the speech code<br />

by the knowledge-based approach?“<br />

Künstliche Intelligenz Neuerer Konnektionismus<br />

Symbolverarbeitungsparadigma Subsymbolischer Ansatz<br />

Funktionsmodell Performanzmodell<br />

Perzeptionsforschung Sprachtechnologie<br />

lokale Repräsentation verteilte Repräsentation<br />

festverdrahtet selbstorganisierend<br />

wissensbasiert “black box”<br />

Wissensakquisition Lernen, Adaption<br />

regelbasiert parametrisch<br />

Linguistik Statistik<br />

Humanwissenschaften Ingenieurwissenschaften<br />

” ... training the computer to learn the task<br />

by statistical inference?“<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Stand der Technik<br />

◮ es gibt kommerzielle Systeme für die Erkennung isoliert<br />

gesprochener Wörter<br />

10 bis wenige 100 Wörter<br />

mit kurzer Anpassungsphase oder sprecherunabhängig<br />

in ruhiger Umgebung oder robust gegen Fremdschall<br />

◮ es gibt kommerzielle Diktiermaschinen<br />

≥ 20 000 Wörter · sprecherabhängig · isolierte Wörter<br />

◮ es gibt Laborsysteme, die kontinuierlich gesprochene Sprache<br />

verstehen und eine sinnvolle Reaktion geben<br />

1000 oder mehr Wörter<br />

mit restriktivem Sprachmodell (Perplexität < 100)<br />

bei sehr guter Sprachqualität<br />

◮ es gelten einschneidende Beschränkungen hinsichtlich<br />

Wortschatz · Syntax · Dialekt · Problemkreis


Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Multimediale MMK der Zukunft<br />

Zukünftige Forschungen auf den Gebieten der Mustererkennung und der<br />

künstlichen Intelligenz werden zu multimedialen Systemen führen, welche<br />

◮ gesprochene Sprache erkennen<br />

◮ Hand- und Druckschrift lesen<br />

◮ Gesprochenes und Geschriebenes auch “verstehen”<br />

◮ Schrift und Sprache übersetzen<br />

◮ mittels Text, Graphik oder Sprache antworten<br />

◮ aktiv und kompetent Assistenz bieten<br />

◮ aus “Erfahrung” lernen<br />

◮ weltweit mit anderen Systemen kommunizieren<br />

◮ in Echtzeit arbeiten<br />

◮ klein, leicht, zuverlässig und preiswert sind<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Systemarchitektur eines Spracherkenners<br />

Signalverarbeitung<br />

physikalische Akustik<br />

Sprachsignalkurzzeitanalyse<br />

Physiologie<br />

Phonologie<br />

Informationstheorie<br />

Vektor-<br />

quantisierung<br />

Mustererkennung<br />

Linguistik<br />

statistische<br />

Dekodierung<br />

HMM<br />

Wortmodelle<br />

grammatisches<br />

Sprachmodell<br />

syntaxgesteuerte<br />

Suche<br />

Algorithmen<br />

der KI<br />

Statistik<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Fundamentalformel der ASE<br />

LINGUISTISCHE QUELLE<br />

Text− w Wort−<br />

erzeugung<br />

artikulation<br />

AKUSTISCHER KANAL <strong>SPRACHERKENNUNG</strong><br />

Merkmal−<br />

berechnung<br />

X<br />

Statistische<br />

Dekodierung<br />

P(w) P(X | w) argmax w P(X, w)<br />

BAYES’sche Entscheidungsregel:<br />

Suche diejenige Wortfolge w mit maximaler a posteriori<br />

Wahrscheinlichkeit<br />

P(w|X)<br />

def P(w) · P(X|w)<br />

=<br />

P(X)<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Wissensquellen zur Spracherkennung<br />

Akustik Entstehung, Fortpflanzung und Erfassung von Schallwellen<br />

Digitale Signalverarbeitung Filterung und Spektralanalyse nichtstationärer, 1–D<br />

Signale<br />

Phonetik artikulatorische & akustische Korrelate der Sprachlaute<br />

Phonologie Systeme bedeutungsunterscheidender Sprachlaute & ihre<br />

Kombinatorik<br />

Prosodie Intonationsmittel (Sprachmelodie, Rhythmus, Akzentuierung) und<br />

ihre Verwendung zur Bedeutungsdifferenzierung<br />

Morphologie Form, innere Struktur, Funktion und Vorkommen der kleinsten<br />

bedeutungstragenden Einheiten<br />

Syntax Strukturanalyse der wohlgeformten Sätze einer Sprache<br />

Semantik Bedeutungsanalyse und -desambiguierung sprachlicher Ausdrücke<br />

Pragmatik Einordnung sprachlicher Konstrukte in den Aufgabenkontext<br />

Diskursanalyse Herstellung von Beziehungen zwischen Redebeiträgen<br />

w ∗


Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Kapitelübersicht<br />

Kapitel 1<br />

Einführung<br />

Kapitel 2 Kapitel 3<br />

Gesprochene Sprache Merkmalgewinnung<br />

Kapitel 4<br />

Klassifikation<br />

SPRACH−<br />

VERARBEITUNG<br />

Kapitel 5 Kapitel 6<br />

Markovmodelle<br />

Akustische Modelle<br />

Kapitel 7 MUSTERANALYSE<br />

Kapitel 8<br />

Grammat. Modelle MIT STATISTISCHEN<br />

MODELLEN<br />

Dekodierung<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

E.G. Schukat-Talamazzini.<br />

Automatische Spracherkennung — Grundlagen, statistische Modelle und<br />

effiziente Algorithmen.<br />

Künstliche Intelligenz. Vieweg, Braunschweig, 1995.<br />

J.N. Holmes.<br />

Sprachsynthese und Spracherkennung.<br />

Oldenbourg, München, 1991.<br />

G. Ruske.<br />

Automatische Spracherkennung.<br />

Oldenbourg Verlag, München, 1988.<br />

B. Eppinger and E. Herter.<br />

Sprachverarbeitung.<br />

Hanser, München, 1993.<br />

Axel Susen.<br />

Spracherkennung. Kosten, Nutzen, Einsatzmöglichkeiten.<br />

VDE Verlag, Berlin, 1999.<br />

G. Sagerer.<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Literatur zur Spracherkennung<br />

Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, and Raj Reddy, editors.<br />

Spoken Language Processing: A Guide to Theory, Algorithm and System<br />

Development.<br />

Prentice Hall, 2001.<br />

L.R. Rabiner.<br />

Fundamentals of Speech Recognition.<br />

Signal Processing Series. Prentice Hall, Englewood Cliffs, NJ, 1993.<br />

S. Furui.<br />

Digital Speech Processing, Synthesis, and Recognition.<br />

Marcel Dekker, New York, 1989.<br />

Ben Gold and Nelson Morgan.<br />

Speech and Audio Processing: Processing and Perception of Speech and<br />

Music.<br />

John Wiley & Sons, 1999.<br />

Frederick Jelinek.<br />

Statistical Methods for Speech Recognition.<br />

MIT Press, Cambridge, MA, 1997.<br />

Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

Automatisches Verstehen gesprochener Sprache, volume 74 of Reihe<br />

Informatik.<br />

Bibliographisches Institut, Mannheim, 1990.<br />

K.J. Kohler.<br />

Einführung in die Phonetik des Deutschen.<br />

Erich Schmidt Verlag, Berlin, 1977.<br />

B.C.J. Moore.<br />

An Introduction to the Psychology of Hearing.<br />

Academic Press, London, 1989.<br />

Manfred R. Schroeder.<br />

Computer Speech: Recognition, Compression, Synthesis, volume 35 of<br />

Springer Series in Information Sciences.<br />

Springer, 1999.<br />

J.D. Markel and A.H. Gray Jr.<br />

Linear Prediction of Speech, volume 12 of Communications and<br />

Cybernetics.<br />

Springer Verlag, Berlin, Heidelberg, New York, 1976.<br />

H. Niemann.


Gliederung Motivation Sprachverstehen Taxonomie Schwierigkeiten Gestern & Heute Systemaufbau Zur Vorlesung<br />

2007-11-05<br />

Pattern Analysis and Understanding, volume 4 of Series in Information<br />

Sciences.<br />

Springer, Berlin Heidelberg, 1990.<br />

X.D. Huang, Y. Ariki, and M.A. Jack.<br />

Hidden Markov Models for Speech Recognition.<br />

Number 7 in Information Technology Series. Edinburgh University Press,<br />

Edinburgh, 1990.<br />

Alejandro Acero.<br />

Acoustical and Environmental Robustness in Automatic Speech<br />

Recognition.<br />

Kluwer Academic Publ., Boston, MA, 1993.<br />

Eugene Charniak.<br />

Statistical Language Learning.<br />

MIT Press, Cambridge, Massachusetts, 1993.<br />

F. Jelinek.<br />

Self-Organized Language Modeling for Speech Recognition.<br />

In A. Waibel and K.F. Lee, editors, Readings in Speech Recognition, pages<br />

450–506. Morgan Kaufmann, San Mateo, CA, 1990.<br />

Automatische Spracherkennung<br />

Vorlesungsaufbau und Literatur<br />

EOF<br />

Literatur zur Spracherkennung<br />

2007-11-05<br />

2007-11-05<br />

Automatische Spracherkennung<br />

Vorlesungsaufbau und Literatur<br />

EOF<br />

Literatur zur Spracherkennung<br />

Automatische Spracherkennung<br />

Vorlesungsaufbau und Literatur<br />

EOF<br />

Literatur zur Spracherkennung

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!