Spracherkennung und Sprachdialog: Stand der Technik ...
Spracherkennung und Sprachdialog: Stand der Technik ...
Spracherkennung und Sprachdialog: Stand der Technik ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
<strong>Spracherkennung</strong> <strong>und</strong> <strong>Sprachdialog</strong>: <strong>Stand</strong> <strong>der</strong> <strong>Technik</strong>,<br />
Einsatzbeispiele <strong>und</strong> zukünftige Trends<br />
Dr. Jürgen Haas,, Dr. Florian Gallwitz, Jens Kornwachs, Dr. Martin Schrö<strong>der</strong><br />
Sympalog Voice Solutions GmbH<br />
KarlZuckerStraße 10<br />
91052 Erlangen<br />
09131/616 610<br />
haas@sympalog.de<br />
Abstract: Das automatische Erkennen <strong>und</strong> Verstehen von gesprochener Sprache ist<br />
schon seit Jahrzehnten Gegenstand intensiver Forschungsarbeit. Mittlerweile sind nun<br />
verschiedene Anwendungen auf Gr<strong>und</strong>lage <strong>der</strong> hieraus hervorgegangenen Technologie<br />
kommerziell verfügbar, <strong>und</strong> es zeichnet sich ab, dass spracherkennende <strong>und</strong><br />
verstehende Systeme schon bald aus dem betrieblichen Alltag nicht mehr wegzudenken<br />
sind. In diesem Beitrag werden neben den technologischen Gr<strong>und</strong>lagen von Sprachsystemen<br />
die Möglichkeiten <strong>und</strong> auch die Grenzen dieser Technologie dargestellt.<br />
Heutige Anwendungen werden anhand konkreter Beispiele vorgestellt <strong>und</strong> es wird ein<br />
Ausblick auf kommende Entwicklungen gegeben<br />
1. Einleitung<br />
Maschinen, die sich mit Menschen unterhalten können, sind fester Bestandteil jedes<br />
ScienceFictionFilms. Schon vor über dreißig Jahren entwarf Arthur C. Clarke in seinem von<br />
Stanley Kubrick verfilmten Roman "2001 Odyssee im Weltraum" die Vision des Computers<br />
HAL, <strong>der</strong> wie selbstverständlich mit den Menschen an Bord des Raumschiffes sprachlich<br />
kommuniziert. Wenn auch einzelne Fähigkeiten von HAL, beispielsweise die des Schachspiels<br />
o<strong>der</strong> die <strong>der</strong> Steuerung <strong>und</strong> Navigation eines Raumfahrzeugs, bereits heute Realität<br />
geworden sind, so erscheint das "(un)menschliche" Verhalten von HAL heute utopischer<br />
denn je. Auch von <strong>der</strong> Möglichkeit einer verbalen Kommunikation, wie sie im Roman beschrieben<br />
ist, sind wir heute noch weit entfernt.<br />
Dennoch hat es gerade im Bereich des automatischen Verstehens von gesprochener Sprache<br />
in den vergangenen Jahren erhebliche Fortschritte gegeben, die in Form von Produkten<br />
auch dem Endverbraucher zugänglich gemacht werden. Hierzu gehören beispielsweise Mobiltelefone,<br />
die bei <strong>der</strong> Nennung eines Namens automatisch die entsprechende Nummer<br />
wählen, <strong>und</strong> Diktiersysteme, die das Gesprochene mit durchaus überzeugenden Ergebnissen<br />
in geschriebenen Text umwandeln. Sogar natürlichsprachliche Dialoge mit Computern<br />
sind heute bereits möglich. So existieren produktive Systeme in den unterschiedlichsten<br />
Bereichen, die das Verhalten einer menschlichen Auskunftsperson erfolgreich simulieren.
2. Wie funktioniert automatische <strong>Spracherkennung</strong><br />
Nachfolgend wird die prinzipielle Funktionsweise von automatischen <strong>Spracherkennung</strong>ssystemen<br />
erläutert. In den vergangenen Jahren haben sich einige wenige Verfahren herauskristallisiert,<br />
auf <strong>der</strong>en Gr<strong>und</strong>lage nahezu alle heutigen <strong>Spracherkennung</strong>ssysteme basieren. Ihnen<br />
gemein ist, dass <strong>der</strong> Spracherkenner zunächst an Hand von Beispielen trainiert wird,<br />
d.h. die Aussprache bestimmter Laute o<strong>der</strong> Wörter wird automatisch erlernt.<br />
<br />
<br />
<br />
<br />
Vorverarbeitung <strong>und</strong> Merkmalsberechnung: Am Beginn <strong>der</strong> Verarbeitungskette<br />
werden die in Form von Luftdruckschwankungen vorliegenden Schallwellen mittels eines<br />
Mikrophons in ein elektrisches Signal umgewandelt. Aus dem digital vorliegenden Signal<br />
gilt es nun, Informationen über die jeweils gesprochenen Laute (bzw. Phoneme, die<br />
kleinsten bedeutungsunterscheidenden Lauteinheiten) zu gewinnen <strong>und</strong> daraus einen<br />
Merkmalvektor zu bestimmen.<br />
Wortmodellierung <strong>und</strong> klassifikation: Die Aufgabe besteht darin, in <strong>der</strong> Folge von<br />
Merkmalvektoren das gesprochene Wort bzw. die gesprochene Wortfolge zu bestimmen<br />
(zu klassifizieren). Hierfür kommen im Wesentlichen zwei Ansätze in Betracht, die unter<br />
den Begriffen DTW (Dynamic Time Warping) <strong>und</strong> HMM (HiddenMarkovModell) bekannt<br />
sind. Der ältere DTWAnsatz eignet sich vor allem für sehr einfache, sprecherabhängige<br />
Einzelworterkennung, beispielsweise zum Abrufen von gespeicherten Telefonnummern in<br />
einem Mobiltelefon. Der leistungsfähigere HMMAnsatz wird in nahezu allen komplexeren<br />
<strong>Spracherkennung</strong>ssystemen verwendet.<br />
Sprachmodellierung: Unter dem Begriff Sprachmodellierung (engl. language modeling)<br />
fasst man Verfahren zusammen, die dem Spracherkenner Wissen über die Wahrscheinlichkeit<br />
von bestimmten Wortfolgen vermitteln, ohne die eine befriedigende Erkennungsleistung<br />
in den meisten Fällen nicht möglich wäre. In einer Diktieranwendung ist es beispielsweise<br />
sehr unwahrscheinlich, <strong>der</strong> Wortfolge „Säge ehrte Frau schnitt“ zu begegnen;<br />
viel wahrscheinlicher ist dagegen die Wortfolge „Sehr geehrte Frau Schmidt“. Auf diese<br />
Weise können zum Einen akustisch nicht unterscheidbare Wörter korrekt erkannt, zum<br />
An<strong>der</strong>en können Fehler ausgeglichen werden, die durch ungenaue Aussprache o<strong>der</strong> ungenaue<br />
Modellierung <strong>der</strong> Wörter entstehen würden.<br />
Suche: Bei <strong>der</strong> Bestimmung <strong>der</strong> am wahrscheinlichsten gesprochenen Wortfolge zu einer<br />
gegebenen Folge von Merkmalvektoren handelt es sich um ein komplexes Suchproblem,<br />
dessen Aufwand mit <strong>der</strong> Länge des Satzes exponentiell zunimmt. Effiziente Suchverfahren<br />
wie die ViterbiSuche, die daraus abgeleitete Strahlsuche (beam search) sowie <strong>der</strong><br />
A*Algorithmus werden in unterschiedlichen Kombinationen eingesetzt, um dieses Problem<br />
in Echtzeit zu lösen. Bei großen Wortschätzen kann zudem durch Anordnung des<br />
HMMLexikons in Form eines Baumes, an dessen Unterbäumen Wörter mit gleichen<br />
Wortanfängen angeordnet sind, <strong>der</strong> Rechenaufwand in Grenzen gehalten werden.<br />
In <strong>der</strong> nachfolgenden Abbildung sind sämtlich Schritte, die beim <strong>Spracherkennung</strong>sprozess<br />
durchlaufen werden, nochmals am Beispiel eines Telefonsystems dargestellt. Ein an<strong>der</strong>er<br />
Eingabekanal, z.B. ein Mikrofon hat dabei lediglich Auswirkungen auf die Übertragung des<br />
Signals bis zum Arbeitsschritt "Digitalisierung", jedoch nicht für den <strong>Spracherkennung</strong>sprozess<br />
an sich.
um zwanzig Uhr<br />
Digitalisierung<br />
Spektralanalyse<br />
Telefonnetz<br />
Aussprachelexikon<br />
Grammatik/<br />
Sprachmodell<br />
U n t s v a n t s I C u: 6<br />
u: m d f m E d S i: k U r<br />
a m d t s a n t s I k u: 6<br />
um<br />
am<br />
zehn<br />
zwanzig<br />
Uhr<br />
morgen<br />
...<br />
Um<br />
am<br />
tse:n<br />
tsvantsIC<br />
u:6<br />
mO6g@n<br />
...<br />
Suche <strong>und</strong> Mustervergleich<br />
um zwanzig Uhr<br />
3. Leistungskriterien für die automatische <strong>Spracherkennung</strong><br />
Entwickler <strong>und</strong> Forscher im Bereich <strong>der</strong> automatischen <strong>Spracherkennung</strong> sehen sich häufig<br />
mit Aussagen konfrontiert, wie: „<strong>Spracherkennung</strong>, wieso? Das gibt'sdoch schon. Hab'ich<br />
mir neulich bei ALDI gekauft“ Der verbreitete Eindruck, dass dieses Problem mehr o<strong>der</strong><br />
weniger gelöst sei, hängt damit zusammen, dass die Leistungsfähigkeit von Diktiersystemen<br />
bei <strong>der</strong> Eingabe von Texten unter bestimmten Voraussetzungen durchaus mit jener geübter<br />
Computerbenutzer vergleichbar ist. Die Anwendungsmöglichkeiten dieser Technologie sind<br />
jedoch weitaus vielfältiger, <strong>und</strong> die Anfor<strong>der</strong>ungen an die eigentliche <strong>Spracherkennung</strong>s<br />
Komponente können sich je nach Anwendungssituation stark unterscheiden.<br />
Während Diktiersysteme in ruhiger Umgebung beispielsweise mit Vokabulargrößen von über<br />
100.000 Wörtern Erkennungsraten von bis zu 95 Prozent erzielen (d.h. im Mittel ein falsch<br />
erkanntes Wort alle 20 Wörter; man spricht auch von einer Fehlerrate, hier 5 Prozent), kann<br />
bereits die Erkennung von einfachen Ziffernfolgen in einem fahrenden Auto wegen <strong>der</strong><br />
Fahrgeräusche große Probleme bereiten. Betrachtet man eine Reihe von unterschiedlichen<br />
Anwendungen für Spracherkenner, so kann man allgemeine Leistungsmerkmale erkennen,<br />
die die Komplexität einer von einem Spracherkenner zu bewältigenden Aufgabe bestimmen.<br />
Es lassen sich fünf Leistungsachsen definieren:<br />
1. Sprecherabhängigkeit<br />
<strong>Spracherkennung</strong> kann sprecherunabhängig o<strong>der</strong> sprecherabhängig erfolgen, wobei sprecherabhängige<br />
Erkennung mit einer erheblich höheren Genauigkeit möglich ist. Sprecheradaptive<br />
Systeme bilden hier einen Mittelweg, indem sie sich allmählich an die Stimme ihres<br />
Benutzers anpassen. Es hängt stark von <strong>der</strong> Applikation ab, inwieweit eine sprecherabhängige<br />
Erkennung realisierbar ist. Während dem Benutzer eines Diktiersystems das Vorlesen<br />
einiger Übungssätze zugemutet werden kann, ist dies zum Beispiel bei einem Fahrplanauskunftssystem<br />
o<strong>der</strong> gar bei einem sprachgesteuerten Getränkeautomaten nicht praktikabel.
2. Sprechart<br />
Die Unterscheidung zwischen diskreter <strong>und</strong> kontinuierlicher Sprache verliert, zumindest im<br />
Zusammenhang mit Diktiersystemen, zunehmend an Bedeutung: Die kurzen Sprechpausen<br />
zwischen den Wörtern, die zu Beginn noch von den Benutzern von "diskreten" Diktiersystemen<br />
verlangt wurden, werden von den "kontinuierlichen" Systemen nicht mehr gefor<strong>der</strong>t.<br />
Diese Pausen erleichtern die Bestimmung <strong>der</strong> Wortgrenzen <strong>und</strong> verbessern damit das Erkennungsergebnis,<br />
erfor<strong>der</strong>n aber eine sehr unnatürliche Sprechweise des Benutzers. Einen<br />
Spezialfall stellen die Einzelworterkenner dar, die voraussetzen, dass nur ein einzelnes Wort<br />
gesprochen wird.<br />
Noch erheblich schwieriger als <strong>der</strong> Umgang mit kontinuierlicher Sprache ist dagegen die Erkennung<br />
von spontaner Sprache. Darunter versteht man Äußerungen, die nicht abgelesen<br />
sind, <strong>und</strong> die sich <strong>der</strong> Sprecher nicht wie im Falle einer Diktieranwendung vor dem Sprechen<br />
zurechtgelegt hat. Typisch für spontane Sprache sind ungrammatische Sätze, ähs <strong>und</strong><br />
ähms, Pausen, Abbrüche, Versprecher, Verschleifungen <strong>und</strong> Wie<strong>der</strong>holungen, die von<br />
menschlichen Hörern normalerweise sehr gut verarbeitet werden, die jedoch die automatische<br />
Verarbeitung drastisch erschweren. So muss zum Beispiel in einem Fahrplanauskunftssystem<br />
mit <strong>der</strong> folgenden Anfrage gerechnet werden: „äh ja hallo also ähm nach Hamburg<br />
wollt'ich fahr'nab München Pasing so gegen acht gegen zwanzig Uhr heut'a'md.“ Zusätzliche<br />
Schwierigkeiten ergeben sich noch durch Sprecher mit regionalem Dialekt o<strong>der</strong><br />
ausländischem Akzent.<br />
3. Wortschatz<br />
Der Einfluss <strong>der</strong> Vokabulargröße auf die Schwierigkeit des <strong>Spracherkennung</strong>sproblems ist<br />
offensichtlich, allerdings wirkt sich diese in aller Regel mehr auf die erfor<strong>der</strong>liche Rechenleistung<br />
aus, als auf die zu erwartende Fehlerrate (sehr große Wortschätze erfor<strong>der</strong>n zudem<br />
hochkomplexe <strong>und</strong> ausgefeilte Suchalgorithmen). Von wesentlich größerer Bedeutung für<br />
die Fehlerrate ist jedoch die grammatische Komplexität (s.u.). Das Problem, 500 Eigennamen<br />
ohne Kontextinformation zu unterscheiden, kann in dieser Hinsicht wesentlich<br />
schwieriger sein, als einen grammatisch korrekten Text mit einem Vokabular von 100.000<br />
Wörtern zu erkennen.<br />
In einigen kommerziellen Systemen wird zwischen aktivem Vokabular <strong>und</strong> dem Gesamtvokabular<br />
unterschieden; in diesem Falle wird z.B. in einem bestimmten Dialogschritt nur ein<br />
Teil <strong>der</strong> Wörter erlaubt, o<strong>der</strong> ein spezielles Inventar an Fachbegriffen in einem Diktiersystem<br />
nur auf Wunsch in den Erkennungswortschatz aufgenommen.<br />
4. Grammatische Komplexität o<strong>der</strong> Perplexität<br />
Nicht jedes Wort aus dem Wortschatz tritt an je<strong>der</strong> Position einer Äußerung mit <strong>der</strong> gleichen<br />
Wahrscheinlichkeit auf. So ist es z.B. sehr wahrscheinlich, dass nach den Wörtern „Guten<br />
Tag, mein Name“ das Wort „ist“ folgen wird, <strong>und</strong> auf dieses Wort wie<strong>der</strong>um ein Eigenname.<br />
Je besser sich die Wörter selbst ohne Kenntnis des akustischen Signals bereits aus <strong>der</strong><br />
Anwendung <strong>und</strong> aus dem Kontext vorhersagen lassen, desto einfacher ist naturgemäß die<br />
Aufgabe des Spracherkenners. Ein entscheidendes Maß für die Schwierigkeit eines <strong>Spracherkennung</strong>sproblems<br />
ist daher die sogenannte Perplexität, die angibt, wieviele Wörter im<br />
Mittel in Frage kommen, wenn die Vorgängerwörter bereits bekannt sind.<br />
Mittels einer statistischen Grammatik lässt sich die Wahrscheinlichkeit für eine gegebene<br />
Wortfolge berechnen. Eine solche Grammatik kann entwe<strong>der</strong> explizit vorgegeben werden,
eispielsweise in einer Anwendung, in <strong>der</strong> nur Ziffernfolgen erkannt werden sollen, o<strong>der</strong> sie<br />
kann aus einer großen Menge geschriebenen Textes automatisch erlernt werden, wie dies<br />
z.B. im Falle von Diktiersystemen geschieht. Eine Grammatik reduziert die Zahl <strong>der</strong> Erkennungsfehler<br />
drastisch, solange <strong>der</strong> Benutzer sich innerhalb <strong>der</strong> vorgesehenen Anwendung<br />
bewegt. Ein Spracherkenner in einem Fahrplanauskunftssystem wird allerdings i.d.R.<br />
auch in <strong>der</strong> Frage nach dem Wetter des folgenden Tages eine Fahrplananfrage erkennen,<br />
<strong>und</strong> ein Diktiersystem für Juristen wird einen romantischen Liebesbrief mit juristischen Floskeln<br />
<strong>und</strong> Fachtermini anreichern.<br />
5. Eingabemedium<br />
Von großer Bedeutung für automatische Spracherkenner ist <strong>der</strong> sogenannte „Eingabekanal“,<br />
hierzu gehören das Mikrophon o<strong>der</strong> auch ein Mikrophonarray <strong>und</strong>, z.B. im Falle einer Telefonanwendung,<br />
auch die Art <strong>der</strong> Übertragung des Signals (Festnetz vs. Mobiltelefon). Beispielsweise<br />
lassen sich aufgr<strong>und</strong> <strong>der</strong> geringen Bandbreite des Telefonkanals die Konsonanten<br />
„f“ <strong>und</strong> „s“ in einem Telefongespräch praktisch nicht unterscheiden (was zum Beispiel<br />
beim Buchstabieren über Telefon offenbar wird). Als optimales Aufnahmemedium gelten<br />
hochwertige Nahbesprechungsmikrophone o<strong>der</strong> Headsets, bei denen das Mikrophon in <strong>der</strong><br />
Nähe des M<strong>und</strong>winkels positioniert wird. Dennoch wird <strong>der</strong> Einfluss <strong>der</strong> Qualität des Mikrophons<br />
oft überschätzt; viel wichtiger ist es, dass <strong>der</strong> Spracherkenner mit Daten trainiert<br />
bzw. adaptiert wurde, die nach Möglichkeit mit dem gleichen Mikrophon unter möglichst<br />
ähnlichen akustischen Bedingungen aufgenommen wurden.<br />
Beson<strong>der</strong>s schwierig wird es, wenn das Mikrophon sich nicht mehr direkt am M<strong>und</strong> des<br />
Sprechers befindet, z.B. bei Anwendungen im Auto o<strong>der</strong> bei <strong>der</strong> Bedienung von mobilen Robotern.<br />
Hintergr<strong>und</strong>geräusche (z.B. Fahrgeräusche im Auto o<strong>der</strong> Geräusche in einer Bahnhofshalle),<br />
o<strong>der</strong> gar mehrere Sprecher, die gleichzeitig reden ("CocktailpartyEffekt")<br />
erschweren die <strong>Spracherkennung</strong> zusätzlich o<strong>der</strong> machen sie in extremen Fällen nahezu unmöglich.<br />
Gr<strong>und</strong>sätzlich ist es so, dass <strong>Spracherkennung</strong>ssysteme, die sich in einem o<strong>der</strong> mehreren<br />
<strong>der</strong> genannten Leistungsmerkmale im „schwierigen“ Bereich bewegen, dies dadurch kompensieren,<br />
dass <strong>der</strong> Anwen<strong>der</strong> in Bezug auf die an<strong>der</strong>en Merkmale Abstriche machen muss.<br />
4. Dialogsteuerung<br />
Im Gegensatz zu einem Diktiersystem, bei welchen die vom Spracherkenner gelieferte Wortkette<br />
schon das Ergebnis darstellt, wird bei einem sprachverstehenden System eine geeignete<br />
Systemreaktion erwartet. Die Systemreaktion wird durch eine Dialogsteuerung erreicht,<br />
die eine Interpretation des Gesagten vornimmt, eine entsprechende Aktion auslöst<br />
<strong>und</strong> dies dem Benutzer, auf welchem Weg auch immer, mitteilt.<br />
Im Falle eines Kommandoerkenners o<strong>der</strong> eines einfachen Menüsystems ist die Umsetzung<br />
des erkannten Schlüsselwortes in die entsprechende Systemreaktion relativ trivial. Der Anrufer<br />
bewegt sich durch eine vorgegebene Menüstruktur, je nach Äußerung verzweigt das<br />
System in den vorgesehenen Pfad, z.B. „Wollen Sie zum Bereich Verkauf, Buchhaltung o<strong>der</strong><br />
<strong>Technik</strong>“ <strong>und</strong> stellt dementsprechend weitere Fragen o<strong>der</strong> löst die passende Aktion, z.B. die<br />
Vermittlung zu dem Ansprechpartner, aus.<br />
Erheblich komplizierter wird es, wenn ein intelligentes Dialogverhalten erwartet wird, mit dem<br />
das Verhalten eines menschlichen Gesprächspartners imitiert werden soll. Bereits die Interpretation<br />
einer Datums <strong>und</strong>/o<strong>der</strong> Uhrzeitangabe (z.B. „diesen Donnerstag am späten Nach
mittag so ab fünf Uhr“) erfor<strong>der</strong>t eine relativ komplexe syntaktischsemantische Analyse des<br />
<strong>Spracherkennung</strong>sergebnisses. Sollen darüber hinaus z.B. die beiden verschieden intonierten<br />
Äußerungen „Natürlich nicht am Montag“ <strong>und</strong> „Natürlich nicht. Am Montag“ unterschieden<br />
werden, so benötigt man neben <strong>der</strong> <strong>Spracherkennung</strong> noch eine sogenannte prosodische<br />
Analyse des Sprachsignals. Weiterhin ist in jedem Falle eine Dialogsteuerung notwendig,<br />
die dafür verantwortlich ist, dass das System in sinnvoller Weise auf die Benutzeräußerung<br />
reagiert bzw. den Benutzer in geeigneter Weise durch den Dialog führt. Schließlich<br />
erwartet <strong>der</strong> Benutzer in aller Regel auch, dass das System sich in natürlicher, gesprochener<br />
Sprache ausdrücken <strong>und</strong> über den aktuellen Zustand informieren kann.<br />
<br />
<br />
<br />
SyntaktischSemantische Analyse: Aufgabe dieses Verarbeitungsschrittes ist die<br />
Extraktion <strong>der</strong> Bedeutung <strong>der</strong> im Spracherkennermodul generierten Wortkette. Syntaktisches<br />
Wissen dient hierbei dazu, die Einheiten im Strom <strong>der</strong> Worthypothesen zu bestimmen,<br />
denen eine Bedeutung (Semantik) zuzuordnen ist. Viele Ansätze setzen<br />
allerdings meistens eine fehlerfreie <strong>und</strong> syntaktisch korrekte Eingabe voraus. Bereits die<br />
Annahme <strong>der</strong> Fehlerfreiheit ist jedoch für gesprochene Sprache nicht gegeben. Selbst die<br />
weltweit besten Spracherkenner sind in Bezug auf Fehlerfreiheit über sehr viele<br />
Anwendungen hinweg eine Größenordnung o<strong>der</strong> mehr schlechter als <strong>der</strong> Mensch.<br />
Allerdings sind in einem sprachverstehenden System nicht immer vollständige Analysen<br />
notwendig; so erfor<strong>der</strong>t z.B. eine Anwendung „Fahrplanauskunft“ für die Äußerung „ich<br />
möchte äh ich meine meine Frau <strong>und</strong> ich möchten nach Hamburg fahren“ eigentlich nur<br />
die Information, dass es sich bei dem Zielort um Hamburg handeln soll.<br />
Prosodische Analyse: Die Prosodie beschäftigt sich mit suprasegmentalen (lautübergreifenden)<br />
sprachlichen Ereignissen. Diese Ereignisse überlagern sprachliche Einheiten,<br />
die mehr als einen Laut umfassen, also Silben, Wörter, Phrasen, Sätze, usw. Als<br />
wichtigste Funktionen werden allgemein die prosodische Markierung von Satz <strong>und</strong> PhrasenGrenzen,<br />
Betonung, Satzmodus <strong>und</strong> Gemütszustand (Emotion) angesehen. Betrachten<br />
wir die folgenden Äußerung, so erkennen wir die Wichtigkeit prosodischer Information:<br />
„Vielleicht. Am Montag bei mir. Passt das?“ versus „Vielleicht am Montag bei mir passt<br />
das?“ Obwohl die Bedeutung <strong>der</strong> prosodischen Information in <strong>der</strong> MenschMenschKommunikation<br />
allgemein anerkannt wird, wird diese Informationsquelle in <strong>der</strong> automatischen<br />
Sprachverarbeitung bisher jedoch nur spärlich benutzt.<br />
Dialogsteuerung: Aufgabe <strong>der</strong> Dialogsteuerung ist es zum Einen, die semantische Repräsentation<br />
<strong>der</strong> Benutzeräußerung in den Kontext des bis dahin geführten Dialogs einzubetten,<br />
<strong>und</strong> zum An<strong>der</strong>en, die nächste Aktion des Systems zu planen. So kann die Benutzeräußerung<br />
„den Josef“ nur korrekt interpretiert werden, wenn die letzte Systemäußerung<br />
des „eisernen Fräuleins vom Amt“ „ich habe zwei Müller in meinem Verzeichnis,<br />
Josef Müller <strong>und</strong> Hans Müller. Wen möchten Sie sprechen?“ bekannt ist.<br />
5. Sprachsynthese<br />
Es gibt eine Reihe von Möglichkeiten, Computer zum Sprechen zu bringen. Es hängt von<br />
<strong>der</strong> jeweiligen Applikation ab, welche Methode vorzuziehen ist.<br />
Prerecorded o<strong>der</strong> CannedSpeech<br />
Die einfachste Möglichkeit besteht darin, dem Benutzer Äußerungen vorzuspielen, die zuvor<br />
aufgenommen <strong>und</strong> digital gespeichert wurden. Eine Variante hiervon ist die Verkettung von<br />
einzeln gespeicherten Wörtern o<strong>der</strong> Satzfragmenten zu einer Gesamtäußerung (canned
speech). Für Sympalogs B<strong>und</strong>esligaauskunftssystem BErTI wurden Satzfragment wie z.B.<br />
"...hat gegen ....“, je<strong>der</strong> einzelne B<strong>und</strong>esligaverein, sowie einzelne Wörter wie z.B. „gewonnen“<br />
von einem Radiosprecher einzeln gesprochen <strong>und</strong> aufgenommen. Während des<br />
Dialoges werden hieraus Systemäußerungen wie „Der VfB Stuttgart hat gegen den 1. FC<br />
Kaiserslautern auswärts drei zu zwei gewonnen“ zusammengebaut. Hierzu ist es allerdings<br />
notwendig, dass alle möglichen Äußerungen des Systems vorab bekannt sind, so dass eine<br />
passende Segmentierung in Satzschnipsel erfolgen kann. Gegenüber einer „echten“ Sprachsynthese<br />
zeichnet sich dieses Verfahren in aller Regel dadurch aus, dass die Verständlichkeit<br />
deutlich besser ist.<br />
Vollsynthese bzw. texttospeech (TTS)<br />
Ist <strong>der</strong> aktive Wortschatz des Systems zu groß o<strong>der</strong> zu dynamisch, ist eine solche Vorgehensweise<br />
nicht mehr praktikabel. In diesem Falle greift man auf Sprachsyntheseverfahren<br />
zurück, die unter den Bezeichnungen texttospeech (TTS) o<strong>der</strong> concepttospeech (CTS)<br />
verbreitet sind, o<strong>der</strong> auch auf Kombinationen dieser Verfahren. Im TTSVerfahren wird zunächst<br />
eine linguistische Analyse des zu sprechenden Textes durchgeführt, um z.B. die zu<br />
betonenden Wörter <strong>und</strong> Silben sowie eine geeignete Intonation zu ermitteln. Die Wörter<br />
selbst werden an Hand von Aussprachelexika aus einem Inventar von Laut o<strong>der</strong> Silbenbausteinen<br />
zusammengesetzt. Im Rahmen von <strong>Sprachdialog</strong>systemen können CTSSysteme,<br />
denen anstelle einer Folge von Wörtern <strong>und</strong> Satzzeichen semantische Konzepte als Eingabe<br />
dienen, günstiger sein. Hier kann eine sinnvolle Intonation ohne den Umweg über die Generierung<br />
des zu sprechenden Textes <strong>und</strong> dessen anschließen<strong>der</strong> linguistischer Analyse festgelegt<br />
werden.<br />
6. Systemarchitektur <strong>Sprachdialog</strong>system<br />
Wie in den vorherigen Abschnitten erläutert, benötigt man für den Aufbau eines <strong>Sprachdialog</strong>system<br />
die drei Komponenten <strong>Spracherkennung</strong>, Dialogsteuerung <strong>und</strong> Sprachsynthese.<br />
Für ein produktives System werden diese üblicherweise durch ein Kontrollmodul komplettiert,<br />
das für die Anbindung an die Signalquelle (z.B. So<strong>und</strong>karte o<strong>der</strong> Telefonanlage) zuständig<br />
ist <strong>und</strong> bei Bedarf auch die Verteilung <strong>der</strong> Rechnerlast in einem Rechnernetzwerk<br />
leisten kann. In <strong>der</strong> folgenden Abbildung ist die übliche Systemarchitektur dargestellt.<br />
Sprache<br />
Text<br />
So<strong>und</strong><br />
System<br />
Kontrollmodul<br />
Dialogsteuerung<br />
Applikation<br />
Sprache<br />
Spracherkenner<br />
Sprachsynthese<br />
Text<br />
Die durchgezogenen Pfeile deuten dabei die konzeptionelle Vorgehensweise beim<br />
<strong>Sprachdialog</strong> an, die gestrichelten Pfeile die technische Kommunikation <strong>der</strong> Module<br />
untereinan<strong>der</strong>. Konzeptionell wird wie folgt vorgegangen: das eingehende Sprachsignal wird<br />
zum Spracherkenner geschickt, dort wird die wahrscheinlichste Wortkette ermittelt. Diese
wird <strong>der</strong> Dialogsteuerung übergeben, die die syntaktischsemantische Analyse durchführt,<br />
den aktuellen Zustand im Sinne <strong>der</strong> zu bedienenden Applikation interpretiert <strong>und</strong> daraus den<br />
nächsten Zustand generiert. Dabei kann die Dialogsteuerung mit <strong>der</strong> Applikation kommunizieren,<br />
entwe<strong>der</strong> um zusätzliche Informationen für den weiteren Dialog abzuleiten o<strong>der</strong><br />
entsprechende Aktionen anzustoßen. Die Dialogsteuerung generiert zum neuen Dialogzustand<br />
die entsprechende Wortkette. Diese wird <strong>der</strong> Sprachsynthese zur Verfügung gestellt,<br />
die diese Äußerung in ein Sprachsignal verwandelt, das dem Benutzer vorgespielt wird.<br />
Dann wird auf die nächste Benutzeräußerung gehört <strong>und</strong> <strong>der</strong> Zyklus beginnt von Neuem.<br />
Technisch läuft die Kommunikation <strong>der</strong> Module üblicherweise über Programmierschnittstellen,<br />
um die notwendigen Funktionalitäten in den einzelnen Modulen zum richtigen<br />
Zeitpunkt anzustoßen <strong>und</strong> diesen die jeweils notwendige Information zur Verfügung zu<br />
stellen. So findet das <strong>Spracherkennung</strong>sergebnis i.d.R. nicht direkt den Eingang zur<br />
Dialogsteuerung, son<strong>der</strong>n das Erkennungsergebnis wird dem Kontrollmodul gesendet, von<br />
wo aus es an die Dialogsteuerung weiter gegeben wird. Die Kommunikation basiert häufig<br />
auf standardisierten Protokollen, wie z.B. TCP/IP o<strong>der</strong> HTTP, <strong>und</strong> ist, gerade wenn die<br />
Produkte für den Telefoniebereich konzipiert sind, netzwerkfähig, so dass unterschiedliche<br />
Module auf mehrere Rechner verteilt werden können bzw. sogar mehrere Instanzen eines<br />
Moduls in einem Netzwerk zur Verfügung stehen.<br />
7. Anwendungen – Praxisbeispiele<br />
Heutzutage sind bereits zahlreiche Sprachapplikationen in den verschiedensten Einsatzbereichen<br />
erfolgreich im produktiven Betrieb. Nachstehend werden einige Anwendungen aus<br />
verschiedenen Bereichen skizziert:<br />
Diktiersysteme<br />
Diktiersysteme sind mittlerweile erfolgreich im Einsatz, beson<strong>der</strong>s im medizinischen <strong>und</strong> juristischen<br />
Bereich.<br />
Beispiele:<br />
• In BadenWürttemberg wurden kürzlich 1.000 Richterarbeitsplätze mit <strong>Spracherkennung</strong>ssoftware<br />
zum Diktieren von Urteilen ausgestattet.<br />
• In medizinischen Einrichtungen, in denen ein Großteil <strong>der</strong> Arbeit aus dem Diktieren von<br />
Bef<strong>und</strong>en besteht, z.B. in <strong>der</strong> Radiologie, sind Diktiersysteme im täglichen Einsatz.<br />
Sprachsteuerung<br />
Eine Sprachsteuerung (speech control) von Geräten <strong>und</strong> Maschinen über Mikrofon bringt in<br />
vielen Fällen Vorteile. Beson<strong>der</strong>s wenn <strong>der</strong> Benutzer die Hände nicht frei hat, die Gefahr von<br />
Verschmutzung o<strong>der</strong> Kontamination gegeben ist, die Konsole <strong>und</strong> Arbeitsplatz voneinan<strong>der</strong><br />
entfernt sind o<strong>der</strong> die Bedienungshierarchien sehr komplex sind. Ein Haupttreiber <strong>der</strong><br />
Sprachtechnologieentwicklung in diesem Bereich ist im Automobilumfeld zu finden.<br />
Beispiele:<br />
• Steuerung von Monitoren o<strong>der</strong> Einrichtungen im chirurgischen Bereich über Kommandos,<br />
zum Teil angereichert durch Dialogfunktionalität um Mehrdeutigkeiten aufzulösen<br />
• Sprachsteuerung im Automobil zur Steuerung <strong>und</strong> Eingabe eines Telefons
<strong>Spracherkennung</strong> zur Datenerfassung<br />
In vielen Anwendungsfällen kann die <strong>Spracherkennung</strong> sinnvollerweise als Kanal für die Eingabe<br />
von zu protokollierende Daten eingesetzt werden, ähnlich wie bei <strong>der</strong> Sprachsteuerung<br />
von Geräten in solchen Gebieten, in denen <strong>der</strong> Benutzer üblicherweise die Hände nicht frei<br />
hat o<strong>der</strong> das Mitführen an<strong>der</strong>er Protokollierungshilfsmittel umständlich ist. Solche Situationen<br />
ergeben sich u.a. im medizinischen Umfeld, z.B. bei <strong>der</strong> Protokollierung von Operationen<br />
o<strong>der</strong> aus im industriellen Umfeld in <strong>der</strong> Qualitätssicherung.<br />
Beispiele:<br />
• Kommissionierung per Sprache („pickbyvoice“)<br />
• Spracheingabe bei KfzHauptuntersuchungen zur Erstellung des Prüfberichts<br />
<strong>Sprachdialog</strong>systeme<br />
Einer <strong>der</strong> interessantesten Märkte für <strong>Spracherkennung</strong>stechnologie liegt im Bereich <strong>der</strong><br />
Telefonie (Anwendungen, die die Übertragung von gesprochener Sprache über Telefon einschließen).<br />
Vor allem im Callcenter Bereich ergibt sich zur Vorqualifizierung <strong>und</strong> automatischen<br />
Bearbeitung von Gesprächen ein breites Spektrum unterschiedlicher Anwendungen<br />
wie Service <strong>und</strong> Bestellhotlines, automatische Vermittlungen <strong>und</strong> Auskunftsdienste.<br />
Beispiele:<br />
• Intelligentes Vermittlungsportal bei <strong>der</strong> Sixt AG: Vermittelt die Anrufer an den richtigen<br />
Ansprechpartner o<strong>der</strong> Bereich, abhängig vom Anliegen, gewünschten Gesprächspartner<br />
o<strong>der</strong> <strong>der</strong> Abteilung. („Ich möchte bitte ein Auto mieten“)<br />
• Bürgerinformationssystem bei <strong>der</strong> Stadt Würzburg: Anrufer bekommen Auskünfte zum für<br />
ihr Anliegen zuständigen Amt („Wo muss ich mich denn hinwenden, wenn ich mein Auto<br />
ummelden will?“)<br />
7. Aktuelle Forschungsprojekte<br />
Die multimodale MenschMaschine Interaktion ist ein Forschungsthema von großer Relevanz<br />
<strong>und</strong> ein zukünftiger Forschungstreiber. Aus diesem Gr<strong>und</strong> bestehen in diesem Umfeld<br />
wichtige Forschungsprojekte. Exemplarisch wird nachfolgend das aktuelle SmartwebProjekt<br />
als eines <strong>der</strong> Bedeutensten vorgestellt. Als Ergebnis des Projekts soll die Recherche im Internet<br />
zukünftig einfacher <strong>und</strong> effektiver möglich sein <strong>und</strong> das auch über UMTSTelefone<br />
<strong>und</strong> an<strong>der</strong>e mobile Endgeräte. An dem Projekt unter Leitung des Deutschen Forschungszentrums<br />
für Künstliche Intelligenz (DFKI) arbeiten insgesamt 14 Partner aus Wirtschaft <strong>und</strong><br />
Wissenschaft zusammen, darunter DaimlerChrysler, die Deutsche Telekom <strong>und</strong> Siemens.<br />
SmartWeb wird vom B<strong>und</strong>esministerium für Bildung <strong>und</strong> Forschung (BMBF) mit insgesamt<br />
13,7 Millionen Euro geför<strong>der</strong>t. Sympalog ist in SmartWeb für die automatische <strong>Spracherkennung</strong><br />
im mobilen Anwendungsszenario verantwortlich.<br />
Das World Wide Web (WWW) hat den weltweiten Zugang zu digital gespeicherter Information<br />
drastisch vereinfacht <strong>und</strong> beschleunigt. Allerdings gibt es bisher zwei Zugangshürden.<br />
• Der Zugang zu den Inhalten ist größtenteils auf PCs mit großen Bildschirmen optimiert.<br />
Statt eines einfachen, intuitiven Zugangs mittels natürlicher Sprache über das Mobiltelefon<br />
suchen <strong>der</strong>zeit Suchmaschinen textuell nach Inhalten, die nicht in je<strong>der</strong> Modalität, z.B.<br />
nur mittels Sprache, dem Benutzer zugänglich gemacht werden können.
• Bislang waren die Inhalte im WWW nur maschinenlesbar, ohne maschinell verstehbar zu<br />
sein. Da Information im WWW meist in natürlicher Sprache präsentiert wird, sind die bei<br />
einer Suche gef<strong>und</strong>enen Dokumente bislang nur für den Menschen voll verständlich. Zudem<br />
entsprechen die Resultate trotz verbesserter Such <strong>und</strong> Rankingtechniken oftmals<br />
nicht den Intentionen <strong>der</strong> Benutzer.<br />
In SmartWeb werden die führenden Forscher aus dem Bereich <strong>der</strong> Intelligenten<br />
Benutzerschnittstellen, des SemanticWeb <strong>und</strong> <strong>der</strong> Informationsextraktion Methoden <strong>und</strong><br />
Technologien erforschen <strong>und</strong> umsetzen, um diese Hürden zu beseitigen. Das Semantische<br />
Web basiert auf <strong>der</strong> inhaltlichen Beschreibung digitaler Dokumente mit standardisierten Vokabularien,<br />
die eine maschinell verstehbare Semantik haben. Damit wird <strong>der</strong> Übergang von<br />
einem "Netz aus Verweisstrukturen" zu einem "Netz aus Inhaltsstrukturen" vollzogen. Dies<br />
eröffnet völlig neue Dimensionen in den Bereichen Internetdienste, Information Retrieval,<br />
Mobile Computing, ECommerce <strong>und</strong> EWork.<br />
SmartWeb bildet eine wichtige Stufe bei <strong>der</strong> Realisierung des Internets <strong>der</strong> nächsten Generation,<br />
das breitbandige Multimediadienste mobil <strong>und</strong> individualisiert bereitstellen wird.<br />
SmartWeb ist auf <strong>der</strong> Ebene <strong>der</strong> Softwaresysteme angesiedelt, welche die Infrastuktur für<br />
spezielle Anwendungsprojekte zur Implementierung neuartiger Mehrwertdienste im Internet<br />
<strong>der</strong> nächsten Generation bildet. SmartWeb ist abgestimmt auf die Entwicklungen auf dem<br />
Gebiet des Mobilen Internet <strong>und</strong> <strong>der</strong> darunter liegenden Schicht <strong>der</strong> Hochleistungsfestnetze,<br />
welche die Mobilfunkstationen breitbandig mit Datenströmen versorgen. Damit nimmt Smart<br />
Web eine zentrale Stellung bei <strong>der</strong> Verbindung innovativer Kommunikationstechnologien mit<br />
völlig neuartigen Anwendungsfel<strong>der</strong>n. SmartWeb baut auf die Konvergenz <strong>der</strong> verschiedenen<br />
Mobilfunktechnologien auf <strong>und</strong> sichert eine bedarfsgerechte Informationsversorgung<br />
sowie nutzerzentrierte Informationslogistik.<br />
8. Ausblick/Schluss<br />
Bereits heute ist erkennbar, dass <strong>Spracherkennung</strong>stechnologie den Umgang von Menschen<br />
mit Computern <strong>und</strong> Maschinen weitreichend verän<strong>der</strong>t hat <strong>und</strong> weiter verän<strong>der</strong>n wird.<br />
Es wurde auf den vorigen Seiten schon auf die vielfältigen Einsatzmöglichkeiten <strong>und</strong> existierende<br />
Anwendungen in diesen Bereichen eingegangen. Die Steuerung von Geräten <strong>und</strong><br />
Maschinen sowie automatisierte telefonische Kommunikation mit VoicePortalen werden in<br />
Zukunft ebenso alltäglich sein, wie heute schon das gewohnte Surfen im Web.<br />
Aufbauend auf den Möglichkeiten mo<strong>der</strong>ner <strong>Spracherkennung</strong> <strong>und</strong> Sprachsteuerung sind<br />
viele Unternehmen heute schon dabei, Projekte zur Integration solcher Technologien in ihre<br />
Produkte <strong>und</strong> Abläufe voranzutreiben. Eine wichtige Rolle spielt in diesem Bereich die Automobilindustrie<br />
<strong>und</strong> die Telekommunikationsindustrie, die durch ihre hohe Breitenwirkung<br />
beim Endk<strong>und</strong>en die Akzeptanz <strong>der</strong> <strong>Spracherkennung</strong> noch steigern werden. Auch <strong>der</strong> Callcenterbereich<br />
treibt den Markt voran, da sich in diesem Sektor enorme Automatisierungs<strong>und</strong><br />
Rationalisierungspotentiale in <strong>der</strong> K<strong>und</strong>enkommunikation ergeben.<br />
Ein weiterer Trend <strong>der</strong> sich in Zukunft abzeichnen wird, ist die Verschmelzung <strong>der</strong> verschiedenen<br />
Kommunikationsmöglichkeiten im Bereich MenschMaschine Kommunikation, hin zu<br />
übergreifenden sogenannten „MultichannelAnsätzen“. Die Kommunikation mit Datenbanken<br />
<strong>und</strong> Applikationen o<strong>der</strong> die Steuerung von Geräten kann über verschiedensten Kanäle erfolgen,<br />
die <strong>der</strong> jeweiligen Situation des Benutzers angepasst sind.