29.11.2014 Aufrufe

Spracherkennung und Sprachdialog: Stand der Technik ...

Spracherkennung und Sprachdialog: Stand der Technik ...

Spracherkennung und Sprachdialog: Stand der Technik ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Spracherkennung</strong> <strong>und</strong> <strong>Sprachdialog</strong>: <strong>Stand</strong> <strong>der</strong> <strong>Technik</strong>,<br />

Einsatzbeispiele <strong>und</strong> zukünftige Trends<br />

Dr. Jürgen Haas,, Dr. Florian Gallwitz, Jens Kornwachs, Dr. Martin Schrö<strong>der</strong><br />

Sympalog Voice Solutions GmbH<br />

Karl­Zucker­Straße 10<br />

91052 Erlangen<br />

09131/616 61­0<br />

haas@sympalog.de<br />

Abstract: Das automatische Erkennen <strong>und</strong> Verstehen von gesprochener Sprache ist<br />

schon seit Jahrzehnten Gegenstand intensiver Forschungsarbeit. Mittlerweile sind nun<br />

verschiedene Anwendungen auf Gr<strong>und</strong>lage <strong>der</strong> hieraus hervorgegangenen Technologie<br />

kommerziell verfügbar, <strong>und</strong> es zeichnet sich ab, dass spracherkennende <strong>und</strong><br />

­verstehende Systeme schon bald aus dem betrieblichen Alltag nicht mehr wegzudenken<br />

sind. In diesem Beitrag werden neben den technologischen Gr<strong>und</strong>lagen von Sprachsystemen<br />

die Möglichkeiten <strong>und</strong> auch die Grenzen dieser Technologie dargestellt.<br />

Heutige Anwendungen werden anhand konkreter Beispiele vorgestellt <strong>und</strong> es wird ein<br />

Ausblick auf kommende Entwicklungen gegeben<br />

1. Einleitung<br />

Maschinen, die sich mit Menschen unterhalten können, sind fester Bestandteil jedes<br />

Science­Fiction­Films. Schon vor über dreißig Jahren entwarf Arthur C. Clarke in seinem von<br />

Stanley Kubrick verfilmten Roman "2001 ­ Odyssee im Weltraum" die Vision des Computers<br />

HAL, <strong>der</strong> wie selbstverständlich mit den Menschen an Bord des Raumschiffes sprachlich<br />

kommuniziert. Wenn auch einzelne Fähigkeiten von HAL, beispielsweise die des Schachspiels<br />

o<strong>der</strong> die <strong>der</strong> Steuerung <strong>und</strong> Navigation eines Raumfahrzeugs, bereits heute Realität<br />

geworden sind, so erscheint das "(un)menschliche" Verhalten von HAL heute utopischer<br />

denn je. Auch von <strong>der</strong> Möglichkeit einer verbalen Kommunikation, wie sie im Roman beschrieben<br />

ist, sind wir heute noch weit entfernt.<br />

Dennoch hat es gerade im Bereich des automatischen Verstehens von gesprochener Sprache<br />

in den vergangenen Jahren erhebliche Fortschritte gegeben, die in Form von Produkten<br />

auch dem Endverbraucher zugänglich gemacht werden. Hierzu gehören beispielsweise Mobiltelefone,<br />

die bei <strong>der</strong> Nennung eines Namens automatisch die entsprechende Nummer<br />

wählen, <strong>und</strong> Diktiersysteme, die das Gesprochene mit durchaus überzeugenden Ergebnissen<br />

in geschriebenen Text umwandeln. Sogar natürlichsprachliche Dialoge mit Computern<br />

sind heute bereits möglich. So existieren produktive Systeme in den unterschiedlichsten<br />

Bereichen, die das Verhalten einer menschlichen Auskunftsperson erfolgreich simulieren.


2. Wie funktioniert automatische <strong>Spracherkennung</strong><br />

Nachfolgend wird die prinzipielle Funktionsweise von automatischen <strong>Spracherkennung</strong>ssystemen<br />

erläutert. In den vergangenen Jahren haben sich einige wenige Verfahren herauskristallisiert,<br />

auf <strong>der</strong>en Gr<strong>und</strong>lage nahezu alle heutigen <strong>Spracherkennung</strong>ssysteme basieren. Ihnen<br />

gemein ist, dass <strong>der</strong> Spracherkenner zunächst an Hand von Beispielen trainiert wird,<br />

d.h. die Aussprache bestimmter Laute o<strong>der</strong> Wörter wird automatisch erlernt.<br />

<br />

<br />

<br />

<br />

Vorverarbeitung <strong>und</strong> Merkmalsberechnung: Am Beginn <strong>der</strong> Verarbeitungskette<br />

werden die in Form von Luftdruckschwankungen vorliegenden Schallwellen mittels eines<br />

Mikrophons in ein elektrisches Signal umgewandelt. Aus dem digital vorliegenden Signal<br />

gilt es nun, Informationen über die jeweils gesprochenen Laute (bzw. Phoneme, die<br />

kleinsten bedeutungsunterscheidenden Lauteinheiten) zu gewinnen <strong>und</strong> daraus einen<br />

Merkmalvektor zu bestimmen.<br />

Wortmodellierung <strong>und</strong> ­klassifikation: Die Aufgabe besteht darin, in <strong>der</strong> Folge von<br />

Merkmalvektoren das gesprochene Wort bzw. die gesprochene Wortfolge zu bestimmen<br />

(zu klassifizieren). Hierfür kommen im Wesentlichen zwei Ansätze in Betracht, die unter<br />

den Begriffen DTW (Dynamic Time Warping) <strong>und</strong> HMM (Hidden­Markov­Modell) bekannt<br />

sind. Der ältere DTW­Ansatz eignet sich vor allem für sehr einfache, sprecherabhängige<br />

Einzelworterkennung, beispielsweise zum Abrufen von gespeicherten Telefonnummern in<br />

einem Mobiltelefon. Der leistungsfähigere HMM­Ansatz wird in nahezu allen komplexeren<br />

<strong>Spracherkennung</strong>ssystemen verwendet.<br />

Sprachmodellierung: Unter dem Begriff Sprachmodellierung (engl. language modeling)<br />

fasst man Verfahren zusammen, die dem Spracherkenner Wissen über die Wahrscheinlichkeit<br />

von bestimmten Wortfolgen vermitteln, ohne die eine befriedigende Erkennungsleistung<br />

in den meisten Fällen nicht möglich wäre. In einer Diktieranwendung ist es beispielsweise<br />

sehr unwahrscheinlich, <strong>der</strong> Wortfolge „Säge ehrte Frau schnitt“ zu begegnen;<br />

viel wahrscheinlicher ist dagegen die Wortfolge „Sehr geehrte Frau Schmidt“. Auf diese<br />

Weise können zum Einen akustisch nicht unterscheidbare Wörter korrekt erkannt, zum<br />

An<strong>der</strong>en können Fehler ausgeglichen werden, die durch ungenaue Aussprache o<strong>der</strong> ungenaue<br />

Modellierung <strong>der</strong> Wörter entstehen würden.<br />

Suche: Bei <strong>der</strong> Bestimmung <strong>der</strong> am wahrscheinlichsten gesprochenen Wortfolge zu einer<br />

gegebenen Folge von Merkmalvektoren handelt es sich um ein komplexes Suchproblem,<br />

dessen Aufwand mit <strong>der</strong> Länge des Satzes exponentiell zunimmt. Effiziente Suchverfahren<br />

wie die Viterbi­Suche, die daraus abgeleitete Strahlsuche (beam search) sowie <strong>der</strong><br />

A*­Algorithmus werden in unterschiedlichen Kombinationen eingesetzt, um dieses Problem<br />

in Echtzeit zu lösen. Bei großen Wortschätzen kann zudem durch Anordnung des<br />

HMM­Lexikons in Form eines Baumes, an dessen Unterbäumen Wörter mit gleichen<br />

Wortanfängen angeordnet sind, <strong>der</strong> Rechenaufwand in Grenzen gehalten werden.<br />

In <strong>der</strong> nachfolgenden Abbildung sind sämtlich Schritte, die beim <strong>Spracherkennung</strong>sprozess<br />

durchlaufen werden, nochmals am Beispiel eines Telefonsystems dargestellt. Ein an<strong>der</strong>er<br />

Eingabekanal, z.B. ein Mikrofon hat dabei lediglich Auswirkungen auf die Übertragung des<br />

Signals bis zum Arbeitsschritt "Digitalisierung", jedoch nicht für den <strong>Spracherkennung</strong>sprozess<br />

an sich.


um zwanzig Uhr<br />

Digitalisierung<br />

Spektralanalyse<br />

Telefonnetz<br />

Aussprachelexikon<br />

Grammatik/<br />

Sprachmodell<br />

U n t s v a n t s I C u: 6<br />

u: m d f m E d S i: k U r<br />

a m d t s a n t s I k u: 6<br />

um<br />

am<br />

zehn<br />

zwanzig<br />

Uhr<br />

morgen<br />

...<br />

Um<br />

am<br />

tse:n<br />

tsvantsIC<br />

u:6<br />

mO6g@n<br />

...<br />

Suche <strong>und</strong> Mustervergleich<br />

um zwanzig Uhr<br />

3. Leistungskriterien für die automatische <strong>Spracherkennung</strong><br />

Entwickler <strong>und</strong> Forscher im Bereich <strong>der</strong> automatischen <strong>Spracherkennung</strong> sehen sich häufig<br />

mit Aussagen konfrontiert, wie: „<strong>Spracherkennung</strong>, wieso? Das gibt'sdoch schon. Hab'ich<br />

mir neulich bei ALDI gekauft“ Der verbreitete Eindruck, dass dieses Problem mehr o<strong>der</strong><br />

weniger gelöst sei, hängt damit zusammen, dass die Leistungsfähigkeit von Diktiersystemen<br />

bei <strong>der</strong> Eingabe von Texten unter bestimmten Voraussetzungen durchaus mit jener geübter<br />

Computerbenutzer vergleichbar ist. Die Anwendungsmöglichkeiten dieser Technologie sind<br />

jedoch weitaus vielfältiger, <strong>und</strong> die Anfor<strong>der</strong>ungen an die eigentliche <strong>Spracherkennung</strong>s­<br />

Komponente können sich je nach Anwendungssituation stark unterscheiden.<br />

Während Diktiersysteme in ruhiger Umgebung beispielsweise mit Vokabulargrößen von über<br />

100.000 Wörtern Erkennungsraten von bis zu 95 Prozent erzielen (d.h. im Mittel ein falsch<br />

erkanntes Wort alle 20 Wörter; man spricht auch von einer Fehlerrate, hier 5 Prozent), kann<br />

bereits die Erkennung von einfachen Ziffernfolgen in einem fahrenden Auto wegen <strong>der</strong><br />

Fahrgeräusche große Probleme bereiten. Betrachtet man eine Reihe von unterschiedlichen<br />

Anwendungen für Spracherkenner, so kann man allgemeine Leistungsmerkmale erkennen,<br />

die die Komplexität einer von einem Spracherkenner zu bewältigenden Aufgabe bestimmen.<br />

Es lassen sich fünf Leistungsachsen definieren:<br />

1. Sprecherabhängigkeit<br />

<strong>Spracherkennung</strong> kann sprecherunabhängig o<strong>der</strong> sprecherabhängig erfolgen, wobei sprecherabhängige<br />

Erkennung mit einer erheblich höheren Genauigkeit möglich ist. Sprecheradaptive<br />

Systeme bilden hier einen Mittelweg, indem sie sich allmählich an die Stimme ihres<br />

Benutzers anpassen. Es hängt stark von <strong>der</strong> Applikation ab, inwieweit eine sprecherabhängige<br />

Erkennung realisierbar ist. Während dem Benutzer eines Diktiersystems das Vorlesen<br />

einiger Übungssätze zugemutet werden kann, ist dies zum Beispiel bei einem Fahrplanauskunftssystem<br />

o<strong>der</strong> gar bei einem sprachgesteuerten Getränkeautomaten nicht praktikabel.


2. Sprechart<br />

Die Unterscheidung zwischen diskreter <strong>und</strong> kontinuierlicher Sprache verliert, zumindest im<br />

Zusammenhang mit Diktiersystemen, zunehmend an Bedeutung: Die kurzen Sprechpausen<br />

zwischen den Wörtern, die zu Beginn noch von den Benutzern von "diskreten" Diktiersystemen<br />

verlangt wurden, werden von den "kontinuierlichen" Systemen nicht mehr gefor<strong>der</strong>t.<br />

Diese Pausen erleichtern die Bestimmung <strong>der</strong> Wortgrenzen <strong>und</strong> verbessern damit das Erkennungsergebnis,<br />

erfor<strong>der</strong>n aber eine sehr unnatürliche Sprechweise des Benutzers. Einen<br />

Spezialfall stellen die Einzelworterkenner dar, die voraussetzen, dass nur ein einzelnes Wort<br />

gesprochen wird.<br />

Noch erheblich schwieriger als <strong>der</strong> Umgang mit kontinuierlicher Sprache ist dagegen die Erkennung<br />

von spontaner Sprache. Darunter versteht man Äußerungen, die nicht abgelesen<br />

sind, <strong>und</strong> die sich <strong>der</strong> Sprecher nicht ­ wie im Falle einer Diktieranwendung ­ vor dem Sprechen<br />

zurechtgelegt hat. Typisch für spontane Sprache sind ungrammatische Sätze, äh­s <strong>und</strong><br />

ähm­s, Pausen, Abbrüche, Versprecher, Verschleifungen <strong>und</strong> Wie<strong>der</strong>holungen, die von<br />

menschlichen Hörern normalerweise sehr gut verarbeitet werden, die jedoch die automatische<br />

Verarbeitung drastisch erschweren. So muss zum Beispiel in einem Fahrplanauskunftssystem<br />

mit <strong>der</strong> folgenden Anfrage gerechnet werden: „äh ja hallo also ähm nach Hamburg<br />

wollt'ich fahr'nab München Pasing so gegen acht gegen zwanzig Uhr heut'a'md.“ Zusätzliche<br />

Schwierigkeiten ergeben sich noch durch Sprecher mit regionalem Dialekt o<strong>der</strong><br />

ausländischem Akzent.<br />

3. Wortschatz<br />

Der Einfluss <strong>der</strong> Vokabulargröße auf die Schwierigkeit des <strong>Spracherkennung</strong>sproblems ist<br />

offensichtlich, allerdings wirkt sich diese in aller Regel mehr auf die erfor<strong>der</strong>liche Rechenleistung<br />

aus, als auf die zu erwartende Fehlerrate (sehr große Wortschätze erfor<strong>der</strong>n zudem<br />

hochkomplexe <strong>und</strong> ausgefeilte Suchalgorithmen). Von wesentlich größerer Bedeutung für<br />

die Fehlerrate ist jedoch die grammatische Komplexität (s.u.). Das Problem, 500 Eigennamen<br />

ohne Kontextinformation zu unterscheiden, kann in dieser Hinsicht wesentlich<br />

schwieriger sein, als einen grammatisch korrekten Text mit einem Vokabular von 100.000<br />

Wörtern zu erkennen.<br />

In einigen kommerziellen Systemen wird zwischen aktivem Vokabular <strong>und</strong> dem Gesamtvokabular<br />

unterschieden; in diesem Falle wird z.B. in einem bestimmten Dialogschritt nur ein<br />

Teil <strong>der</strong> Wörter erlaubt, o<strong>der</strong> ein spezielles Inventar an Fachbegriffen in einem Diktiersystem<br />

nur auf Wunsch in den Erkennungswortschatz aufgenommen.<br />

4. Grammatische Komplexität o<strong>der</strong> Perplexität<br />

Nicht jedes Wort aus dem Wortschatz tritt an je<strong>der</strong> Position einer Äußerung mit <strong>der</strong> gleichen<br />

Wahrscheinlichkeit auf. So ist es z.B. sehr wahrscheinlich, dass nach den Wörtern „Guten<br />

Tag, mein Name“ das Wort „ist“ folgen wird, <strong>und</strong> auf dieses Wort wie<strong>der</strong>um ein Eigenname.<br />

Je besser sich die Wörter selbst ohne Kenntnis des akustischen Signals bereits aus <strong>der</strong><br />

Anwendung <strong>und</strong> aus dem Kontext vorhersagen lassen, desto einfacher ist naturgemäß die<br />

Aufgabe des Spracherkenners. Ein entscheidendes Maß für die Schwierigkeit eines <strong>Spracherkennung</strong>sproblems<br />

ist daher die sogenannte Perplexität, die angibt, wieviele Wörter im<br />

Mittel in Frage kommen, wenn die Vorgängerwörter bereits bekannt sind.<br />

Mittels einer statistischen Grammatik lässt sich die Wahrscheinlichkeit für eine gegebene<br />

Wortfolge berechnen. Eine solche Grammatik kann entwe<strong>der</strong> explizit vorgegeben werden,


eispielsweise in einer Anwendung, in <strong>der</strong> nur Ziffernfolgen erkannt werden sollen, o<strong>der</strong> sie<br />

kann aus einer großen Menge geschriebenen Textes automatisch erlernt werden, wie dies<br />

z.B. im Falle von Diktiersystemen geschieht. Eine Grammatik reduziert die Zahl <strong>der</strong> Erkennungsfehler<br />

drastisch, solange <strong>der</strong> Benutzer sich innerhalb <strong>der</strong> vorgesehenen Anwendung<br />

bewegt. Ein Spracherkenner in einem Fahrplanauskunftssystem wird allerdings i.d.R.<br />

auch in <strong>der</strong> Frage nach dem Wetter des folgenden Tages eine Fahrplananfrage erkennen,<br />

<strong>und</strong> ein Diktiersystem für Juristen wird einen romantischen Liebesbrief mit juristischen Floskeln<br />

<strong>und</strong> Fachtermini anreichern.<br />

5. Eingabemedium<br />

Von großer Bedeutung für automatische Spracherkenner ist <strong>der</strong> sogenannte „Eingabekanal“,<br />

hierzu gehören das Mikrophon o<strong>der</strong> auch ein Mikrophonarray <strong>und</strong>, z.B. im Falle einer Telefonanwendung,<br />

auch die Art <strong>der</strong> Übertragung des Signals (Festnetz­ vs. Mobiltelefon). Beispielsweise<br />

lassen sich aufgr<strong>und</strong> <strong>der</strong> geringen Bandbreite des Telefonkanals die Konsonanten<br />

„f“ <strong>und</strong> „s“ in einem Telefongespräch praktisch nicht unterscheiden (was zum Beispiel<br />

beim Buchstabieren über Telefon offenbar wird). Als optimales Aufnahmemedium gelten<br />

hochwertige Nahbesprechungsmikrophone o<strong>der</strong> Headsets, bei denen das Mikrophon in <strong>der</strong><br />

Nähe des M<strong>und</strong>winkels positioniert wird. Dennoch wird <strong>der</strong> Einfluss <strong>der</strong> Qualität des Mikrophons<br />

oft überschätzt; viel wichtiger ist es, dass <strong>der</strong> Spracherkenner mit Daten trainiert<br />

bzw. adaptiert wurde, die nach Möglichkeit mit dem gleichen Mikrophon unter möglichst<br />

ähnlichen akustischen Bedingungen aufgenommen wurden.<br />

Beson<strong>der</strong>s schwierig wird es, wenn das Mikrophon sich nicht mehr direkt am M<strong>und</strong> des<br />

Sprechers befindet, z.B. bei Anwendungen im Auto o<strong>der</strong> bei <strong>der</strong> Bedienung von mobilen Robotern.<br />

Hintergr<strong>und</strong>geräusche (z.B. Fahrgeräusche im Auto o<strong>der</strong> Geräusche in einer Bahnhofshalle),<br />

o<strong>der</strong> gar mehrere Sprecher, die gleichzeitig reden ("Cocktailparty­Effekt")<br />

erschweren die <strong>Spracherkennung</strong> zusätzlich o<strong>der</strong> machen sie in extremen Fällen nahezu unmöglich.<br />

Gr<strong>und</strong>sätzlich ist es so, dass <strong>Spracherkennung</strong>ssysteme, die sich in einem o<strong>der</strong> mehreren<br />

<strong>der</strong> genannten Leistungsmerkmale im „schwierigen“ Bereich bewegen, dies dadurch kompensieren,<br />

dass <strong>der</strong> Anwen<strong>der</strong> in Bezug auf die an<strong>der</strong>en Merkmale Abstriche machen muss.<br />

4. Dialogsteuerung<br />

Im Gegensatz zu einem Diktiersystem, bei welchen die vom Spracherkenner gelieferte Wortkette<br />

schon das Ergebnis darstellt, wird bei einem sprachverstehenden System eine geeignete<br />

Systemreaktion erwartet. Die Systemreaktion wird durch eine Dialogsteuerung erreicht,<br />

die eine Interpretation des Gesagten vornimmt, eine entsprechende Aktion auslöst<br />

<strong>und</strong> dies dem Benutzer, auf welchem Weg auch immer, mitteilt.<br />

Im Falle eines Kommandoerkenners o<strong>der</strong> eines einfachen Menüsystems ist die Umsetzung<br />

des erkannten Schlüsselwortes in die entsprechende Systemreaktion relativ trivial. Der Anrufer<br />

bewegt sich durch eine vorgegebene Menüstruktur, je nach Äußerung verzweigt das<br />

System in den vorgesehenen Pfad, z.B. „Wollen Sie zum Bereich Verkauf, Buchhaltung o<strong>der</strong><br />

<strong>Technik</strong>“ <strong>und</strong> stellt dementsprechend weitere Fragen o<strong>der</strong> löst die passende Aktion, z.B. die<br />

Vermittlung zu dem Ansprechpartner, aus.<br />

Erheblich komplizierter wird es, wenn ein intelligentes Dialogverhalten erwartet wird, mit dem<br />

das Verhalten eines menschlichen Gesprächspartners imitiert werden soll. Bereits die Interpretation<br />

einer Datums­ <strong>und</strong>/o<strong>der</strong> Uhrzeitangabe (z.B. „diesen Donnerstag am späten Nach­


mittag so ab fünf Uhr“) erfor<strong>der</strong>t eine relativ komplexe syntaktisch­semantische Analyse des<br />

<strong>Spracherkennung</strong>sergebnisses. Sollen darüber hinaus z.B. die beiden verschieden intonierten<br />

Äußerungen „Natürlich nicht am Montag“ <strong>und</strong> „Natürlich nicht. Am Montag“ unterschieden<br />

werden, so benötigt man neben <strong>der</strong> <strong>Spracherkennung</strong> noch eine sogenannte prosodische<br />

Analyse des Sprachsignals. Weiterhin ist in jedem Falle eine Dialogsteuerung notwendig,<br />

die dafür verantwortlich ist, dass das System in sinnvoller Weise auf die Benutzeräußerung<br />

reagiert bzw. den Benutzer in geeigneter Weise durch den Dialog führt. Schließlich<br />

erwartet <strong>der</strong> Benutzer in aller Regel auch, dass das System sich in natürlicher, gesprochener<br />

Sprache ausdrücken <strong>und</strong> über den aktuellen Zustand informieren kann.<br />

<br />

<br />

<br />

Syntaktisch­Semantische Analyse: Aufgabe dieses Verarbeitungsschrittes ist die<br />

Extraktion <strong>der</strong> Bedeutung <strong>der</strong> im Spracherkennermodul generierten Wortkette. Syntaktisches<br />

Wissen dient hierbei dazu, die Einheiten im Strom <strong>der</strong> Worthypothesen zu bestimmen,<br />

denen eine Bedeutung (Semantik) zuzuordnen ist. Viele Ansätze setzen<br />

allerdings meistens eine fehlerfreie <strong>und</strong> syntaktisch korrekte Eingabe voraus. Bereits die<br />

Annahme <strong>der</strong> Fehlerfreiheit ist jedoch für gesprochene Sprache nicht gegeben. Selbst die<br />

weltweit besten Spracherkenner sind in Bezug auf Fehlerfreiheit über sehr viele<br />

Anwendungen hinweg eine Größenordnung o<strong>der</strong> mehr schlechter als <strong>der</strong> Mensch.<br />

Allerdings sind in einem sprachverstehenden System nicht immer vollständige Analysen<br />

notwendig; so erfor<strong>der</strong>t z.B. eine Anwendung „Fahrplanauskunft“ für die Äußerung „ich<br />

möchte äh ich meine meine Frau <strong>und</strong> ich möchten nach Hamburg fahren“ eigentlich nur<br />

die Information, dass es sich bei dem Zielort um Hamburg handeln soll.<br />

Prosodische Analyse: Die Prosodie beschäftigt sich mit suprasegmentalen (lautübergreifenden)<br />

sprachlichen Ereignissen. Diese Ereignisse überlagern sprachliche Einheiten,<br />

die mehr als einen Laut umfassen, also Silben, Wörter, Phrasen, Sätze, usw. Als<br />

wichtigste Funktionen werden allgemein die prosodische Markierung von Satz­ <strong>und</strong> Phrasen­Grenzen,<br />

Betonung, Satzmodus <strong>und</strong> Gemütszustand (Emotion) angesehen. Betrachten<br />

wir die folgenden Äußerung, so erkennen wir die Wichtigkeit prosodischer Information:<br />

„Vielleicht. Am Montag bei mir. Passt das?“ versus „Vielleicht am Montag bei mir passt<br />

das?“ Obwohl die Bedeutung <strong>der</strong> prosodischen Information in <strong>der</strong> Mensch­Mensch­Kommunikation<br />

allgemein anerkannt wird, wird diese Informationsquelle in <strong>der</strong> automatischen<br />

Sprachverarbeitung bisher jedoch nur spärlich benutzt.<br />

Dialogsteuerung: Aufgabe <strong>der</strong> Dialogsteuerung ist es zum Einen, die semantische Repräsentation<br />

<strong>der</strong> Benutzeräußerung in den Kontext des bis dahin geführten Dialogs einzubetten,<br />

<strong>und</strong> zum An<strong>der</strong>en, die nächste Aktion des Systems zu planen. So kann die Benutzeräußerung<br />

„den Josef“ nur korrekt interpretiert werden, wenn die letzte Systemäußerung<br />

des „eisernen Fräuleins vom Amt“ „ich habe zwei Müller in meinem Verzeichnis,<br />

Josef Müller <strong>und</strong> Hans Müller. Wen möchten Sie sprechen?“ bekannt ist.<br />

5. Sprachsynthese<br />

Es gibt eine Reihe von Möglichkeiten, Computer zum Sprechen zu bringen. Es hängt von<br />

<strong>der</strong> jeweiligen Applikation ab, welche Methode vorzuziehen ist.<br />

Prerecorded o<strong>der</strong> Canned­Speech<br />

Die einfachste Möglichkeit besteht darin, dem Benutzer Äußerungen vorzuspielen, die zuvor<br />

aufgenommen <strong>und</strong> digital gespeichert wurden. Eine Variante hiervon ist die Verkettung von<br />

einzeln gespeicherten Wörtern o<strong>der</strong> Satzfragmenten zu einer Gesamtäußerung (canned


speech). Für Sympalogs B<strong>und</strong>esligaauskunftssystem BErTI wurden Satzfragment wie z.B.<br />

"...hat gegen ....“, je<strong>der</strong> einzelne B<strong>und</strong>esligaverein, sowie einzelne Wörter wie z.B. „gewonnen“<br />

von einem Radiosprecher einzeln gesprochen <strong>und</strong> aufgenommen. Während des<br />

Dialoges werden hieraus Systemäußerungen wie „Der VfB Stuttgart hat gegen den 1. FC<br />

Kaiserslautern auswärts drei zu zwei gewonnen“ zusammengebaut. Hierzu ist es allerdings<br />

notwendig, dass alle möglichen Äußerungen des Systems vorab bekannt sind, so dass eine<br />

passende Segmentierung in Satzschnipsel erfolgen kann. Gegenüber einer „echten“ Sprachsynthese<br />

zeichnet sich dieses Verfahren in aller Regel dadurch aus, dass die Verständlichkeit<br />

deutlich besser ist.<br />

Vollsynthese bzw. text­to­speech (TTS)<br />

Ist <strong>der</strong> aktive Wortschatz des Systems zu groß o<strong>der</strong> zu dynamisch, ist eine solche Vorgehensweise<br />

nicht mehr praktikabel. In diesem Falle greift man auf Sprachsyntheseverfahren<br />

zurück, die unter den Bezeichnungen text­to­speech (TTS) o<strong>der</strong> concept­to­speech (CTS)<br />

verbreitet sind, o<strong>der</strong> auch auf Kombinationen dieser Verfahren. Im TTS­Verfahren wird zunächst<br />

eine linguistische Analyse des zu sprechenden Textes durchgeführt, um z.B. die zu<br />

betonenden Wörter <strong>und</strong> Silben sowie eine geeignete Intonation zu ermitteln. Die Wörter<br />

selbst werden an Hand von Aussprachelexika aus einem Inventar von Laut­ o<strong>der</strong> Silbenbausteinen<br />

zusammengesetzt. Im Rahmen von <strong>Sprachdialog</strong>systemen können CTS­Systeme,<br />

denen anstelle einer Folge von Wörtern <strong>und</strong> Satzzeichen semantische Konzepte als Eingabe<br />

dienen, günstiger sein. Hier kann eine sinnvolle Intonation ohne den Umweg über die Generierung<br />

des zu sprechenden Textes <strong>und</strong> dessen anschließen<strong>der</strong> linguistischer Analyse festgelegt<br />

werden.<br />

6. Systemarchitektur <strong>Sprachdialog</strong>system<br />

Wie in den vorherigen Abschnitten erläutert, benötigt man für den Aufbau eines <strong>Sprachdialog</strong>system<br />

die drei Komponenten <strong>Spracherkennung</strong>, Dialogsteuerung <strong>und</strong> Sprachsynthese.<br />

Für ein produktives System werden diese üblicherweise durch ein Kontrollmodul komplettiert,<br />

das für die Anbindung an die Signalquelle (z.B. So<strong>und</strong>karte o<strong>der</strong> Telefonanlage) zuständig<br />

ist <strong>und</strong> bei Bedarf auch die Verteilung <strong>der</strong> Rechnerlast in einem Rechnernetzwerk<br />

leisten kann. In <strong>der</strong> folgenden Abbildung ist die übliche Systemarchitektur dargestellt.<br />

Sprache<br />

Text<br />

So<strong>und</strong>­<br />

System<br />

Kontrollmodul<br />

Dialogsteuerung<br />

Applikation<br />

Sprache<br />

Spracherkenner<br />

Sprachsynthese<br />

Text<br />

Die durchgezogenen Pfeile deuten dabei die konzeptionelle Vorgehensweise beim<br />

<strong>Sprachdialog</strong> an, die gestrichelten Pfeile die technische Kommunikation <strong>der</strong> Module<br />

untereinan<strong>der</strong>. Konzeptionell wird wie folgt vorgegangen: das eingehende Sprachsignal wird<br />

zum Spracherkenner geschickt, dort wird die wahrscheinlichste Wortkette ermittelt. Diese


wird <strong>der</strong> Dialogsteuerung übergeben, die die syntaktisch­semantische Analyse durchführt,<br />

den aktuellen Zustand im Sinne <strong>der</strong> zu bedienenden Applikation interpretiert <strong>und</strong> daraus den<br />

nächsten Zustand generiert. Dabei kann die Dialogsteuerung mit <strong>der</strong> Applikation kommunizieren,<br />

entwe<strong>der</strong> um zusätzliche Informationen für den weiteren Dialog abzuleiten o<strong>der</strong><br />

entsprechende Aktionen anzustoßen. Die Dialogsteuerung generiert zum neuen Dialogzustand<br />

die entsprechende Wortkette. Diese wird <strong>der</strong> Sprachsynthese zur Verfügung gestellt,<br />

die diese Äußerung in ein Sprachsignal verwandelt, das dem Benutzer vorgespielt wird.<br />

Dann wird auf die nächste Benutzeräußerung gehört <strong>und</strong> <strong>der</strong> Zyklus beginnt von Neuem.<br />

Technisch läuft die Kommunikation <strong>der</strong> Module üblicherweise über Programmierschnittstellen,<br />

um die notwendigen Funktionalitäten in den einzelnen Modulen zum richtigen<br />

Zeitpunkt anzustoßen <strong>und</strong> diesen die jeweils notwendige Information zur Verfügung zu<br />

stellen. So findet das <strong>Spracherkennung</strong>sergebnis i.d.R. nicht direkt den Eingang zur<br />

Dialogsteuerung, son<strong>der</strong>n das Erkennungsergebnis wird dem Kontrollmodul gesendet, von<br />

wo aus es an die Dialogsteuerung weiter gegeben wird. Die Kommunikation basiert häufig<br />

auf standardisierten Protokollen, wie z.B. TCP/IP o<strong>der</strong> HTTP, <strong>und</strong> ist, gerade wenn die<br />

Produkte für den Telefoniebereich konzipiert sind, netzwerkfähig, so dass unterschiedliche<br />

Module auf mehrere Rechner verteilt werden können bzw. sogar mehrere Instanzen eines<br />

Moduls in einem Netzwerk zur Verfügung stehen.<br />

7. Anwendungen – Praxisbeispiele<br />

Heutzutage sind bereits zahlreiche Sprachapplikationen in den verschiedensten Einsatzbereichen<br />

erfolgreich im produktiven Betrieb. Nachstehend werden einige Anwendungen aus<br />

verschiedenen Bereichen skizziert:<br />

Diktiersysteme<br />

Diktiersysteme sind mittlerweile erfolgreich im Einsatz, beson<strong>der</strong>s im medizinischen <strong>und</strong> juristischen<br />

Bereich.<br />

Beispiele:<br />

• In Baden­Württemberg wurden kürzlich 1.000 Richterarbeitsplätze mit <strong>Spracherkennung</strong>ssoftware<br />

zum Diktieren von Urteilen ausgestattet.<br />

• In medizinischen Einrichtungen, in denen ein Großteil <strong>der</strong> Arbeit aus dem Diktieren von<br />

Bef<strong>und</strong>en besteht, z.B. in <strong>der</strong> Radiologie, sind Diktiersysteme im täglichen Einsatz.<br />

Sprachsteuerung<br />

Eine Sprachsteuerung (speech control) von Geräten <strong>und</strong> Maschinen über Mikrofon bringt in<br />

vielen Fällen Vorteile. Beson<strong>der</strong>s wenn <strong>der</strong> Benutzer die Hände nicht frei hat, die Gefahr von<br />

Verschmutzung o<strong>der</strong> Kontamination gegeben ist, die Konsole <strong>und</strong> Arbeitsplatz voneinan<strong>der</strong><br />

entfernt sind o<strong>der</strong> die Bedienungshierarchien sehr komplex sind. Ein Haupttreiber <strong>der</strong><br />

Sprachtechnologieentwicklung in diesem Bereich ist im Automobilumfeld zu finden.<br />

Beispiele:<br />

• Steuerung von Monitoren o<strong>der</strong> Einrichtungen im chirurgischen Bereich über Kommandos,<br />

zum Teil angereichert durch Dialogfunktionalität um Mehrdeutigkeiten aufzulösen<br />

• Sprachsteuerung im Automobil zur Steuerung <strong>und</strong> Eingabe eines Telefons


<strong>Spracherkennung</strong> zur Datenerfassung<br />

In vielen Anwendungsfällen kann die <strong>Spracherkennung</strong> sinnvollerweise als Kanal für die Eingabe<br />

von zu protokollierende Daten eingesetzt werden, ähnlich wie bei <strong>der</strong> Sprachsteuerung<br />

von Geräten in solchen Gebieten, in denen <strong>der</strong> Benutzer üblicherweise die Hände nicht frei<br />

hat o<strong>der</strong> das Mitführen an<strong>der</strong>er Protokollierungshilfsmittel umständlich ist. Solche Situationen<br />

ergeben sich u.a. im medizinischen Umfeld, z.B. bei <strong>der</strong> Protokollierung von Operationen<br />

o<strong>der</strong> aus im industriellen Umfeld in <strong>der</strong> Qualitätssicherung.<br />

Beispiele:<br />

• Kommissionierung per Sprache („pick­by­voice“)<br />

• Spracheingabe bei Kfz­Hauptuntersuchungen zur Erstellung des Prüfberichts<br />

<strong>Sprachdialog</strong>systeme<br />

Einer <strong>der</strong> interessantesten Märkte für <strong>Spracherkennung</strong>stechnologie liegt im Bereich <strong>der</strong><br />

Telefonie (Anwendungen, die die Übertragung von gesprochener Sprache über Telefon einschließen).<br />

Vor allem im Callcenter Bereich ergibt sich zur Vorqualifizierung <strong>und</strong> automatischen<br />

Bearbeitung von Gesprächen ein breites Spektrum unterschiedlicher Anwendungen<br />

wie Service­ <strong>und</strong> Bestellhotlines, automatische Vermittlungen <strong>und</strong> Auskunftsdienste.<br />

Beispiele:<br />

• Intelligentes Vermittlungsportal bei <strong>der</strong> Sixt AG: Vermittelt die Anrufer an den richtigen<br />

Ansprechpartner o<strong>der</strong> Bereich, abhängig vom Anliegen, gewünschten Gesprächspartner<br />

o<strong>der</strong> <strong>der</strong> Abteilung. („Ich möchte bitte ein Auto mieten“)<br />

• Bürgerinformationssystem bei <strong>der</strong> Stadt Würzburg: Anrufer bekommen Auskünfte zum für<br />

ihr Anliegen zuständigen Amt („Wo muss ich mich denn hinwenden, wenn ich mein Auto<br />

ummelden will?“)<br />

7. Aktuelle Forschungsprojekte<br />

Die multimodale Mensch­Maschine Interaktion ist ein Forschungsthema von großer Relevanz<br />

<strong>und</strong> ein zukünftiger Forschungstreiber. Aus diesem Gr<strong>und</strong> bestehen in diesem Umfeld<br />

wichtige Forschungsprojekte. Exemplarisch wird nachfolgend das aktuelle Smartweb­Projekt<br />

als eines <strong>der</strong> Bedeutensten vorgestellt. Als Ergebnis des Projekts soll die Recherche im Internet<br />

zukünftig einfacher <strong>und</strong> effektiver möglich sein ­ <strong>und</strong> das auch über UMTS­Telefone<br />

<strong>und</strong> an<strong>der</strong>e mobile Endgeräte. An dem Projekt unter Leitung des Deutschen Forschungszentrums<br />

für Künstliche Intelligenz (DFKI) arbeiten insgesamt 14 Partner aus Wirtschaft <strong>und</strong><br />

Wissenschaft zusammen, darunter DaimlerChrysler, die Deutsche Telekom <strong>und</strong> Siemens.<br />

SmartWeb wird vom B<strong>und</strong>esministerium für Bildung <strong>und</strong> Forschung (BMBF) mit insgesamt<br />

13,7 Millionen Euro geför<strong>der</strong>t. Sympalog ist in SmartWeb für die automatische <strong>Spracherkennung</strong><br />

im mobilen Anwendungsszenario verantwortlich.<br />

Das World Wide Web (WWW) hat den weltweiten Zugang zu digital gespeicherter Information<br />

drastisch vereinfacht <strong>und</strong> beschleunigt. Allerdings gibt es bisher zwei Zugangshürden.<br />

• Der Zugang zu den Inhalten ist größtenteils auf PCs mit großen Bildschirmen optimiert.<br />

Statt eines einfachen, intuitiven Zugangs mittels natürlicher Sprache über das Mobiltelefon<br />

suchen <strong>der</strong>zeit Suchmaschinen textuell nach Inhalten, die nicht in je<strong>der</strong> Modalität, z.B.<br />

nur mittels Sprache, dem Benutzer zugänglich gemacht werden können.


• Bislang waren die Inhalte im WWW nur maschinenlesbar, ohne maschinell verstehbar zu<br />

sein. Da Information im WWW meist in natürlicher Sprache präsentiert wird, sind die bei<br />

einer Suche gef<strong>und</strong>enen Dokumente bislang nur für den Menschen voll verständlich. Zudem<br />

entsprechen die Resultate trotz verbesserter Such­ <strong>und</strong> Rankingtechniken oftmals<br />

nicht den Intentionen <strong>der</strong> Benutzer.<br />

In SmartWeb werden die führenden Forscher aus dem Bereich <strong>der</strong> Intelligenten<br />

Benutzerschnittstellen, des SemanticWeb <strong>und</strong> <strong>der</strong> Informationsextraktion Methoden <strong>und</strong><br />

Technologien erforschen <strong>und</strong> umsetzen, um diese Hürden zu beseitigen. Das Semantische<br />

Web basiert auf <strong>der</strong> inhaltlichen Beschreibung digitaler Dokumente mit standardisierten Vokabularien,<br />

die eine maschinell verstehbare Semantik haben. Damit wird <strong>der</strong> Übergang von<br />

einem "Netz aus Verweisstrukturen" zu einem "Netz aus Inhaltsstrukturen" vollzogen. Dies<br />

eröffnet völlig neue Dimensionen in den Bereichen Internetdienste, Information Retrieval,<br />

Mobile Computing, E­Commerce <strong>und</strong> E­Work.<br />

SmartWeb bildet eine wichtige Stufe bei <strong>der</strong> Realisierung des Internets <strong>der</strong> nächsten Generation,<br />

das breitbandige Multimediadienste mobil <strong>und</strong> individualisiert bereitstellen wird.<br />

SmartWeb ist auf <strong>der</strong> Ebene <strong>der</strong> Softwaresysteme angesiedelt, welche die Infrastuktur für<br />

spezielle Anwendungsprojekte zur Implementierung neuartiger Mehrwertdienste im Internet<br />

<strong>der</strong> nächsten Generation bildet. SmartWeb ist abgestimmt auf die Entwicklungen auf dem<br />

Gebiet des Mobilen Internet <strong>und</strong> <strong>der</strong> darunter liegenden Schicht <strong>der</strong> Hochleistungsfestnetze,<br />

welche die Mobilfunkstationen breitbandig mit Datenströmen versorgen. Damit nimmt Smart­<br />

Web eine zentrale Stellung bei <strong>der</strong> Verbindung innovativer Kommunikationstechnologien mit<br />

völlig neuartigen Anwendungsfel<strong>der</strong>n. SmartWeb baut auf die Konvergenz <strong>der</strong> verschiedenen<br />

Mobilfunktechnologien auf <strong>und</strong> sichert eine bedarfsgerechte Informationsversorgung<br />

sowie nutzerzentrierte Informationslogistik.<br />

8. Ausblick/Schluss<br />

Bereits heute ist erkennbar, dass <strong>Spracherkennung</strong>stechnologie den Umgang von Menschen<br />

mit Computern <strong>und</strong> Maschinen weitreichend verän<strong>der</strong>t hat <strong>und</strong> weiter verän<strong>der</strong>n wird.<br />

Es wurde auf den vorigen Seiten schon auf die vielfältigen Einsatzmöglichkeiten <strong>und</strong> existierende<br />

Anwendungen in diesen Bereichen eingegangen. Die Steuerung von Geräten <strong>und</strong><br />

Maschinen sowie automatisierte telefonische Kommunikation mit Voice­Portalen werden in<br />

Zukunft ebenso alltäglich sein, wie heute schon das gewohnte Surfen im Web.<br />

Aufbauend auf den Möglichkeiten mo<strong>der</strong>ner <strong>Spracherkennung</strong> <strong>und</strong> Sprachsteuerung sind<br />

viele Unternehmen heute schon dabei, Projekte zur Integration solcher Technologien in ihre<br />

Produkte <strong>und</strong> Abläufe voranzutreiben. Eine wichtige Rolle spielt in diesem Bereich die Automobilindustrie<br />

<strong>und</strong> die Telekommunikationsindustrie, die durch ihre hohe Breitenwirkung<br />

beim Endk<strong>und</strong>en die Akzeptanz <strong>der</strong> <strong>Spracherkennung</strong> noch steigern werden. Auch <strong>der</strong> Callcenterbereich<br />

treibt den Markt voran, da sich in diesem Sektor enorme Automatisierungs<strong>und</strong><br />

Rationalisierungspotentiale in <strong>der</strong> K<strong>und</strong>enkommunikation ergeben.<br />

Ein weiterer Trend <strong>der</strong> sich in Zukunft abzeichnen wird, ist die Verschmelzung <strong>der</strong> verschiedenen<br />

Kommunikationsmöglichkeiten im Bereich Mensch­Maschine Kommunikation, hin zu<br />

übergreifenden sogenannten „Multichannel­Ansätzen“. Die Kommunikation mit Datenbanken<br />

<strong>und</strong> Applikationen o<strong>der</strong> die Steuerung von Geräten kann über verschiedensten Kanäle erfolgen,<br />

die <strong>der</strong> jeweiligen Situation des Benutzers angepasst sind.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!