06.11.2014 Aufrufe

Strategien für Dialogsegmente in natürlichsprachlichen Anwendungen

Strategien für Dialogsegmente in natürlichsprachlichen Anwendungen

Strategien für Dialogsegmente in natürlichsprachlichen Anwendungen

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Universität Hamburg<br />

Fachbereich Informatik<br />

<strong>Strategien</strong> für<br />

<strong>Dialogsegmente</strong> <strong>in</strong><br />

natürlichsprachlichen<br />

<strong>Anwendungen</strong><br />

Stefan W. Hamerich<br />

Diplomarbeit<br />

betreut von<br />

Prof. Dr. Walther von Hahn<br />

AB Natürlichsprachliche Systeme<br />

FB Informatik<br />

Universität Hamburg<br />

Hamburg<br />

Dr. Carsten Günther<br />

IBM Voice Systems<br />

European Speech Research<br />

IBM Deutschland Entwicklung GmbH<br />

Heidelberg<br />

20. Dezember 2000


Vertraulichkeitsh<strong>in</strong>weis<br />

Die vorliegende Arbeit unterliegt e<strong>in</strong>er Geheimhaltungsvere<strong>in</strong>barung mit der IBM. Die Arbeit<br />

wurde von der IBM zur Veröffentlichung freigegeben, nachdem alle als IBM Vertraulich<br />

klassifizierten Teile entfernt wurden. Bei Streichung von ganzen Abschnitten, wird dies <strong>in</strong><br />

der Arbeit kenntlich gemacht, ansonsten wurden e<strong>in</strong>zelne Textpassagen entfernt, ohne den<br />

Textzusammenhang zu verändern.


IV<br />

VERTRAULICHKEITSHINWEIS


Vorwort<br />

Bei vorliegender Arbeit handelt es sich um me<strong>in</strong>e Diplomarbeit, die am Fachbereich Informatik<br />

der Universität Hamburg vorgelegt wurde. Die Arbeit ist zum größten Teil <strong>in</strong> Heidelberg<br />

bei der IBM European Speech Research entstanden, <strong>in</strong> enger Abstimmung mit Walther von<br />

Hahn vom Arbeitsbereich Natürlichsprachliche Systeme (NatS) am Fachbereich Informatik<br />

der Universität Hamburg.<br />

Die Durchführung dieser Arbeit wäre ohne die Unterstützung zahlreicher Leute nicht möglich<br />

gewesen, ich möchte mich daher an dieser Stellen sehr herzlich bei ihnen bedanken.<br />

Ohne die Bereitschaft von Walther von Hahn, diese Arbeit zu unterstützen und zu betreuen,<br />

wäre sie nicht entstanden. Er hat sich für die Genehmigung dieser ungewöhnlichen Arbeit<br />

e<strong>in</strong>gesetzt und gleichzeitig die Betreuung übernommen. Insbesondere möchte ich ihm für die<br />

gute persönliche Betreuung danken, die bed<strong>in</strong>gt durch die große Entfernung zu e<strong>in</strong>em Großteil<br />

auf elektronischem Wege lief. Ich möchte mich außerdem für das stete Entgegenkommen,<br />

auch kurzfristig persönliche Treffen <strong>in</strong> Hamburg abzuhalten, sehr bedanken.<br />

Herzlich bedanken möchte ich mich auch bei Carsten Günther, der mir die Durchführung<br />

dieser Arbeit bei der IBM ermöglicht hat. Auch er war ständig für mich erreichbar und<br />

unterstützte mich, wo er konnte. Außerdem gab er mir die Gelegenheit, die allgeme<strong>in</strong>e Arbeit<br />

bei der IBM mitzuverfolgen und ermöglichte mir damit e<strong>in</strong>ige sehr <strong>in</strong>teressante E<strong>in</strong>blicke.<br />

Me<strong>in</strong> besonderer Dank gilt Marion Mast von der IBM. Sie unterstützte mich bei der Erstellung<br />

dieser Arbeit über das übliche Maß h<strong>in</strong>aus und fungierte somit quasi als Drittbetreuer<strong>in</strong><br />

me<strong>in</strong>er Arbeit. Me<strong>in</strong> Dank gilt ihr nicht nur für die praktische Unterstützung während der<br />

Implementationsphase, sie versorgte mich auch reichlich mit Literatur und Tips für die<br />

vorliegende Arbeit.<br />

Ich möchte mich auch sehr für die allgeme<strong>in</strong>e Unterstützung des gesamten Teams der IBM<br />

European Speech Research <strong>in</strong> Heidelberg bedanken. Sowohl <strong>in</strong> allgeme<strong>in</strong>en Fragen, wie auch<br />

<strong>in</strong> speziellen Problemfällen zeigten sich die e<strong>in</strong>zelnen Mitglieder immer <strong>in</strong>teressiert und offen<br />

mir gegenüber. Insbesonders möchte ich mich bei Jochen Friedrich, Mart<strong>in</strong> Herzog, Siegfried<br />

Kunzmann, Thomas Roß, Henrik Schulz und Bernhard Zeller bedanken. E<strong>in</strong> weiterer Dank<br />

an Kornelia Artmeyer, Wolfgang Karbste<strong>in</strong> und René Werth für die Herstellung des Kontakts<br />

nach Heidelberg.<br />

Insbesondere für das angenehme Klima und die vielen kle<strong>in</strong>en Hilfen möchte ich mich bei<br />

den Studenten der Abteilung bedanken, me<strong>in</strong> Dank gilt dabei vor allem Markus Dreyer,<br />

Markus Klehr und Christian Weiß. Außerdem geht e<strong>in</strong> großes Dankeschön an Katja Schlee,<br />

die den Classer und Parser von ShopTel stark verbesserte. Me<strong>in</strong> spezieller Dank geht an<br />

Jan Leimeister, der ebenfalls bei der IBM an se<strong>in</strong>er Diplomarbeit geschrieben hat. Er hatte


VI<br />

VORWORT<br />

immer e<strong>in</strong> offenes Ohr für me<strong>in</strong>e Fragen, trotz des immer näher rückenden Abgabeterm<strong>in</strong>s<br />

se<strong>in</strong>er eigenen Arbeit. Die Zusammenarbeit war sehr lehr- und hilfreich.<br />

Auch Jens-Uwe Möller gebührt e<strong>in</strong> Dankeschön für die Zurverfügungstellung se<strong>in</strong>er Dissertation<br />

und der zugehörigen Literatur. Beides hat mir sehr viele Anregungen für den Inhalt<br />

dieser Diplomarbeit gegeben.<br />

Die Erstellung dieser Arbeit <strong>in</strong> Heidelberg wurde jedoch auch von ganz anderer Seite unterstützt.<br />

Insbesondere für die engagierte Hilfe bei me<strong>in</strong>er mehrmaligen Zimmersuche möchte<br />

ich mich daher bei Eva-Maria Fridrich und Rebekka Metz<strong>in</strong>ger bedanken. Für me<strong>in</strong>e zwischenzeitliche<br />

Beherbung geht außerdem e<strong>in</strong> großes Dankeschön an Tim Gollisch und Andreas<br />

Schäfer, schließlich möchte ich mich bei Fatima von Holtey vom Feriendienst des AMH<br />

ausdrücklich bedanken. Ohne Euch alle hätte ich wohl doch unter e<strong>in</strong>er Neckarbrücke schlafen<br />

müssen...<br />

Desweiteren möchte ich mich an dieser Stelle bei den Bewohnern des Albertus-Magnus-Heims<br />

bedanken, <strong>in</strong>sbesondere für die jeweilige Unterstützung bei Markus Fuchs, Hoang Nguyen,<br />

Alex Notz und Manuel Ritter. E<strong>in</strong> weiteres Dankeschön geht an die Heimleitung.<br />

E<strong>in</strong> Dank für ihre Unterstützung und hilfreichen Kommentare geht an Mart<strong>in</strong> Glockemann,<br />

Henrik He<strong>in</strong>e und Susanne Jekat vom AB NatS. Susanne Walther aus Heidelberg gebührt<br />

Dank für ihre engagierte Literaturrecherche. Außerdem bedanke ich mich für die Hilfestellung<br />

u.a. <strong>in</strong> TEXnischen Fragen bei Kay Kröger aus Barsbüttel.<br />

Schließlich danke ich allen Testbenutzern, die me<strong>in</strong> System ausprobiert und bewertet haben,<br />

mich häufig mit Feedback versorgten und e<strong>in</strong>ige frustierende Erfahrungen mit der Technik<br />

sammeln konnten. Ohne die aus den Rückmeldungen gewonnen Erkenntnisse hätte ich<br />

ShopTel nicht so weit gebracht.<br />

E<strong>in</strong> ganz besonderer Dank geht an Sandra Ranft, die diese Zeit zwischen Hamburg und<br />

Heidelberg mit mir zusammen ausgehalten hat, mich sehr stark unterstützt hat und auch<br />

immer e<strong>in</strong> kritisches Auge auf die Arbeit hatte.<br />

Und schlußendlich möchte ich me<strong>in</strong>en Eltern danken, ohne die diese Arbeit <strong>in</strong> vielfältiger<br />

H<strong>in</strong>sicht nicht zustandegekommen wäre. Vielen Dank!<br />

Barsbüttel, den 20. Dezember 2000<br />

Stefan W. Hamerich


Inhaltsverzeichnis<br />

Vertraulichkeitsh<strong>in</strong>weis<br />

III<br />

Vorwort<br />

V<br />

Inhaltsverzeichnis<br />

VII<br />

Abbildungsverzeichnis<br />

XI<br />

Abkürzungsverzeichnis<br />

XIII<br />

Tabellenverzeichnis<br />

XVII<br />

1 E<strong>in</strong>leitung 1<br />

1.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2<br />

1.2 Vorgehensweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3<br />

2 E<strong>in</strong>führung <strong>in</strong> die Dialogtheorie 5<br />

2.1 Dialog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5<br />

2.2 E<strong>in</strong>heiten <strong>in</strong> Dialogen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6<br />

2.2.1 Dialoge<strong>in</strong>heiten aus Performanzsicht . . . . . . . . . . . . . . . . . . . 6<br />

2.2.2 Dialoge<strong>in</strong>heiten aus Systemsicht . . . . . . . . . . . . . . . . . . . . . 7<br />

2.3 Dialogstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9<br />

2.4 Dialogmodell und -steuerung . . . . . . . . . . . . . . . . . . . . . . . . . . . 9<br />

2.5 Dialogstrategie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />

2.6 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11<br />

2.7 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13


VIII<br />

INHALTSVERZEICHNIS<br />

3 Grundlagen von Dialogsystemen 15<br />

3.1 Dialogsystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

3.2 Komponenten e<strong>in</strong>es Dialogsystems . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

3.2.1 Sprache<strong>in</strong>gabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

3.2.2 Spracherkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

3.2.3 Pars<strong>in</strong>g . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />

3.2.4 Dialogkontrolle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

3.2.5 H<strong>in</strong>tergrundsystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

3.2.6 Antwortgenerierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

3.2.7 Sprachsynthese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

3.2.8 Sprachausgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

3.3 Konstruktion von Dialogsystemen . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

3.3.1 Spezifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

3.3.2 Dialogmaterial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />

3.3.3 Pars<strong>in</strong>gkomponente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

3.3.4 Dialogkomponente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

3.3.5 Backend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />

3.3.6 E<strong>in</strong>- und Ausgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />

3.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />

4 Dialogsysteme im Überblick 25<br />

4.1 Auskunftssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />

4.1.1 SPICOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />

4.1.2 SUNDIAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />

4.1.3 TABA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

4.1.4 Dialogos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29<br />

4.1.5 EVAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29<br />

4.1.6 JUPITER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br />

4.1.7 ISA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />

4.2 Aktionssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32<br />

4.2.1 TRAINS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32<br />

4.2.2 Carnegie Mellon Communicator . . . . . . . . . . . . . . . . . . . . . . 33<br />

4.3 Übersetzungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />

4.3.1 JANUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34<br />

4.3.2 VERBMOBIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />

4.4 Vergleich der verschiedenen Systeme . . . . . . . . . . . . . . . . . . . . . . . 37


INHALTSVERZEICHNIS<br />

IX<br />

5 SHOPTEL 39<br />

5.1 Ziele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />

5.2 Szenario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41<br />

5.3 Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41<br />

5.3.1 Telefonie-Modul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42<br />

5.3.2 Spracherkenner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42<br />

5.3.3 TTS-Modul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />

5.3.4 IVR-Hub . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />

5.3.5 Backend und Datenbank . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />

5.3.6 Grundlagen der NLU-Tools . . . . . . . . . . . . . . . . . . . . . . . . 44<br />

5.3.7 NLU ControlCenter . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />

5.3.8 Pars<strong>in</strong>g <strong>in</strong> den NLU-Tools . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />

5.3.9 Classer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47<br />

5.3.10 Canonicalizer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48<br />

5.3.11 Dialogverarbeitung <strong>in</strong> den NLU-Tools . . . . . . . . . . . . . . . . . . 49<br />

5.3.12 Parser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49<br />

5.3.13 Dialogmanager . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />

5.4 Konstruktion des Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52<br />

5.4.1 Spezifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52<br />

5.4.2 Dialogmaterial und Pars<strong>in</strong>gkomponente . . . . . . . . . . . . . . . . . 53<br />

5.4.3 Dialogkomponente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53<br />

5.4.4 Backend und Datenbank . . . . . . . . . . . . . . . . . . . . . . . . . . 54<br />

5.4.5 E<strong>in</strong>- und Ausgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54<br />

5.4.6 Konstruktionsaufwand . . . . . . . . . . . . . . . . . . . . . . . . . . . 54<br />

5.5 Evaluation des Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55<br />

5.5.1 Performanzevaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . 56<br />

5.5.2 Benutzerevaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57<br />

5.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58


X<br />

INHALTSVERZEICHNIS<br />

6 <strong>Dialogsegmente</strong> für Shopp<strong>in</strong>g-<strong>Anwendungen</strong> 61<br />

6.1 Menschliche Dialoge im Telefonmarket<strong>in</strong>g . . . . . . . . . . . . . . . . . . . . 61<br />

6.2 <strong>Dialogsegmente</strong> <strong>in</strong> SHOPTEL . . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />

6.3 Forms <strong>in</strong> SHOPTEL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64<br />

6.3.1 Form INIT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65<br />

6.3.2 Weitere Forms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67<br />

6.4 <strong>Strategien</strong> für SHOPTEL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69<br />

6.4.1 <strong>Strategien</strong> <strong>in</strong> SHOPTEL . . . . . . . . . . . . . . . . . . . . . . . . . . 70<br />

6.4.2 Alternative <strong>Strategien</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . 71<br />

6.4.3 Graphical ControlCenter . . . . . . . . . . . . . . . . . . . . . . . . . . 72<br />

6.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74<br />

7 Ausblick 77<br />

A IBM Tools für Telefoniesysteme 79<br />

A.1 IBM ViaVoice Telephony Toolkit . . . . . . . . . . . . . . . . . . . . . . . . . 79<br />

A.2 IBM ViaVoice Telephony Natural Language Tools . . . . . . . . . . . . . . . 79<br />

B SHOPTEL 81<br />

B.1 Beispieldialoge mit SHOPTEL . . . . . . . . . . . . . . . . . . . . . . . . . . 81<br />

B.1.1 Dialog I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81<br />

B.1.2 Dialog II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83<br />

B.1.3 Dialog III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84<br />

B.2 Vergebene Tags und Labels <strong>in</strong> SHOPTEL . . . . . . . . . . . . . . . . . . . . 87<br />

B.3 Performanzevaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87<br />

B.4 Fragebogen zur Evaluation von SHOPTEL . . . . . . . . . . . . . . . . . . . 88<br />

B.5 Auswertung des Fragebogens . . . . . . . . . . . . . . . . . . . . . . . . . . . 90<br />

Literaturverzeichnis 91<br />

Erklärung nach § 23 IX DPO 99


Abbildungsverzeichnis<br />

2.1 Ausgewählte Dialogakte aus VERBMOBIL . . . . . . . . . . . . . . . . . . . . . 8<br />

2.2 Verschiedene <strong>in</strong>itiale Systemprompts von NJFun . . . . . . . . . . . . . . . . 11<br />

2.3 Beispiel e<strong>in</strong>es Mensch-Masch<strong>in</strong>e-Dialogs . . . . . . . . . . . . . . . . . . . . . 12<br />

2.4 Dialogmodell für Beispieldialog . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />

4.1 Die Benutzeroberfläche von VERBMOBIL . . . . . . . . . . . . . . . . . . . . . . 36<br />

5.1 Architektur von ShopTel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42<br />

5.2 Beispielbaum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45<br />

5.3 Beispieläußerung für e<strong>in</strong>e Bestellung mit ShopTel . . . . . . . . . . . . . . . . 47<br />

5.4 Klassifizierte Beispieläußerung für Bestellung mit ShopTel . . . . . . . . . . . 48<br />

5.5 Baum der klassifizierten Beispieläußerung . . . . . . . . . . . . . . . . . . . . 48<br />

5.6 Beispieläußerungen für Bestellungen mit ShopTel . . . . . . . . . . . . . . . . 48<br />

5.7 Parse-Tree der klassifizierten Beispieläußerung . . . . . . . . . . . . . . . . . 50<br />

5.8 Parse-Tree von liefern sie bitte <strong>in</strong> die STREET NUM <strong>in</strong> NUM CITY“ ”<br />

. . . . 50<br />

5.9 Attribut-Wert-Paar der Beispieläußerung . . . . . . . . . . . . . . . . . . . . 52<br />

5.10 Beispieldialog für die Systemevaluation (ohne Systemäußerungen) . . . . . . 57<br />

6.1 Form INIT (gekürzt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66<br />

6.2 Der Slot PRODUCT (Ausschnitt aus dem Form LIST) . . . . . . . . . . . . . . 68<br />

6.3 Grobes Dialogmodell für Bestelldurchgang e<strong>in</strong>es bekannten Benutzers . . . . 71<br />

6.4 Ansicht des gCC mit MAINMENU von ShopTel . . . . . . . . . . . . . . . . . 72<br />

6.5 Ansicht des gCC mit PAYMENT von ShopTel . . . . . . . . . . . . . . . . . . 73<br />

A.1 Architektur des IBM ViaVoice Telephony Toolkit mit NLU-Tools . . . . . 80<br />

B.1 Fragebogen zur Evaluation von ShopTel (erste Seite) . . . . . . . . . . . . . . 88<br />

B.2 Fragebogen zur Evaluation von ShopTel (zweite Seite) . . . . . . . . . . . . . 89


XII<br />

ABBILDUNGSVERZEICHNIS


Abkürzungsverzeichnis<br />

A/D<br />

AI<br />

ASR<br />

AT&T<br />

Analog/Digital<br />

Artificial Intelligence<br />

Automatic Speech Recognition<br />

American Telephone & Telegraph Corporation (New York – USA)<br />

ATR Advanced Telecommunications Research Institute International (Kyoto –<br />

Japan)<br />

AWP<br />

BMBF<br />

BMFT<br />

BULM<br />

CFG<br />

cmp-lg<br />

CMU<br />

CoRR<br />

cs.AI<br />

cs.CL<br />

cs.DL<br />

CSELT<br />

CSLI<br />

DB<br />

DM<br />

DFKI<br />

DiaMoLE<br />

DS<br />

Attribut-Wert-Paar<br />

Bundesm<strong>in</strong>isterium für Bildung, Wissenschaft, Forschung und Technologie<br />

(Bonn + Berl<strong>in</strong>)<br />

Bundesm<strong>in</strong>isterium für Forschung und Technologie (Bonn; heute BMBF)<br />

bottom-up leftmost<br />

Context-Free Grammar<br />

The Computation and Language E-Pr<strong>in</strong>t Archive<br />

(http://www.arxiv.org/cmp-lg)<br />

Carnegie Mellon University (Pittsburgh – USA)<br />

The Comput<strong>in</strong>g Research Repository (http://www.arxiv.org/archive/cs/)<br />

,Artificial Intelligence‘-Archiv des CoRR<br />

,Computation and Language‘-Archiv des CoRR (Nachfolger von cmp-lg)<br />

,Digital Libraries‘-Archiv des CoRR<br />

Centro Studi e Laboratori Telecommunicazioni (Tur<strong>in</strong> – Italien)<br />

Center for the Study of Language and Information (Stanford – USA)<br />

Database<br />

Dialogue Manager<br />

Deutsches Forschungszentrum für Künstliche Intelligenz GmbH<br />

(Kaiserslautern + Saarbrücken)<br />

Dialogue Model Learn<strong>in</strong>g Environment (Systemumgebung – U Hamburg)<br />

Dialogue System


XIV<br />

ABKÜRZUNGSVERZEICHNIS<br />

DTMF<br />

ELOQUENS<br />

ESCA<br />

Dual Tone Multi-Frequency<br />

TTS-Komponente des CSELT<br />

European Speech Communication Association<br />

EVAR Erkennen, Verstehen, Antworten und Rückfragen (Dialogsystem –<br />

U Erlangen)<br />

FDM<br />

FORWISS<br />

Form-Based Dialog Manager<br />

Bayerisches Forschungszentrum für Wissensbasierte Systeme (Erlangen)<br />

FränKi Fränkisches K<strong>in</strong>o-Informationssystem (Dialogsystem –<br />

U Erlangen + FORWISS)<br />

GALAXY<br />

gCC<br />

GUI<br />

HMM<br />

HPSG<br />

IBM<br />

IEEE<br />

IPO<br />

ISA<br />

IVR<br />

JANUS<br />

JUPITER<br />

KI<br />

LM<br />

MIT<br />

MT<br />

NJFun<br />

NL<br />

NLP<br />

NLU<br />

NLU-Tools<br />

ODBC<br />

OOV<br />

PCFG<br />

PHOENIX<br />

Architekturmodell für Dialogsysteme vom MIT<br />

graphical ControlCenter<br />

Graphical User Interface<br />

Hidden-Markov-Modell<br />

Head-Driven Phrase Structure Grammar<br />

International Bus<strong>in</strong>ess Mach<strong>in</strong>es Corporation (Armonk – USA)<br />

Institute of Electrical & Electronics Eng<strong>in</strong>eers (New York – USA)<br />

Institute of Perception Research (E<strong>in</strong>dhoven – Niederlande)<br />

IBM Stau Applikation (IBM Deutschland)<br />

Interactive Voice Response<br />

Automatisches Übersetzungssystem (CMU + U Karlsruhe)<br />

Auskunftssystem für Wetterberichte (MIT)<br />

Künstliche Intelligenz<br />

Language Model<br />

Massachusetts Institute of Technology (Cambridge – USA)<br />

Mach<strong>in</strong>e Translation<br />

New Jersey Funplaces (Dialogsystem – AT&T)<br />

Natural Language<br />

Natural Language Process<strong>in</strong>g<br />

Natural Language Understand<strong>in</strong>g<br />

IBM ViaVoice Telephony Natural Language Tools<br />

Open Database Connectivity<br />

Out Of Vocabulary<br />

Probabilistic Context-Free Grammar<br />

Parser der CMU


ABKÜRZUNGSVERZEICHNIS<br />

XV<br />

POS<br />

RC<br />

SDS<br />

SDU<br />

SER<br />

SIL<br />

SMS<br />

SPHINX<br />

SPICOS<br />

SQL<br />

SR<br />

SUNDIAL<br />

TABA<br />

Tcl<br />

TRAINS<br />

TRUETALK<br />

TTS<br />

U<br />

Part Of Speech<br />

Return Code<br />

Spoken Dialogue System<br />

Semantic Dialogue Unit<br />

Slot Error Rate<br />

Semantic Interface Language<br />

Short Message Service<br />

Spracherkenner der CMU<br />

Siemens-Philips-IPO Cont<strong>in</strong>uous Speech Understand<strong>in</strong>g and Dialog<br />

(Dialogsystem)<br />

Structured Query Language<br />

Success Rate<br />

Speech Understand<strong>in</strong>g <strong>in</strong> Dialogue (Dialogsystem – u.a. CAP Gem<strong>in</strong>i,<br />

CSELT, Daimler-Benz, Siemens, U Erlangen, U Surrey – EU-Projekt)<br />

Telefonische Automatische Bahnfahrplan-Auskunft (Philips)<br />

Tool Command Language<br />

Dialogsystem auf Güterzug-Domäne (U Rochester – USA)<br />

TTS-Komponente der Firma Entropic<br />

Text To Speech<br />

Universität<br />

VERBMOBIL Automatisches Übersetzungsystem (u.a. DaimlerChrysler, DFKI, Philips,<br />

Siemens, U Erlangen, U Hamburg, U Karlsruhe, U des Saarlandes)<br />

VTT<br />

WER<br />

WOZ<br />

IBM ViaVoice Telephony Toolkit<br />

Word Error Rate<br />

Wizard Of Oz


XVI<br />

ABKÜRZUNGSVERZEICHNIS


Tabellenverzeichnis<br />

2.1 Sequenzen und Komponenten des Beispieldialogs . . . . . . . . . . . . . . . . 12<br />

2.2 Segmente und Dialogakte des Beispieldialogs . . . . . . . . . . . . . . . . . . 13<br />

4.1 Vergleich der vorgestellten Systeme . . . . . . . . . . . . . . . . . . . . . . . 38<br />

5.1 nötige Arbeiten bei der Entwicklung von ShopTel . . . . . . . . . . . . . . . . 55<br />

6.1 Slots im Form INIT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67


XVIII<br />

TABELLENVERZEICHNIS


Kapitel 1<br />

E<strong>in</strong>leitung<br />

Das wichtigste Kommunikationsmittel des Menschen ist und bleibt se<strong>in</strong>e Sprache. Daher<br />

ersche<strong>in</strong>t es nur logisch, sich auch <strong>in</strong> der Mensch-Masch<strong>in</strong>e-Interaktion der natürlichen Sprache<br />

zu bedienen, um dem Menschen e<strong>in</strong>en möglichst natürlichen Umgang mit Masch<strong>in</strong>en<br />

zu ermöglichen. In der zwischenmenschlichen Kommunikation ist der Dialog die vorherrschende<br />

Kommunikationsform. E<strong>in</strong>e Verwirklichung dieses Konzepts <strong>in</strong> sprachsignalverarbeitenden<br />

Systemen war lange Zeit nicht machbar, da die Schwierigkeiten, <strong>in</strong>sbesondere<br />

spontansprachliche Äußerungen zu erkennen, immens s<strong>in</strong>d. Seit e<strong>in</strong>iger Zeit ist es jedoch<br />

dank der stetig fortschreitenden technischen Entwicklung und der immer weiter wachsenden<br />

Rechenkapazität möglich, realitätsnahe Dialoge <strong>in</strong> gesprochen-sprachlichen Systemen s<strong>in</strong>nvoll<br />

zu verarbeiten. Als Beispiele hierfür seien das System SPICOS (siehe z.B. [Niedermair<br />

1987; Niedermair 1992]), das System EVAR (siehe u.a. [Ehrlich et al. 1992; Gallwitz et al.<br />

1998]) und der Forschungsprototyp VERBMOBIL (vgl. z.B. [Wahlster 1993a; von Hahn und<br />

Amtrup 1996; Wahlster 1997; Wahlster 2000]) erwähnt.<br />

Um Sprachsignale <strong>in</strong> gesprochen-sprachlichen Systemen verarbeiten zu können, werden Mikrofone<br />

e<strong>in</strong>gesetzt. Dabei s<strong>in</strong>d grundsätzlich verschiedene Arten von Mikrofonen denkbar,<br />

über die e<strong>in</strong> gesprochen-sprachliches System se<strong>in</strong>e E<strong>in</strong>gaben erhalten kann. Insbesondere für<br />

Dialogsysteme bieten sich beispielsweise Kopfbügelmikrofone (engl. headset) an, die auch <strong>in</strong><br />

mobilen Umgebungen e<strong>in</strong>gesetzt werden können. Doch auch die gewohnte Nutzung bereits<br />

aus dem Alltag bekannter Geräte, wie dem Telefon, stellt e<strong>in</strong>e s<strong>in</strong>nvolle Alternative dar.<br />

Zudem ermöglicht die starke Verbreitung von Mobiltelefonen e<strong>in</strong>e e<strong>in</strong>fache und praktische<br />

Benutzung von gesprochen-sprachlichen Systemen <strong>in</strong> jeder Situation.<br />

Telefonanwendungen stellen e<strong>in</strong>e besondere Schwierigkeit für gesprochen-sprachliche Systeme<br />

dar, da die Sprachsignalverarbeitung stark unter der ger<strong>in</strong>gen Bandbreite im Telefonkanal<br />

leidet. Zusätzlich können häufig Kanalstörungen die Sprachqualität stark verschlechtern 1 .<br />

Trotz dieser E<strong>in</strong>schränkungen s<strong>in</strong>d Telefonanwendungen seit den 90er Jahren immer häufiger<br />

im E<strong>in</strong>satz (siehe u.a. [Albesano et al. 1996; Aust und Schröer 1998b; Crestani 1998; Grävemeyer<br />

1998; Grävemeyer 1999a]). Dies liegt vor allem an der stetig steigenden Qualität<br />

der Spracherkenner, deren Erkennungsraten bei Sprachdaten aus Telefonleitungen <strong>in</strong> den<br />

letzten Jahren kont<strong>in</strong>uierlich verbessert wurden, und der mit dieser verbesserten Qualität<br />

e<strong>in</strong>hergehenden Verbreitung der Dialogsysteme. 2<br />

1 E<strong>in</strong>e frühe Schilderung dieser Probleme f<strong>in</strong>det sich <strong>in</strong> [Ney 1982].<br />

2 Zur näheren Darstellung der Spracherkennung <strong>in</strong> Telefoniesystemen siehe <strong>in</strong>sbesondere [Albesano et al.<br />

1996; Günther et al. 2000].


2 KAPITEL 1. EINLEITUNG<br />

1.1 Problemstellung<br />

Das Ziel der vorliegenden Arbeit bestand <strong>in</strong> der F<strong>in</strong>dung von passenden <strong>Dialogsegmente</strong>n<br />

und auf diesen fußenden <strong>Strategien</strong> <strong>in</strong> e<strong>in</strong>em Dialogsystem mit gegebener Softwareumgebung.<br />

Dabei sollten auch allgeme<strong>in</strong>e Segmente und <strong>Strategien</strong> herausgearbeitet werden. Zu diesem<br />

Zweck mußte zuerst e<strong>in</strong> System entworfen und implementiert werden, das e<strong>in</strong>en Dialog <strong>in</strong><br />

gesprochener Sprache mit e<strong>in</strong>em Benutzer erlaubt. Dieses System wurde als Telefonanwendung<br />

ausgeführt und mit Hilfe der IBM ViaVoice Telephony Natural Language Tools<br />

(vgl. u.a. [Davies et al. 1999; Pap<strong>in</strong>eni et al. 1999; Mast et al. 2000]) implementiert, welche<br />

auf der IBM-Spracherkennungstechnologie aufbauen, die heute als IBM ViaVoice (siehe z.B.<br />

[Bahl et al. 1993]) auch als Desktop-Produkt erfolgreich vermarktet wird. 3<br />

Als Anwendungsdomäne des im Rahmen dieser Arbeit zu entwickelnden Systems wurde<br />

die Bestellannahme e<strong>in</strong>es Versandhandels gewählt, um die <strong>in</strong> e<strong>in</strong>er so vielfältigen Umgebung<br />

existierenden verschiedenen Dialoge herauszustellen. Diese Vielfältigkeit wird noch verstärkt<br />

durch die Wahl von verschiedenen Produktkategorien, da die, <strong>in</strong> dieser Auswahl begründeten,<br />

unterschiedlichen Granularitäten und E<strong>in</strong>heiten zu e<strong>in</strong>er großen Vielfalt an lexikalischen,<br />

syntaktischen und semantischen Strukturen beitragen.<br />

Das entstandene System wurde auf Grund se<strong>in</strong>er Domäne und se<strong>in</strong>es E<strong>in</strong>gabekanals ShopTel<br />

genannt, es sollte mit dem System möglich se<strong>in</strong>, verschiedene Produkte e<strong>in</strong>fach zu bestellen.<br />

Dies war durch s<strong>in</strong>nvolle Anordnung der entsprechenden <strong>Dialogsegmente</strong> sicherzustellen, die<br />

garantieren, daß dieser Bestellvorgang möglichst natürlich implementiert wurde, ohne e<strong>in</strong>en<br />

Benutzer bei e<strong>in</strong>er Bestellung zu stark im Dialogverhalten zu bee<strong>in</strong>flussen. Gleichzeitig war<br />

jedoch auf die stete Erreichbarkeit des Dialogzieles zu achten. Der Umgang sollte sowohl<br />

erfahrenen, als auch ungeübten Benutzern möglich se<strong>in</strong>. ShopTel wurde aus diesem Grund<br />

während der Erstellung dieser Arbeit laufend überwacht und aufgetretene Fehler wurden<br />

dabei teilweise beseitigt. Trotz dieser laufenden Verbesserungen kann das System nur als<br />

Prototyp angesehen werden.<br />

Abschließend wurde ShopTel auf <strong>Dialogsegmente</strong> und <strong>Strategien</strong> für diese untersucht. Dabei<br />

wurden unterschiedliche, teilweise alternative, <strong>Strategien</strong> betrachtet. Um <strong>Dialogsegmente</strong><br />

<strong>in</strong> Dialogsystemen möglichst e<strong>in</strong>fach bearbeiten zu können, wurde e<strong>in</strong>e Systemumgebung,<br />

namens graphical ControlCenter (gCC) erstellt, welche die verschiedenen Aktionen e<strong>in</strong>es<br />

Dialogsystems analysiert und abbildet. Gleichzeitig sollte es mit dieser Umgebung möglich<br />

se<strong>in</strong>, unter Beachtung der Konsistenz des Gesamtsystems, unterschiedliche <strong>Strategien</strong> für<br />

Segmente <strong>in</strong> Dialogsystemen zu aktivieren.<br />

Das graphical ControlCenter wurde nicht nur für ShopTel erstellt. Es ist komplett anwendungsunabhängig,<br />

um damit auch weitere Dialogsysteme analysieren zu können.<br />

Die Betrachtung der verschiedenen <strong>Dialogsegmente</strong> erfolgte auch mit dem H<strong>in</strong>tergedanken, es<br />

für die Zukunft zu ermöglichen, auf der Basis e<strong>in</strong>es Grundgerüsts e<strong>in</strong> ”<br />

Natürlichsprachliches<br />

System“ schnell <strong>in</strong> e<strong>in</strong>er konkreten Domäne zur Anwendung zu br<strong>in</strong>gen. Zum Beispiel sollte<br />

e<strong>in</strong>e Anwendung schnell für e<strong>in</strong>en anderen Anbieter angepaßt werden können oder e<strong>in</strong>e<br />

e<strong>in</strong>fache Erweiterung bestehender Systeme möglich gemacht werden.<br />

3 Spracherkennung wird bei der IBM schon seit e<strong>in</strong>iger Zeit als Forschungsgegenstand gesehen, das hat dazu<br />

geführt, daß bereits 1986 der erste experimentelle Spracherkenner für e<strong>in</strong>en PC vorgestellt werden konnte<br />

(siehe [Averbuch et al. 1986]).


1.2. VORGEHENSWEISE 3<br />

1.2 Vorgehensweise<br />

Die Arbeit ist <strong>in</strong> 7 Kapitel gegliedert, der Inhalt der e<strong>in</strong>zelnen Kapitel wird im folgenden<br />

kurz erläutert.<br />

Zuerst müssen, um <strong>in</strong> dieser Arbeit auf Dialogsysteme und -segmente e<strong>in</strong>gehen zu können,<br />

die grundlegenden Begriffe, auf denen diese Betrachtung beruht, e<strong>in</strong>geführt werden. Daher<br />

wird <strong>in</strong> Kapitel 2 auf die notwendigen Term<strong>in</strong>i der Dialogtheorie e<strong>in</strong>gegangen, <strong>in</strong>sbesondere<br />

auf die Begriffe Dialog, Dialogmodell und Dialogstruktur. Außerdem wird der für diese Arbeit<br />

grundlegende Term<strong>in</strong>us des Dialogsegments e<strong>in</strong>geführt und erklärt.<br />

Aufbauend auf dem Begriff des Dialogs erfolgt <strong>in</strong> Kapitel 3 e<strong>in</strong>e Beschreibung der Grundlagen<br />

von Dialogsystemen. Dafür wird zuerst der Begriff Dialogsystem für diese Arbeit def<strong>in</strong>iert<br />

und äquivalent zum englischen Begriff conversational system der Term<strong>in</strong>us Konversationssystem<br />

e<strong>in</strong>geführt. Desweiteren werden die Komponenten e<strong>in</strong>es allgeme<strong>in</strong>en Dialogsystems<br />

näher dargestellt und abschließend die Konstruktion e<strong>in</strong>es solchen Systems beschrieben, wobei<br />

auch auf die Schwierigkeiten e<strong>in</strong>es solchen Prozesses e<strong>in</strong>gegangen wird.<br />

Nach der Klärung des Begriffs Dialogsystem und der Vorstellung e<strong>in</strong>es allgeme<strong>in</strong>en Systems<br />

<strong>in</strong> Kapitel 3 erfolgt <strong>in</strong> Kapitel 4 e<strong>in</strong> Überblick über bereits vorhandene Dialogsysteme, um<br />

das Umfeld des im Rahmen dieser Arbeit entstandenen Systems darzustellen. Das Kapitel ist<br />

<strong>in</strong> die Abschnitte Auskunftssysteme, Aktionssysteme und Übersetzungssysteme untergliedert,<br />

<strong>in</strong> denen verschiedenste Systeme e<strong>in</strong>ander gegenübergestellt werden.<br />

Schließlich wird <strong>in</strong> Kapitel 5 auf das im Rahmen dieser Arbeit entstandene System SHOPTEL<br />

e<strong>in</strong>gegangen. Hier werden die verschiedenen Komponenten des Systems erklärt, soweit sie<br />

sich von den allgeme<strong>in</strong>en, <strong>in</strong> Kapitel 3 dargestellten, unterscheiden. Es wird auch auf die<br />

Implementation und die Besonderheiten des Systems e<strong>in</strong>gegangen. Desweiteren wird die<br />

Systemevaluation beschrieben.<br />

Kapitel 6 beschäftigt sich mit <strong>Dialogsegmente</strong>n, hier werden die aus ShopTel entwickelten<br />

<strong>Dialogsegmente</strong> und Forms näher betrachtet und ihre Verwendbarkeit <strong>in</strong> weiteren <strong>Anwendungen</strong><br />

bewertet. Es wird zudem auf die Besonderheiten der Domäne von ShopTel e<strong>in</strong>gegangen.<br />

Außerdem wird die ebenfalls im Zuge dieser Arbeit erstellte Systemumgebung<br />

graphical ControlCenter vorgestellt. Diese Umgebung ermöglicht e<strong>in</strong>e anwendungsunabhängige<br />

Analyse von Dialogsystemen, die mit den IBM ViaVoice Telephony Natural<br />

Language Tools erstellt worden s<strong>in</strong>d. Es ist damit auch möglich, verschiedene <strong>Dialogsegmente</strong><br />

schnell <strong>in</strong> e<strong>in</strong>em System zum E<strong>in</strong>satz zu br<strong>in</strong>gen.<br />

Abschließend erfolgt <strong>in</strong> Kapitel 7 e<strong>in</strong> Ausblick auf weitere Möglichkeiten und Entwicklungen<br />

<strong>in</strong> diesem Gebiet.<br />

Im Anhang werden die beiden Basiswerkzeuge von ShopTel, das IBM ViaVoice Telephony<br />

Toolkit und die IBM ViaVoice Telephony Natural Language Tools näher beschrieben.<br />

Desweiteren werden e<strong>in</strong>ige Dialoge mit ShopTel wiedergegeben, die auch für die Evaluation<br />

benutzt wurden. Auch der Fragebogen für die Benutzerevaluation ist im Anhang abgebildet.


4 KAPITEL 1. EINLEITUNG


Kapitel 2<br />

E<strong>in</strong>führung <strong>in</strong> die Dialogtheorie<br />

In diesem Kapitel werden die für diese Arbeit essentiellen Begriffe der Dialogtheorie 1 e<strong>in</strong>geführt<br />

und erklärt. Auf e<strong>in</strong>e formelle l<strong>in</strong>guistische Betrachtung der entsprechenden Term<strong>in</strong>i<br />

soll im folgenden allerd<strong>in</strong>gs verzichtet werden. Vielmehr steht e<strong>in</strong>e kurze begriffliche<br />

E<strong>in</strong>führung im Vordergrund, ohne dabei auf die Besonderheiten des IBM-Systems e<strong>in</strong>zugehen.<br />

Die Behandlung e<strong>in</strong>es Dialogs <strong>in</strong> ShopTel ist daher Bestandteil der Abschnitte 5.3.6 ff.<br />

2.1 Dialog<br />

Um <strong>Dialogsegmente</strong> <strong>in</strong> dieser Arbeit behandeln zu können, bedarf es zuerst e<strong>in</strong>er grundsätzlichen<br />

Def<strong>in</strong>ition und E<strong>in</strong>ordnung des Begriffs ”<br />

Dialog“ (engl. dialogue; amer. dialog). Laut<br />

[Drosdowski 1990] ist e<strong>in</strong> Dialog e<strong>in</strong> Gespräch, das zwischen zwei Gruppierungen geführt<br />

wird, um sich und die gegenseitigen Standpunkte kennenzulernen oder e<strong>in</strong>e von zwei Personen<br />

abwechselnd geführte Rede und Gegenrede. [Lewandowski 1979] def<strong>in</strong>iert e<strong>in</strong>en Dialog als<br />

partnerbezogenes Zwiegespräch, e<strong>in</strong>e Form der <strong>in</strong>teraktionalen Kommunikation, bei der thematisch<br />

und/oder situativ bestimmte, <strong>in</strong>tentional gesteuerte Äußerungen an e<strong>in</strong>en Partner<br />

gerichtet und beantwortet werden. In [Bunt 1989] wird e<strong>in</strong> <strong>in</strong>formation dialogue e<strong>in</strong>geführt,<br />

der e<strong>in</strong>e zweckgebundene, sprachliche Handlung bezeichnet, die der Übertragung oder dem<br />

Erhalt von Informationen dient. [Niedermair 1992] sieht e<strong>in</strong>en Dialog als e<strong>in</strong> Frage-Antwort-<br />

Schema an, das die Möglichkeit be<strong>in</strong>haltet, unentscheidbare Fragen mit e<strong>in</strong>em Dialogpartner<br />

zu klären, auch mit Bezug auf bereits getätigte Äußerungen. Schließlich wird <strong>in</strong> [Schmitz<br />

1997] e<strong>in</strong> Dialog als soziale Interaktion beschrieben, die durch zwei wichtige Pr<strong>in</strong>zipien bestimmt<br />

ist: wechselseitige Initiative und Kooperation.<br />

In der vorliegenden Arbeit soll <strong>in</strong> Anlehnung an [Möller 1999] unter e<strong>in</strong>em Dialog e<strong>in</strong>e<br />

zielorientierte Interaktion zwischen zwei Partnern verstanden werden. Diese Interaktion muß<br />

im S<strong>in</strong>ne von Möller nicht notwendigerweise re<strong>in</strong> sprachlicher Natur se<strong>in</strong>. Die Interaktion mit<br />

e<strong>in</strong>em System durch die ausschließlich taktile Bedienung von Menüs kann somit ebenfalls<br />

als Dialog angesehen werden. 2 In dieser Arbeit wird unter e<strong>in</strong>em Dialog grundsätzlich e<strong>in</strong>e<br />

1 In der allgeme<strong>in</strong>en L<strong>in</strong>guistik werden Dialoge als e<strong>in</strong>e Sonderform des Gesprächs angesehen und ihre<br />

Betrachtung damit als Teil der Gesprächsanalyse verstanden (vgl. u.a. [L<strong>in</strong>ke et al. 1994]). Da bei den <strong>in</strong><br />

dieser Arbeit vorgestellten sprachgesteuerten Systemen aber nur Gespräche zwischen zwei Partnern möglich<br />

s<strong>in</strong>d, soll im folgenden der Term<strong>in</strong>us ”<br />

Dialog“ als gleichberechtigt zum ”<br />

Gespräch“ angesehen werden.<br />

2 Siehe dazu z.B. [Hamerich 1999].


6 KAPITEL 2. EINFÜHRUNG IN DIE DIALOGTHEORIE<br />

sprachliche Interaktion entweder zwischen Menschen oder zwischen e<strong>in</strong>em (menschlichen)<br />

Benutzer und e<strong>in</strong>em System verstanden. Dies wird auch <strong>in</strong> Def<strong>in</strong>ition 2.1 wiedergegeben.<br />

Def<strong>in</strong>ition 2.1 E<strong>in</strong> Dialog ist e<strong>in</strong>e zielorientierte sprachliche Interaktion zwischen zwei<br />

Partnern. Er besteht aus Untere<strong>in</strong>heiten, die e<strong>in</strong>er Dialogstruktur folgen.<br />

E<strong>in</strong>e solche sprachliche Interaktion basiert <strong>in</strong> e<strong>in</strong>em gesprochen-sprachlichen Dialog auf e<strong>in</strong>er<br />

Menge von sprachlichen Äußerungen zweier Partner. Die Äußerung wird im folgenden<br />

def<strong>in</strong>iert.<br />

Def<strong>in</strong>ition 2.2 Als Äußerung wird der Beitrag e<strong>in</strong>es Gesprächsteilnehmers zu e<strong>in</strong>em Dialog<br />

bezeichnet. E<strong>in</strong>e Äußerung wird durch e<strong>in</strong>en Sprecherwechsel begrenzt.<br />

Im folgenden Abschnitt werden die verschiedenen Untere<strong>in</strong>heiten e<strong>in</strong>es allgeme<strong>in</strong>en Dialogs<br />

vorgestellt und e<strong>in</strong>geführt. Dabei wird vor allem darauf geachtet, die Systemsicht der Performanzsicht<br />

gegenüberzustellen und diese Trennung möglichst deutlich zu machen.<br />

2.2 E<strong>in</strong>heiten <strong>in</strong> Dialogen<br />

Die oberste Betrachtungsebene dieser Arbeit, sowohl im System wie auch aus Benutzersicht,<br />

ist der Dialog. Der Dialog wird jedoch aus Performanzsicht als e<strong>in</strong>e Menge von sprachlichen<br />

Äußerungen begriffen, während er aus der Systemsicht vornehmlich dem Erreichen e<strong>in</strong>es<br />

Dialogziels dient. Aus dieser Unterscheidung folgen verschiedenen E<strong>in</strong>heiten e<strong>in</strong>es Dialogs.<br />

Auf diese E<strong>in</strong>heiten der jeweiligen Sichten wird daher <strong>in</strong> den beiden folgenden Abschnitten<br />

näher e<strong>in</strong>gegangen.<br />

2.2.1 Dialoge<strong>in</strong>heiten aus Performanzsicht<br />

Bei der Betrachtung der E<strong>in</strong>heiten e<strong>in</strong>es Dialogs aus Performanzsicht dienen gesprochene<br />

Dialoge als Datengrundlage. Im allgeme<strong>in</strong>en wird e<strong>in</strong> Dialog <strong>in</strong> drei Phasen unterteilt (siehe<br />

z.B. [Mast 1993; L<strong>in</strong>ke et al. 1994]). Dabei werden e<strong>in</strong>e E<strong>in</strong>leitungsphase, e<strong>in</strong> Haupteil und<br />

e<strong>in</strong>e Schlußphase unterschieden. Diese Unterteilung ist allerd<strong>in</strong>gs sehr grob, um e<strong>in</strong>e fe<strong>in</strong>ere<br />

Unterteilung vornehmen zu können, wurde <strong>in</strong> [Jekat-Rommel 1994] e<strong>in</strong> gesprochener Dialog<br />

<strong>in</strong> verschiedene Sequenzen unterteilt. E<strong>in</strong>e Sequenz wird dabei als zusammengehöriger Teil<br />

e<strong>in</strong>es Dialogs angesehen und besteht aus m<strong>in</strong>destens zwei Komponenten. E<strong>in</strong>e Komponente<br />

wird dabei laut Jekat-Rommel als konstituierender Teil e<strong>in</strong>er Sequenz mit e<strong>in</strong>em bestimmten<br />

Inhalt und verschiedenen sprachlichen Realisationsmöglichkeiten angesehen. Die Komponenten<br />

selber bestehen aus <strong>in</strong>haltlich zusammenhängenden Äußerungen 3 e<strong>in</strong>es Sprechers. Diese<br />

stellen somit die Basise<strong>in</strong>heiten e<strong>in</strong>es Dialogs aus der Performanzsicht dar. E<strong>in</strong>e weitergehende<br />

Betrachtung von Äußerungen soll <strong>in</strong> dieser Arbeit allerd<strong>in</strong>gs nicht erfolgen. In Def<strong>in</strong>ition<br />

2.3 s<strong>in</strong>d diese Zusammenhänge noch e<strong>in</strong>mal dargestellt.<br />

Def<strong>in</strong>ition 2.3 E<strong>in</strong> Dialog besteht aus Performanzsicht aus Sequenzen. E<strong>in</strong>e Sequenz ist<br />

e<strong>in</strong> <strong>in</strong>haltlich zusammengehöriger Teil e<strong>in</strong>es Dialogs und besteht aus Komponenten, die sich<br />

aus Äußerungen zusammensetzen. Jede Sequenz erfüllt e<strong>in</strong> anderes Teilziel e<strong>in</strong>es Dialogs,<br />

wobei <strong>in</strong> e<strong>in</strong>em abgeschlossenen Dialog die Summe der e<strong>in</strong>zelnen Teilziele das Dialogziel<br />

enthält.<br />

3 Vgl. Def<strong>in</strong>ition der Äußerung <strong>in</strong> Def. 2.2.


2.2. EINHEITEN IN DIALOGEN 7<br />

Die Reihenfolge der Sequenzen ist <strong>in</strong> [Jekat-Rommel 1994] für e<strong>in</strong>ige VERBMOBIL-Dialoge verglichen<br />

worden und es wurde festgestellt, daß sie stets gleich ist, während bei Komponenten<br />

e<strong>in</strong>e gewisse Variation <strong>in</strong>nerhalb der e<strong>in</strong>zelnen Sequenzen festgestellt wurde. Der Vorteil dieser<br />

Unterteilung wurde vor allem dar<strong>in</strong> gesehen, daß durch die feste Ordnung der Sequenzen<br />

registriert werden kann, ob beim Übergang von e<strong>in</strong>er Sequenz <strong>in</strong> die nächste alle notwendigen<br />

Informationen für e<strong>in</strong>e Sequenz geliefert worden s<strong>in</strong>d. Dieses Modell stellt damit die<br />

Basis für Dialogmanager dar (siehe Abschnitt 3.2.4).<br />

In VERBMOBIL (siehe Abschnitt 4.3.2) wurden u.a. folgende Sequenzen herausgearbeitet:<br />

Begrüßgung, Vorstellung, Grund e<strong>in</strong>er Term<strong>in</strong>absprache, Entscheidung, etc. (siehe [Jekat-<br />

Rommel 1994]). Aus diesen Sequenzen ist ersichtlich, daß deren Def<strong>in</strong>ition domänenabhängig<br />

ist. Sequenzen mit ihren jeweiligen Komponenten können <strong>in</strong> verschiedenen Domänen vollkommen<br />

unterschiedlich repräsentiert werden.<br />

In dieser Arbeit möchte ich das Konzept der Komponenten und Sequenzen übernehmen,<br />

allerd<strong>in</strong>gs verstehe ich die Sequenz <strong>in</strong> ihrer Granularität etwas fe<strong>in</strong>er als bei Jekat-Rommel.<br />

Sequenzen werden hier ebenfalls mit den entsprechenden Inhalt repräsentierenden Namen<br />

versehen und können auch nur aus e<strong>in</strong>er e<strong>in</strong>zigen Dialogkomponente bestehen. Dies wird<br />

anhand e<strong>in</strong>es Beispiels <strong>in</strong> Abschnitt 2.6 illustriert.<br />

2.2.2 Dialoge<strong>in</strong>heiten aus Systemsicht<br />

Auch bei Dialogsystemen wird der Dialog als Betrachtungsgegenstand angesehen. Dieser<br />

steht damit ebenfalls <strong>in</strong> der obersten Betrachtungsebene und bedarf somit gleichfalls e<strong>in</strong>er<br />

weiteren Unterteilung. Bevor jedoch E<strong>in</strong>heiten e<strong>in</strong>es Dialogs aus Systemsicht beschrieben<br />

werden können, müssen bestimmte Rahmenbed<strong>in</strong>gungen für e<strong>in</strong> Dialogsystem erfüllt se<strong>in</strong>.<br />

So müssen beispielsweise die Domäne, der Aufgabenbereich des Systems, der Systemtyp<br />

und das Dialogziel def<strong>in</strong>iert werden. Wenn dieses Dialogziel <strong>in</strong> kle<strong>in</strong>ere E<strong>in</strong>heiten unterteilt<br />

werden kann, können Dialoge<strong>in</strong>heiten aus Systemsicht bestimmt werden.<br />

E<strong>in</strong>e Bestimmung dieser E<strong>in</strong>heiten ist jedoch nur dann s<strong>in</strong>nvoll, wenn für die Domäne des<br />

vorliegenden Dialogsystems auch verschiedene Sequenzen von möglichen Benutzern vorliegen.<br />

E<strong>in</strong> solcher Fall liegt beispielsweise bei dem dieser Arbeit zugrundeliegenden System<br />

ShopTel vor. E<strong>in</strong>e Bestellung (Dialogziel) zerfällt bei diesem System <strong>in</strong> verschiedene Sequenzen<br />

(z.B. Anmeldung, Auswahl, Bezahlung, etc.). Zu diesen Sequenzen aus Benutzersicht<br />

bedarf es e<strong>in</strong>er E<strong>in</strong>heit im Dialog aus Systemsicht, um diese im System gegene<strong>in</strong>ander<br />

abzugrenzen und somit deren erfolgreiche Abarbeitung <strong>in</strong> e<strong>in</strong>em Dialogsystem <strong>in</strong> e<strong>in</strong>er bestimmten<br />

Reihenfolge zu gewährleisten.<br />

Diese E<strong>in</strong>heit modelliert <strong>in</strong> e<strong>in</strong>em Dialogsystem als Äquivalent zur Sequenz e<strong>in</strong>en zusammengehörigen<br />

Teil <strong>in</strong> e<strong>in</strong>em Dialog und bildet somit e<strong>in</strong>e Sequenz mit ihren jeweiligen Komponenten<br />

<strong>in</strong> e<strong>in</strong>em Dialogsystem ab. Aus Mangel an bisherigen Ergebnissen auf diesem Gebiet,<br />

habe ich diese E<strong>in</strong>heit Dialogsegment genannt. Dieses wird im folgenden def<strong>in</strong>iert.<br />

Def<strong>in</strong>ition 2.4 Wenn bei e<strong>in</strong>em betrachteten Dialog für e<strong>in</strong> Dialogsystem mehrere Dialogsequenzen<br />

vorliegen, können diese als E<strong>in</strong>heiten <strong>in</strong> e<strong>in</strong>em Dialogsystem abgebildet werden.<br />

Diese Abbildung wird Dialogsegment genannt. E<strong>in</strong> Dialog besteht demnach aus Systemsicht<br />

aus <strong>Dialogsegmente</strong>n, die sich jeweils <strong>in</strong> Dialogakte untergliedern.<br />

Die Basise<strong>in</strong>heit des Dialogs aus Systemsicht, der Dialogakt, steht der Äußerung als Basise<strong>in</strong>heit<br />

aus Benutzersicht gegenüber. Allerd<strong>in</strong>gs kann e<strong>in</strong>e Äußerung auch mehrere Dialogakte


8 KAPITEL 2. EINFÜHRUNG IN DIE DIALOGTHEORIE<br />

bezeichnen, wie auch e<strong>in</strong> Dialogakt aus mehreren Äußerungen bestehen kann. Der Dialogakt<br />

wird vor allem def<strong>in</strong>iert, um diesen E<strong>in</strong>heiten e<strong>in</strong>e Semantik zuordnen zu können. Er wird<br />

verwendet, um damit e<strong>in</strong>e leichtere und differenziertere Verarbeitung der e<strong>in</strong>zelnen Äußerungen<br />

zu erreichen.<br />

In der Theorie ist die Basise<strong>in</strong>heit e<strong>in</strong>es jeden Dialogsystems der Dialogakt, allerd<strong>in</strong>gs endet<br />

vielfach die Sichtbarkeitsebene vor dieser E<strong>in</strong>heit, so daß <strong>in</strong> e<strong>in</strong>igen Dialogsystemen ke<strong>in</strong>e<br />

Dialogakte def<strong>in</strong>iert werden. Statt dessen besteht jedoch die Möglichkeit, konkreten Beispieldaten<br />

e<strong>in</strong>e Semantik zuzuordnen. Dieses Vorgehen bietet sich vor allem für Domänen<br />

an, die ke<strong>in</strong>e sehr differenzierte Betrachtung e<strong>in</strong>zelner Äußerungen benötigen, dagegen ist es<br />

<strong>in</strong> Übersetzungssystemen fast unerläßlich, Dialogakte e<strong>in</strong>zuführen.<br />

Da ShopTel nicht auf Dialoge<strong>in</strong>heiten im klassischen S<strong>in</strong>ne beruht, dient die E<strong>in</strong>führung<br />

dieser im folgenden nur dem besseren Verständnis e<strong>in</strong>zelner, <strong>in</strong> Kapitel 4 vorgestellter, Dialogsysteme,<br />

die auf Dialogakte zurückgreifen.<br />

Wenn e<strong>in</strong> Dialogsystem auf diesen Dialoge<strong>in</strong>heiten beruht, werden diese als Basise<strong>in</strong>heiten<br />

angesehen und als Sprech- oder Dialogakte (vgl. u.a. [Bunt 1981; Mast 1993]) bezeichnet. E<strong>in</strong><br />

Dialog besteht somit aus e<strong>in</strong>er Folge von Dialogakten, die als kle<strong>in</strong>ste beschreibende E<strong>in</strong>heit<br />

von Dialogen def<strong>in</strong>iert werden (siehe z.B. [Alexandersson et al. 1995; Jekat et al. 1995; Mast<br />

et al. 1996]).<br />

Da Dialogakte immer sehr von der Umgebung des Systems, <strong>in</strong> dem sie verwendet werden,<br />

abhängen, gibt es ke<strong>in</strong>e allgeme<strong>in</strong>gültigen Dialogakte. E<strong>in</strong>en allgeme<strong>in</strong>en Überblick über<br />

Dialogakte <strong>in</strong> verschiedenen Systemen gibt [Möller 1999]. Auf Abbildung 2.1 werden e<strong>in</strong>ige<br />

ausgewählte Dialogakte dargestellt, die im Rahmen des Verbundvorhabens VERBMOBIL <strong>in</strong><br />

der Domäne ”<br />

Term<strong>in</strong>vere<strong>in</strong>barung“ def<strong>in</strong>iert wurden.<br />

accept<br />

bye<br />

commit<br />

greet<br />

<strong>in</strong>it<br />

<strong>in</strong>troduction<br />

reject<br />

suggest<br />

explizite Akzeptanz e<strong>in</strong>es Vorschlages<br />

Verabschiedung e<strong>in</strong>es Dialogpartners vom anderen<br />

explizite Annahme e<strong>in</strong>es Vorschlages<br />

Begrüßung e<strong>in</strong>es Dialogteilnehmers<br />

E<strong>in</strong>führung des Themas<br />

Vorstellung der eigenen Person<br />

Ablehnung e<strong>in</strong>es Vorschlages<br />

expliziter Vorschlag <strong>in</strong> aktueller Domäne<br />

(nach [Jekat et al. 1995; Alexandersson et al. 1997; Alexandersson et al. 1998])<br />

Abbildung 2.1: Ausgewählte Dialogakte aus VERBMOBIL<br />

Die hier e<strong>in</strong>geführten Begriffe und Zusammenhänge werden <strong>in</strong> Abschnitt 2.6 an e<strong>in</strong>em Beispiel<br />

verdeutlicht.<br />

Die <strong>in</strong> diesem Abschnitt e<strong>in</strong>geführten Dialoge<strong>in</strong>heiten komplettieren den Begriff des Dialogs.<br />

Daher wird im folgenden e<strong>in</strong>e neue Def<strong>in</strong>ition für den Dialog wiedergegeben, die als<br />

Erweiterung zu Def<strong>in</strong>ition 2.1 zu verstehen ist:<br />

Def<strong>in</strong>ition 2.5 E<strong>in</strong> Dialog ist e<strong>in</strong>e zielorientierte sprachliche Interaktion zwischen zwei<br />

Partnern. Er besteht aus Benutzersicht aus e<strong>in</strong>er Folge von Sequenzen, die auf Äußerungen<br />

basieren. Korrespondierend mit den Sequenzen besteht e<strong>in</strong> Dialog aus Systemsicht aus


2.3. DIALOGSTRUKTUR 9<br />

e<strong>in</strong>er Folge von Segmenten, basierend auf Dialogakten. Letztere korrespondieren mit den<br />

Äußerungen.<br />

Die Sequenzen und Segmente folgen der Dialogstruktur, die Bestandteil des Dialogmodells<br />

ist.<br />

Wie <strong>in</strong> Def<strong>in</strong>ition 2.5 beschrieben, wird für die Verarbeitung von Dialogen <strong>in</strong> e<strong>in</strong>em Dialogsystem<br />

e<strong>in</strong>e Struktur benötigt, um nach e<strong>in</strong>er Analyse e<strong>in</strong>e Modellierung durchführen<br />

zu können, die dann <strong>in</strong> e<strong>in</strong>em System implementiert werden kann. Der folgende Abschnitt<br />

beschäftigt sich daher mit der Strukturierung von Dialogen.<br />

2.3 Dialogstruktur<br />

E<strong>in</strong>e Dialogstruktur kann sowohl über bereits vorhandene Dialogdaten, als auch über e<strong>in</strong>en<br />

Dialog aus Systemsicht erstellt werden. Im folgenden wird allerd<strong>in</strong>gs von dieser Sicht abstrahiert<br />

und es wird nur die allgeme<strong>in</strong>e Erstellung e<strong>in</strong>er Dialogstruktur betrachtet. Als<br />

Dialoge<strong>in</strong>heiten werden demzufolge die entsprechenden E<strong>in</strong>heiten aus jeder Sicht angesehen.<br />

In der Dialogstruktur s<strong>in</strong>d die gesamten Regeln für den Ablauf e<strong>in</strong>es Dialogs enthalten. Diese<br />

Struktur ist zusammen mit den Dialoge<strong>in</strong>heiten wesentlicher Bestandteil des Dialogmodells<br />

und stellt damit das Gerüst für die Dialoge<strong>in</strong>heiten dar. Für die Repräsentation der Dialogstruktur<br />

existieren zwei Ansätze: Planbasierte Repräsentationen (vgl. z.B. [Allen et al.<br />

1982]) und Diskursgrammatiken (siehe u.a. [Bunt 1989]). Es gibt aber auch die Möglichkeit,<br />

beide Ansätze mite<strong>in</strong>ander zu komb<strong>in</strong>ieren, wie z.B. im System VERBMOBIL geschehen (vgl.<br />

[Alexandersson et al. 1995]).<br />

Üblicherweise wird e<strong>in</strong> Dialog <strong>in</strong> e<strong>in</strong>em Dialogsystem auf e<strong>in</strong>em Dialogmodell def<strong>in</strong>iert und<br />

über e<strong>in</strong> eigenes Systemmodul ausgewertet. Beides ist daher Thema des nächsten Abschnitts.<br />

2.4 Dialogmodell und -steuerung<br />

Das Dialogmodell ist die Basis e<strong>in</strong>es Dialogs und beschreibt die erwarteten Äußerungen<br />

von e<strong>in</strong>zelnen Dialogteilnehmern (vgl. [Jekat et al. 1995]). Folglich kann man e<strong>in</strong> Dialogmodell<br />

auch als Wissensbasis e<strong>in</strong>er Dialogsteuerung <strong>in</strong> e<strong>in</strong>em Dialogsystem beschreiben. Im<br />

allgeme<strong>in</strong>en ist e<strong>in</strong> solches Modell aus Dialogakten, Dialogstrukturen und e<strong>in</strong>er Interpretationsvorschrift<br />

aufgebaut.<br />

Die Aufgabe e<strong>in</strong>es solchen Modells <strong>in</strong> e<strong>in</strong>em Dialogsystem ist nach [Möller 1999] die Beschreibung<br />

des Dialogflusses <strong>in</strong> der Art, daß e<strong>in</strong>e Benutzeräußerung s<strong>in</strong>nvoll von e<strong>in</strong>er Dialogsteuerung<br />

<strong>in</strong>terpretiert und e<strong>in</strong>e adäquate Reaktion darauf vom System <strong>in</strong>itiiert werden<br />

kann.<br />

Die Dialogsteuerung besteht aus den Interpretationsvorschriften, die <strong>in</strong> das Dialogmodell<br />

e<strong>in</strong>gehen. Diese Interpretationsvorschriften s<strong>in</strong>d über e<strong>in</strong>zelnen Dialoge<strong>in</strong>heiten def<strong>in</strong>iert,<br />

anwendungsabhängig und dienen <strong>in</strong>sgesamt dem Erreichen e<strong>in</strong>es Dialogziels. Die Dialogsteuerung<br />

ist meist als eigenes Systemmodul <strong>in</strong> e<strong>in</strong>em Dialogsystem <strong>in</strong>tegriert und stellt <strong>in</strong><br />

diesem Fall die zentrale Steuerungse<strong>in</strong>heit e<strong>in</strong>es Dialogsystems dar. Die Basis der Dialogsteuerung<br />

ist das Dialogmodell.


10 KAPITEL 2. EINFÜHRUNG IN DIE DIALOGTHEORIE<br />

2.5 Dialogstrategie<br />

<strong>Strategien</strong>, die <strong>in</strong> e<strong>in</strong>em Dialog angewendet werden, um e<strong>in</strong> Dialogziel besser und schneller zu<br />

erreichen, werden Dialogstrategien genannt. Dabei können diese <strong>Strategien</strong> ganz allgeme<strong>in</strong><br />

oder speziell im Kontext e<strong>in</strong>es Dialogs bestimmt werden. Dialogstrategien werden auch von<br />

menschlichen Dialogpartnern angewandt, beispielsweise kann e<strong>in</strong> Dialog freundlich, zielstrebig,<br />

hastig oder umständlich geführt werden (siehe [Mast 1993]). Bei der Implementation<br />

von Dialogstrategien ist es laut Mast allerd<strong>in</strong>gs sehr viel wichtiger, e<strong>in</strong>en Dialog unter unterschiedlichen<br />

Randbed<strong>in</strong>gungen zu optimieren, als diese menschlichen <strong>Strategien</strong> zu realisieren.<br />

[Möller 1999] ordnet Dialogstrategien <strong>in</strong> bestimmte Gruppen e<strong>in</strong> und bezeichnet e<strong>in</strong>e Dialogstrategie<br />

als den zugrundeliegenden Charakter der Interaktion von Dialogpartnern. Bei<br />

Dialogsystemen bestimmt er e<strong>in</strong>e Strategie durch das Systemverhalten (aktiv oder <strong>in</strong>aktiv)<br />

und durch die Interaktionsart (direktiv, reaktiv, kooperativ oder konkurrierend) und<br />

unterscheidet damit folgende grundsätzliche Dialogstrategien:<br />

• Direktive Dialogstrategie liegt bei der Verwendung von Kommandosprachen vor. Dabei<br />

ist das Systemverhalten meist passiv, das System wartet also auf Kommandos, die es<br />

dann ausführt.<br />

• Reaktive Dialogstrategie, auch als gesteuerter (engl. directed) Dialog bezeichnet. Bei<br />

dieser Strategie folgt auf jede Frage genau e<strong>in</strong>e Antwort. Informationssysteme, an<br />

die e<strong>in</strong> Benutzer e<strong>in</strong>fache Fragen stellen kann, s<strong>in</strong>d dabei passive Varianten. Bei der<br />

Verwendung von Kommandos liegt allerd<strong>in</strong>gs e<strong>in</strong>e direktive Strategie vor.<br />

• Kooperative Dialogstrategie zeichnet sich durch e<strong>in</strong>e Mischung von aktiven und passiven<br />

Phasen aus, beide Dialogpartner können also die Initiative übernehmen (siehe<br />

z.B. [Walker et al. 1997]). Allerd<strong>in</strong>gs müssen <strong>in</strong> diesem Fall immer die Benutzerabsichten<br />

erkannt werden, dazu sollte auch e<strong>in</strong>e Überbeantwortung von Fragen im System<br />

verarbeitet werden können.<br />

• Konkurrierende Dialogstrategie, bei dieser Strategie wollen beide Dialogpartner e<strong>in</strong> Ziel<br />

gegenüber dem jeweilig anderen durchsetzen. Dafür ist auch e<strong>in</strong>e Verhandlung mit dem<br />

Dialogpartner nötig.<br />

E<strong>in</strong>e Dialogstrategie kann zusätzlich auch robust se<strong>in</strong> (siehe [Mast 1993]), diese Strategie<br />

stellt für gewisse relevante oder auch alle Daten, die der Spracherkenner liefert, Bestätigungsanfragen.<br />

Dies ist vor allem bei e<strong>in</strong>er schlechten Spracherkennung s<strong>in</strong>nvoll, <strong>in</strong>sbesondere<br />

wenn e<strong>in</strong>e eventuelle Nachfrage von der Bewertung des Spracherkenners abhängt. 4<br />

In [Denecke und Waibel 1997] wird e<strong>in</strong>e Dialogstrategie als Sequenz von Aktionen def<strong>in</strong>iert,<br />

deren Ende genau e<strong>in</strong> Kommunikationsziel trifft. Dieses Ziel (engl. communicative goal) wird<br />

dabei durch e<strong>in</strong>e Feature-Struktur spezifiziert. Solange diese Struktur unterspezifiziert ist,<br />

s<strong>in</strong>d nach Denecke und Waibel Nachfragen nötig, die der Disambiguierung von Daten dienen.<br />

Es gibt noch weitere Def<strong>in</strong>itionen von Dialogstrategien, so werden Dialogstrategien auch<br />

sehr oft systemabhängig def<strong>in</strong>iert. Dabei wird auf jeder e<strong>in</strong>zelnen Dialogäußerung mit e<strong>in</strong>em<br />

System e<strong>in</strong>e Dialogstrategie def<strong>in</strong>iert (siehe z.B. [Litman et al. 2000]).<br />

4 Dieser Ansatz wird <strong>in</strong> [Komatani und Kawahara 2000] näher vorgestellt.


2.6. BEISPIEL 11<br />

Die Wichtigkeit der e<strong>in</strong>zelnen Systemmeldungen wurde z.B. <strong>in</strong> [Litman et al. 1998] gezeigt.<br />

Dort wurde nachgewiesen, wie die Erfolgsrate <strong>in</strong> Dialogsystemen bei Veränderung der<br />

Systemäußerungen verbessert wird. Dieser Ansatz wird auch durch die beiden unterschiedlichen<br />

<strong>in</strong>itialen Systemprompts des Veranstaltungs<strong>in</strong>formationsystem NJFun (siehe [Litman<br />

et al. 2000]) <strong>in</strong> Abbildung 2.2 dokumentiert. Im Fall des ersten Systemprompts besteht die<br />

Möglichkeit, daß e<strong>in</strong> Benutzer frei se<strong>in</strong>en Wunsch äußert und dabei viele Informationen mitgegeben<br />

werden, die nicht, oder nur sehr schwer verarbeitet werden können. Prompt (2)<br />

fordert dagegen e<strong>in</strong>e konkrete Information von e<strong>in</strong>em potentiellen Benutzer, e<strong>in</strong>e Verarbeitung<br />

dieser Daten ist sehr viel e<strong>in</strong>facher möglich, das Dialogziel kann daher sehr viel schneller<br />

erreicht werden. Die Dialogstrategie sieht <strong>in</strong> Fall (1) e<strong>in</strong>e sehr allgeme<strong>in</strong>e Fragestellung vor,<br />

die dem Benutzer alle Freiheiten läßt. Diese Strategie ist allerd<strong>in</strong>gs nur dann s<strong>in</strong>nvoll, wenn<br />

auch nach diesem Systemprompt verschiedene weitere Dialogzustände <strong>in</strong> e<strong>in</strong>em Dialogmodell<br />

erreicht werden können, ansonsten wird e<strong>in</strong>e Allgeme<strong>in</strong>heit suggeriert, die das entsprechende<br />

System nicht verarbeiten kann.<br />

(1) Willkommen bei NJFun, was kann ich für sie tun?<br />

(2) Willkommen bei NJFun, bitte nennen sie e<strong>in</strong>en Tag und e<strong>in</strong>e Veranstaltungsart.<br />

(nach [Litman et al. 2000])<br />

Abbildung 2.2: Verschiedene <strong>in</strong>itiale Systemprompts von NJFun<br />

In dieser Arbeit möchte ich den Begriff der Dialogstrategie als die Strategie e<strong>in</strong>es e<strong>in</strong>zelnen<br />

Systems im H<strong>in</strong>blick auf das Erreichen e<strong>in</strong>es Dialogziels, vor allem mit Blick auf die verschiedenen<br />

Anfragetypen und -arten <strong>in</strong> e<strong>in</strong>em Dialogsystem, verstehen. Dabei können sehr<br />

wohl verschiedene Dialogstrategien parallel <strong>in</strong> e<strong>in</strong>em System existieren.<br />

Die Implementation e<strong>in</strong>er optimalen Dialogstrategie ist das Ziel bei der Konstruktion e<strong>in</strong>es<br />

jeden Dialogsystems. Allerd<strong>in</strong>gs ist diese Strategie im Regelfall erst nach e<strong>in</strong>er großen Zahl<br />

von überwachten Experimenten zu f<strong>in</strong>den. Neuerd<strong>in</strong>gs gibt es erste Versuche, e<strong>in</strong>e optimale<br />

Dialogstrategie auf automatischem Wege zu erreichen, dieser Ansatz ist <strong>in</strong> [Walker et al.<br />

1998a; Litman et al. 2000] näher dokumentiert.<br />

2.6 Beispiel<br />

Um die <strong>in</strong> den vorherigen Abschnitten e<strong>in</strong>geführten Begriffe besser verstehen zu können,<br />

werden diese im folgenden anhand e<strong>in</strong>es Beispieldialogs veranschaulicht.<br />

Der Beispieldialog <strong>in</strong> Abbildung 2.3 stellt e<strong>in</strong>en Mensch-Masch<strong>in</strong>e-Dialog e<strong>in</strong>er typischen telefonischen<br />

Bestellsituation dar. Der Dialog ist ohne Satzzeichen und nur <strong>in</strong> Kle<strong>in</strong>buchstaben<br />

abgebildet, wie er auch meist <strong>in</strong>tern <strong>in</strong> Dialogsystemen repräsentiert wird.<br />

Das System (<strong>in</strong> der Abbildung mit S gekennzeichnet) führt mit dem Anrufenden (A) e<strong>in</strong>en<br />

Bestell-Dialog, wie er mit dem im Rahmen dieser Arbeit entstandenen System ShopTel<br />

möglich ist. Da es sich bei ShopTel um e<strong>in</strong> Telefonie-System handelt, gibt es e<strong>in</strong>ige Unterschiede<br />

zu normalen Dialogsystemen. So steht <strong>in</strong> der Telefondomäne immer e<strong>in</strong>e <strong>in</strong>itiale<br />

Begrüßung am Anfang e<strong>in</strong>es Gesprächs.


12 KAPITEL 2. EINFÜHRUNG IN DIE DIALOGTHEORIE<br />

(1) S: guten tag hier ist shoptel bitte geben sie vor der bestellung ihren namen an<br />

(2) A: hallo hier ist mueller ich haette gerne e<strong>in</strong> paar flaschen weisswe<strong>in</strong> bestellt<br />

(3) S: bitte geben sie vorher noch ihre kundennummer an<br />

(4) A: 1 2 3 4<br />

(5) S: was fuer e<strong>in</strong>en weisswe<strong>in</strong> moechten sie gerne bestellen<br />

(6) A: den weissen burgunder bitte<br />

(7) S: wieviele flaschen haetten sie gerne<br />

(8) A: ich nehme bitte 12 flaschen<br />

(9) S: sie moechten also 12 flaschen weissen burgunder bestellen<br />

(10) A: ja bitte<br />

(11) S: das macht 154 mark 80 moechten sie noch etwas bestellen<br />

(12) A: ne<strong>in</strong> danke das waere alles<br />

(13) S: wie moechten sie bitte zahlen<br />

(14) A: ich zahle per rechnung<br />

(15) S: ok die ware wird ihnen zugestellt<br />

(16) A: sehr schoen auf wiederhoeren<br />

(17) S: auf wiederhoeren und vielen dank fuer ihren anruf<br />

Abbildung 2.3: Beispiel e<strong>in</strong>es Mensch-Masch<strong>in</strong>e-Dialogs<br />

A nennt gleich zu Anfang <strong>in</strong> Äußerung (2) das Ziel se<strong>in</strong>es Anrufs. Das System muß dieses<br />

erkennen und verstehen. Das Erreichen dieses Ziels stellt die Aufgabe für das System dar,<br />

dabei muß es wissen, wie das Ziel erreicht werden kann und muß es auch erreichen können.<br />

Die Aufgabe des Systems ist die erfolgreiche Abwicklung e<strong>in</strong>er Bestellung. Dazu muß sich<br />

e<strong>in</strong> Benutzer zuerst authentifizieren, anschließend e<strong>in</strong> e<strong>in</strong>deutiges Produkt nennen (auch unterstützt<br />

durch Rückfragen des Systems) und dazu noch die gewünschte Menge e<strong>in</strong>geben.<br />

Diese Daten müssen noch e<strong>in</strong>mal vom Benutzer bestätigt werden. Wenn der Anrufer ke<strong>in</strong>e<br />

weiteren Bestellungen wünscht, folgt die Angabe e<strong>in</strong>er Bezahlungsart. Danach ist das<br />

Gespräch beendet, die Aufgabe ist erfüllt und das Dialogziel wurde erreicht.<br />

An dem Beispieldialog lassen sich auch die Sequenzen mit ihren Komponenten darstellen.<br />

Diese s<strong>in</strong>d mit den jeweilig zuzuordnenden Äußerungen <strong>in</strong> Tabelle 2.1 dargestellt.<br />

Äußerung Sequenz Komponenten<br />

(1) Begrüßung Begrüßung<br />

(2) - (4) Initialisierung Kundenname, Produkt, Kundennummer<br />

(5) - (8) Produktbestellung Produkt, Anzahl<br />

(9) - (12) Bestätigung Bestätigung<br />

(13) - (15) Rechnungstellung Zahlungsart<br />

(16) - (17) Gesprächsende Verabschiedung<br />

Tabelle 2.1: Sequenzen und Komponenten des Beispieldialogs<br />

Der Beispieldialog weist folglich sechs <strong>Dialogsegmente</strong> auf, die teilweise <strong>in</strong> mehrere Komponenten<br />

separiert werden. E<strong>in</strong>ige Segmente bestehen jeweils aus nur e<strong>in</strong>er Komponente, wie<br />

es bereits <strong>in</strong> Abschnitt 2.2.1 als zulässig gefordert wurde.


2.7. ZUSAMMENFASSUNG 13<br />

Zur weiteren Verdeutlichung werden <strong>in</strong> Tabelle 2.2 die Segmente und Dialogakte des Beispieldialogs<br />

wiedergegeben.<br />

Äußerung Segment Dialogakte<br />

(1) Begrüßung Begrüßung-S<br />

(1) - (4) Authentifizierung Nachfrage-Name, Nennung-Name,<br />

Nennung-Produkt, Nachfrage-Nr, Nennung-Nr<br />

(5) - (8) Produktauswahl Nachfrage-Produkt, Spezifizierung, Nachfrage-Anzahl,<br />

Nennung-Anzahl<br />

(9) - (12) Bestätigung Nachfrage, Bestätigung,<br />

Nennung-Summe, Nachfrage, Ablehnung<br />

(13) - (15) Bezahlung Nachfrage-Zahlungsart, Nennung-Z.art, Bestätigung<br />

(16) - (17) Gesprächsende Bestätigung, Verarbschiedung-A, Verabschiedung-S<br />

Tabelle 2.2: Segmente und Dialogakte des Beispieldialogs<br />

Die Entsprechung der Segmente mit den Sequenzen kann bei e<strong>in</strong>em Vergleich der beiden<br />

entsprechenden Tabellen nachgewiesen werden. Zu beachten s<strong>in</strong>d allerd<strong>in</strong>gs die verschiedenen<br />

Sichten. Für die Implementation e<strong>in</strong>es Dialogsystems ist die Systemsicht entscheidend, bei<br />

der Beobachtung von menschlichen Dialogen liegt die Benutzersicht vor. E<strong>in</strong>e klare Trennung<br />

von <strong>Dialogsegmente</strong>n und auch -sequenzen ist jedoch nicht e<strong>in</strong>fach. Beispielsweise könnte<br />

Äußerung 16 auch noch der vorherigen Sequenz bzw. dem vorherigen Segment zugeordnet<br />

werden.<br />

In Äußerung (1) liegt ebenfalls e<strong>in</strong>e Segmentgrenze, da die Äußerung zwei Dialogakte enthält.<br />

Daher wurde <strong>in</strong> Tabelle 2.2 diese Äußerung zu zwei Segmenten zugehörig erklärt.<br />

Aus den Ausführungen über den Dialogablauf läßt sich e<strong>in</strong> grobes Dialogmodell erstellen,<br />

welches <strong>in</strong> Abbildung 2.4 zu sehen ist. Das abgebildete Modell basiert allerd<strong>in</strong>gs nicht auf<br />

Dialogakten, sondern auf den <strong>in</strong> Tabelle 2.2 aufgeführten Segmenten. Die Abfolge der Dialogzustände<br />

im Dialogmodell stellt die bereits oben e<strong>in</strong>geführte Dialogstruktur dar, die im<br />

Zusammenhang mit der Dialogsteuerung als Interpretationsvorschrift dient. Dieser obliegt<br />

im vorliegenden Modell die Sicherstellung des geregelten Übergangs der e<strong>in</strong>zelnen Zustände.<br />

Die e<strong>in</strong>zelnen Dialogzustände repräsentieren außerdem die jeweiligen <strong>Dialogsegmente</strong>.<br />

Die im Dialogmodell dargestellte Verzweigung geht aus dem Beispieldialog nicht hervor, da<br />

dieser nur e<strong>in</strong>e Bestellung enthält. Da diese Verzweigung jedoch möglich ist und auch im<br />

Dialog abgefragt wird, wurde sie <strong>in</strong> das Dialogmodell mit aufgenommen.<br />

Der Beispieldialog <strong>in</strong> Abbildung 2.3 folgt e<strong>in</strong>er kooperativen Dialogstrategie, dies kann z.B.<br />

an der verarbeiteten Überbeantwortung der ersten Äußerung (2) <strong>in</strong> der Abbildung des Benutzers<br />

erkannt werden. Außerdem ist die verwendete Dialogstrategie robust, was an der<br />

Bestätigungsfrage <strong>in</strong> (9) zu erkennen ist.<br />

2.7 Zusammenfassung<br />

In diesem Kapitel s<strong>in</strong>d die grundlegenden Begriffe für diese Arbeit e<strong>in</strong>geführt und def<strong>in</strong>iert<br />

worden. Von besonderer Wichtigkeit ist vor allem der Dialog als grundsätzliche Basis für<br />

Dialogsysteme, die im nächsten Abschnitt vorgestellt werden. Desweiteren wurden Dialoge<strong>in</strong>heiten<br />

vorgestellt und begrifflich e<strong>in</strong>geführt, dabei s<strong>in</strong>d vor allem der Dialogakt und das


14 KAPITEL 2. EINFÜHRUNG IN DIE DIALOGTHEORIE<br />

Abbildung 2.4: Dialogmodell für Beispieldialog<br />

Dialogsegment für das Verständnis dieser Arbeit essentiell. Außerdem s<strong>in</strong>d die wichtigen<br />

Term<strong>in</strong>i Dialogmodell und Dialogstrategie erklärt und an e<strong>in</strong>em Beispiel e<strong>in</strong>geführt worden.<br />

Im nächsten Kapitel werden der Term<strong>in</strong>us ”<br />

Dialogsystem“ def<strong>in</strong>iert und anschließend die<br />

allgeme<strong>in</strong>en Bestandteile e<strong>in</strong>es solchen Systems kurz <strong>in</strong> ihrer Funktionsweise erklärt.


Kapitel 3<br />

Grundlagen von Dialogsystemen<br />

Im vorliegenden Kapitel möchte ich zuerst e<strong>in</strong>e Begriffsklärung des Dialogsystems für die<br />

vorliegende Arbeit geben. Danach werden die e<strong>in</strong>zelnen Bestandteile e<strong>in</strong>es Dialogsystems<br />

kurz dargestellt, um e<strong>in</strong>en besseren Überblick über diese und ihre Interaktion mite<strong>in</strong>ander<br />

zu geben. Abschließend werden die grundsätzliche Vorgehensweise zur Konstruktion e<strong>in</strong>es<br />

allgeme<strong>in</strong>en Dialogsystems sowie e<strong>in</strong>ige Problemfelder aufgegriffen und überblicksartig dargestellt.<br />

3.1 Dialogsystem<br />

Unter e<strong>in</strong>em Dialogsystem soll e<strong>in</strong> sprachverstehendes System verstanden werden, welches<br />

dem Erreichen von Zielen dient, die im gegenseitigen Dialog (vgl. Abschnitt 2.1) erreicht<br />

werden können. E<strong>in</strong> solches System muß <strong>in</strong> der Lage se<strong>in</strong>, e<strong>in</strong>en Dialog zu führen, das<br />

heißt verschiedene Äußerungen e<strong>in</strong>es Benutzers zu analysieren, zu verstehen und darauf zu<br />

reagieren und es muß <strong>in</strong>sbesondere e<strong>in</strong>em ungeübten Benutzer die Verwendung ermöglichen<br />

(dies kann zum Beispiel mit Hilfedialogen geschehen). Zusammengefaßt kann gesagt werden:<br />

Def<strong>in</strong>ition 3.1 E<strong>in</strong> Dialogsystem ist e<strong>in</strong> sprachverstehendes System, das dem Erreichen<br />

von Zielen im gegenseitigen Dialog dient, dafür muß es Benutzeräußerungen adequat verarbeiten<br />

und darauf s<strong>in</strong>nvoll reagieren können.<br />

E<strong>in</strong> Dialogsystem, das Nachfragen stellen kann und auch Referenzen zu bereits getätigten<br />

Äußerungen e<strong>in</strong>es Benutzers nachvollziehen kann, wird <strong>in</strong> der englischsprachigen Literatur<br />

häufig als conversational system bezeichnet, ich werde <strong>in</strong> der vorliegenden Arbeit dafür als<br />

deutsches Äquivalent den Begriff Konversationssystem nutzen. E<strong>in</strong>e def<strong>in</strong>itorische Klärung<br />

e<strong>in</strong>es Konversationssystems erfolgt <strong>in</strong> Def<strong>in</strong>ition 3.2, die e<strong>in</strong>e Erweiterung von Def<strong>in</strong>ition 3.1<br />

darstellt.<br />

Def<strong>in</strong>ition 3.2 E<strong>in</strong> Konversationssystem ist e<strong>in</strong> Dialogsystem, das Nachfragen zu kontextuellen<br />

Bezügen stellen und Referenzen <strong>in</strong> Benutzeräußerungen verarbeiten kann.<br />

Im allgeme<strong>in</strong>en Fall möchte ich allerd<strong>in</strong>gs weiterh<strong>in</strong> von e<strong>in</strong>em Dialogsystem sprechen, nur<br />

wenn der Unterschied zwischen beiden Systemarten betont werden soll, werde ich den Term<br />

Konversationssystem verwenden.


16 KAPITEL 3. GRUNDLAGEN VON DIALOGSYSTEMEN<br />

3.2 Komponenten e<strong>in</strong>es Dialogsystems<br />

In den nächsten Abschnitten dieses Kapitels werden die verschiedenen Komponenten e<strong>in</strong>es<br />

gesprochen-sprachlichen Dialogsystems erklärt und e<strong>in</strong>geführt, um e<strong>in</strong> besseres Verständnis<br />

für die e<strong>in</strong>zelnen Komponenten und deren Interaktion zu ermöglichen. Dieser Überblick ist<br />

allgeme<strong>in</strong> gehalten und nur als E<strong>in</strong>führung <strong>in</strong> die entsprechenden Bereiche zu verstehen.<br />

3.2.1 Sprache<strong>in</strong>gabe<br />

Die E<strong>in</strong>gabe <strong>in</strong> e<strong>in</strong> Dialogsystem besteht aus gesprochener natürlicher Sprache. Diese Sprache<strong>in</strong>gabe<br />

kann entweder über e<strong>in</strong> stationäres oder e<strong>in</strong> <strong>in</strong> e<strong>in</strong> Telefon <strong>in</strong>tegriertes Mikrofon<br />

geschehen. Bei beiden Verfahren wird e<strong>in</strong>e gesprochene Äußerung aufgezeichnet und als<br />

Sprachsignal von e<strong>in</strong>em A/D-Wandler digitalisiert. E<strong>in</strong>e E<strong>in</strong>gabe über Telefon ist allerd<strong>in</strong>gs<br />

wegen der ger<strong>in</strong>geren Bandbreite 1 des Telefonkanals und der möglichen Leitungsstörungen<br />

meist von ger<strong>in</strong>gerer Qualität als e<strong>in</strong>e Mikrofonaufzeichnung. Die Qualität des aufgenommenen<br />

Sprachsignals ist für das erfolgreiche Erreichen e<strong>in</strong>es Dialogziels <strong>in</strong> e<strong>in</strong>em Dialogsystem<br />

allerd<strong>in</strong>gs sehr wichtig, denn schon e<strong>in</strong> falsches Wort kann den S<strong>in</strong>n e<strong>in</strong>er Äußerung nachhaltig<br />

verändern und damit zum Scheitern e<strong>in</strong>es Dialogschritts führen. Robuste Dialogsysteme<br />

können mit schlechten Erkennungsraten umgehen, <strong>in</strong>dem beispielsweise Sprachsignale unterhalb<br />

e<strong>in</strong>es gewissen Schwellwertes nicht betrachtet werden oder der Benutzer <strong>in</strong> e<strong>in</strong>em<br />

solchen Fall gebeten wird, se<strong>in</strong>e Äußerung zu wiederholen.<br />

3.2.2 Spracherkennung<br />

Das aufgezeichnete Sprachsignal wird im folgenden auf e<strong>in</strong>e Menge bzw. Kette von Wörtern<br />

abgebildet, diesen Prozeß nennt man Spracherkennung. Dabei wird das Sprachsignal <strong>in</strong> festgelegten<br />

Abständen (meist um die 10 ms) abgetastet, aus dem Ergebnis werden dann Kurzzeitspektren<br />

erstellt. Mit Hilfe der Fourier-Transformation werden spektrale Parameter gewonnen,<br />

aus denen wiederum Merkmalsvektoren errechnet werden, die <strong>in</strong> chronologischer<br />

Reihenfolge mit Referenzmustern verglichen werden. 2 Dieser Vergleich wird meist mit dem<br />

Hidden Markov Modell (HMM) durchgeführt. Das HMM ist e<strong>in</strong> zweistufiger stochastischer<br />

Prozeß, der aus e<strong>in</strong>er Markov-Kette mit Zuständen besteht, denen Wahrsche<strong>in</strong>lichkeiten<br />

zugeordnet s<strong>in</strong>d. E<strong>in</strong>e e<strong>in</strong>zelne Markov-Kette steht für e<strong>in</strong>e Phonemfolge, e<strong>in</strong> Zustand symbolisiert<br />

e<strong>in</strong> Phonem 3 . Das HMM emitiert <strong>in</strong> jedem durchlaufenen Zustand e<strong>in</strong> Phonem. Die<br />

wahrsche<strong>in</strong>lichste Phonemfolge stellt damit das Wort dar, das mit der größten Wahrsche<strong>in</strong>lichkeit<br />

erkannt worden ist. Allerd<strong>in</strong>gs müssen die auf diesem Weg erkannten Phonemfolgen<br />

dem Erkenner selber vor dem eigentlichen Erkennungsvorgang bekannt se<strong>in</strong>, e<strong>in</strong>e Erkennung<br />

von unbekannten Phonemfolgen (und damit auch unbekannten Wörtern) ist bislang <strong>in</strong> den<br />

wenigsten Dialogsystemen machbar.<br />

Um e<strong>in</strong>e unsystematische oder unmögliche Wortfolge zu verh<strong>in</strong>dern, wird e<strong>in</strong> Sprachmodell<br />

(engl. language model) berechnet, dieses besteht aus Wortfolgewahrsche<strong>in</strong>lichkeiten 4 . Von e<strong>in</strong>em<br />

Sprachmodell (LM) werden die Wortfolgen bevorzugt, die mit e<strong>in</strong>er gewissen Häufigkeit<br />

<strong>in</strong> diesem auftreten.<br />

1 Die Bandbreite des Telefonkanals beträgt im allgeme<strong>in</strong>en 8 kHz, im Gegensatz zu 22 kHz, die vom<br />

menschlichen Gehör wahrgenommen werden können.<br />

2 Für e<strong>in</strong>e genauere Beschreibung der Sprachsignalverarbeitung siehe z.B. [Vary et al. 1998].<br />

3 E<strong>in</strong> Phonem ist die kle<strong>in</strong>ste bedeutungsdifferenzierende E<strong>in</strong>heit <strong>in</strong> der Sprache (nicht im Sprachsignal!),<br />

im Gegensatz dazu ist e<strong>in</strong> Phon die kle<strong>in</strong>ste akustisch wahrnehmbare E<strong>in</strong>heit.<br />

4 Meist Bigramme (zwei aufe<strong>in</strong>anderfolgende Wörter) oder Trigramme (drei aufe<strong>in</strong>anderfolgende Wörter).


3.2. KOMPONENTEN EINES DIALOGSYSTEMS 17<br />

Für Dialogsysteme werden häufig bereits existierende Spracherkenner verwendet. Um jedoch<br />

<strong>in</strong> der entsprechenden Domäne e<strong>in</strong>e noch bessere Erkennungsleistung erzielen zu können,<br />

wird <strong>in</strong> den meisten Fällen e<strong>in</strong> Sprachmodell über den Dialogdaten der entsprechenden<br />

Anwendung berechnet.<br />

E<strong>in</strong> Spracherkenner <strong>in</strong> sprachverarbeitenden Systemen liefert als Lösung des Erkennungsprozesses<br />

entweder e<strong>in</strong>en Worthypothesengraphen 5 , e<strong>in</strong> Graph <strong>in</strong> dem die wahrsche<strong>in</strong>lichsten<br />

Wortfolgen repräsentiert s<strong>in</strong>d, oder aber die wahrsche<strong>in</strong>lichste Wortfolge, die als beste Kette<br />

bezeichnet wird. 6 Diese Lösung wird an die nachfolgenden Komponenten weitergereicht, um<br />

dort weiterverarbeitet zu werden.<br />

3.2.3 Pars<strong>in</strong>g<br />

Im Pars<strong>in</strong>g werden die syntaktischen Strukturen und semantischen Beziehungen <strong>in</strong>nerhalb<br />

e<strong>in</strong>er Äußerung herausgearbeitet. Dies ist nötig, um die Aussage e<strong>in</strong>er sprachlichen Äußerung<br />

<strong>in</strong> e<strong>in</strong>em Dialogsystem zu verstehen und damit e<strong>in</strong>e entsprechende Reaktion auslösen zu<br />

können.<br />

Dabei dient die syntaktische Analyse der Erkennung der grammatischen Strukturen e<strong>in</strong>es<br />

Satzes. Dieser Schritt ist meist unabd<strong>in</strong>gbar, um e<strong>in</strong>e anschließende semantische Analyse<br />

e<strong>in</strong>es Satzes durchzuführen.<br />

Die semantische Analyse dient zur Bestimmung der Bedeutung e<strong>in</strong>er Äußerung. Nur mit dieser<br />

semantischen Analyse ist es möglich, den S<strong>in</strong>n e<strong>in</strong>er Äußerung zu erkennen und nur mit<br />

Kenntnis dieses S<strong>in</strong>ns e<strong>in</strong>er Äußerung kann e<strong>in</strong>e entsprechende Reaktion von e<strong>in</strong>em System<br />

ausgehen. Die semantische Analyse ist <strong>in</strong> Dialogsystemen zumeist domänenabhängig implementiert,<br />

um e<strong>in</strong>e möglichst e<strong>in</strong>deutige Bedeutungszuordnung zu ermöglichen. E<strong>in</strong>e generelle,<br />

domänenunabhängige semantische Analyse ist auf Grund der großen Vielzahl möglicher<br />

Bedeutungen zur Zeit nicht leistungsfähig genug.<br />

Grundsätzlich existieren verschiedenste Verfahren und Techniken für das Pars<strong>in</strong>g. Da der<br />

Pars<strong>in</strong>gvorgang auf Sprachdaten basiert, wird das Pars<strong>in</strong>g selber häufig als l<strong>in</strong>guistische<br />

Aufgabe angesehen. Daher bietet sich die Verwendung von Grammatiken für diesen Vorgang<br />

an. Viele Beispiele für diese Sichtweise f<strong>in</strong>den sich <strong>in</strong> [Allen 1995], der Pars<strong>in</strong>g als Methode<br />

der Satzanalyse, <strong>in</strong> der die Satzstruktur auf Grund e<strong>in</strong>er Grammatik gefunden werden soll,<br />

beschreibt. Diese – und verschiedene andere – Pars<strong>in</strong>gtechniken werden auch <strong>in</strong> [Busemann<br />

1995] vorgestellt.<br />

E<strong>in</strong> großes Problem aller Parser ist die Unsicherheit der Daten, die vom Spracherkenner<br />

kommen. Viele Pars<strong>in</strong>galgorithmen gehen von korrektem Input aus, der syntaktisch analysiert<br />

werden soll. Allerd<strong>in</strong>gs ist <strong>in</strong>sbesondere bei spontansprachlichen Systemen nicht von<br />

korrekten Sätzen auszugehen. Aus diesem Grund werden robuste Algorithmen benötigt, die<br />

auch auf nicht korrekten Daten s<strong>in</strong>nvoll arbeiten können. In [Smith und Hipp 1994] wird e<strong>in</strong>e<br />

probabilistische kontext-freie Grammatik (PCFG) als Grundlage für e<strong>in</strong>en robusten Parser<br />

propagiert. Auch e<strong>in</strong>e Anwendung von Constra<strong>in</strong>ts über e<strong>in</strong>er Grammatik wird vorgestellt.<br />

E<strong>in</strong> anderer Weg wird <strong>in</strong> [Menzel 1998; Menzel und Schröder 1998; Foth et al. 2000a; Foth<br />

et al. 2000b] mit der selektiven Anwendung von Constra<strong>in</strong>ts vorgeschlagen, dieser Ansatz<br />

ist überaus robust und benötigt ke<strong>in</strong>e Grammatik.<br />

5 Mehr Informationen über Wortgraphen siehe z.B. bei [Amtrup et al. 1996].<br />

6 Häufig werden die besten Lösungen als n-beste bezeichnet, wobei ”<br />

n“ auch den Wert ”<br />

1“ annehmen<br />

kann.


18 KAPITEL 3. GRUNDLAGEN VON DIALOGSYSTEMEN<br />

3.2.4 Dialogkontrolle<br />

Die Dialogkontrolle <strong>in</strong>terpretiert die getätigten Äußerungen im H<strong>in</strong>blick auf das Dialogziel<br />

und den aktuellen Status des Dialogs und wird häufig auch als Dialogsteuerung (vgl. Abschnitt<br />

2.4), manchmal auch als Dialogmanager (DM) <strong>in</strong> e<strong>in</strong>em Dialogsystem bezeichnet.<br />

Im Falle e<strong>in</strong>er Datenbankabfrage muß die Dialogkomponente z.B. die für die Erledigung<br />

der Abfrage notwendigen Angaben kennen und deren Parameter sammeln. Es obliegt der<br />

Dialogkontrolle, diese Angaben gezielt abzufragen und dann gesammelt oder e<strong>in</strong>zeln an<br />

e<strong>in</strong> eventuelles H<strong>in</strong>tergrundsystem weiterzuleiten. In den meisten Fällen wird diese Datensammlung<br />

durch e<strong>in</strong> slot-fill<strong>in</strong>g erledigt, dabei wird für jedes <strong>in</strong> der aktuellen Dialogphase<br />

abzufragende Datum e<strong>in</strong> eigener Slot bereitgestellt, der mit den entsprechenden Angaben<br />

gefüllt wird.<br />

Häufig werden im Rahmen der Dialogkontrolle Dialogakte oder <strong>Dialogsegmente</strong> e<strong>in</strong>geführt,<br />

die zum Erreichen des Dialogziels geäußert bzw. durchlaufen werden müssen.<br />

3.2.5 H<strong>in</strong>tergrundsystem<br />

Das H<strong>in</strong>tergrundsystem oder auch backend ist das eigentliche System, welches durch e<strong>in</strong><br />

vorgeschaltetes Dialogsystem gesteuert wird. In den meisten Fällen handelt es sich hierbei<br />

um e<strong>in</strong>e Datenbank, deren Informationen über e<strong>in</strong> Dialogsystem abgefragt werden. Als Beispiele<br />

seien hier das Zug-Auskunftssystem von Philips (vgl. Abschnitt 4.1.3), welches als<br />

Datengrundlage das Kursbuch der Deutschen Bahn AG benutzt, und das Stau<strong>in</strong>formationssystem<br />

der IBM (siehe Abschnitt 4.1.7), dessen Datenbank E<strong>in</strong>träge über Staus auf deutschen<br />

Autobahnen enthält, genannt.<br />

Bei komplexeren Systemen, bei denen nicht nur e<strong>in</strong>e Information aus e<strong>in</strong>er Datenbank abgefragt<br />

werden soll, kann auch e<strong>in</strong>e Planungskomponente existieren, die z.B. gültige Routen<br />

plant (siehe System TRAINS <strong>in</strong> Abschnitt 4.2.1.) oder freie Term<strong>in</strong>e vergibt (CMU Communicator,<br />

Abschnitt 4.2.2).<br />

3.2.6 Antwortgenerierung<br />

Alle Rückfragen und Antworten müssen an den Benutzer <strong>in</strong> e<strong>in</strong>er verständlichen und s<strong>in</strong>nvollen<br />

Form weitergegeben werden. So muß <strong>in</strong>sbesondere beachtet werden, daß gesprochener<br />

Output von e<strong>in</strong>em Benutzer anders aufgenommen wird, als e<strong>in</strong>e Tabelle oder e<strong>in</strong>e<br />

Aufzählung. Gleichzeitig sollte dem Benutzer e<strong>in</strong> Feedback über bisher Verstandenes und die<br />

bisherigen Aktionen gegeben werden, dabei ist e<strong>in</strong>e Informationsüberflutung für den Benutzer<br />

allerd<strong>in</strong>gs zu vermeiden. Die Antwortgenerierung übernimmt daher die genaue Planung<br />

des Output, stellt die notwendigen Informationen bereit und gibt diese an die Sprachsynthese<br />

weiter.<br />

3.2.7 Sprachsynthese<br />

Die Sprachsynthese synthetisiert den von der Antwortgenerierung bereitgestellten Output<br />

und sendet e<strong>in</strong> digitales Sprachsignal an den Ausgabekanal. Die Synthese erfolgt meist mittels<br />

sogenannter text to speech (TTS) Systeme. 7<br />

7 Näheres über die Sprachsynthese siehe z.B. <strong>in</strong> [Vary et al. 1998].


3.3. KONSTRUKTION VON DIALOGSYSTEMEN 19<br />

TTS-Systeme s<strong>in</strong>d, genauso wie Spracherkenner, sprachabhängig, das heißt, e<strong>in</strong>e deutsche<br />

Synthese verwendet die Ausspracheregeln der deutschen Sprache, e<strong>in</strong>e englische Synthese<br />

die Regeln des Englischen. Aus diesem Umstand resultiert die Problematik für viele TTS-<br />

Systeme, Fremdwörter korrekt zu synthetisieren.<br />

Als Alternative zur Sprachsynthese wird teilweise die Technik der Sprachwiedergabe (auch<br />

reproduktive Sprachsynthese) verwendet. Es handelt sich <strong>in</strong> diesem Fall um die Montage<br />

und Wiedergabe bereits aufgezeichneter Sprachsignale, sogenannter Prompts.<br />

3.2.8 Sprachausgabe<br />

Die Sprachausgabe des Sprachsignals erfolgt entweder über Lautsprecher bzw. Kopfhörer<br />

oder Telefon. Der jeweilige Ausgabekanal sollte bereits bei der Sprachsynthese berücksichtigt<br />

werden, um den jeweiligen Besonderheiten Rechnung zu tragen (z.B. Beachtung der ger<strong>in</strong>gen<br />

Bandbreite und der möglichen Kanalstörungen des Telefonkanals).<br />

3.3 Konstruktion von Dialogsystemen<br />

In den nachfolgenden Abschnitten sollen kurz schematisch die wichtigsten Schritte zur Konstruktion<br />

e<strong>in</strong>es Dialogsystems aufgeführt werden. Diese Abschnitte s<strong>in</strong>d sehr allgeme<strong>in</strong> gehalten,<br />

um e<strong>in</strong>en grundsätzlichen E<strong>in</strong>blick <strong>in</strong> die Konstruktion e<strong>in</strong>es Dialogsystems zu geben.<br />

Im Falle e<strong>in</strong>er Konstruktion mit Hilfe e<strong>in</strong>es Toolkits 8 müssen diese Schritte nicht immer<br />

nachvollzogen werden, da e<strong>in</strong>ige Komponenten <strong>in</strong> den Tools bereits enthalten s<strong>in</strong>d.<br />

3.3.1 Spezifikation<br />

Am Anfang der Konstruktion e<strong>in</strong>es beliebigen Dialogsystems steht die Spezifikation. In dieser<br />

Phase werden die grundlegenden Entscheidungen für das zu erstellende System gefällt, diese<br />

betreffen u.a. den Aufgabenbereich des Systems und die dazugehörige Systemdomäne. Dabei<br />

ist <strong>in</strong>sbesondere e<strong>in</strong>e klare Abgrenzung zu relevanten und nicht mehr relevanten Aktionen<br />

des Systems nötig, um die Domäne dieses geplanten Systems möglichst exakt bestimmen zu<br />

können und somit von Anfang an Grenzfälle möglichst auszuschließen.<br />

Während der Spezifikation ist nach der Bestimmung der Domäne und des Aufgabenbereichs<br />

für das zu erstellende System der Systemtyp zu def<strong>in</strong>ieren. In Abhängigkeit dieses Typs ist<br />

im folgenden auch die architektonische Arbeit betroffen. Üblicherweise werden bei Dialogsystemen<br />

folgende drei Typen unterschieden (vgl. Kapitel 4):<br />

• Auskunftssysteme, die lediglich Auskünfte erteilen und somit sehr häufig als Frontend<br />

vor e<strong>in</strong>er Datenbank konstruiert werden<br />

• Aktionssysteme, die neben Auskünften auch Aktionen erlauben, wie zum Beispiel Routenplanungen<br />

oder die Erledigung von Aufgaben<br />

• Übersetzungssysteme, die Dialoge <strong>in</strong> verschiedenen Quell- und Zielsprachen gestatten<br />

und auch e<strong>in</strong>e Übersetzung des ganzen Dialogs oder e<strong>in</strong>iger Teile leisten<br />

8 Es gibt <strong>in</strong>zwischen bereits verschiedene Toolkits zur Erstellung von telefonbasierten Dialogsystemen,<br />

z.B. SpeechMania von Philips oder das IBM ViaVoice Telephony Toolkit der IBM.


20 KAPITEL 3. GRUNDLAGEN VON DIALOGSYSTEMEN<br />

In den Bereich der Spezifikation fallen auch die ersten architektonischen Arbeiten. So sollte<br />

bereits überlegt werden, wie e<strong>in</strong> zu erstellendes Dialogsystem benutzt werden soll: es bieten<br />

sich zum Beispiel Telefonanwendungen oder Dialogsysteme für den Mikrofone<strong>in</strong>satz an, die<br />

z.B. <strong>in</strong> face-to-face Situationen zum E<strong>in</strong>satz kommen können. 9<br />

3.3.2 Dialogmaterial<br />

Um e<strong>in</strong> Dialogsystem konstruieren zu können, wird vor allem e<strong>in</strong> Dialogmodell benötigt.<br />

Für e<strong>in</strong> erstes Dialogmodell werden jedoch repräsentative Dialogdaten gebraucht, um e<strong>in</strong><br />

allgeme<strong>in</strong> verwendbares Dialogsystem herstellen zu können. Die erste Konstruktion e<strong>in</strong>es<br />

solchen Dialogmodells kann manchmal e<strong>in</strong>fach abgeleitet und die Dialogdaten selbst erdacht<br />

werden, häufig ist die Domäne e<strong>in</strong>es Dialogsystems für e<strong>in</strong>en solchen Vorgang aber zu komplex,<br />

außerdem ist auf die Repräsentativität der Dialogdaten zu achten. Aus diesen Gründen<br />

werden <strong>in</strong> den meisten Fällen empirische Untersuchungen über e<strong>in</strong>e mögliche Dialogstruktur<br />

vorgenommen. Dabei werden zuerst Dialogdaten erhoben und diese anschließend analysiert,<br />

um aus diesen gewonnenen Daten e<strong>in</strong> Dialogmodell zu erstellen.<br />

Erhebung des Dialogmaterials<br />

Die Erhebung von Dialogmaterial kann sehr aufwendig und problematisch se<strong>in</strong>. Denn das<br />

entstehende Dialogsystem wird mit sehr ähnlichen oder sogar identischen Daten getestet.<br />

Wenn aber nach e<strong>in</strong>er erfolgreichen Testphase während der praktischen Erprobung die erhobenen<br />

Daten nicht repräsentativ oder falsch s<strong>in</strong>d, müssen neue Daten für das Dialogsystem<br />

erhoben werden.<br />

Es gibt drei hauptsächliche Methoden zur Erhebung von Dialogmaterial:<br />

Bei der Beobachtung werden natürliche (also nicht gestellte) Dialoge zwischen zwei Personen<br />

aufgezeichnet. Daten, die mit dieser Methode erhoben wurden, liefern im allgeme<strong>in</strong>en sehr<br />

viel Überflüssiges, da menschliche Dialogpartner sehr häufig dazu tendieren, nebensächliche<br />

Äußerungen e<strong>in</strong>em Thema h<strong>in</strong>zuzufügen. Während der Analyse wird daher e<strong>in</strong> Großteil der<br />

Arbeit daraus bestehen, die wesentlichen Daten zu extrahieren. Die Methode der Beobachtung<br />

empfielt sich daher nur als erster Versuch oder für sehr kle<strong>in</strong>e und stark e<strong>in</strong>grenzbare<br />

Domänen.<br />

Die nächste Möglichkeit besteht <strong>in</strong> der Anwendung bestimmter Szenarien. Dabei werden<br />

e<strong>in</strong> Dialogziel und klare Anweisungen an die Sprecher ausgegeben. Die erhobenen Daten<br />

s<strong>in</strong>d damit besser geeignet, allerd<strong>in</strong>gs nicht unter natürlichen Umständen entstanden. Die<br />

Entwicklung von guten Szenarien ist sehr aufwendig, da diese andauernd überprüft und<br />

getestet werden müssen. Es ist darauf zu achten, daß Testpersonen sich nicht zu stark auf<br />

das Dialogziel e<strong>in</strong>schränken und damit die Repräsentativität verloren geht.<br />

Die dritte Möglichkeit zur Dialogmaterialsammlung s<strong>in</strong>d sogenannte Wizard-of-Oz Experimente<br />

(WOZ). Bei dieser Methode wird e<strong>in</strong>er Testperson e<strong>in</strong> bereits funktionierendes Dialogsystem<br />

vorgetäuscht. In Wirklichkeit steuern allerd<strong>in</strong>gs Menschen das Dialogsystem und<br />

versuchen auf diese Art, wie das zukünftige Dialogsystem zu reagieren. Bei dieser Methode<br />

ist der Aufwand sicherlich am größten, allerd<strong>in</strong>gs s<strong>in</strong>d die erhobenen Daten am besten<br />

geeignet und erfordern ke<strong>in</strong>e zusätzlichen Arbeitsschritte.<br />

9 Beispiele für Telefoniesysteme s<strong>in</strong>d z.B. TABA (siehe Abschnitt 4.1.3) oder die IBM Stau Applikation<br />

(siehe Abschnitt 4.1.7); wohl bekanntestes Beispiel für e<strong>in</strong> Dialogsystem <strong>in</strong> face-to-face Situationen ist das<br />

System VERBMOBIL (siehe dazu Abschnitt 4.3.2).


3.3. KONSTRUKTION VON DIALOGSYSTEMEN 21<br />

Analyse des Dialogmaterials<br />

Wenn die erhobenen Daten als Audiodaten vorliegen, müssen diese zuerst transkribiert werden.<br />

Dies geschieht im allgeme<strong>in</strong>en nur als textuelle Transkription.<br />

Die verschriftlichten Dialogdaten werden zur Analyse annotiert. Die Notationen können dabei<br />

entweder syntaktische oder semantische Markierungen se<strong>in</strong>, oder auch Dialogakte (vgl.<br />

Abschnitt 2.2.2). Der Vorgang der Annotation wird label<strong>in</strong>g oder labeln genannt. Diese Arbeit<br />

ist sehr zeit<strong>in</strong>tensiv, da sie von Hand ausgeführt wird und stark von den Kenntnissen<br />

der ausführenden Person abhängt. Da das Labeln systemabhängig ist, muß dieser Vorgang<br />

für jedes neue System durchlaufen werden. Dabei ist <strong>in</strong>sbesondere auf die Konsistenz der<br />

e<strong>in</strong>zelnen vergebenen Notationen zu achten.<br />

Die annotierten Daten dienen nun als Grundlage für die Dialogmodellierung <strong>in</strong> dem zu<br />

konstruierenden Dialogsystem, es kann e<strong>in</strong> erstes <strong>in</strong>itiales Modell erstellt werden und damit<br />

das System getestet werden.<br />

Die gesammelten Daten können auch noch für andere Zwecke weiterverwendet werden, es<br />

bietet sich z.B. an, aus ihnen e<strong>in</strong> Sprachmodell (siehe Abschnitt 3.2.2) zu berechnen und<br />

außerdem mit dem Vokabular dieser Daten den Spracherkenner zu tra<strong>in</strong>ieren. Auch der<br />

Parser basiert auf den annotierten Daten.<br />

3.3.3 Pars<strong>in</strong>gkomponente<br />

Im allgeme<strong>in</strong>en muß als nächstes e<strong>in</strong> Parser (siehe Abschnitt 3.2.3) konstruiert werden,<br />

der auf den Annotationen der Dialogdaten aufbaut. Aus diesem Grund ist es nochmals zu<br />

betonen, daß die e<strong>in</strong>zelnen Notationen für das Dialogmaterial sehr konsistent zu vergeben<br />

s<strong>in</strong>d, um die Arbeit des Parsers zu erleichtern.<br />

Die Pars<strong>in</strong>gkomponente ist für e<strong>in</strong>en erfolgreichen Dialog mit e<strong>in</strong>em Dialogsystem sehr entscheidend.<br />

Denn erst diese Komponente ordnet e<strong>in</strong>er Äußerung e<strong>in</strong>zelne Bedeutungen zu<br />

und gibt damit e<strong>in</strong>en ersten Ausschlag für die Zuordnung von Aktionen oder Dialogakten<br />

zu den jeweiligen Äußerungen.<br />

Jedes Dialogsystem benötigt e<strong>in</strong>e Pars<strong>in</strong>gkomponente, es gibt auch Systeme die über mehrere,<br />

unterschiedliche solcher Komponenten verfügen. Dies wird häufig gemacht, um Ergebnisse<br />

von verschiedenen Pars<strong>in</strong>gmoduln bzw. -techniken vergleichen zu können. Es gibt auch<br />

die Möglichkeit, den eigentlichen Pars<strong>in</strong>gvorgang <strong>in</strong> mehrere Schritte und somit mehrere<br />

Komponenten zu unterteilen, um das Pars<strong>in</strong>g zu vere<strong>in</strong>fachen.<br />

3.3.4 Dialogkomponente<br />

In jedem Dialogsystem muß e<strong>in</strong>e Form der Dialogsteuerung (vgl. Abschnitt 2.4) existieren.<br />

Diese kann <strong>in</strong> e<strong>in</strong>facheren Systemen aus e<strong>in</strong>em e<strong>in</strong>fachen Skript bestehen, <strong>in</strong> komplexeren<br />

Systemen stellt die Dialogsteuerung e<strong>in</strong> eigenes Modul dar. In diesem Modul wird die<br />

gewünschte Struktur e<strong>in</strong>es Dialogs sichergestellt, es basiert auf dem Dialogmodell. Die Entwicklung<br />

dieser Komponente ist sehr arbeits- und zeitaufwendig.<br />

Die Dialogsteuerung ist das Herz e<strong>in</strong>es jeden Dialogsystems. Je e<strong>in</strong>facher die Abgrenzung<br />

e<strong>in</strong>er Aktion des Systems gegen e<strong>in</strong>e andere ist, desto leichter kann die Dialogsteuerung<br />

zwischen unterschiedlichen Aktionen unterscheiden. Sehr wichtig ist an diesem Punkt die


22 KAPITEL 3. GRUNDLAGEN VON DIALOGSYSTEMEN<br />

Konsistenz zwischen dem, aus den gesammelten Dialogdaten erstellten, Dialogmodell, dem<br />

Parser und der Dialogsteuerung. Die <strong>in</strong> den Daten verwendeten Notationen müssen im Parser<br />

korrekt verarbeitet und den e<strong>in</strong>zelnen Aktionen zugeordnet werden, <strong>in</strong> der Dialogsteuerung<br />

müssen die verwendeten Aktionen existieren und ausführbar se<strong>in</strong>.<br />

Die Dialogsteuerung greift, bei Existenz, auf die <strong>Dialogsegmente</strong> zu. Die Segmente be<strong>in</strong>halten<br />

Informationen über die jeweilig benötigten Daten und die möglichen Aktionen <strong>in</strong> jeder Phase<br />

des Dialogs mit e<strong>in</strong>em System.<br />

E<strong>in</strong>e andere Schwierigkeit stellt häufig die Wahl der richtigen Dialogstrategie (vgl. Abschnitt<br />

2.5) dar, diese muß meist <strong>in</strong> umfangreichen Tests ermittelt werden. In [Litman et al.<br />

2000] wird e<strong>in</strong> automatisches Lernverfahren für die Ermittlung der optimalen Dialogstrategien<br />

vorgestellt.<br />

3.3.5 Backend<br />

Um die Ausführung von Aktionen der Dialogsteuerung zu realisieren, werden häufig entsprechende<br />

Methoden im Backend (vgl. Abschnitt 3.2.5) benötigt, die aus der Dialogsteuerung<br />

ansprechbar se<strong>in</strong> müssen. Gleichzeitig muß es möglich se<strong>in</strong>, Daten vom Backend zur Dialogkomponente<br />

zurückzugeben, um Antworten zu übermitteln.<br />

3.3.6 E<strong>in</strong>- und Ausgabe<br />

Schließlich bedarf e<strong>in</strong> gesprochen-sprachliches Dialogsystem noch e<strong>in</strong>er Sprache<strong>in</strong>gabekomponente.<br />

Desweiteren wird noch e<strong>in</strong> Modul für e<strong>in</strong>e Sprachausgabe benötigt.<br />

Für die Sprache<strong>in</strong>gabe wird e<strong>in</strong> Spracherkenner (vgl. Abschnitt 3.2.2) benötigt, dieser muß<br />

auf dem verwendeten Vokabular tra<strong>in</strong>iert se<strong>in</strong>. Es bietet sich an, dieses Tra<strong>in</strong><strong>in</strong>g über den<br />

erhobenen und transkribierten Dialogdaten (vgl. Abschnitt 3.3.2) durchzuführen. Für e<strong>in</strong>e<br />

weitere Verbesserung der Erkennungsrate des Spracherkenners, sollte e<strong>in</strong> Sprachmodell aus<br />

diesen Daten errechnet werden.<br />

Letztendlich wird für das Systemfeedback e<strong>in</strong>e Sprachausgabe benötigt. Diese kann entweder<br />

als TTS-Modul ausgeführt se<strong>in</strong>, oder es können aufgezeichnete Prompts abgespielt werden.<br />

In letzterem Fall ist allerd<strong>in</strong>gs e<strong>in</strong> sehr gutes Datenmaterial an aufgezeichneten Äußerungen<br />

nötig, um e<strong>in</strong>e möglichst hohe Vielfalt an Rückmeldungen zur Verfügung zu haben. 10<br />

3.4 Zusammenfassung<br />

In diesem Kapitel wurde der Begriff ”<br />

Dialogsystem“ def<strong>in</strong>iert und außerdem das ”<br />

Konversationssystem“<br />

def<strong>in</strong>itorisch e<strong>in</strong>geführt. Desweiteren s<strong>in</strong>d die e<strong>in</strong>zelnen Komponenten e<strong>in</strong>es<br />

allgeme<strong>in</strong>en Dialogsystems kurz dargestellt und <strong>in</strong> ihrer Funktionsweise beschrieben worden.<br />

Ebenfalls wurde e<strong>in</strong> Überblick über die beispielhafte Konstruktion e<strong>in</strong>er Dialoganwendung<br />

gegeben. Hierbei ist <strong>in</strong>sbesondere auf die Spezifikation und die Erhebung von Dialogmaterial<br />

e<strong>in</strong>gegangen worden, die beide e<strong>in</strong>e unabd<strong>in</strong>gbare Voraussetzung für e<strong>in</strong> Dialogsystem<br />

darstellen.<br />

10 E<strong>in</strong> Beispiel für e<strong>in</strong> System, daß komplett nur mit aufgezeichneten Prompts arbeitet, ist das System<br />

TABA von Philips, siehe Abschnitt 4.1.3.


3.4. ZUSAMMENFASSUNG 23<br />

Im folgenden Kapitel werden jetzt e<strong>in</strong>ige ausgewählte Dialogsysteme vorgestellt, um damit<br />

das Umfeld der bereits existierenden Dialogsysteme darstellen zu können. Dabei möchte ich<br />

mich auf die <strong>in</strong> diesem Kapitel e<strong>in</strong>geführten Komponenten und Begrifflichkeiten beziehen.<br />

Etwaige Sonderfälle werden dabei e<strong>in</strong>zeln diskutiert.<br />

In Kapitel 5 wird dann das im Rahmen dieser Arbeit entstandene System ShopTel vorgestellt.<br />

Auch <strong>in</strong> diesem Kapitel möchte ich mich an den hier beschriebenen Modulen und<br />

Funktionalitäten orientieren. Es werden dort allerd<strong>in</strong>gs auch die Besonderheiten des Systems<br />

im Gegensatz zu allgeme<strong>in</strong>en Systemen dargestellt.


24 KAPITEL 3. GRUNDLAGEN VON DIALOGSYSTEMEN


Kapitel 4<br />

Dialogsysteme im Überblick<br />

Dialogsysteme werden bereits seit geraumer Zeit <strong>in</strong> verschiedenen Forschungsprojekten und<br />

-gruppen entwickelt. Im vorliegenden Kapitel werden e<strong>in</strong>ige ausgewählte Systeme kurz vorgestellt,<br />

um e<strong>in</strong>en E<strong>in</strong>druck der bisher existierenden Systeme und der verwendeten Technologie<br />

zu vermitteln. Das Kapitel wird mit e<strong>in</strong>em kurzen Vergleich beschlossen, <strong>in</strong> dem die<br />

angesprochenen Systeme e<strong>in</strong>ander gegenübergestellt werden.<br />

Die vorgestellten Systeme verfügen alle über e<strong>in</strong>e Dialogkomponente und e<strong>in</strong>en Spracherkenner.<br />

Die Sprache<strong>in</strong>gabe kann bei e<strong>in</strong>igen Systemen über e<strong>in</strong> Mikrofon, bei anderen per<br />

Telefon geschehen.<br />

Die meisten der vorgestellten Systeme s<strong>in</strong>d weder marktreif, noch fehlerfrei. Sie s<strong>in</strong>d vielmehr<br />

<strong>in</strong> Forschungse<strong>in</strong>richtungen konstruiert worden, um die grundsätzliche Machbarkeit<br />

von sprachverstehenden Dialogsystemen nachzuweisen und, um verschiedene neue Techniken<br />

auszuprobieren.<br />

Die vorgestellten Systeme wurden, um e<strong>in</strong>e bessere Vergleichbarkeit zu gewährleisten, <strong>in</strong><br />

drei Kategorien unterteilt. Die Differenzierung erfolgte <strong>in</strong> die Kategorien Auskunftssysteme,<br />

Aktionssysteme und dialogfähige Übersetzungssysteme. Den drei Kategorien entsprechen die<br />

jeweiligen Abschnitte des Kapitels.<br />

4.1 Auskunftssysteme<br />

Auskunftssysteme bieten im allgeme<strong>in</strong>en den Zugang zu e<strong>in</strong>er Datenbank an. Dabei dient<br />

der natürlichsprachliche Zugang als Erleichterung für den Benutzer.<br />

Die gängigste Anwendung dieser Systemkategorie stellen Zugauskunftssysteme dar, wie das<br />

EU-Projekt SUNDIAL (siehe Abschnitt 4.1.2), TABA von Philips (vgl. Abschnitt 4.1.3),<br />

Dialogos vom CSELT aus Italien (Abschnitt 4.1.4) oder EVAR von der Universität Erlangen<br />

(Abschnitt 4.1.5). Desweiteren werden e<strong>in</strong> System für Dokumentenverwaltung (Abschnitt<br />

4.1.1), e<strong>in</strong> Wetter<strong>in</strong>formationssystem (Abschnitt 4.1.6) und e<strong>in</strong> Stau<strong>in</strong>formationssystem<br />

(Abschnitt 4.1.7) vorgestellt.<br />

Die Reihenfolge der Darstellung erfolgt nach chronologischer Ordnung.


26 KAPITEL 4. DIALOGSYSTEME IM ÜBERBLICK<br />

4.1.1 SPICOS<br />

Das System SPICOS war das erste Dialogsystem, das <strong>in</strong> Deutschland entstanden ist. Se<strong>in</strong><br />

Akronym steht für Siemens-Philips-IPO COnt<strong>in</strong>uous Speech Understand<strong>in</strong>g and Dialog.<br />

Dieses System wurde <strong>in</strong> Kooperation von Philips, Siemens und dem IPO-Institut <strong>in</strong> E<strong>in</strong>dhoven<br />

(Niederlande) von 1984 bis 1990 als Geme<strong>in</strong>schaftsprojekt durchgeführt und vom<br />

Bundesm<strong>in</strong>isterium für Forschung und Technologie (BMFT) f<strong>in</strong>anziert. Schwerpunkt des<br />

Projekts war die erstmalige Verwirklichung e<strong>in</strong>es Dialogsystems, das mit kont<strong>in</strong>uierlicher<br />

deutscher Sprache bedient werden konnte und den natürlichsprachlichen Zugang zu e<strong>in</strong>er<br />

Datenbank ermöglichen sollte.<br />

Im Jahr 1987 wurde der Prototyp SPICOS I präsentiert (siehe [Niedermair 1987]). Dieser<br />

erste Prototyp gestattete bereits e<strong>in</strong>fache Frage-Antwort-Schemata, bei denen e<strong>in</strong>e Anfrage<br />

<strong>in</strong> gesprochener, kont<strong>in</strong>uierlicher Sprechweise getätigt werden konnte, die vollständig zu<br />

formulieren war. Die Antwortzeit lag damals bei 100facher Echtzeit (vgl. [Ney et al. 1992]).<br />

SPICOS II, die 1990 präsentierte Weiterentwicklung von SPICOS, verfügte über verschiedene<br />

Verbesserungen gegenüber dem Vorgängermodell, dies galt <strong>in</strong>sbesondere für die Dialogverarbeitung.<br />

Um e<strong>in</strong>en besseren Überblick über das System zu geben, wird im folgenden e<strong>in</strong>e<br />

kurze Beschreibung des Systems gegeben:<br />

Die Spracherkennungskomponente von SPICOS II liefert die besten vier Hypothesen (vgl.<br />

Abschnitt 3.2.2) zur Weiterberarbeitung an den Dialog-Handler. Dieser steuerte die Abfolge<br />

der e<strong>in</strong>zelnen Analyseschritte. Z.B. wurde vor der syntaktischen und semantischen Analyse<br />

e<strong>in</strong> Sprachmodell als Filter über den Sprachdaten e<strong>in</strong>gesetzt. Der Pars<strong>in</strong>gvorgang wurde<br />

<strong>in</strong> zwei e<strong>in</strong>zelne Vorgänge unterteilt, dabei war das Pars<strong>in</strong>gmodul des Systems allerd<strong>in</strong>gs<br />

nur für die Verarbeitung von grammatisch wohlgeformten Input konstruiert worden, spontansprachliche<br />

Äußerungen konnten daher nicht verarbeitet werden. Als Grundlage für den<br />

syntaktischen Parser diente e<strong>in</strong>e Phrasenstrukturgrammatik. Der zweite Pars<strong>in</strong>gvorgang,<br />

die semantische Verarbeitung, geschah auf der Basis von semantischen Netzwerken. Die Zuordnung<br />

von e<strong>in</strong>zelnen Aktionen wurde im Dialog-Handler über Dialogakte (vgl. Abschnitt<br />

2.2.2) realisiert. Da <strong>in</strong>sbesondere e<strong>in</strong>e Verbesserung der Dialogkomponente <strong>in</strong> SPICOS II erreicht<br />

werden sollte, wurde im Rahmen der Dialogverarbeitung auch e<strong>in</strong>e Anaphernresolution<br />

implementiert, die Antecedenten speicherte und so <strong>in</strong> der Lage war, bei e<strong>in</strong>er Bezugnahme<br />

die entsprechenden Bezüge zu liefern. In Zweifelsfällen wurde dabei e<strong>in</strong>e Nachfrage des Systems<br />

<strong>in</strong>itiiert. Nur <strong>in</strong> diesem Fall lag die Initiative im Dialog beim System, ansonsten lag sie<br />

ausschließlich beim Anwender. 1<br />

Die im Jahre 1990 präsentierte Version war vom Dialogverhalten her bereits auf den Betrieb<br />

per Telefon ausgerichtet, e<strong>in</strong> Bildschirm wurde für die Steuerung nicht mehr benötigt. Da<br />

allerd<strong>in</strong>gs E<strong>in</strong>gaben nicht robust verarbeitet werden konnten, erschien e<strong>in</strong>e Anb<strong>in</strong>dung an<br />

das Telefon nicht s<strong>in</strong>nvoll.<br />

Beide Systeme, SPICOS I und SPICOS II konnten Anfragen zu abgelegten Dokumenten und<br />

zu am SPICOS-Projekt beteiligten Personen beantworten. Viele Erkenntnisse der zweiten<br />

Version g<strong>in</strong>gen bei Siemens <strong>in</strong> die Forschung für das Projekt SUNDIAL (siehe Abschnitt<br />

4.1.2) e<strong>in</strong> (vgl. [Niedermair 1992]).<br />

Die Spracherkennung konnte mit kont<strong>in</strong>uierlicher Sprache umgehen, war allerd<strong>in</strong>gs sprecherabhängig.<br />

Dabei umfaßte das Vokabular von SPICOS I rund 900 Wörter, SPICOS II<br />

arbeitete auf e<strong>in</strong>em Vokabular von 1200 Wörtern und konnte Anfragen <strong>in</strong> 5-20facher Echtzeit<br />

bei e<strong>in</strong>er durchschnittlichen Wortfehlerrate von 9,4 % beantworten (vgl. [Ney et al. 1992]).<br />

1 Weitere Ausführungen siehe <strong>in</strong> [Niedermair 1992].


4.1. AUSKUNFTSSYSTEME 27<br />

4.1.2 SUNDIAL<br />

Das Projekt SUNDIAL war e<strong>in</strong>es der größten von der EU im Rahmen des ESPRIT-Vertrages<br />

f<strong>in</strong>anzierten Projekte der Sprachtechnologie. Die Laufzeit des Projekts g<strong>in</strong>g von 1988 bis<br />

1993, die Durchführung oblag folgenden Projektpartnern: CAP Gem<strong>in</strong>i Innovation (F),<br />

CNET (F), CSELT (I), Daimler-Benz, Universität Erlangen, IRISA (F), Logica (GB), Politechnico<br />

di Tor<strong>in</strong>o (I), Sar<strong>in</strong> Telematica (I), Siemens, University of Surrey (GB) und Vocalis<br />

(GB). Das Akronym SUNDIAL steht für Speech UNderstand<strong>in</strong>g <strong>in</strong> DIALogue. Ziel des<br />

Projekts war die Konstruktion e<strong>in</strong>es Dialogsystems, welches <strong>in</strong> Echtzeit <strong>in</strong> kooperativen<br />

Dialogen mit e<strong>in</strong>em Benutzer über Telefon kommunizieren konnte (vgl. [Peckham 1993]).<br />

Der im Rahmen des Projekts entstandene Prototyp konnte Anfragen zu Zugverb<strong>in</strong>dungen<br />

auf Deutsch und Italienisch und zu Flugverb<strong>in</strong>dungen auf Englisch und Französisch verarbeiten.<br />

Anfragen konnten dabei sowohl von erfahrenen als auch von unerfahrenen Benutzern<br />

kommen; daher resultierte die erfolgte Verarbeitung spontansprachlicher Phänomene<br />

<strong>in</strong> SUNDIAL. Bed<strong>in</strong>gt durch die Sprachvielfalt wurde jedoch für jede Sprache e<strong>in</strong> eigenes<br />

System erstellt (siehe [McGlashan 1994]).<br />

Die Funktionalität der e<strong>in</strong>zelnen Systeme wurde zuerst durch umfangreiche WOZ Simulationen<br />

(siehe Abschnitt 3.3.2) spezifiziert. Die Ergebnisse dieser Experimente trugen maßgeblich<br />

zur Erstellung e<strong>in</strong>iger Informationen bei, die unerfahrenen Benutzern von SUNDIAL<br />

vorgelegt wurden, um e<strong>in</strong>e effiziente Benutzung des Systems zu ermöglichen.<br />

Jedes System bestand aus fünf Modulen. Die sprachliche Analyse wurde auf e<strong>in</strong>e akustische<br />

Erkennung und e<strong>in</strong>e Pars<strong>in</strong>g-Komponente verteilt. Die Ergebnisse des Parsers werden <strong>in</strong><br />

e<strong>in</strong>er sprachenunabhängigen Repräsentation (Semantic Interface Language – SIL), die im<br />

Rahmen dieses Projektes entwickelt wurde, an den Dialogmanager (DM) weitergereicht. Der<br />

DM ordnete jeder sprachlichen Repräsentation des Parsers e<strong>in</strong>e Interpretation im aktuellen<br />

Kontext zu, anhand dieser der Dialog weitergeführt wurde. 2 Systemäußerungen wurden vom<br />

DM geplant und der Generierungskomponente übergeben. Abschließend wurde die Ausgabe<br />

von der TTS-Komponente an das Telefon vorgenommen.<br />

SUNDIAL war das erste große Projekt, das e<strong>in</strong>e Verarbeitung spontansprachlicher Äußerungen<br />

sogar von unerfahrenen Benutzern gestattete. Die aus Sicht von Peckham erfolgreiche<br />

Umsetzung dieser Aufgabe, wurde als der Beg<strong>in</strong>n e<strong>in</strong>er Ära bezeichnet: At least as far as<br />

task-oriented dialogue is concerned, the age of the conversational computer is about to dawn<br />

(siehe [Peckham 1993]).<br />

Die Evaluation der Systeme ist <strong>in</strong> [McGlashan 1994] näher beschrieben. Im e<strong>in</strong>zelnen wurden<br />

für das deutsche System folgende Zahlen veröffentlicht: 98 % der kontextuellen Zusammenhänge<br />

wurden richtig zugeordnet. In 86 % aller Fälle waren Transaktionen erfolgreich.<br />

Die WER wird mit 33,5 % über e<strong>in</strong>em durchschnittlichen Vokabular von 1000 Wörtern<br />

angegeben 3 .<br />

2 Der DM wurde zuerst als geme<strong>in</strong>same Komponente entwickelt und war anwendungs- und sprachunabhängig.<br />

Allerd<strong>in</strong>gs wurden e<strong>in</strong>ige regionale Varianten des DM konstruiert, die über e<strong>in</strong>e schnellere Antwortzeit<br />

und größere Robustheit verfügten (vgl. [Peckham 1993]).<br />

3 Zahlen nach [McGlashan 1994], <strong>in</strong> [Peckham 1993] werden folgende Erfolgsraten genannt: für das italienische<br />

System zwischen 51 und 96 % (unerfahrene vs. erfahrene Benutzer), für das englische System e<strong>in</strong>e<br />

durchschnittliche SR von 96 %.


28 KAPITEL 4. DIALOGSYSTEME IM ÜBERBLICK<br />

4.1.3 TABA<br />

Das System TABA (Telefonische Automatische Bahnfahrplan-Auskunft) ist die automatische<br />

Bahnauskunft von Philips (siehe [Aust und Schröer 1998a; Aust und Schröer 1998b]).<br />

Diese Anwendung ist e<strong>in</strong> sprachgesteuertes, telefonbasiertes Dialogsystem und schon seit<br />

Februar 1994 für die Öffentlichkeit zugänglich. 4 TABA war das weltweit erste Dialogsystem,<br />

das der gesamten Öffentlichkeit zur Verfügung stand und schon kurz nach se<strong>in</strong>er Vorstellung<br />

so erfolgreich, daß der Hersteller e<strong>in</strong>e zweite Telefonleitung benötigte, um alle Anfragen<br />

verarbeiten zu können.<br />

TABA ist – im Gegensatz zu vielen anderen Dialogsystemen – nicht als Machbarkeitsstudie<br />

konstruiert worden, sondern wurde kommerziell z.B. <strong>in</strong> der Schweiz e<strong>in</strong>gesetzt. Philips<br />

hat mit TABA die erste Anwendung vorgestellt, die auf dem Philips Toolkit SpeechMania<br />

beruht. Mit diesem Toolkit ist die Firma <strong>in</strong> der Lage, Telefonanwendungen für komplett<br />

unterschiedliche Diskursbereiche und verschiedene Sprachen herzustellen, wie <strong>in</strong> [Aust und<br />

Schröer 1998a] dargestellt 5 .<br />

Als Datengrundlage für TABA wurden die Orig<strong>in</strong>alverb<strong>in</strong>dungsdaten der 1.000 größten<br />

Bahnhöfe Deutschlands, sowie deren Umstiegsmöglichkeiten, genutzt.<br />

Das System erlaubt e<strong>in</strong>en natürlichen Dialog mit dem Benutzer und zeichnet sich durch<br />

aufgenommene Prompts aus, die e<strong>in</strong>em Anrufer vorgespielt werden (vgl. Abschnitt 3.2.7).<br />

E<strong>in</strong> Benutzer bekommt damit menschliche und gut verständliche Antworten zu hören, die<br />

e<strong>in</strong> TTS-System <strong>in</strong> dieser Qualität immer noch nicht leisten kann.<br />

Der Spracherkenner, der für TABA e<strong>in</strong>gesetzt wurde, ist der Standard-Erkenner von Philips,<br />

wie er auch für das Philips-Diktiersystem e<strong>in</strong>gesetzt wird, allerd<strong>in</strong>gs liefert der Erkenner<br />

bei TABA nicht das beste Ergebnis, sondern e<strong>in</strong>en Wortgraphen (siehe Abschnitt 3.2.2).<br />

Dieser Wortgraph wird dann von den nachfolgenden Komponenten verarbeitet und daraus<br />

die jeweils wahrsche<strong>in</strong>lichste Wortfolge ermittelt [Aust und Schröer 1998a].<br />

E<strong>in</strong> Pars<strong>in</strong>g f<strong>in</strong>det bei TABA nicht statt, da die spontansprachlichen Phänomene als zu<br />

h<strong>in</strong>derlich angesehen werden. Statt dessen werden die Worte und Wortfolgen (Konzepte)<br />

gesucht, die e<strong>in</strong>e Bedeutung vor dem Anwendungsh<strong>in</strong>tergrund haben. Diese Methode wird<br />

meist als phrase spott<strong>in</strong>g bezeichnet und gilt als robust gegenüber spontaner Sprache. Für<br />

die Def<strong>in</strong>ition und Suche der Konzepte wurde e<strong>in</strong>e attributed stochastic context-free grammar<br />

genutzt.<br />

Die Dialogkontrolle wurde über e<strong>in</strong>e von Philips selbst entwickelte Beschreibungssprache<br />

abgewickelt. Diese wurde speziell für Auskunfssysteme entwickelt und erlaubt auch e<strong>in</strong> Feedback<br />

der Sprachanalyse zur Dialogkontrolle. Es besteht außerdem die Möglichkeit, Feedback<br />

von der Dialogkontrolle an den Spracherkenner zu senden, damit z.B. andere Lexika oder<br />

Sprachmodelle aktiviert werden können.<br />

Das Philips-System kann als Konversationssystem bezeichnet werden, da die zu e<strong>in</strong>er Anfrage<br />

fehlenden Daten automatisch vom System nachgefragt und im Zweifelsfall disambiguiert<br />

werden.<br />

Es gibt von Philips ke<strong>in</strong>e Zahlenangaben über die Leistungen des Systems, e<strong>in</strong>zig die Erfolgsrate<br />

von TABA wird angegeben und beträgt nach Herstellerangaben über 90 % [Aust<br />

4 Die automatische Bahnauskunft von Philips ist unter 0241/604020 zu erreichen.<br />

5 So wurde z.B. e<strong>in</strong>e niederländische Bahnauskunft, e<strong>in</strong>e Flugauskunft für die Lufthansa, e<strong>in</strong>e Wetterauskunft<br />

für RTL (Telefon: 0190/577577), e<strong>in</strong> Restaurantführer für Boston (USA) u.v.a. <strong>Anwendungen</strong><br />

realisiert.


4.1. AUSKUNFTSSYSTEME 29<br />

und Schröer 1998b]. Ansonsten wird e<strong>in</strong>e slot error rate (SER) angegeben, welche die Zuordnungsfehler<br />

von e<strong>in</strong>zelnen Wörtern zu Slots mißt, diese Rate wurde mit nahezu 0 %<br />

angegeben (siehe [Aust und Schröer 1998a]).<br />

4.1.4 Dialogos<br />

Dialogos ist e<strong>in</strong> Echtzeit-System, das mit spontaner Sprache von erfahrenen und unerfahrenen<br />

Benutzern per Telefon bedient werden kann (vgl. [Albesano et al. 1996]). Die Entwicklung<br />

erfolgte beim ,Centro Studi e Laboratori Telecommunicazioni‘ (CSELT) <strong>in</strong> Tur<strong>in</strong><br />

(Italien). Der Diskursbereich besteht aus Bahnfahrplänen <strong>in</strong> Italien, die entsprechenden Daten<br />

stehen <strong>in</strong> e<strong>in</strong>er eigenen Datenbank zur Verfügung, die mit dem System angesprochen<br />

werden kann. Die e<strong>in</strong>zelnen Komponenten s<strong>in</strong>d bis auf die TTS eigene Entwicklungen, die<br />

nur für diese Anwendung konstruiert wurden. Die verwendete TTS-Komponente ist ELO-<br />

QUENS, e<strong>in</strong> kommerzielles Modul des CSELT.<br />

Die sprachliche Analyse beg<strong>in</strong>nt bei Dialogos mit der Analyse der besten Kette des Erkenners.<br />

Das Pars<strong>in</strong>g wird <strong>in</strong> drei Schritten ausgeführt, bei denen der erste e<strong>in</strong>e syntaktische<br />

Analyse durchführt. Die nächsten beiden Schritte s<strong>in</strong>d semantische Verarbeitungen, die über<br />

e<strong>in</strong>er kontext-freien Grammatik arbeiten, dabei arbeitet der erste Schritt nur lokal, der zweite<br />

über der gesamten Äußerung und soll auch Konflikte der beiden ersten Schritte beheben.<br />

Der DM des Systems arbeitet auf pragmatischen Konzepten, die e<strong>in</strong>e Erwartung darüber<br />

zum Ausdruck br<strong>in</strong>gen, was der Benutzer als nächstes äußern könnte. Dafür existiert e<strong>in</strong><br />

Kanal vom DM zum ASR, auf dem die entsprechenden Erwartungen übertragen werden.<br />

Eventuelle Diskrepanzen zwischen diesen Erwartungen und dem tatsächlichen Benutzerverhalten<br />

werden als Fehler <strong>in</strong> vorherigen Verarbeitungen angesehen.<br />

Motivation für dieses Projekt war e<strong>in</strong>e Machbarkeitsfrage der Telecom Italia, die vom CSELT<br />

positiv beantwortet wurde. Dafür wurde e<strong>in</strong> groß angelegter Feldtest durchgeführt, über den<br />

[Albesano et al. 1996] detailliert berichten. Im Rahmen dieser Versuche wurden Dialoge von<br />

knapp 500 Benutzern und über 13.000 resultierenden Äußerungen aufgenommen und verarbeitet.<br />

Es wurden verschiedene Szenarien und Umgebungen mit unterschiedlichen Telefonen<br />

getestet, dabei wurde e<strong>in</strong>e Wortakkuratheit von 77,4 % erreicht. Die Erfolgsrate des Systems<br />

wurde mit 84,5 % angegeben.<br />

4.1.5 EVAR<br />

Das System EVAR (Erkennen, Verstehen, Antworten und Rückfragen) ist am Lehrstuhl<br />

für Informatik 5 (Musterkennung) der Universität Erlangen-Nürnberg seit 1987 entwickelt<br />

worden (vgl. u.a. [Ehrlich et al. 1992; Gallwitz et al. 1998]). Ziel war die Realisierung e<strong>in</strong>es<br />

telefonischen Auskunftssystems mit dem Diskursbereich der Bahnauskunft. E<strong>in</strong> Benutzer<br />

sollte <strong>in</strong> spontaner Sprache verschiedene Anfragen stellen können, dabei war das System <strong>in</strong><br />

der Lage, bei für e<strong>in</strong>e DB-Anfrage noch fehlenden Daten selbständig Nachfragen zu <strong>in</strong>itiieren.<br />

Das System verfügt über e<strong>in</strong>e sehr komplexe Dialogkomponente, deren erster Entwicklungsstand<br />

<strong>in</strong> [Mast 1993] beschrieben ist.<br />

Im Jahr 1993 wurde das System mit Mikrofon-E<strong>in</strong>gabe getestet. Auf e<strong>in</strong>em Vokabular von<br />

1081 E<strong>in</strong>trägen erreichte EVAR laut [Mast 1993] e<strong>in</strong>e Wortfehlerrate von 26,3 % auf e<strong>in</strong>em<br />

Bigrammodel mit e<strong>in</strong>em Echtzeitfaktor von 4.2, dabei wurden 49 % aller durchgeführten<br />

Dialoge erfolgreich beendet.


30 KAPITEL 4. DIALOGSYSTEME IM ÜBERBLICK<br />

EVAR ist von der Universität Erlangen-Nürnberg allerd<strong>in</strong>gs kont<strong>in</strong>uierlich weiterentwickelt<br />

worden. So ist EVAR seit 1994 per Telefon erreichbar und es konnten dadurch große Datenmengen<br />

an spontansprachlichen Mensch-Masch<strong>in</strong>e-Dialogen gesammelt werden (vgl. [Eckert<br />

et al. 1995]). Wie <strong>in</strong> [Gallwitz et al. 1998] beschrieben, wurde langfristig auch e<strong>in</strong>e WWW-<br />

Anb<strong>in</strong>dung des Systems angestrebt. Außerdem wurde e<strong>in</strong>e der größten Fehlerquellen <strong>in</strong><br />

sprachverstehenden Systemen beseitigt, <strong>in</strong>dem e<strong>in</strong>e Behandlung von Wörtern, die nicht im<br />

Vokabular des Systems enthalten s<strong>in</strong>d, vorgesehen wurde. Diese Out-Of-Vocabulary (OOV)<br />

Behandlung erlaubt z.B. das H<strong>in</strong>zufügen von neuen Wörtern zum Vokabular, durch diese<br />

Maßnahme stieg die Erfolgsrate von Dialogen auf 69 % an. 6 Mit der im Rahmen des Projekts<br />

VERBMOBIL konstruierten Prosodie-Komponente wurden ebenfalls e<strong>in</strong>ige Versuche im<br />

Rahmen von EVAR gemacht, diese zeigten u.a., daß die e<strong>in</strong>zelnen semantischen Attribute<br />

sehr häufig durch Prosodie klar getrennt werden konnten. Die Planungen g<strong>in</strong>gen bis zur<br />

Integration e<strong>in</strong>er Prosodie-Komponente <strong>in</strong> EVAR.<br />

EVAR ist von der Architektur sehr offen konstruiert worden, so konnte der ASR sowohl<br />

die beste Kette, als auch e<strong>in</strong>en Wortgraphen an den l<strong>in</strong>guistic processor (LI) senden, dieser<br />

konnte beide Ergebnisse verarbeiten. Der LI extrahierte aus den Daten semantische Konzepte<br />

und lieferte dieses Ergebnis an den DM, der die Vollständigkeit der für e<strong>in</strong>e Anfrage nötigen<br />

Daten überprüfte und entweder e<strong>in</strong>e Rückfrage <strong>in</strong>itiierte oder e<strong>in</strong>e DB-Anfrage auslöste. Die<br />

TTS-Komponente von EVAR setzte (wie auch bei TABA) bereits aufgezeichnete Sätze von<br />

menschlichen Sprechern zusammen (reproduktive Sprachsynthese, siehe Abschnitt 3.2.7).<br />

Im System EVAR (siehe Abschnitt 4.1.5) s<strong>in</strong>d <strong>in</strong> der ersten Phase laut [Mast 1993] drei verschiedene<br />

<strong>Strategien</strong> implementiert worden, u.a. e<strong>in</strong>e robuste Dialogstrategie. Letztere dient<br />

der unbed<strong>in</strong>gten Erreichung des Dialogziels, dabei s<strong>in</strong>d verschiedentlich Bestätigungsfragen<br />

vorgesehen, um die Richtigkeit der Daten, die aus der Äußerung des Benutzers gewonnen<br />

wurden, zu verifizieren. Mast schlägt noch e<strong>in</strong>e andere Strategie vor, die bei der Unterschreitung<br />

e<strong>in</strong>es Schwellwertes der Qualität der erkannten Benutzeräußerung automatisch<br />

e<strong>in</strong>e Bestätigungsfrage setzt. 7 In [Gallwitz et al. 1998] wird dargelegt, daß das Hauptziel<br />

von EVAR die Sammlung von spontansprachlichen Äußerungen war, daher war die verwendete<br />

Dialogstrategie sehr offen gehalten, e<strong>in</strong>e Maximierung der Erfolgsrate war daher nicht<br />

erklärtes Ziel der Entwickler.<br />

Die Universität Erlangen-Nürnberg hat EVAR sehr lange als Forschungsprojekt betrieben<br />

und daraus vielfältige Erkenntnisse gesammelt. Diese wurden auch <strong>in</strong> kommerzielle Projekte<br />

e<strong>in</strong>gebracht. So ist das System FränKi (Fränkisches K<strong>in</strong>o-Informationssystem) 8 mit dem<br />

Know-How der Universität Erlangen und des FORWISS entstanden. 9 Das System selbst<br />

wird allerd<strong>in</strong>gs privat vermarktet von der Firma Sympalog.<br />

4.1.6 JUPITER<br />

JUPITER ist e<strong>in</strong> telefonbasiertes Wetter<strong>in</strong>formationssystem, das se<strong>in</strong>e Informationen von<br />

verschiedenen Datenbanken aus dem WWW bezieht (vgl. [Zue et al. 1997; Glass et al. 1999]).<br />

Das System ist vom MIT <strong>in</strong> der GALAXY-Architektur 10 entwickelt worden. JUPITER ist<br />

e<strong>in</strong> multil<strong>in</strong>guales System, das die Sprachen Ch<strong>in</strong>esisch, Deutsch, Englisch, Französisch und<br />

6 Details zur OOV-Verarbeitung siehe <strong>in</strong> [Boros et al. 1997].<br />

7 Dieser Ansatz wird z.B. bei [Komatani und Kawahara 2000] näher dargestellt.<br />

8 FränKI ist unter der Telefonnummer 09131/6166116 erreichbar.<br />

9 Siehe u.a. [Grävemeyer 1999b].<br />

10 Für nähere Informationen zu GALAXY siehe [Seneff et al. 1998].


4.1. AUSKUNFTSSYSTEME 31<br />

Spanisch verarbeiten kann. Die Übersetzung <strong>in</strong> die Zielsprache wird immer von der <strong>in</strong>ternen<br />

semantischen Repräsentation vorgenommen, die sprachunabhängig ist.<br />

Die Wetter<strong>in</strong>formationen für Jupiter werden aus verschiedenen Datenquellen im Internet<br />

bezogen und <strong>in</strong> e<strong>in</strong>e SQL-Datenbank übernommen. Das System kann Anfragen zu 638 teilweise<br />

<strong>in</strong>ternationalen Städten beantworten, sowie Anfragen zu (geographischen) Regionen<br />

und Staaten.<br />

Laut [Glass und Hazen 1998] wurde auf e<strong>in</strong>em Vokabular von 1893 Wörtern e<strong>in</strong>e durchschnittliche<br />

WER von 11,8 % gemessen. Die e<strong>in</strong>zige veröffentlichte Success-Rate ist aus dem<br />

Jahr 1997 und beträgt 53,8 % (vgl. [Zue et al. 1997]). Sämtliche Angaben gelten allerd<strong>in</strong>gs<br />

nur für englische Sprecher, da die Referenzdaten für ausländische Sprecher nicht <strong>in</strong> der für<br />

e<strong>in</strong>e solche Auswertung nötigen Menge vorlagen. E<strong>in</strong>e genaue Beschreibung der Evaluation<br />

von JUPITER wird <strong>in</strong> [Polifroni et al. 1998] gegeben.<br />

4.1.7 ISA<br />

ISA (IBM Stau Applikation) ist im Rahmen e<strong>in</strong>es Praktikums im Jahre 1999 von Stefan<br />

Hamerich bei der IBM kostruiert worden und wurde seitdem kont<strong>in</strong>uierlich weiterentwickelt.<br />

Das System wurde im Jahr 2000 erstmalig <strong>in</strong> e<strong>in</strong>em größeren Rahmen präsentiert (vgl.<br />

[Günther et al. 2000]). Es stellt allerd<strong>in</strong>gs immer noch e<strong>in</strong>en Prototypen dar.<br />

Die Applikation ist mit Hilfe des IBM ViaVoice Telephony Toolkit konstruiert worden<br />

(siehe dazu im Anhang Abschnitt A.1) und stellt e<strong>in</strong>e Telefonanwendung dar. Das System<br />

ermöglicht e<strong>in</strong>e Stauabfrage für alle deutschen Autobahnen und bietet verschiedene Anfrageoptionen.<br />

Es existiert zudem e<strong>in</strong>e Routenabfrage, die Staumeldungen zwischen zwei<br />

Städten liefert. Außerdem besteht die Möglichkeit, sich Meldungen per SMS auf e<strong>in</strong> Mobiltelefon<br />

schicken zu lassen. Anfragen erfolgen dabei <strong>in</strong> e<strong>in</strong>er reaktiven Dialogstrategie (siehe<br />

Abschnitt 2.5), es werden z.B. ke<strong>in</strong>e Ellipsen verarbeitet<br />

Als Spracherkenner dient der IBM ViaVoice-Erkenner, der allerd<strong>in</strong>gs speziell für den Telefonkanal<br />

aufbereitet wurde 11 . Der Erkenner übergibt die beste erkannte Wortfolge dem<br />

IVR-Hub (Interactive Voice Response), dieser stellt die zentrale Steuerungse<strong>in</strong>heit des IBM<br />

ViaVoice Telephony Toolkit dar. Der IVR-Hub erledigt die gesamte Verarbeitung der<br />

Wortfolge, die vom Erkenner kommt. Dabei werden nur die für die jeweilige Anwendung relevanten<br />

Wortfolgen als Annotationen verarbeitet. Anschließend werden entsprechende Aufrufe<br />

an das Backend gestartet und schließlich die Ausgabe an das TTS-Modul übergeben.<br />

Die Sprachausgabe der Staumeldungen erfolgt über e<strong>in</strong>e im IBM-Toolkit <strong>in</strong>tegrierte TTS-<br />

Komponente. Die Anwendungsdaten werden von e<strong>in</strong>er Internetseite extrahiert, aufbereitet<br />

und lokal zwischengespeichert. 12<br />

ISA ist e<strong>in</strong> Dialogsystem, stellt allerd<strong>in</strong>gs ke<strong>in</strong> Konversationssystem dar, da es z.B. ke<strong>in</strong>e<br />

Bezüge zu vorherigen Äußerungen erlaubt, außerdem wird e<strong>in</strong>e Anfrage immer komplett <strong>in</strong><br />

e<strong>in</strong>em Stück erwartet, Nachfragen werden nicht gestellt (vgl. dazu Abschnitt 3.1).<br />

Die Erfolgsrate von ISA ist mit 91,3 % sehr gut, die Wortfehlerrate liegt allerd<strong>in</strong>gs bei über<br />

15 %. Da aber für e<strong>in</strong>e korrekte Verarbeitung nur die jeweilig relevanten Wortfolgen von<br />

Interesse s<strong>in</strong>d, ist e<strong>in</strong>e schlechte Erkennung der übrigen Worte nicht ausschlaggebend.<br />

11 Für Details siehe [Günther et al. 2000].<br />

12 ISA ist ebenfalls öffentlich erreichbar, und zwar unter der Nummer 06221/593129.


32 KAPITEL 4. DIALOGSYSTEME IM ÜBERBLICK<br />

4.2 Aktionssysteme<br />

Unter Aktionssystemen werden solche Systeme zusammengefaßt, die über den normalen<br />

Anwendungsrahmen e<strong>in</strong>es re<strong>in</strong>en Auskunftssystems h<strong>in</strong>ausgehen und die Durchführung von<br />

Aktionen gestatten, e<strong>in</strong> Beispiel dafür s<strong>in</strong>d Planungssysteme.<br />

Planungssysteme dienen der Durchführung von komplexen Aufgaben. Meist wird <strong>in</strong> e<strong>in</strong>er<br />

Domäne e<strong>in</strong> Auftrag beschrieben und dieser dann im folgenden von e<strong>in</strong>em System ausgeführt.<br />

Gängige Beispiele für solche Systeme s<strong>in</strong>d Routenplanungen. Im folgenden werden<br />

exemplarisch zwei Systeme vorgestellt, e<strong>in</strong> Agentensystem zur Steuerung e<strong>in</strong>er imag<strong>in</strong>ären<br />

Güterzuggesellschaft (Abschnitt 4.2.1) und e<strong>in</strong> Term<strong>in</strong>verwaltungssystem (Abschnitt 4.2.2).<br />

4.2.1 TRAINS<br />

Das TRAINS-Projekt wurde 1990 an der Universität von Rochester (USA) unter James F.<br />

Allen als Langzeitprojekt begonnen. Ziel dieses Projekts war die Entwicklung e<strong>in</strong>es natürlichsprachlichen<br />

Systems, das mittels (englischer) Konversation mit e<strong>in</strong>em Benutzer <strong>in</strong>teragieren<br />

und Aufgaben bewältigen konnte (vgl. [Allen et al. 1994]). TRAINS unterscheidet sich <strong>in</strong><br />

der H<strong>in</strong>sicht von anderen Systemen, als daß es ke<strong>in</strong> Auskunftssystem ist, sondern e<strong>in</strong> conversational<br />

agent, also e<strong>in</strong> Agent, der mittels Sprache gesteuert wird und der dann je nach<br />

Auftrag Pläne durchführt. In [Sikorski und Allen 1997] wird das System deshalb als <strong>in</strong>telligent<br />

plann<strong>in</strong>g assistant bezeichnet.<br />

Das System ist für den H<strong>in</strong>tergrund der Routenplanung e<strong>in</strong>er imag<strong>in</strong>ären Güterzuggesellschaft<br />

im Nordosten der USA konstruiert worden, alle Komponenten wurden jedoch so<br />

allgeme<strong>in</strong> gehalten, daß der E<strong>in</strong>satz <strong>in</strong> e<strong>in</strong>er fremden Domäne möglich ist. Auch hierbei war<br />

nicht die Schaffung e<strong>in</strong>es spezialisierten Systems das Ziel, sondern vielmehr die Konstruktion<br />

e<strong>in</strong>es sprachgesteuerten Systems im allgeme<strong>in</strong>en. E<strong>in</strong> spezielles Ziel im Rahmen dieser<br />

Arbeit war die Bereitstellung von Wissen für e<strong>in</strong>en möglichen Anwender auf re<strong>in</strong> verbaler<br />

Ebene. E<strong>in</strong> Schwerpunkt von TRAINS war die Planung; die Generierung und Ausführung<br />

von Plänen <strong>in</strong> Zusammenarbeit mit e<strong>in</strong>em Dialogsystem war die große Herausforderung von<br />

TRAINS.<br />

Die Spracherkennung und die Sprachsynthese von TRAINS s<strong>in</strong>d externe Komponenten,<br />

die von der CMU (SPHINX-II 13 ) bzw. der Firma Entropic (TRUETALK) stammen, die<br />

restlichen Komponenten wurden an der Universität Rochester entwickelt (siehe [Allen et al.<br />

1996]). Die Erkennungsrate <strong>in</strong> der TRAINS-Domäne liegt, bei spontansprachlichem Input<br />

bei 80 % bei e<strong>in</strong>em Vokabular von 60.000 E<strong>in</strong>trägen. Allerd<strong>in</strong>gs verfügt TRAINS über e<strong>in</strong>e<br />

statistische Fehlerkorrektur, welche die Erkennungsfehler des Spracherkenners m<strong>in</strong>imiert. 14<br />

Für TRAINS wurde außerdem e<strong>in</strong> spezielles Augenmerk auf e<strong>in</strong> besonders robustes Pars<strong>in</strong>g<br />

gelegt, wie <strong>in</strong> [Allen et al. 1994; Allen et al. 1996] beschrieben. Die Evaluation e<strong>in</strong>es<br />

solchen Planungssystems ist <strong>in</strong> [Sikorski und Allen 1997] näher beschrieben. Dort wird von<br />

e<strong>in</strong>er Erfolgsrate von 94,4 % berichtet, außerdem wird die WER mit genau 20 % (ohne<br />

Fehlerkorrektur) angegeben.<br />

13 Siehe dazu http://www.speech.cs.cmu.edu/speech/.<br />

14 Zur Fehlerkorrektur <strong>in</strong> TRAINS siehe [Heeman und Allen 1994].


4.3. ÜBERSETZUNGSSYSTEME 33<br />

4.2.2 Carnegie Mellon Communicator<br />

An der CMU wird seit 1998 an dem Carnegie Mellon Communicator gearbeitet. Dieser ist<br />

domänenunabhängig und wurde auf den Domänen Term<strong>in</strong>planung und Reiseplanung getestet<br />

(vgl. [Constant<strong>in</strong>ides et al. 1998]). Die Grundidee dieses Systems war die weiterführende<br />

Entwicklung e<strong>in</strong>es Dialogsystems über den Ansatz der e<strong>in</strong>fachen Auskunftssysteme h<strong>in</strong>weg.<br />

Der Communicator nutzt, wie TRAINS (vgl. Abschnitt 4.2.1) den von der CMU entwickelten<br />

SPHINX-Erkenner sowie den PHOENIX-Parser, der ebenfalls dort entwickelt worden ist.<br />

Das System kann über das Telefon bedient werden. Für die Reiseplanung war das System<br />

über das Internet mit verschiedenen Fluggesellschaften verbunden, deren Daten dann für<br />

die Dialoge verwendet wurden.<br />

Da das gesamte System domänenunabhängig implementiert ist, wurden außerhalb des Dialogmanagers<br />

(DM) verschiedene doma<strong>in</strong> agents e<strong>in</strong>geführt, die jeweils e<strong>in</strong>en eigenen Bereich<br />

abdecken. In [Rudnicky et al. 1999] werden Agenten für die folgenden Bereiche erwähnt:<br />

Reise<strong>in</strong>formationen, Datums- und Zeit<strong>in</strong>terpretationen und Benutzermodell.<br />

Trotzdem ist der DM noch für die Steuerung des gesamten Dialogs verantwortlich, er wertet<br />

die Benutzeräußerungen aus und stößt bei Bedarf die nötigen Nachfragen an, um beispielsweise<br />

e<strong>in</strong>en Flug buchen zu können. Der Communicator ist daher e<strong>in</strong> echtes Konversationssystem.<br />

Der Communicator verfügt außerdem über e<strong>in</strong>en Überwachungsmodus, e<strong>in</strong>en sogenannten<br />

supervisor mode, <strong>in</strong> dem das System selbständig <strong>in</strong> verfahrenen Situationen e<strong>in</strong>en menschlichen<br />

Gesprächspartner h<strong>in</strong>zuzieht, um e<strong>in</strong>em Benutzer auch im schlimmsten Falle e<strong>in</strong>e<br />

Anfrage zu beantworten.<br />

Das System ist 1998 e<strong>in</strong>er Evaluierung unterzogen worden, dabei wurden 82 % aller Dialoge<br />

erfolgreich durchgeführt. Außerdem wurde die Zeit für e<strong>in</strong>e erfolgreiche Flugbuchung mit<br />

dem Communicator und e<strong>in</strong>er normalen telefonischen Buchung bei e<strong>in</strong>er Fluggesellschaft<br />

mit e<strong>in</strong>em menschlichen Gesprächspartner verglichen, dabei schnitt der Communicator 15<br />

Sekunden schlechter ab, als der Telefonist. Allerd<strong>in</strong>gs wird dieser Vergleich <strong>in</strong> [Constant<strong>in</strong>ides<br />

et al. 1998] sofort durch die Aussage relativiert, daß der gebotene Service bei e<strong>in</strong>em<br />

menschlichen Gesprächspartner sehr viel höher sei.<br />

4.3 Übersetzungssysteme<br />

In diesem Abschnitt werden zwei ausgewählte Übersetzungssysteme, die auf natürlichsprachlichen<br />

Dialogen basieren, vorgestellt. Diese Systeme dienen der mehrsprachigen Benutzung<br />

unter Verwendung von Dialogen. Sie haben grundsätzlich nicht nur mit den Problemen der<br />

Spracherkennung und der Dialogsteuerung zu kämpfen, sondern zusätzlich mit den Schwierigkeiten<br />

e<strong>in</strong>er masch<strong>in</strong>ellen Übersetzung (engl. mach<strong>in</strong>e translation) (MT). MT-Systeme<br />

stellen somit e<strong>in</strong>e Synthese aus Spracherkennung, -verarbeitung und masch<strong>in</strong>eller Übersetzung<br />

dar. Da der Schwerpunkt der vorliegenden Arbeit auf Dialogsystemen liegt, wird im<br />

folgenden nur auf die Dialogeigenschaften der jeweiligen Systeme e<strong>in</strong>gegangen. Die Übersetzungsleistungen<br />

der Systeme wird nicht näher betrachtet.<br />

Es gibt <strong>in</strong>zwischen e<strong>in</strong>e große Anzahl verschiedenster dialogfähiger Übersetzungssysteme,<br />

im folgenden sollen allerd<strong>in</strong>gs nur zwei exemplarisch vorgestellt werden. Insbesondere das<br />

System VERBMOBIL (Abschnitt 4.3.2) ist dabei hervorzuheben, da viele Erkenntnisse aus


34 KAPITEL 4. DIALOGSYSTEME IM ÜBERBLICK<br />

diesem System <strong>in</strong> die gesamte Forschung für Sprachverarbeiter <strong>in</strong> Deutschland e<strong>in</strong>gegangen<br />

s<strong>in</strong>d. Außerdem wird das System JANUS (Abschnitt 4.3.1) vorgestellt, welches zum Teil<br />

ebenfalls <strong>in</strong> Deutschland entstanden ist.<br />

4.3.1 JANUS<br />

JANUS ist e<strong>in</strong> Übersetzungssystem, das seit Ende der 80er Jahre maßgeblich an der CMU<br />

und der Universität Karlsruhe entwickelt wird (siehe u.a. [Waibel 1996]). Entwicklungspartner<br />

s<strong>in</strong>d außerdem Siemens und ATR (Japan). JANUS wird mit spontansprachlichen<br />

E<strong>in</strong>gaben <strong>in</strong> e<strong>in</strong>er Term<strong>in</strong>vere<strong>in</strong>barungsdomäne betrieben. E<strong>in</strong>ige Erkenntnisse von JANUS<br />

s<strong>in</strong>d wegen teilweise identischen Partnern und der übere<strong>in</strong>stimmenden Domäne <strong>in</strong> VERBMOBIL<br />

(siehe Abschnitt 4.3.2) e<strong>in</strong>geflossen.<br />

Das System kann E<strong>in</strong>gaben <strong>in</strong> deutscher, englischer und spanischer Sprache verarbeiten und<br />

Ausgaben zusätzlich auf Japanisch und Koreanisch produzieren. Das Lexikon von JANUS ist<br />

als Vollformlexikon implementiert und verfügt über mehr als 3000 E<strong>in</strong>träge für die englische<br />

Sprache.<br />

Das JANUS-System besteht aus drei Hauptmodulen: der ASR, dem MT-Modul und der<br />

Sprachsynthese. Das ASR-Modul berechnet anhand von HMM’s und e<strong>in</strong>em statistischen<br />

LM den besten Wortgraphen. Dieser wird um Redundanzen verkürzt und dann der MT-<br />

Komponente übergeben. Diese besteht laut [Lavie et al. 1997] aus zwei vone<strong>in</strong>ander unabhängigen<br />

Teilen, dem General LR Modul (GLR), das sehr akkurate Ergebnisse liefert,<br />

sowie dem für die robuste Verarbeitung konstruierten PHOENIX-Modul. In beiden Modulen<br />

erfolgt die sprachliche Analyse, deren Ergebnis Interl<strong>in</strong>gua genannt wird und e<strong>in</strong>e<br />

sprachunabhängige Repräsentation darstellt. Nach [Waibel 1996] wird die Analyse <strong>in</strong> JA-<br />

NUS nur nach semantischen Kriterien vorgenommen, e<strong>in</strong>e syntaktische Analyse f<strong>in</strong>det nicht<br />

mehr statt, um e<strong>in</strong>e robustere Verarbeitung zu erlauben.<br />

Das GLR-Modul erhält den Str<strong>in</strong>g des Erkenners und parst diesen zuerst, anschließend wird<br />

die lexikalische Analyse durchgeführt. Der Parser nutzt die Grammatikregeln e<strong>in</strong>es unifikationsbasierten<br />

Formalismus, um die Interl<strong>in</strong>gua zu erhalten, die <strong>in</strong> Form e<strong>in</strong>er Feature-Struktur<br />

vorliegt. Der Parser ist robust gegen spontansprachliche Phänomene, <strong>in</strong>dem nicht verarbeitbare<br />

Teile der Äußerung ausgelassen werden. Nach dem Pars<strong>in</strong>g wird die Interl<strong>in</strong>gua vom<br />

Diskurs-Prozessor ergänzt und die e<strong>in</strong>zelnen semantischen Dialoge<strong>in</strong>heiten (engl. semantic<br />

dialogue unit) (SDU) werden zugewiesen, wobei e<strong>in</strong>e SDU grob mit e<strong>in</strong>em Sprechakt<br />

korrespondiert (vgl. [Lavie et al. 1997]). Diese E<strong>in</strong>heiten werden <strong>in</strong> der Interl<strong>in</strong>gua weiterverarbeitet<br />

um dann schließlich <strong>in</strong> die entsprechende Zielsprache transferiert zu werden.<br />

Das PHOENIX-Modul besteht nur aus dem PHOENIX-Parser und e<strong>in</strong>em Generator, der das<br />

Ergebnis <strong>in</strong> die Zielsprache überträgt. Die semantische Analyse erfolgt mit dem PHOENIX-<br />

Parser, der auf semantischen Grammatiken arbeitet (vgl. [Waibel 1996]). Dabei wird e<strong>in</strong>e<br />

Äußerung <strong>in</strong> Slots von sogenannten semantischen Frames verarbeitet. Diese Frames werden<br />

dann <strong>in</strong> Interl<strong>in</strong>gua repräsentiert und weitergegeben, um daraus den entsprechenden Ausgabestr<strong>in</strong>g<br />

zu erstellen.<br />

Das Ergebnis des jeweiligen MT-Moduls wird dem Generierungsmodul übergeben, das den<br />

Ausgabestr<strong>in</strong>g <strong>in</strong> der Zielsprache produziert. Bei diesem Modul handelt es sich um e<strong>in</strong> kommerzielles<br />

Modul, das nicht an e<strong>in</strong>er der beteiligten Universitäten entwickelt wurde.<br />

Die Evaluation von JANUS ist <strong>in</strong> [Gates et al. 1997] näher dargestellt. Da es sich bei JANUS<br />

um e<strong>in</strong> MT-System handelt, s<strong>in</strong>d die entsprechenden Werte allerd<strong>in</strong>gs nicht mit denen der<br />

Systeme aus Abschnitt 4.1 zu vergleichen. Der Vollständigkeit halber sollen trotzdem e<strong>in</strong>ige


4.3. ÜBERSETZUNGSSYSTEME 35<br />

Zahlen vorgelegt werden: die WER wird mit 33,2 % angegeben, bei der End-To-End Evaluation<br />

wurden mit dem GLR-Modul 54 % aller Äußerungen richtig verarbeitet, 49 % wurden<br />

mit dem PHOENIX-Modul korrekt verarbeitet. Beide Zahlen gehen von e<strong>in</strong>em Input des<br />

ASR aus. Unter Vernachlässigung der Fehlerrate des Erkenners wurden über 78 % mit dem<br />

GLR und über 70 % mit dem PHOENIX-Modul korrekt verarbeitet.<br />

4.3.2 VERBMOBIL<br />

VERBMOBIL war e<strong>in</strong> langfristig angelegtes, <strong>in</strong>terdiszipl<strong>in</strong>äres Projekt des Bundesm<strong>in</strong>isteriums<br />

für Bildung, Wissenschaft, Forschung und Technologie (BMBF). Ziel dieses Projekts war die<br />

Entwicklung e<strong>in</strong>es mobilen Übersetzungssystems für face-to-face Situationen oder den Telefonzugriff<br />

von menschlichen Dialogpartnern für die Domäne Term<strong>in</strong>absprache. Das Projekt<br />

wurde vom BMBF als Verbundvorhaben unter der Beteiligung verschiedener Wirtschaftsunternehmen,<br />

Universitäten und Forschungszentren von 1993 bis 2000 gefördert (vgl. z.B.<br />

[Wahlster 1993b; Wahlster 1997; Wahlster 2000]). 15,16<br />

Der Name VERBMOBIL leitet sich aus dem Ziel des Projekts ab, das System sollte e<strong>in</strong>e verbale<br />

Kommunikation mit ausländischen Gesprächspartnern <strong>in</strong> mobilen Umgebungen gestatten<br />

(vgl. [Wahlster 2000]). Das VERBMOBIL-System sollte diese Kommunikation für spontansprachliche<br />

E<strong>in</strong>gaben von bestimmten Dialogdomänen der Sprachenpaare deutsch – englisch<br />

und deutsch – japanisch leisten. Diese Domänen bestanden während der ersten Projektphase<br />

(1993 – 1996) aus Term<strong>in</strong>verhandlungsdialogen von Geschäftspartnern, <strong>in</strong> der zweiten<br />

Projektphase (1997 – 2000) stand zusätzlich die Übersetzung von Dialogen der Domänen<br />

Reiseplanung und Hotelreservierung im Vordergrund, außerdem sollte e<strong>in</strong>e Fernwartung von<br />

PC’s mit VERBMOBIL <strong>in</strong>ternational möglich se<strong>in</strong> (siehe u.a. [von Hahn und Amtrup 1996;<br />

Wahlster 2000]).<br />

Im Zusammenhang mit der Konstruktion des Systems wurde e<strong>in</strong> sehr großer Aufwand <strong>in</strong><br />

die Sammlung und Analyse von Dialogen der entsprechenden Domänen <strong>in</strong>vestiert, so wurden<br />

nicht nur verschiedene Aufnahmetechniken und Analysemethoden getestet, es wurden<br />

auch großangelegte WOZ-Experimente gemacht und viele menschliche Dialoge der Systemdomänen<br />

beobachtet, um Erkenntnisse aus diesen Daten zu gew<strong>in</strong>nen (vgl. z.B. [Jekat-<br />

Rommel 1994; Jekat et al. 1997; Krause 1997; Fischer 1999; Jekat und von Hahn 2000]).<br />

Im Laufe der Projektdauer wurden deshalb 3.200 Dialoge aufgenommen, die sich zusammen<br />

auf über 181 Stunden belaufen, die transkribierten Dialoge benötigen mehr als 21 GB Platz<br />

und s<strong>in</strong>d auf 56 CD-ROM’s verteilt (nach [Karger und Wahlster 2000]).<br />

Die Endversion von VERBMOBIL ist <strong>in</strong> mehrere Module unterteilt, die über zahlreiche Kommunikationsschnittstellen<br />

mite<strong>in</strong>ander verbunden s<strong>in</strong>d. E<strong>in</strong>en groben Überblick über die<br />

Systemarchitektur gibt die Abbildung 4.1; sie stellt allerd<strong>in</strong>gs e<strong>in</strong>en vere<strong>in</strong>fachten Blick auf<br />

die Architektur von VERBMOBIL dar. Laut [Wahlster 2000] vere<strong>in</strong>igt das System VERBMOBIL<br />

69 Systemkomponenten <strong>in</strong> sich. Die Hauptkomponenten werden im folgenden kurz vorgestellt:<br />

Da es sich bei VERBMOBIL um e<strong>in</strong> multil<strong>in</strong>guales System handelt, existieren je Sprache e<strong>in</strong><br />

15 Siehe auch: http://www.dfki.de/verbmobil.<br />

16 Projektteilnehmer waren: CSLI (USA), DaimlerChrysler, DASA/Temic, DFKI, HU Berl<strong>in</strong>, Philips, RW-<br />

TH Aachen, Siemens, TU Berl<strong>in</strong>, TU Braunschweig, TU Dresden, TU München, U Bielefeld, U Bochum, U<br />

Bonn, U des Saarlandes, U Erlangen-Nürnberg, U Hamburg, U Karlsruhe, U München, U Stuttgart und U<br />

Tüb<strong>in</strong>gen. Folgende Teilnehmer waren nur <strong>in</strong> der ersten Projektphase von 1993-96 beteiligt: Alcatel SEL,<br />

ATR (Japan), CAP Debis Systemhaus, CMU (USA), IBM, U Hildesheim, U Kiel und U Ulm. (vgl. [Karger<br />

und Wahlster 2000]).


36 KAPITEL 4. DIALOGSYSTEME IM ÜBERBLICK<br />

Abbildung 4.1: Die Benutzeroberfläche von VERBMOBIL<br />

Erkenner und e<strong>in</strong> Synthesemodul, im ganzen existieren daher sechs sprachabhängige Komponenten,<br />

alle anderen Module im System s<strong>in</strong>d allerd<strong>in</strong>gs sprachunabhängig. Die Erkenner<br />

liefern jeweils 17 e<strong>in</strong>en Worthypothesengraphen im VERBMOBIL-Format an die Pars<strong>in</strong>g-<br />

Module. Vorher werden die Daten der Erkenner jedoch noch von der Prosodiekomponente<br />

angereichert (siehe dazu u.a. [Mast et al. 1996; Warnke et al. 1997]). In VERBMOBIL existieren<br />

drei Parser, die alle auf verschiedenen syntaktischen Wissensquellen basieren. Es<br />

gibt e<strong>in</strong>en Chart-Parser, e<strong>in</strong>en statistischen LR-Parser (<strong>in</strong> der Abbildung als ”<br />

Integrierte<br />

Verarbeitung“ dargestellt) und e<strong>in</strong>en HPSG-Parser für die tiefe Analyse ( ”<br />

deep analysis“).<br />

Die Ergebnisse der ersten beiden Parser werden an e<strong>in</strong> Modul geschickt, um dort <strong>in</strong> das<br />

VERBMOBIL-eigene Graphenformat transferiert zu werden (das Modul ist <strong>in</strong> der Abbildung<br />

als ”<br />

semantic construction“ bezeichnet). Die Hypothesengraphen aller Parser werden anschließend<br />

mite<strong>in</strong>ander komb<strong>in</strong>iert, um e<strong>in</strong>en möglichst vollständigen Graphen zu erhalten.<br />

Die statistische Übersetzung beg<strong>in</strong>nt bereits mit dem ersten Ergebnis des Erkenners, dem<br />

nur prosodische Informationen h<strong>in</strong>zugefügt werden. Die Ergebnisse dieser Komponente s<strong>in</strong>d<br />

e<strong>in</strong>e Wortfolge <strong>in</strong> der Zielsprache und e<strong>in</strong>e Bewertung des gefundenen Ergebnisses. Desweiteren<br />

gibt es zwei MT-Module der fallbasierten Übersetzung. E<strong>in</strong>e Komponente basiert<br />

auf Substr<strong>in</strong>gs, die andere auf 30.000 Übersetzungs-Templates. Außerdem existiert noch e<strong>in</strong><br />

MT-Modul, das auf Dialogakten basiert. Dafür wurden <strong>in</strong> VERBMOBIL 19 verschiedene Dialogakte<br />

mit e<strong>in</strong>er eigenen Hierarchie def<strong>in</strong>iert (vgl. [Jekat et al. 1995; Alexandersson et al.<br />

1997; Alexandersson et al. 1998]). Die Dialogakt-Komponente liefert e<strong>in</strong>e Frame-Repräsen-<br />

17 Wichtig zu bemerken ist, daß VERBMOBIL ke<strong>in</strong> push-to-talk System ist, vielmehr wird e<strong>in</strong>e openmicrophone-Technologie<br />

verwendet (siehe [Wahlster 2000]).


4.4. VERGLEICH DER VERSCHIEDENEN SYSTEME 37<br />

tation als Ergebnis, die <strong>in</strong> e<strong>in</strong>em Template-Verfahren <strong>in</strong> ihre entsprechende Übersetzung<br />

transformiert werden. Abschließend wird aus allen gelieferten Übersetzungen die mit der<br />

besten Bewertung ausgewählt, um an die Dialogkomponente übergeben zu werden. Die Dialogkomponente<br />

besteht aus e<strong>in</strong>em Planer, der e<strong>in</strong>en Dialog <strong>in</strong> Dialogphasen strukturiert.<br />

Dialogakte s<strong>in</strong>d dabei die Blätter e<strong>in</strong>er Baumstruktur, welche die Dialogstruktur repräsentiert.<br />

Die Dialogphasen s<strong>in</strong>d vor allem für die Auflösung von Ellipsen oder Anaphoren von<br />

Bedeutung. Das Transfer-Modul kann e<strong>in</strong>e Kontext-Suche starten, falls die jeweiligen Graphen<br />

unterspezifiziert s<strong>in</strong>d, andernfalls werden die korrekten Graphen der Generierungs-<br />

Komponente übergeben. Diese generiert e<strong>in</strong>en Satzplan bestehend aus lexikalischen Feldern<br />

und semantischen Rollen. Abschließend wird die Ausgabe <strong>in</strong> der gewünschten Zielsprache<br />

synthetisiert.<br />

Obwohl VERBMOBIL als Übersetzungssystem verstanden wird, ist dieser Term<strong>in</strong>us hier mißverständlich.<br />

Die Aufgabe des Systems liegt <strong>in</strong> der Übersetzung der kommunikativen Ziele<br />

(engl. communicative goals) e<strong>in</strong>es Benutzers, dabei lagen bei den zu übersetzenden Äußerungen<br />

häufig spontansprachliche Phänomene vor, <strong>in</strong>sbesondere Selbstkorrekturen, Hesitationen,<br />

Auslassungen etc. Die Übersetzung sollte jedoch grammatisch wohlgeformt se<strong>in</strong>, somit<br />

waren Selbstkorrekturen usw. aufzulösen.<br />

Das Vokabular von VERBMOBIL besteht laut [Karger und Wahlster 2000] aus 19.594 Wortformen,<br />

davon 10.157 deutsche, 6.871 englische und 2.566 japanische. Die Evaluation des<br />

Gesamtsystems und ihre Ergebnisse s<strong>in</strong>d bei [Tessiore und von Hahn 2000] beschrieben.<br />

Evaluiert wurde größtenteils über der ersten und zweiten Domäne (Term<strong>in</strong>absprache und<br />

Reiseplanung). Dabei wurden Dialoge mit e<strong>in</strong>er durchschnittlichen Rate von 86,8 % erfolgreich<br />

beendet.<br />

4.4 Vergleich der verschiedenen Systeme<br />

Um e<strong>in</strong>en abschließenden und zusammenfassenden Überblick über die <strong>in</strong> diesem Kapitel vorgestellten<br />

Dialogsysteme zu ermöglichen, werden diese im folgenden mite<strong>in</strong>ander verglichen.<br />

Betrachtet werden alle <strong>in</strong> den Abschnitten 4.1, 4.2 und 4.3 vorgestellten Systeme.<br />

E<strong>in</strong>e Bewertung der verschiedenen Systeme gegene<strong>in</strong>ander soll hier nicht erfolgen, da weder<br />

die jeweiligen Ausgangssituationen noch die Möglichkeiten bei der Entstehung der verschiedenen<br />

Systeme mite<strong>in</strong>ander vergleichbar s<strong>in</strong>d.<br />

Die Vergleichsdaten s<strong>in</strong>d <strong>in</strong> Tabelle 4.1 zusammengefaßt, um e<strong>in</strong>en vollständigen Überblick<br />

über die verschiedenen vorgestellten Dialogsysteme zu ermöglichen. Die Übersetzungssysteme<br />

s<strong>in</strong>d ebenfalls mit aufgeführt, ihre Erfolgsraten wurden allerd<strong>in</strong>gs e<strong>in</strong>geklammert, da<br />

diese vor allem durch die jeweilige Übersetzungsqualität bestimmt s<strong>in</strong>d, die nicht Teil dieser<br />

Arbeit ist.<br />

Die Tabelle wird <strong>in</strong> Kapitel 5 noch e<strong>in</strong>mal aufgegriffen, um e<strong>in</strong>en Vergleich von ShopTel mit<br />

den behandelten Systemen zu ermöglichen.


38 KAPITEL 4. DIALOGSYSTEME IM ÜBERBLICK<br />

System Hersteller Jahr L LEX WER SR LM E<strong>in</strong>gabe<br />

SPICOS Siemens, Philips 1 1990 D 1200 9 2 k.A. Tri Mikrofon<br />

SUNDIAL CAP Gem<strong>in</strong>i (F) 3 1993<br />

4<br />

1000 34 86 Bi Telefon<br />

TABA Philips 1994 D k.A. k.A. 90 Bi Telefon<br />

Dialogos CSELT (I) 1996 I 3471 23 85 Bi Telefon<br />

EVAR U Erlangen 1998 D k.A. k.A. 69 Bi Telefon<br />

JUPITER MIT (USA) 1998<br />

5<br />

1893 12 54 Bi Telefon<br />

ISA IBM 2000 D 500 15 91 Tri Telefon<br />

TRAINS U Rochester (USA) 1995 E 60000 20 6 94 7 Tri Mikrofon<br />

Communicator CMU (USA) 1998 E k.A. k.A. 82 Tri Telefon<br />

JANUS CMU (USA) 8 1997<br />

9<br />

3000 33 (54) Tri Mikrofon<br />

VERBMOBIL CSLI (USA) 10 2000<br />

11<br />

19594 k.A. (87) Tri Mikrof. 12<br />

1 und IPO (NL)<br />

2 sprecherabhängige Erkennung<br />

3 desweiteren CNET (F), CSELT (I), Daimer-Benz, U Erlangen, IRISA (F), Logica (GB), Politechnico di<br />

Tor<strong>in</strong>o (I), Sar<strong>in</strong> Telematica (I), Siemens, U of Surrey (GB), Vocalis (UK)<br />

4 D E F I (Zahlenangaben nur für D)<br />

5 C D E F S (Zahlenangaben nur für E)<br />

6 ohne statistische Fehlerkorrektur<br />

7 mit Fehlerkorrektur<br />

8 mit U Karlsruhe<br />

9 D E S (Ausgabe zusätzlich auch <strong>in</strong> J K)<br />

10 außerdem DaimlerChrysler, DASA/Temic, DFKI, HU Berl<strong>in</strong>, Philips, RWTH Aachen, Siemens, TU<br />

Berl<strong>in</strong>, TU Braunschweig, TU Dresden, TU München, U Bielefeld, U Bochum, U Bonn, U des Saarlandes,<br />

U Erlangen, U Hamburg, U Karlsruhe, U München, U Stuttgart, U Tüb<strong>in</strong>gen; nur von 1993-96: Alcatel<br />

SEL, ATR (J), Debis, CMU (USA), IBM, U Hildesheim, U Kiel, U Ulm<br />

11 D E J<br />

12 auch Telefon, Zahlenangaben beziehen sich jedoch auf Mikrofon-Betrieb<br />

Erklärung der Spaltenbezeichnung:<br />

L: Language (Sprachen, die das entsprechende System versteht: C = ch<strong>in</strong>esisch, D =<br />

deutsch, E = englisch, F = französisch, I = italienisch, J = Japanisch, K = Koreanisch,<br />

S = spanisch) – LEX: Lexikon (bezeichnet die Vokabulargrösse im Lexikon) – WER: Word<br />

Error Rate (Wortfehlerrate) Werte auf ganze Zahlen gerundet – SR: Success Rate (Erfolgsrate)<br />

Werte gerundet – LM: Language Model (bezeichnet das verwendete Sprachmodell: Bi<br />

= Bigramm, Tri = Trigramm)<br />

Tabelle 4.1: Vergleich der vorgestellten Systeme


Kapitel 5<br />

SHOPTEL<br />

Im Rahmen dieser Arbeit ist das System ShopTel entstanden. Dieses ist mit Hilfe der<br />

IBM ViaVoice Telephony Natural Language Tools 1 entwickelt worden, die auf dem IBM<br />

ViaVoice Telephony Toolkit 2 aufbauen. Ziel war die Entwicklung e<strong>in</strong>es Konversationssystems<br />

für e<strong>in</strong>e automatische Bestellaufnahme. Mit Hilfe dieses Systems sollten Kunden<br />

Bestellungen ausführen und Informationen über die ausgewählten Produkte erhalten können.<br />

ShopTel sollte <strong>in</strong> se<strong>in</strong>er Leistungsfähigkeit e<strong>in</strong>em e<strong>in</strong>fachen Auskunftssystem durch die<br />

Möglichkeit der Durchführung dieser Bestellaktion überlegen se<strong>in</strong>. Bed<strong>in</strong>gt durch diese Vorgabe<br />

handelte es sich bei der Entwicklung von ShopTel nicht um die Konstruktion e<strong>in</strong>es<br />

Auskunftssystems, sondern um die e<strong>in</strong>es Aktionssystems (vgl. Abschnitt 4.2).<br />

Der nächste Abschnitt wird die Entwurfsziele von ShopTel behandeln, anschließend wird<br />

das Szenario des Systems dargestellt, um dann die Architektur des Systems detailliert zu<br />

beschreiben. Schließlich wird die Evaluation des Systems mit ihren Ergebnissen vorgestellt.<br />

5.1 Ziele<br />

ShopTel wurde implementiert, um am Beispiel dieses Systems <strong>Dialogsegmente</strong> (siehe Abschnitt<br />

2.2.2) entwickeln und untersuchen zu können. 3 Dafür mußte ShopTel als Konversationssystem<br />

implementiert werden, das auch komplexe Nachfragen verstehen und Rückfragen<br />

stellen konnte (vgl. dazu Abschnitt 3.1). Um diese Anforderungen <strong>in</strong> e<strong>in</strong>em für Benutzer <strong>in</strong>teressanten<br />

und realitätsnahen Kontext zu erfüllen, wurde die Domäne e<strong>in</strong>er automatischen<br />

Bestellaufnahme gewählt. Für die Wahl dieser Domäne sprach zusätzlich die hohe Komplexität<br />

von dort möglichen Dialogen. E<strong>in</strong>e besondere Rolle h<strong>in</strong>sichtlich der Komplexität des<br />

Systems wurde auch der zugrundeliegenden Produktauswahl zuteil, die zu e<strong>in</strong>em großen Teil<br />

für die lexikalische und semantische Vielfalt des Systems verantwortlich ist.<br />

ShopTel sollte <strong>in</strong> der gewählten Domäne herkömmlichen Auskunftssystemen, wie im Abschnitt<br />

4.1 beschrieben, weit überlegen se<strong>in</strong>. Es war nicht nur Ziel, e<strong>in</strong>em Benutzer Informationen<br />

über verschiedene Produkte zur Verfügung zu stellen, es sollte auch die Möglichkeit<br />

1 Vgl. dazu z.B. [Davies et al. 1999; Pap<strong>in</strong>eni et al. 1999; Mast et al. 2000] und den Anhang.<br />

2 Siehe dazu auch Abschnitt 4.1.7, den Anhang und [Günther et al. 2000].<br />

3 Die entsprechenden Segmente werden <strong>in</strong> Kapitel 6 vorgestellt.


40 KAPITEL 5. SHOPTEL<br />

geben, mit dem System s<strong>in</strong>nvolle Aktionen ausführen zu können. Daher sollte e<strong>in</strong>e Bestellung<br />

mit ShopTel möglichst realitätsnah durchgeführt werden können. Um dies zu ermöglichen,<br />

wurde e<strong>in</strong>e Auswahl existierender Produkte <strong>in</strong> ShopTel aufgenommen. Wichtig bei dieser<br />

Auswahl war auch die Existenz verschiedener Granularitäten, um unterschiedliche Mengen<br />

und Größenangaben zu implementieren und anschließend auch verarbeiten zu können.<br />

Im e<strong>in</strong>zelnen mußten bei der Entwicklung und Implementation des Systems folgende Punkte<br />

besonders berücksichtigt werden:<br />

• <strong>in</strong>tuitiver Ablauf des Bestellvorgangs mit e<strong>in</strong>er s<strong>in</strong>nvollen Anordnung der verschiedenen<br />

<strong>Dialogsegmente</strong><br />

• ke<strong>in</strong>e zu starke E<strong>in</strong>schränkung des Benutzers durch gesteuerte Dialoge, trotz nötiger<br />

Benutzerführung<br />

• möglichst freie Dialogführung, um dem Benutzer e<strong>in</strong>e echte Auswahl unter den zur<br />

Verfügung stehenden Segmenten anzubieten<br />

In der obigen Aufzählung wird damit schon das Dilemma der Implementation deutlich: e<strong>in</strong>e<br />

gewisse Benutzerführung ist zwar erforderlich, um e<strong>in</strong>e grobe Lenkung des Benutzers<br />

im System zu ermöglichen und ihn damit letztendlich zum Dialogziel zu führen, allerd<strong>in</strong>gs<br />

soll e<strong>in</strong> Anrufer nicht von ShopTel <strong>in</strong> e<strong>in</strong> bestimmtes Dialogmuster gezwungen werden.<br />

Vielmehr soll er se<strong>in</strong>e Bestellung möglichst frei formulieren können und dann im Idealfall<br />

nur durch gezielte Nachfragen gesteuert werden. Dieses Konzept kann optimal mit dem –<br />

<strong>in</strong> den IBM ViaVoice Telephony Natural Language Tools enthaltenen – Dialogmanager 4<br />

(DM) verwirklicht werden. Allgeme<strong>in</strong> galt es, das zu erstellende System <strong>in</strong> dieser H<strong>in</strong>sicht<br />

möglichst frei zu gestalten, dies war mit der Benutzung der IBM-Tools ohne große Kompromisse<br />

möglich.<br />

Desweiteren waren auch die üblichen Qualitätseigenschaften von Software zu beachten, dies<br />

s<strong>in</strong>d im e<strong>in</strong>zelnen:<br />

• Möglichkeit der späteren Erweiterung des Systems, um beispielsweise neue Produkte<br />

oder Kunden h<strong>in</strong>zuzufügen<br />

• e<strong>in</strong>e spätere Wiederverwendbarkeit <strong>in</strong> anderen Kontexten sollte ebenfalls ermöglicht<br />

werden, um die Implementation von späteren Dialogsystemen auf der NLU-Umgebung<br />

zu erleichtern<br />

• bed<strong>in</strong>gt durch die vorgegebene Architektur der IBM ViaVoice Telephony Natural<br />

Language Tools war e<strong>in</strong>e Modularisierung der e<strong>in</strong>zelnen Komponenten von ShopTel<br />

zw<strong>in</strong>gend vorgesehen<br />

Selbstverständlich sollten auch die Qualitätsmerkmale aus Anwendersicht, und zwar vor<br />

allem die Funktionserfüllung beachtet werden. Da es sich aber bei der zu erstellenden Anwendung<br />

um e<strong>in</strong>en Prototypen – also e<strong>in</strong>e Machbarkeitsstudie – handelt, stand dieses Ziel<br />

nicht im unmittelbaren Vordergrund.<br />

4 Für Details dazu siehe Abschnitt 5.3.13.


5.2. SZENARIO 41<br />

5.2 Szenario<br />

Das Szenario von ShopTel sah anfangs vor, daß e<strong>in</strong> Benutzer sich vor dem Bestellvorgang<br />

authentifizieren muß. Dies sollte durch Nennung e<strong>in</strong>er persönlichen Kundennummer und<br />

des Namens geschehen. Benutzer, die noch ke<strong>in</strong>e Kundennummer haben, sollten ShopTel<br />

als Probebenutzer verwenden können. Details zur Probebenutzung sollen dem Benutzer <strong>in</strong><br />

e<strong>in</strong>em Hilfetext erläutert werden.<br />

Nach der erfolgten Anmeldung kann e<strong>in</strong> spezifisches Produkt oder auch e<strong>in</strong>e Produktkategorie<br />

geäußert werden, die im folgenden disambiguiert wird. Das nach der Disambiguierung<br />

und Bestätigung durch den Benutzer ausgewählte Produkt kann dann <strong>in</strong> beliebiger Stückzahl<br />

bestellt werden, wobei bei e<strong>in</strong>igen Produktarten (wie z.B. bei We<strong>in</strong>) verschiedene Produkte<strong>in</strong>heiten<br />

(im vorliegenden Fall Flaschen und Kisten) unterschieden werden.<br />

Es ist möglich, beliebig viele Produkte h<strong>in</strong>tere<strong>in</strong>ander zu bestellen, dies wird durch e<strong>in</strong>e Wiederholung<br />

des Bestellsegments erreicht. Erst nach expliziter Angabe, nichts mehr bestellen<br />

zu wollen, wird der Bestellmodus verlassen und der Zahlungsdialog angestoßen. In diesem<br />

wird zuerst nach der gewünschten Zahlungsart gefragt. Es werden Kreditkarte, Rechnung,<br />

Nachnahme, Banke<strong>in</strong>zug und Überweisung zur Auswahl stehen. Als nächstes werden die<br />

spezifischen Daten der gewählten Zahlungsart nachgefragt, dabei ist darauf zu achten, nur<br />

diese spezifischen Daten zu erfragen.<br />

Bei e<strong>in</strong>er Probebestellung endet hier der Durchlauf durch ShopTel, nur registrierte Benutzer<br />

müssen im folgenden noch die gewünschte Lieferadresse angeben. Dafür werden e<strong>in</strong> Straßenname,<br />

e<strong>in</strong>e Postleitzahl und e<strong>in</strong> Ortsname benötigt. Für den Anfang sollen hier nur wenige<br />

ausgewählte Adressen zur E<strong>in</strong>gabe möglich se<strong>in</strong>, um den Vokabularumfang nicht zu stark<br />

anwachsen zu lassen.<br />

Im folgenden Abschnitt wird die Architektur und Funktionsweise von ShopTel beschrieben.<br />

Insbesondere sollen die Unterschiede zu den allgeme<strong>in</strong>en Komponenten e<strong>in</strong>es Dialogsystems,<br />

wie <strong>in</strong> Abschnitt 3.2 beschrieben, dargestellt werden.<br />

5.3 Architektur<br />

ShopTel wurde mit dem IBM ViaVoice Telephony Toolkit (VVT-Toolkit) entwickelt. Der<br />

Vorteil dieser Vorgehensweise liegt <strong>in</strong> der Nutzung bereits vorhandener oder nur anpassungsbedürftiger<br />

Komponenten, wie z.B. von Telefonie-Modul, Spracherkenner und TTS-<br />

Komponente. Die Verwendung der IBM ViaVoice Telephony Natural Language Tools<br />

(NLU-Tools) ermöglichte ferner die Nutzung des Dialogmanagers, sowie des diesen Tools<br />

zugrundeliegenden Parsers. Das Toolkit und die Tools werden <strong>in</strong> den folgenden Abschnitten<br />

nur soweit Betrachtungsgegenstand se<strong>in</strong>, wie sie für die jeweiligen Module von ShopTel von<br />

Interesse s<strong>in</strong>d, e<strong>in</strong>e nähere Darstellung der IBM-Werkzeuge wird im Anhang gegeben.<br />

Da ShopTel mit den NLU-Tools der IBM erstellt worden ist, wird es im folgenden auch als<br />

NLU-Anwendung bezeichnet.<br />

Die gesamte Architektur von ShopTel ist <strong>in</strong> Abbildung 5.1 dargestellt. Die e<strong>in</strong>zelnen Komponenten<br />

und Module werden <strong>in</strong> den folgenden Abschnitten e<strong>in</strong>gehend betrachtet. Für e<strong>in</strong>e<br />

grundsätzliche Funktionsbeschreibung der e<strong>in</strong>zelnen Komponenten möchte ich auf Abschnitt<br />

3.2 verweisen, dort erfolgte e<strong>in</strong>e grundsätzliche Beschreibung der Komponenten e<strong>in</strong>es<br />

Dialogsystems.


42 KAPITEL 5. SHOPTEL<br />

Abbildung 5.1: Architektur von ShopTel<br />

5.3.1 Telefonie-Modul<br />

Das Telefoniemodul ist im VVT-Toolkit enthalten und stellt die Schnittstelle zwischen Anwendung<br />

und Telefon dar. Es kann Anrufe annehmen, leistet e<strong>in</strong>e DTMF-Erkennung, detektiert<br />

Äußerungsanfänge und -enden und übernimmt außerdem die Kanalüberwachung. Für<br />

die Bereitstellung der Funktionalität werden e<strong>in</strong>e Telefoniekarte und e<strong>in</strong>e angeschlossene<br />

Telefonleitung benötigt.<br />

5.3.2 Spracherkenner<br />

Die automatische Spracherkennung (engl. automatic speech recognition) (ASR) ist ebenfalls<br />

bereits im IBM ViaVoice Telephony Toolkit enthalten. Der verwendete Spracherkenner<br />

im IBM ViaVoice Telephony Toolkit basiert auf dem marktüblichen IBM ViaVoice-<br />

Dekoder 5 , um jedoch auch e<strong>in</strong>e Erkennung der Daten aus dem Telefonkanal leisten zu<br />

können, ist der Erkenner zusätzlich mit 8 kHz-Daten, sowie mit von 20 kHz <strong>in</strong> 8 kHz transformierten<br />

Sprachsignalen tra<strong>in</strong>iert worden 6 . Dabei ist auch e<strong>in</strong> gesondertes Tra<strong>in</strong><strong>in</strong>g mit<br />

Daten von Mobiltelefonen vorgenommen worden, deren Datenqualität schlechter als die von<br />

stationären Telefonen ist. 7<br />

Damit die ASR <strong>in</strong> e<strong>in</strong>e NLU-Anwendung <strong>in</strong>tegriert werden kann, muß e<strong>in</strong> Sprachmodell<br />

(engl. language model) (LM), das den konkreten Anwendungsdaten der Domäne entstammen<br />

sollte, berechnet werden (vgl. dazu Abschnitt 3.2.2).<br />

Der Erkenner bezieht se<strong>in</strong>e Daten über den IVR-Hub (siehe Abschnitt 5.3.4) vom Telefonie-<br />

Modul und liefert <strong>in</strong> ShopTel die ”<br />

beste Kette“ und e<strong>in</strong>e Bewertung dieser Daten an den<br />

IVR-Hub zurück.<br />

5 Siehe dazu [Bahl et al. 1993].<br />

6 Für nähere Angaben zum Dekoder im IBM ViaVoice Telephony Toolkit siehe auch [Davies et al. 1999;<br />

Günther et al. 2000; Mast et al. 2000].<br />

7 Vergleiche dazu auch [Vuer<strong>in</strong>ckx und Vanpoucke 2000].


5.3. ARCHITEKTUR 43<br />

5.3.3 TTS-Modul<br />

Die Text-To-Speech-Komponente (TTS), die für ShopTel verwendet wird, ist ebenfalls im<br />

IBM ViaVoice Telephony Toolkit enthalten und ist als IBM Outloud Bestandteil von IBM<br />

ViaVoice.<br />

IBM Outloud ist e<strong>in</strong> formantbasiertes TTS-Modul, das für bekannte Wörter auf e<strong>in</strong> <strong>in</strong>ternes<br />

Lexikon zurückgreift, für unbekannte Wörter ist die Synthese phonbasiert. Für das IBM<br />

ViaVoice Telephony Toolkit gibt es optimierte E<strong>in</strong>stellungen für das Telefon. Je nach<br />

<strong>in</strong>stallierter Sprachversion ist auch die TTS-Komponente sprachabhängig.<br />

In ShopTel wird dem TTS-Modul e<strong>in</strong> beliebiger Str<strong>in</strong>g übergeben, der synthetisiert und<br />

über das Telefon an den Benutzer übertragen wird.<br />

5.3.4 IVR-Hub<br />

Der IVR-Hub (Interactive Voice Response) ist e<strong>in</strong> wesentlicher Bestandteil e<strong>in</strong>er Anwendung,<br />

die mit dem IBM ViaVoice Telephony Toolkit erstellt wird. Er koord<strong>in</strong>iert die e<strong>in</strong>zelnen<br />

Bestandteile des Systems und leitet sämtliche Daten an die jeweiligen Empfängerkomponenten<br />

weiter.<br />

Der IVR-Hub ist auch die Komponente, die alle anderen Module startet und bei Bedarf neu<br />

startet, um so bei Fehlern oder Abbrüchen e<strong>in</strong>en kompletten Systemneustart zu verh<strong>in</strong>dern.<br />

Er ist bei ShopTel als Skript <strong>in</strong> der Sprache Tcl implementiert. Dieses Skript hat Zugriff<br />

auf e<strong>in</strong>ige externe Programmbibliotheken, die im IBM-Toolkit enthalten s<strong>in</strong>d, um damit die<br />

Steuerung des Erkenners und der Telefonieumgebung zu ermöglichen.<br />

Das Skript des IVR-Hub ist anwendungsabhängig, da ihm alle anderen Komponenten bekannt<br />

se<strong>in</strong> und systemspezifische Besonderheiten beachtet werden müssen (z.B. zusätzlicher<br />

Versand von SMS-Nachrichten 8 , Backendzugriffe, etc.).<br />

5.3.5 Backend und Datenbank<br />

Das Backend stellt das B<strong>in</strong>deglied zwischen der Datenbank (engl. database) (DB) und dem<br />

System dar. Es wandelt die e<strong>in</strong>gehenden Anfragen <strong>in</strong> SQL-Abfragen für die Datenbank um<br />

und ist ebenfalls als Tcl-Skript implementiert worden.<br />

Die Datenbank ist e<strong>in</strong>e re<strong>in</strong>e SQL-Datenbank und enthält alle Daten, die für die Anwendung<br />

relevant s<strong>in</strong>d. Diese Daten müssen von Hand h<strong>in</strong>zugefügt werden, e<strong>in</strong>e automatische<br />

Datenaktualisierung ist zur Zeit nicht vorhanden. Es existieren momentan je Produktkategorie<br />

e<strong>in</strong>e Datenbank, e<strong>in</strong> Lookup-Table und e<strong>in</strong>e DB für die Kundendaten. Die Datenbanken<br />

werden über e<strong>in</strong>e ODBC-Schnittstelle vom Backend angesteuert.<br />

Das Backend stellt SQL-Anfragen an die Datenbank, welche die jeweils resultierenden Daten<br />

an das Backend zurückliefert. Das Backend sendet die jeweils von der DB erhaltenen<br />

Daten über den IVR-Hub an die entsprechend anfragende Komponente im jeweils verlangten<br />

Format. Die gesamte Disambiguierung von Datensätzen erfolgt ebenfalls im Backend. In<br />

deren Rahmen wird neben den Daten e<strong>in</strong> return code (RC) zurückgegeben, der im DM e<strong>in</strong>e<br />

differenzierte Behandlung von verschiedenen Daten erlaubt (siehe Abschnitt 5.3.13).<br />

8 Siehe z.B. [Günther et al. 2000; Mast et al. 2000].


44 KAPITEL 5. SHOPTEL<br />

E<strong>in</strong>e Erweiterung der DB um neue Datensätze oder sogar neue Produktkategorien kann<br />

ohne weiteres vorgenommen werden. Auch können die vorhandenen Daten problemlos ausgetauscht<br />

oder aktualisiert werden.<br />

5.3.6 Grundlagen der NLU-Tools<br />

Es gibt zwei Ansätze der IBM, um Telefonieanwendungen zu entwickeln: das IBM ViaVoice<br />

Telephony Toolkit (VTT) und die IBM ViaVoice Telephony Natural Language Tools<br />

(NLU-Tools). Es kann auch nur mit ersterem e<strong>in</strong>e Anwendung erstellt werden (wie z.B.<br />

ISA, Abschnitt 4.1.7), das Toolkit erlaubt allerd<strong>in</strong>gs ke<strong>in</strong>e sprachlichen Elipsen. <strong>Anwendungen</strong>,<br />

die nur mit dem VTT erstellt werden, s<strong>in</strong>d grundsätzlich grammatikbasiert. Bei<br />

VTT-<strong>Anwendungen</strong> existiert also e<strong>in</strong>e Grammatik, die alle möglichen Äußerungen e<strong>in</strong>es Benutzers<br />

beschreibt, somit werden auch nur die Äußerungen weiterverarbeitet, die <strong>in</strong> genau<br />

der vorliegenden Form <strong>in</strong> der Grammatik implementiert s<strong>in</strong>d.<br />

Mit den NLU-Tools besteht jedoch die Möglichkeit, e<strong>in</strong> Konversationssystem (engl. conversational<br />

system) (vgl. Abschnitt 3.1) zu erstellen. Dazu wird das VVT als Grundlage gebraucht,<br />

für die weitergehende Funktionalität werden dann zusätzlich die NLU-Tools benötigt. Diese<br />

Tools greifen vor allem auf e<strong>in</strong>en ausgereiften Parser zurück, der nicht grammatikbasiert ist,<br />

sondern auf Beispieldaten tra<strong>in</strong>iert wird (siehe dazu Abschnitt 5.3.8).<br />

Alle im folgenden aufgezählten Komponenten von ShopTel s<strong>in</strong>d Teil der NLU-Tools. Sie<br />

alle werden vom IVR-Hub (vgl. Abschnitt 5.3.4) über das ControlCenter (Abschnitt 5.3.7)<br />

gesteuert und verwaltet. Die VVT-Komponenten, die oben beschrieben wurden, s<strong>in</strong>d <strong>in</strong> ihrer<br />

Funktionsweise von denen der NLU-Tools unabhängig.<br />

5.3.7 NLU ControlCenter<br />

Das NLU ControlCenter stellt die Verb<strong>in</strong>dung zwischen dem IVR-Hub (Abschnitt 5.3.4) und<br />

den Komponenten der NLU-Tools her. Alle bisher <strong>in</strong> diesem Kapitel aufgeführten Module<br />

s<strong>in</strong>d Bestandteil des Toolkits, die folgenden Komponenten s<strong>in</strong>d ausnahmslos den NLU-Tools<br />

zugehörig.<br />

Das ControlCenter gibt so z.B. erkannte Daten zuerst an den Classer, dann an den Canonicalizer<br />

und schließlich an den Parser weiter. Die gesammelten Daten dieser Durchgänge<br />

werden dem Dialogmanager zur Auswertung übergeben, etwaige DB-Anfragen werden über<br />

den IVR-Hub an das Backend weitergeleitet.<br />

5.3.8 Pars<strong>in</strong>g <strong>in</strong> den NLU-Tools<br />

In Abschnitt 3.2.3 habe ich bereits allgeme<strong>in</strong> die Funktionsweise e<strong>in</strong>es Pars<strong>in</strong>g-Moduls dargestellt.<br />

Dort wurde auch darauf h<strong>in</strong>gewiesen, daß der Pars<strong>in</strong>gvorgang häufig als l<strong>in</strong>guistische<br />

Aufgabe angesehen wird und daher mit Grammatiken gelöst wird. Doch die komplette<br />

Erstellung e<strong>in</strong>er Grammatik kann nicht nur extrem zeitaufwendig se<strong>in</strong>, sie ist auch sehr komplex,<br />

da nur von l<strong>in</strong>guistisch geschultem Personal durchführbar. Um diese Schwierigkeiten zu<br />

umgehen, werden häufig auch statistische Parser e<strong>in</strong>gesetzt. Diese basieren im wesentlichen<br />

nach [Busemann 1995] auf endlichen Automaten oder kontextfreien Syntaxen, unterscheiden<br />

sich aber durch die Verwendung von probabilistischen Informationen von diesen. Auch für


5.3. ARCHITEKTUR 45<br />

die NLU-Tools wurde e<strong>in</strong> statistischer Parser verwendet. Dieser wird im folgenden beschrieben,<br />

um e<strong>in</strong> besserers Verständnis für die sich <strong>in</strong> der Systemarchitektur wiederspiegelnden<br />

Besonderheiten dieses Ansatzes zu ermöglichen.<br />

Aus den Forschungslaboratorien der IBM kommt der Vorschlag, Korpora von handannotierten<br />

Sätzen anzulegen, dieser Vorgang wird als treebank<strong>in</strong>g bezeichnet und verlangt e<strong>in</strong>en<br />

ger<strong>in</strong>geren Aufwand als das Erstellen von umfassenden Grammatiken [Jel<strong>in</strong>ek et al. 1994].<br />

Der Aufwand reduziert sich auf die Sammlung von Sätzen aus der Domäne des zu erstellenden<br />

Dialogsystems und das Erstellen von passenden Annotationen (vgl. Abschnitt 3.3.2).<br />

Das Vorhandense<strong>in</strong> dieser hiermit erstellten Baumbanken (engl. treebank) ermöglicht es nun,<br />

den Pars<strong>in</strong>gvorgang als Suchproblem über diesen Treebanks anzusehen. Der Prozess der Anwendung<br />

der Annotationen aus diesen Korpora für neue Sätze wurde von Jel<strong>in</strong>ek et al. als<br />

treebank recognition bezeichnet, dieser ist als das eigentliche Pars<strong>in</strong>gproblem zu begreifen.<br />

Dieses Problem kann sehr gut über e<strong>in</strong>e Grammatik gelöst werden, diese Lösung hat jedoch<br />

immer noch den Nachteil, daß sämtliche zulässigen Sätze damit vor dem Pars<strong>in</strong>g def<strong>in</strong>iert<br />

se<strong>in</strong> müssen. Daher wurde e<strong>in</strong> Verfahren erdacht, ohne zugrundeliegende Grammatik den<br />

passendsten Baum T ∗ für e<strong>in</strong>en gegebenen Satz w n 1 mit n Worten zu f<strong>in</strong>den:<br />

T ∗ = arg max p (T |w1 n )<br />

T ∈T(w1 n )<br />

wobei die Maximierung über die Gesamtheit aller Bäume, die den n-Wort-Satz überspannen,<br />

berechnet wird.<br />

Jel<strong>in</strong>ek et al. sehen e<strong>in</strong>en Baum e<strong>in</strong>er Baumbank als geometrisches Muster an und ordnen<br />

jedem Knoten e<strong>in</strong>es Baums zwei Eigenheiten zu, e<strong>in</strong>en Namen (POS-Tag oder Label) und<br />

e<strong>in</strong>e Erweiterung, welche die Richtung des entsprechenden Vaterknotens von diesem Knoten<br />

aus angibt (right oder left). Bei der Richtungsangabe wird außerdem noch unterschieden, ob<br />

e<strong>in</strong> Knoten alle<strong>in</strong>iges K<strong>in</strong>d se<strong>in</strong>es Vaters ist (unary) oder nur direkt unter se<strong>in</strong>em Vater (up)<br />

liegt. Grundsätzlich werden die Blätter mit Tags (<strong>in</strong> Kle<strong>in</strong>buchstaben benannt) bezeichnet,<br />

darüber liegende Knoten mit Labels (benannt <strong>in</strong> Großbuchstaben), wie <strong>in</strong> Abbildung 5.2 zu<br />

sehen.<br />

Abbildung 5.2: Beispielbaum<br />

Die Knoten <strong>in</strong> Abbildung 5.2 s<strong>in</strong>d der E<strong>in</strong>fachheit halber von 1 bis 5 durchnumeriert worden.<br />

Der abgebildete Baum wird wie folgt konstruiert: am Anfang s<strong>in</strong>d nur die Knoten<br />

3,4,5 aktiviert, allerd<strong>in</strong>gs ohne zugewiesenes POS-Tag. Nun wird als erstes von l<strong>in</strong>ks nach<br />

rechts gehend Knoten 3 ausgewählt und mit dem Tag det versehen. Dies korrespondiert mit<br />

der Herleitungsfunktion [3]. Nun wird 3 erneut genommen und e<strong>in</strong>e passende Erweiterung<br />

gewählt (right im Beispiel), die Herleitung ist also [3 3]. Dies wird nun weitergeführt, bis


46 KAPITEL 5. SHOPTEL<br />

der abgebildete Baum mit der Herleitung [3 3 4 4 2 2 5 5 1 1] erstellt werden konnte. Die<br />

Strategie, mit der diese Herleitung erfolgt ist, wird BULM genannt (bottom-up leftmost).<br />

Das Pars<strong>in</strong>g im NLU-Toolkit funktioniert ebenfalls nach der BULM-Strategie. Die Folge<br />

aller Knoten, die für die Herleitung e<strong>in</strong>es solchen Baums nötig s<strong>in</strong>d wird als d bezeichnet.<br />

Der Name des Knotens wird mit d i , se<strong>in</strong>e Erweiterung mit e di benannt. Das Pars<strong>in</strong>g folgt<br />

nun folgendem Algorithmus:<br />

• suche den Knoten unter den aktiven, der erweitert werden soll, mit:<br />

p (active = d i |context),<br />

• dann<br />

– weise dem ausgewählten Knoten e<strong>in</strong> POS-Tag zu, wenn nötig oder gebe ihm e<strong>in</strong><br />

Label nach der Regel p (l di |context), oder<br />

– erweitere den ausgewählten Knoten (durch h<strong>in</strong>zufügen e<strong>in</strong>er Kante <strong>in</strong> den Graphen)<br />

nach p (e di |context).<br />

Es wird also pro aktiviertem Knoten e<strong>in</strong>e Benennung und e<strong>in</strong>e Erweiterung durchgeführt,<br />

wobei nur die Erweiterung e<strong>in</strong>en neuen Knoten aktiviert. Der Kontext, der für die Erstellung<br />

e<strong>in</strong>es Baums verwendet wird, hat e<strong>in</strong> Fenster von 5 Knoten um den jeweilig aktiven. 9<br />

Die Wahrsche<strong>in</strong>lichkeit für die Herleitung e<strong>in</strong>es Parse-Baums ist somit das Produkt der<br />

E<strong>in</strong>zelwahrsche<strong>in</strong>lichkeiten der jeweiligen Namen und Erweiterungen <strong>in</strong> diesem Baum und<br />

der Wahrsche<strong>in</strong>lichkeit von jedem ausgewählten Knoten:<br />

p (T, d|w1 n ) =<br />

∏<br />

1


5.3. ARCHITEKTUR 47<br />

diesem Ansatz richtig verarbeitet werden, da für die Verarbeitung vor allem auf die Wurzelknoten<br />

der Bäume geachtet wird. Aus diesen Gründen gilt dieser Pars<strong>in</strong>g-Ansatz als robust<br />

gegenüber Erkennungsfehlern und spontansprachlichen Phänomenen.<br />

Das Pars<strong>in</strong>g <strong>in</strong> den NLU-Tools f<strong>in</strong>det <strong>in</strong> zwei Schritten statt, um e<strong>in</strong>e bessere Verarbeitung<br />

von größeren Datenmengen im Parser zu ermöglichen. Während des ersten Schrittes werden<br />

e<strong>in</strong>fache semantische Klassen identifiziert, daher wird die Komponente Classer genannt. Der<br />

zweite Schritt be<strong>in</strong>haltet das eigentliche Pars<strong>in</strong>g, diese Komponente, der Parser, arbeitet<br />

basierend auf den vorverarbeiteten Daten des erstens Schrittes. Beide Schritte folgen dem<br />

<strong>in</strong> diesem Abschnitt formulierten Algorithmus, es gibt ke<strong>in</strong>e Besonderheiten h<strong>in</strong>sichtlich<br />

der zugrundeliegenden Idee bei den Modulen. Im folgenden werden beide Komponenten im<br />

Kontext von ShopTel näher dargestellt.<br />

5.3.9 Classer<br />

Der Classer leistet die Vorverarbeitung für den Parser. Er klassifiziert die e<strong>in</strong>zelnen Worte<br />

e<strong>in</strong>er Äußerung und vere<strong>in</strong>facht damit den Arbeitsvorgang für den Parser, da dieser bei klassifizierten<br />

Wörtern nicht mehr auf den Worten, sondern nur noch auf den Klassen operiert.<br />

Klassifiziert werden grundsätzlich nur semantische Klassen <strong>in</strong> lokalem Kontext, es erfolgt ke<strong>in</strong>e<br />

syntaktische Analyse des Wortmaterials. Klassifikationen von größerem Kontext bleiben<br />

dem Parser (Abschnitt 5.3.12) überlassen.<br />

Der Classer basiert, wie der Parser, auf statistischen Modellen (dargestellt <strong>in</strong> Abschnitt<br />

5.3.8). Die für diese Anwendung gesammelten Sätze und Äußerungen wurden von Hand<br />

klassifiziert und mit entsprechenden Tags (für semantische Wortarten) und Labels (für die<br />

Klassen) versehen, anschließend wurde e<strong>in</strong> Tra<strong>in</strong><strong>in</strong>g über diesen Wortfolgen durchgeführt.<br />

(1) e<strong>in</strong>en rechner für 5 tausend euro bitte<br />

Abbildung 5.3: Beispieläußerung für e<strong>in</strong>e Bestellung mit ShopTel<br />

Anhand e<strong>in</strong>es Beispiels wird im folgenden die Funktionsweise des Classers erläutert. Satz<br />

(1) aus Abbildung 5.3 enthält z.B. folgende semantische Wortarten und Klassen:<br />

• semantische Wortarten:<br />

Zahlenwerte e<strong>in</strong>en, 5, tausend<br />

Produktarten rechner<br />

Währungen euro<br />

• Klassen:<br />

Zahlenwerte e<strong>in</strong>en<br />

Produkte rechner<br />

Geldbeträge 5 tausend euro<br />

Nach erfolgter Verarbeitung im Classer wird die Äußerung wie Satz (2) <strong>in</strong> Abbildung 5.4<br />

mit e<strong>in</strong>er Bewertung der Lösung an die nachfolgende Komponente weitergegeben. Der entsprechende<br />

Baum des Classers ist <strong>in</strong> Abbildung 5.5 dargestellt. Dabei wird für ShopTel e<strong>in</strong>e


48 KAPITEL 5. SHOPTEL<br />

(2) NUM PRODUCT für AMOUNT bitte<br />

Abbildung 5.4: Klassifizierte Beispieläußerung für Bestellung mit ShopTel<br />

andere Notation verwendet, als <strong>in</strong> Abschnitt 5.3.8 für Abbildung 5.2. Der Satzknoten wird<br />

e<strong>in</strong>heitlich für Classer und Parser <strong>in</strong> den NLU-Tools mit !S! gekennzeichnet, Tags werden<br />

immer <strong>in</strong> Kle<strong>in</strong>buchstaben, Labels groß geschrieben. Im Classer beschreiben die Labels die<br />

(semantischen) Klassen der entsprechenden Äußerung. Worte, die ke<strong>in</strong>er semantischen Klasse<br />

zuzurechnen s<strong>in</strong>d, werden als word direkt unter den Satzknoten gehängt, <strong>in</strong> diesem Fall<br />

wird ke<strong>in</strong> Label vergeben. E<strong>in</strong>e Übersicht der <strong>in</strong> ShopTel verwendeten Tags und Labels wird<br />

im Anhang <strong>in</strong> Abschnitt B.2 gegeben.<br />

Abbildung 5.5: Baum der klassifizierten Beispieläußerung<br />

Die Daten des Classers werden im folgenden dem Canonicalizer übergeben, der nur die<br />

jeweiligen Klassen weiterbearbeitet.<br />

5.3.10 Canonicalizer<br />

Der Canonicalizer stellt vor allem die Durchführbarkeit von DB-Abfragen sicher. So werden<br />

im Canonicalizer natürlichsprachliche Ausdrücke auf DB-konforme Ausdrücke abgebildet,<br />

um <strong>in</strong> der Datenbank aufgefunden zu werden.<br />

Der Canonicalizer erhält die klassifizierten Sätze des Classers zur Verarbeitung und wandelt<br />

die gefundenen Klassen <strong>in</strong> entsprechende Werte für die DB um. So wird <strong>in</strong> dem Beispielsatz<br />

(2) aus Abbildung 5.4 NUM <strong>in</strong> 1, PRODUCT <strong>in</strong> pc und der Geldbetrag AMOUNT <strong>in</strong> 5000 EUR<br />

umgewandelt.<br />

(3) ich hätte gerne italienischen we<strong>in</strong><br />

(4) ich möchte we<strong>in</strong> aus italien bitte<br />

Abbildung 5.6: Beispieläußerungen für Bestellungen mit ShopTel<br />

Der Canonicalizer bietet auch die Möglichkeit, verschieden lautende Sätze mit identischem<br />

Informationsgehalt <strong>in</strong> e<strong>in</strong>e identische Repräsentation zu transformieren. Als Beispiel dafür<br />

dienen die Sätze (3) und (4) aus Abbildung 5.6; der semantische Gehalt der beiden Sätze<br />

ist identisch, allerd<strong>in</strong>gs ist <strong>in</strong> der Datenbank als Herkunftsland für We<strong>in</strong>e nur italien


5.3. ARCHITEKTUR 49<br />

e<strong>in</strong>getragen, daher wird im Canonicalizer auch das Wort italienischen auf italien abgebildet,<br />

um im Backend e<strong>in</strong>e richtige Verarbeitung dieses Satztypus zu ermöglichen.<br />

Der Canonicalizer erstellt damit bereits die Suchbegriffe, die dem Backend (über das NLU<br />

ControlCenter und den IVR-Hub) übergeben werden. Diese Terme werden vom Backend <strong>in</strong><br />

e<strong>in</strong>e SQL-Abfage e<strong>in</strong>gesetzt.<br />

Die klassifizierten und vom Canonicalizer angereicherten Äußerungen werden als nächstes<br />

dem Parser übergeben.<br />

5.3.11 Dialogverarbeitung <strong>in</strong> den NLU-Tools<br />

Die Dialogverarbeitung <strong>in</strong> den NLU-Tools geschieht vor allem im Dialogmanager (DM).<br />

Dieser wird e<strong>in</strong>gehend <strong>in</strong> Abschnitt 5.3.13 und bei [Pap<strong>in</strong>eni et al. 1999] behandelt. Da die<br />

Grundlagen des DM jedoch auch für den Parser von Relevanz s<strong>in</strong>d, werden diese im aktuellen<br />

Abschnitt behandelt.<br />

Der Dialogmanager <strong>in</strong> den NLU-Tools basiert auf Forms (engl. form-based dialog manager)<br />

(FDM), diese Forms entsprechen den <strong>in</strong> Abschnitt 2.2.2 e<strong>in</strong>geführten Segmenten. Bei der<br />

Spezifikation (siehe auch Abschnitt 3.3.1) und Entwicklung von ShopTel waren diese bereits<br />

zu def<strong>in</strong>ieren, um bei der Annotation für den Parser vorzuliegen. Ziel des Pars<strong>in</strong>gs <strong>in</strong> den<br />

Tools ist es, e<strong>in</strong>er Äußerung e<strong>in</strong> Segment zuzuweisen.<br />

Die Forms und Segmente von ShopTel werden <strong>in</strong> Kapitel 6 näher diskutiert, der Parser wird<br />

im folgenden Abschnitt beschrieben, der FDM <strong>in</strong> Abschnitt 5.3.13.<br />

5.3.12 Parser<br />

Der Parser erhält die klassifizierten Sätze mit den Klassenwerten des Canonicalizers. Durch<br />

die Vorverarbeitung des Classers s<strong>in</strong>d hier schon viele Sätze verallgeme<strong>in</strong>ert worden, z.B.<br />

wird <strong>in</strong> allen Sätzen bei ShopTel e<strong>in</strong> konkretes Produkt durch die Klasse PRODUCT ersetzt,<br />

Zahlenwerte werden durch NUM und Geldbeträge durch AMOUNT dargestellt.<br />

Die grundsätzliche Arbeitsweise des Parsers ist bereits <strong>in</strong> Abschnitt 5.3.8 e<strong>in</strong>geführt worden,<br />

auf die funktionellen Grundlagen soll daher hier nicht näher e<strong>in</strong>gegangen werden.<br />

In ShopTel s<strong>in</strong>d für die Verarbeitung e<strong>in</strong>er Bestellung verschiedene Aktionen konzipiert<br />

worden, <strong>in</strong> die e<strong>in</strong> Bestellvorgang mit dem System e<strong>in</strong>geteilt wird (siehe dazu Abschnitt<br />

5.3.11). Ziel des Pars<strong>in</strong>gs ist es, e<strong>in</strong>er beliebigen Äußerung die jeweilig korrespondierende<br />

Aktion zuzuordnen. So werden z.B. alle Äußerungen, die e<strong>in</strong>er konkreten Produktauswahl<br />

dienen, vom Parser der Aktion LIST zugeordnet, wie auch der Beispielsatz (1) aus Abbildung<br />

5.3. Die <strong>in</strong> Abbildung 5.4 dargestellte Form stellt den Input des Parsers dar, zusätzlich<br />

werden allerd<strong>in</strong>gs noch die Klassenwerte des Canonicalizers mitgeliefert, diese werden im<br />

Parser aber nicht verarbeitet, sondern nur dem Dialogmanager zur dortigen Verarbeitung<br />

weitergereicht.<br />

Im Parser wird zuerst wieder jedem Wort e<strong>in</strong>e Kategorie zugeordnet. Diese leitet sich entweder<br />

aus der semantischen Klasse des Classer-Outputs ab (wie <strong>in</strong> Abb. 5.7), oder es werden<br />

bestimmte Signalwörter e<strong>in</strong>em Form zugeordnet (siehe <strong>in</strong> Abb. 5.8). Für den Parser nicht<br />

relevante Worte werden mit dem Tag null versehen, um dann im folgenden Schritt unter<br />

dem Label NULL zusammengefasst zu werden. Der Parse-Tree unterscheidet sich äußerlich


50 KAPITEL 5. SHOPTEL<br />

Abbildung 5.7: Parse-Tree der klassifizierten Beispieläußerung<br />

vom Class-Tree vor allem durch den am Satz- bzw. Äußerungsende e<strong>in</strong>gefügten Punkt. E<strong>in</strong><br />

weiterer Unterschied besteht <strong>in</strong> dem Label, unter dem jeder Satz zusammengefasst wird.<br />

Dieses Label gibt das Form für den aktuellen Satz an, über dem höchsten Label ist nur<br />

noch der Satzknoten, der auch den Punkt mit anb<strong>in</strong>det. Der entsprechende Baum für die<br />

behandelte Beispieläußerung ist <strong>in</strong> Abbildung 5.7 dargestellt.<br />

Abbildung 5.8: Parse-Tree von ”<br />

liefern sie bitte <strong>in</strong> die STREET NUM <strong>in</strong> NUM CITY“<br />

Das Label e<strong>in</strong>er Äußerung wird entweder direkt aus den Signalwörtern oder aber aus den<br />

vorhandenen Klassen abgeleitet. So gibt es <strong>in</strong> ShopTel nur die Möglichkeit, Produktnamen<br />

dem Form LIST zu zuordnen. Genauso ist es mit Kundennamen, diese werden immer dem<br />

Form INIT zugeordnet, welche der Authentifizierung des Kunden und der Initialisierung<br />

des Systems dient. Wenn e<strong>in</strong>mal e<strong>in</strong>e gesamte Äußerung nicht e<strong>in</strong>deutig e<strong>in</strong>em bestimmten<br />

Form zugeordnet werden kann, wird ihr entsprechendes Label mit ACTION benannt, e<strong>in</strong>e<br />

solche Äußerung kann dann <strong>in</strong> jedem Form verarbeitet werden, wenn möglich geschieht diese<br />

Verarbeitung aber im aktuell aktiven Form. Im Anhang <strong>in</strong> Abschnitt B.2 wird e<strong>in</strong>e Übersicht<br />

der verwendeten Tags und Labels gegeben.


5.3. ARCHITEKTUR 51<br />

5.3.13 Dialogmanager<br />

Der Dialogmanager (DM) der IBM ViaVoice Telephony Natural Language Tools ist das<br />

Herzstück der Tools (siehe auch die allgeme<strong>in</strong>e Beschreibung e<strong>in</strong>es DM <strong>in</strong> den Abschnitten<br />

3.2.4 und 3.3.4). Wie bereits <strong>in</strong> Abschnitt 5.3.11 angesprochen, basiert dieser auf Forms,<br />

die den <strong>in</strong> Abschnitt 2.2.2 e<strong>in</strong>geführten Segmenten entsprechen und wird daher auch als<br />

formbasierter DM (engl. form-based dialog manager) (FDM) bezeichnet. 10<br />

Die Forms des FDM s<strong>in</strong>d anwendungsabhängig, sie s<strong>in</strong>d die Basis e<strong>in</strong>er jeden Anwendung,<br />

die mit den NLU-Tools erstellt wird, sie korrespondieren mit den Segmenten, aus denen das<br />

Dialogsystem bestehen soll und enthalten Slots, die alle nötigen Angaben für e<strong>in</strong> Segment<br />

enthalten. E<strong>in</strong> Form gilt als erfolgreich abgearbeitet, wenn alle obligatorischen Slots mit<br />

passenden und vom Backend bestätigten Daten gefüllt s<strong>in</strong>d, dabei ist jedoch immer e<strong>in</strong><br />

Spr<strong>in</strong>gen zwischen verschiedenen (aktiven) Forms möglich. Der FDM kommuniziert mit dem<br />

NLU ControlCenter (Abschnitt 5.3.7), um Datenbankanfragen durchführen zu können (vgl.<br />

Abschnitte 5.3.5 und 5.3.10) und bilden somit das Gerüst für den Dialogmanager. Der FDM<br />

selber ist anwendungsunabhängig, er kann durch beidseitige Initiative gesteuert werden und<br />

ermöglicht damit e<strong>in</strong>e kooperative Dialogstrategie (vgl. Abschnitt 2.5). Der FDM ist ferner<br />

Turn-basiert und bietet von sich aus folgende Leistungen an:<br />

• Nachfrage noch fehlender Daten<br />

• Klärung von ambigen Daten<br />

• Bestätigungsfragen bei kritischen Dialogschritten<br />

• kontextsensitive Hilfetexte<br />

• Steuerungsmöglichkeiten durch fest def<strong>in</strong>ierte Parsertags und Label 11<br />

Der FDM verarbeitet die gelieferten Daten vom Parser und wandelt diese <strong>in</strong> Attribut-Wert-<br />

Paare (AWP) um. Aus diesen wird das nächste Form für den FDM abgeleitet. Das AWP<br />

für den Beispielsatz aus Abbildung 5.7 ist <strong>in</strong> Abbildung 5.9 dargestellt. Der Wert des ersten<br />

Terms ist mit _1 angegeben, dies steht für e<strong>in</strong>en abstrakten Slot, der ke<strong>in</strong>e Daten enthält.<br />

Dieser Slot dient nur der Zuordnung zu e<strong>in</strong>em Form. Dabei muß das jeweilige Form allerd<strong>in</strong>gs<br />

über den passenden abstrakten Slot verfügen. Die folgenden Terme des AWP stehen für<br />

konkrete Slots, welche mit Daten gefüllt werden können. Im Beispiel wird also der Slot<br />

NUM mit 1, PRODUCT mit PC und AMOUNT mit 5000EUR aufgefüllt. Wenn diese Werte<br />

vom Backend jeweils disambiguiert und bestätigt werden, gelten diese Slots als gefüllt. Im<br />

Beispielsatz wird dies allerd<strong>in</strong>gs nicht der Fall se<strong>in</strong>, da die Produktangabe PC nicht genau<br />

genug ist, daher wird e<strong>in</strong>e Nachfrage vom FDM angestoßen. Der Benutzer wird daraufh<strong>in</strong><br />

gebeten, se<strong>in</strong>e Produktwahl zu spezifizieren, um damit e<strong>in</strong>e erfolgreiche Disambiguierung<br />

leisten zu können. Für diese Rückmeldung an den Benutzer wird vom entsprechenden Slot<br />

<strong>in</strong> den Forms e<strong>in</strong> Textstr<strong>in</strong>g an die TTS-Komponente (siehe Abschnitt 5.3.3) übermittelt.<br />

Dieser Textstr<strong>in</strong>g ist als Prompt <strong>in</strong> dem Slot explizit enthalten, ebenfalls enthalten s<strong>in</strong>d die<br />

Backendaufrufe, die vom ControlCenter und IVR-Hub weitergegeben werden.<br />

Die jeweiligen Slots werden <strong>in</strong> der jeweils <strong>in</strong> den Forms implementierten Reihenfolge gefüllt<br />

und disambiguiert, die e<strong>in</strong>zige Ausnahme s<strong>in</strong>d optionale Slots, die nur bei e<strong>in</strong>er Füllung<br />

10 Siehe dazu speziell [Pap<strong>in</strong>eni et al. 1999].<br />

11 Siehe im Anhang <strong>in</strong> Abschnitt B.2.


52 KAPITEL 5. SHOPTEL<br />

(LIST, 1) (NUM,1), (PRODUCT,PC), (AMOUNT,5000EUR)<br />

Abbildung 5.9: Attribut-Wert-Paar der Beispieläußerung<br />

disambiguiert werden. Jeder Slot, der Daten disambiguiert, verfügt über e<strong>in</strong>e sogenannte<br />

RC-List (return code). In dieser s<strong>in</strong>d verschiedene Forms oder Prompts nach dem RC differenziert.<br />

Details über diese RC-Lists s<strong>in</strong>d <strong>in</strong> Kapitel 6 zu f<strong>in</strong>den.<br />

Die zentrale Aufgabe des FDM ist es, für jede Äußerung (also jedes AWP) e<strong>in</strong> passendes<br />

Form zu f<strong>in</strong>den. Es ist jedoch auch möglich, zwischen verschiedenen Forms zu wechseln, da<br />

unterschiedliche Forms identische Slots aufweisen können oder auch ganze Forms deaktiviert<br />

se<strong>in</strong> können. Daher ist diese Suche nicht immer trivial, sie funktioniert grundsätzlich aber<br />

immer nach dem gleichen Schema. Die Daten des Parsers s<strong>in</strong>d dabei <strong>in</strong>sofern hilfreich, als<br />

das nur die Klassen (Labels) des Parsers als Attribut <strong>in</strong> e<strong>in</strong>em AWP auftauchen können<br />

und daher auch nur diese e<strong>in</strong>en Slot repräsentieren bzw. füllen können. Die Auswahl des<br />

passenden Forms erfolgt mit e<strong>in</strong>er Heuristik (vgl. [Pap<strong>in</strong>eni et al. 1999]). Dabei wird m als<br />

Zahl der passenden Slots, n als Zahl der nicht passenden Slots für e<strong>in</strong> Form angesehen.<br />

Nach diesem Match<strong>in</strong>g wird u als Zahl der ungefüllten und f als Zahl der gefüllten Slots<br />

e<strong>in</strong>es Forms berechnet, die Bewertung für e<strong>in</strong> Form kann dann z.B. mit folgender Formel<br />

geschehen:<br />

m − n + f − u<br />

Das Form, welches die höchste Bewertung bekommt wird dann im folgenden ausgewählt und<br />

die entsprechenden Slots werden gefüllt.<br />

Die e<strong>in</strong>zelnen Forms von ShopTel mit ihren jeweiligen Besonderheiten werden ausführlich<br />

<strong>in</strong> Abschnitt 6.3 vorgestellt.<br />

5.4 Konstruktion des Systems<br />

In diesem Abschnitt werden die geleisteten Anpassungen, Eigenentwicklungen und das grobe<br />

Vorgehen bei der Konstruktion von ShopTel dargestellt, um damit abschließend e<strong>in</strong>e<br />

Grundlage für die Aufwandsabschätzung e<strong>in</strong>er Implementation mit den IBM-Tools zu haben.<br />

Dabei muß jedoch darauf h<strong>in</strong>gewiesen werden, daß es sich bei ShopTel nur um e<strong>in</strong>en Prototypen<br />

handelt, die Konstruktion e<strong>in</strong>es marktreifen Systems wäre sehr viel langwieriger und<br />

aufwendiger.<br />

Bei dieser Darstellung wird die Reihenfolge des letzten Abschnitts nicht beibehalten, vielmehr<br />

wird sich dieser Abschnitt an Abschnitt 3.3 orientieren, <strong>in</strong> dem bereits die Konstruktion<br />

e<strong>in</strong>es allgeme<strong>in</strong>en Dialogsystems dargestellt wurde.<br />

5.4.1 Spezifikation<br />

Viele Teile der Spezifikation waren für ShopTel bereits vorgegeben, die Domäne war festgelegt<br />

und auch die Konstruktion als Telefonanwendung mit Verwendung der IBM ViaVoice<br />

Telephony Natural Language Tools stand bereits fest. Damit stand auch die Systemarchitektur<br />

fest (vgl. Abschnitt 5.3).


5.4. KONSTRUKTION DES SYSTEMS 53<br />

Im Rahmen der Spezifikation war das Szenario des zu konstruierenden Systems detailiert zu<br />

erstellen (vgl. Abschnitt 5.2). Die notwendigen Forms des Systems mußten differenziert und<br />

grob auf die verschiedenen, zu erstellenden Forms abgebildet werden. Dabei war genauestens<br />

zu klären, welche Schritte e<strong>in</strong>er Bestellung mit dem System abgebildet werden sollten.<br />

Bei dieser Entscheidung wurde zum Beispiel auf die Implementierung von Mengenrabatten<br />

und Sonderangeboten verzichtet. Vielmehr wurde entschieden, zum Anfang nur e<strong>in</strong>e Grundfunktionalität,<br />

wie im Szenario beschrieben, zu implementieren. Dabei sollte allerd<strong>in</strong>gs e<strong>in</strong>e<br />

spätere Erweiterung möglich se<strong>in</strong>.<br />

5.4.2 Dialogmaterial und Pars<strong>in</strong>gkomponente<br />

Wie <strong>in</strong> Abschnitt 3.3.2 dargestellt, ist die Erhebung und Sammlung von Dialogmaterial e<strong>in</strong>e<br />

Voraussetzung für die Konstruktion e<strong>in</strong>es Dialogsystems. Für ShopTel wurden beispielhafte<br />

Benutzeräußerungen von verschiedenen Testpersonen gesammelt, <strong>in</strong> diesen wurden dann<br />

verschiedene Worte und Wortgruppen durch Variablen ersetzt (z.B. Produktnamen, Zahlen,<br />

etc.) und die Sätze so verallgeme<strong>in</strong>ert. Insgesamt kamen dabei 1.912 bere<strong>in</strong>igte Sätze<br />

zusammen, die anschließend von Hand für den Classer (siehe Abschnitt 5.3.9) und Parser<br />

(vgl. Abschnitt 5.3.12) annotiert wurden, gleichzeitig wurde aus diesen Daten e<strong>in</strong> Sprachmodell<br />

berechnet. Bei der durchgeführten Annotation wurde auf die verschiedenen Klassen<br />

für den Classer und Parser geachtet, um e<strong>in</strong>e spätere Implementation dieser <strong>in</strong> den Forms<br />

zu ermöglichen.<br />

Die Annotation war sehr zeitaufwendig und häufig zu wiederholen, um neue Äußerungen<br />

aufzunehmen oder neue Klassen e<strong>in</strong>zuführen.<br />

Die knapp 2.000 Sätze, die als Datengrundlage für den Classer dienten, waren bere<strong>in</strong>igte<br />

Sätze, die Variablen enthielten. Für das Tra<strong>in</strong><strong>in</strong>g des Classers wurden die Sätze mit e<strong>in</strong>em<br />

Monte-Carlo-Programm auf das 30fache vervielfältigt und die Variablen mit verschiedenen<br />

Texten ersetzt (so zum Beispiel mit Produktnamen, Zahlenwerten, Geldbeträgen, etc.). Der<br />

Parser wurde mit den klassifizierten Sätzen tra<strong>in</strong>iert, daher war se<strong>in</strong>e Datengrundlage entsprechend<br />

kle<strong>in</strong>er.<br />

Um die Ergebnisse von beiden Komponenten zu verbessern, wurde die Datengrundlage erweitert,<br />

wobei erhebliche Fortschritte zu beobachten waren. Somit konnte der Classer schließlich<br />

bei e<strong>in</strong>em Regressiontest mehr als 93 % e<strong>in</strong>es unbekannten Testsets korrekt zuordnen, der<br />

Parser kam dabei auf etwas über 90 %.<br />

5.4.3 Dialogkomponente<br />

Da der Dialogmanager (DM) bereits <strong>in</strong> den NLU-Tools enthalten ist, war dieser nicht mehr<br />

zu erstellen. Allerd<strong>in</strong>gs waren die Forms (siehe Abschnitt 5.3.13) für den DM zu konstruieren.<br />

Diese greifen auf die Labels (Klassen) von Classer und Parser zu und enthalten sämtliche<br />

Aktionsmöglichkeiten, die das System bietet. Im Rahmen dieser Implementation war auch<br />

die Anb<strong>in</strong>dung an das Backend (siehe nächster Abschnitt) zu leisten. Die e<strong>in</strong>zelnen Forms<br />

von ShopTel werden <strong>in</strong> Kapitel 6 näher dargestellt.<br />

Um das System mit dem FDM zu nutzen, waren auch e<strong>in</strong>ige Anpassungen am IVR-Hub<br />

(vgl. Abschnitt 5.3.4) und dem NLU ControlCenter (siehe Abschnitt 5.3.7) durchzuführen.


54 KAPITEL 5. SHOPTEL<br />

5.4.4 Backend und Datenbank<br />

Die Konstruktion des Backend-Skripts (siehe Abschnitt 5.3.5) von ShopTel war e<strong>in</strong>e der<br />

größeren Aufgaben im Rahmen der Systemimplementation. Allgeme<strong>in</strong> ist dieses Skript für<br />

die Bereitstellung der Funktionalität zuständig, es wird direkt von den Forms mit den entsprechenden<br />

Daten des Canonicalizers (Abschnitt 5.3.10) und des Parsers (Abschnitt 5.3.12)<br />

versorgt und liefert diesen den return code und e<strong>in</strong>en Datensatz zurück.<br />

Das Backend-Skript mußte komplett neu für ShopTel entwickelt werden. Dabei mußten<br />

für unterschiedliche Anfragetypen auch verschiedene DB-Anfragen ermöglicht werden. Nach<br />

der Erstimplementation offenbarten verschiedene Tests und Benutzeranfragen jedoch Weiterentwicklungsbedarf,<br />

der auch während der letzten Implementationsphase nicht ganz ausgeschlossen<br />

werden konnte.<br />

Die Datenbank, welche als Datengrundlage für das System benötigt wurde, mußte mit echten<br />

Produktdaten gefüllt werden. Diese Daten waren auch im Canonicalizer 5.3.10 zu berücksichtigen.<br />

5.4.5 E<strong>in</strong>- und Ausgabe<br />

Für die Sprache<strong>in</strong>gabe wurde der existierende Erkenner des IBM-Toolkits verwendet (siehe<br />

Abschnitt 5.3.2). Dieser ist voll anwendungsunabhängig und verlangte ke<strong>in</strong>en zusätzlichen<br />

Implementations- oder Anpassungsaufwand. Allerd<strong>in</strong>gs mußte e<strong>in</strong> Sprachmodell berechnet<br />

werden, um den ASR <strong>in</strong> der entsprechenden Domäne funktionsfähig zu machen.<br />

Das aus dem gesammelten Dialogmaterial (siehe Abschnitt 5.4.2) resultierende Vokabular<br />

für ShopTel besteht aus mehr als 2.000 Vollforme<strong>in</strong>trägen. Unter diesen E<strong>in</strong>trägen bef<strong>in</strong>den<br />

sich auch alle Zahlen von 1 bis 999, alle übrigen Zahlenwerte werden aus diesen komb<strong>in</strong>iert. 12<br />

Um den Erkenner, die TTS (Abschnitt 5.3.3) und das Telefoniemodul (Abschnitt 5.3.1) an<br />

die NLU-Tools anzuschließen waren allerd<strong>in</strong>gs e<strong>in</strong>ige Anpassungen an den Steuerungsskripten<br />

notwendig. Diese Arbeiten waren sehr aufwendig, da <strong>in</strong> den bisher vorliegenden Skripten<br />

ke<strong>in</strong>e Ansteuerung des Erkenners vorgesehen war und nur mit getipptem In- und Output<br />

gearbeitet wurde.<br />

5.4.6 Konstruktionsaufwand<br />

E<strong>in</strong>e Zusammenfassung der nötigen Eigenentwicklungen und Anpassungen für die Implementation<br />

von ShopTel ist <strong>in</strong> Tabelle 5.1 wiedergegeben.<br />

Die aufwendigsten Arbeiten stellten im Rückblick die Datensammlung und Annotation für<br />

Classer und Parser, sowie die Erstellung des Backend-Skripts dar. Mit nur etwas kle<strong>in</strong>erm<br />

Zeitaufwand konnte das Backend-Skript erstellt werden, das zur Hälfte bei laufendem Gesamtsystem<br />

implementiert wurde.<br />

An dritter Stelle dieser Aufwandsrechnung ist die Erstellung der Forms für den FDM zu<br />

nennen, teilweise führten diese Arbeiten auch zu weiteren erforderlichen Änderungen am<br />

Parser.<br />

12 Die Zahl 5.000 wird daher als ”<br />

5 tausend“ <strong>in</strong>terpretiert. Mit diesem Vorgehen konnte die Erkennung für<br />

Zahlen gesteigert werden, wie e<strong>in</strong>e <strong>in</strong>terne IBM-Studie belegt.


5.5. EVALUATION DES SYSTEMS 55<br />

Komponente durchzuführen Kurzbeschreibung der Arbeit<br />

ASR Anpassung Erstellung des Sprachmodells<br />

Telefonie Anpassung Herstellung der Kommunikation<br />

TTS — —<br />

IVR-Hub Anpassung Herstellung der Kommunikation<br />

Backend Eigenentwicklung Bereitstellung der Funktionalität<br />

Datenbank Anpassung Füllen der DB mit Daten<br />

ControlCenter Anpassung Herstellung der Kommunikation<br />

Classer Datenanpassung Sammlung und Annotation der Daten<br />

Parser Datenanpassung Annotation der Daten<br />

Canonicalizer Eigenentwicklung Bereitstellung der Funktionalität<br />

FDM Anpassung Entwicklung der Forms<br />

Tabelle 5.1: nötige Arbeiten bei der Entwicklung von ShopTel<br />

Ansonsten war vor allem die Integration des Telefonie-Moduls mit Erkenner und TTS zeit<strong>in</strong>tensiv,<br />

da bisher <strong>in</strong> der vorliegenden Version der NLU-Tools nur mit getippten E<strong>in</strong>gaben<br />

gearbeitet wurde.<br />

Der gesamte Aufwand zur Konstruktion von ShopTel ist allerd<strong>in</strong>gs zu e<strong>in</strong>em Teil auch mit<br />

der nötigen E<strong>in</strong>arbeitung <strong>in</strong> die Tools und deren Architektur zu erklären. Der momentane<br />

Stand des Systems ist trotz dieses Aufwands nur als prototypisch zu bezeichnen, da für<br />

e<strong>in</strong>e bessere Fehlerbeseitigung der zeitliche Rahmen zu eng war. Mit den im Laufe der<br />

Evaluation angefallenen Daten steht e<strong>in</strong>e gute Grundlage für e<strong>in</strong> weiteres Tun<strong>in</strong>g des Systems<br />

zur Verfügung. Diese Arbeit muß allerd<strong>in</strong>gs anderen überlassen werden.<br />

5.5 Evaluation des Systems<br />

Die Evaluation von Dialogsystemen dient unter anderem der Dokumentation ihrer Leistungsfähigkeit.<br />

E<strong>in</strong>e Evaluation kann allerd<strong>in</strong>gs auch Informationen über die Benutzerakzeptanz<br />

und den subjektiven E<strong>in</strong>druck von Benutzern liefern. Im Rahmen der Evaluation<br />

von ShopTel wurden beide Evaluationsarten durchgeführt. Für ShopTel wurde die Evaluation<br />

allerd<strong>in</strong>gs nich nur zur Dokumentation und Messung der Benutzerakzeptanz e<strong>in</strong>gesetzt,<br />

vielmehr war es e<strong>in</strong> erklärtes Ziel, duch die vermehrte Benutzung von Testpersonen, vorhandene<br />

Fehler zu entdecken und zu beheben. Da es sich beim vorliegenden System nicht um<br />

e<strong>in</strong>e Grammatik-basierte Anwendung handelt, konnten <strong>in</strong> vorherigen Systemtests nicht alle<br />

Eventualitäten abgeprüft werden.<br />

Zuerst wird im nächsten Abschnitt die Performanzevaluation von ShopTel beschrieben, dabei<br />

wird <strong>in</strong>sbesondere auf die Problematik der Evaluation von Dialogsystemen im allgeme<strong>in</strong>en<br />

e<strong>in</strong>gegangen. Außerdem wird <strong>in</strong> diesem Abschnitt auch auf die verschiedenen Fehlerursachen<br />

e<strong>in</strong>gegangen und es werden Lösungsmöglichkeiten aufgezeigt. Anschließend wird<br />

die Benutzerevaluation vorgestellt, die <strong>in</strong>sbesondere anhand e<strong>in</strong>es Fragebogens durchgeführt<br />

wurde.


56 KAPITEL 5. SHOPTEL<br />

5.5.1 Performanzevaluation<br />

Die Performanzevaluation von Dialogsystemen orientiert sich an technischen Details, sie<br />

dient der Vergleichbarkeit von verschiedenen Systemen. Jedoch ist diese Vergleichbarkeit<br />

nicht immer herzustellen, da Dialogsysteme sehr unterschiedlich konstruiert werden können,<br />

wie bereits <strong>in</strong> Kapitel 4 dargestellt wurde. Von daher ersche<strong>in</strong>t die Erhebung e<strong>in</strong>es Meßwertes<br />

zum Vergleichsmaßstab nicht s<strong>in</strong>nvoll, häufig wird jedoch die Erfolgsrate (engl. success rate)<br />

(SR) e<strong>in</strong>es Dialogsystems zum wichtigsten Kriterium <strong>in</strong> e<strong>in</strong>er Evaluation erhoben, ähnlich<br />

wie e<strong>in</strong>e Wortfehlerrate (engl. word error rate) (WER) als Vergleichsmaßstab von Spracherkennern<br />

dient. Allerd<strong>in</strong>gs ist die Wortfehlerrate bei e<strong>in</strong>em Spracherkenner auch die zentrale<br />

Größe. Bei e<strong>in</strong>em Dialogsystem gibt es bed<strong>in</strong>gt durch die e<strong>in</strong>zelnen Komponenten, aus denen<br />

e<strong>in</strong> solches System besteht, für jede Komponente e<strong>in</strong>zelne Meßgrößen. Bei ShopTel kann<br />

zum Beispiel für den Erkenner, den Classer und den Parser je e<strong>in</strong> eigenes Korrektheitsmaß<br />

bestimmt werden. Die e<strong>in</strong>zelnen Werte stehen jedoch nicht für die Leistungsfähigkeit des<br />

Gesamtsystems, sondern nur für die jeweiligen Komponenten.<br />

Aus den vorgenannten Gründen werden für die Evaluation e<strong>in</strong>es Dialogsystems mehrere<br />

Angaben benötigt, die alle im Kontext mite<strong>in</strong>ander gesehen werden müssen (vgl. [Polifroni<br />

et al. 1998]). Die SR wird jedoch als sehr relevante Größe e<strong>in</strong>gestuft. Dabei ist e<strong>in</strong>iges zu<br />

beachten, so ist zum Beispiel bei Übersetzungssystemen (vgl. Abschnitt 4.3) die Berechnung<br />

der Erfolgsrate sehr kompliziert, da die Qualität e<strong>in</strong>er Übersetzung bewertet werden muß<br />

(siehe u.a. [Gates et al. 1997; Tessiore und von Hahn 2000]). Bei re<strong>in</strong>en Auskunftssystemen,<br />

wie sie beispielsweise <strong>in</strong> Abschnitt 4.1 vorgestellt wurden, kann e<strong>in</strong>e SR meist aus dem<br />

Vergleich von Benutzere<strong>in</strong>gaben und den dazugehörigen Systemausgaben abgeleitet werden.<br />

Wenn das System genau nach der Intention des Benutzers gehandelt hat, ist das Dialogziel<br />

erreicht worden, der entsprechende Schritt kann also als erfolgreich angesehen werden. Dieses<br />

Vorgehen kann auch bei Aktionssystemen Anwendung f<strong>in</strong>den und wurde daher auch bei der<br />

Evaluation von ShopTel angewandt. Diese Evaluationsmethode ist als end-to-end Evaluation<br />

bekannt [Sikorski und Allen 1997; Tessiore und von Hahn 2000]. Die SR wird <strong>in</strong> diesem Fall<br />

wie folgt berechnet:<br />

SR = D s<br />

D · 100<br />

wobei D s die Anzahl der erfolgreichen und D die gesamte Anzahl aller Dialoge bedeutet.<br />

Als erfolgreicher Dialog wird dabei e<strong>in</strong> Dialog angesehen, bei dem das jeweilige Dialogziel<br />

erreicht wurde. Die Berechnung der SR ist im vorliegenden Fall durch manuelle Auswertung<br />

der E<strong>in</strong>gangs- und Ausgangsdaten von ShopTel geschehen. Es gibt allerd<strong>in</strong>gs auch<br />

Methoden, den Erfolg e<strong>in</strong>es Dialogs automatisch zu berechnen bzw. zu ermitteln. [Araki<br />

und Doshita 1997] stellen beispielsweise e<strong>in</strong>e automatische Evaluation von Dialogsystemen<br />

mittels e<strong>in</strong>es automatisierten Benutzers vor und nennen diese Technik system-to-system.<br />

[Walker et al. 1998b; Kamm et al. 1999; Litman und Shimei 1999] stellen mit ihrer Evaluationsumgebung<br />

PARADISE e<strong>in</strong>en Ansatz vor, der zur Leistungsmessung verschiedene<br />

Parameter komb<strong>in</strong>iert, dies s<strong>in</strong>d im e<strong>in</strong>zelnen Benutzerzufriedenheit, Aufgabenerfolg und<br />

Dialogaufwand. Die Durchführung e<strong>in</strong>er solchen Evaluation ist sehr aufwendig, bietet aber<br />

den Vorteil, e<strong>in</strong> wirklich aussagekräftiges Maß für die Leistungsfähigkeit e<strong>in</strong>es Dialogsystems<br />

zur Hand zu haben.<br />

Für die Evaluation von ShopTel wurden <strong>in</strong>sgesamt 67 Dialoge als Datengrundlage genutzt,<br />

die zu e<strong>in</strong>em Drittel von erfahrenen, ansonsten von unerfahrenen Benutzern stammen. Die<br />

Dialoge wurden zwischen dem 5. August und dem 6. September geführt. Die Ergebnisse der<br />

Performanzevaluation mit e<strong>in</strong>er Bewertung bef<strong>in</strong>den sich im Anhang <strong>in</strong> Abschnitt B.3.


5.5. EVALUATION DES SYSTEMS 57<br />

5.5.2 Benutzerevaluation<br />

Da es sich bei ShopTel um e<strong>in</strong>en Prototypen handelt, stand auch die Akzeptanz und Zukunft<br />

e<strong>in</strong>es solchen Systems <strong>in</strong> Frage. Zur Beantwortung wurde das System daher e<strong>in</strong>er Evaluation<br />

durch verschiedene Benutzer unterworfen. Dabei wurde diesen meist e<strong>in</strong>e kurze Systembeschreibung<br />

und e<strong>in</strong> Beispieldialog (Abbildung 5.10) vorgelegt, um e<strong>in</strong>en Anhaltspunkt für<br />

die Leistungsfähigkeit des Systems zu geben. 13 Anschließend wurden sie gebeten, das System<br />

auszuprobieren, dabei stellten diese Gespräche häufig auch die Datenbasis für die Performanzevaluation<br />

dar. Nach e<strong>in</strong>em Telefonat mit ShopTel wurden die Anwender nach ihren<br />

jeweiligen E<strong>in</strong>drücken befragt, dies geschah an Hand e<strong>in</strong>es Fragebogens, der im Anhang <strong>in</strong><br />

Abschnitt B.4 abgebildet ist.<br />

guten tag me<strong>in</strong> name ist mustermann<br />

die nummer ist 0815<br />

ich moechte e<strong>in</strong>en computer fuer 5000 euro bestellen<br />

mit dvd-laufwerk bitte<br />

geben sie mir bitte die daten<br />

ich nehme den billigsten<br />

ja bitte<br />

ok<br />

zahlen bitte<br />

per kreditkarte<br />

ich zahle mit me<strong>in</strong>er visa<br />

1 2 3 5 6<br />

bis maerz 2002<br />

auf wiederhoeren<br />

Abbildung 5.10: Beispieldialog für die Systemevaluation (ohne Systemäußerungen)<br />

Es wurden <strong>in</strong>sgesamt 19 Fragebögen beantwortet, die gesammelten Antworten s<strong>in</strong>d <strong>in</strong> Abschnitt<br />

B.5 im Anhang abgebildet. Bei dieser Anzahl von beantworteten Fragebögen kann<br />

zwar nicht von e<strong>in</strong>er repräsentativen Auswahl gesprochen werden, doch für e<strong>in</strong>en ersten<br />

E<strong>in</strong>druck ist das Datenmaterial ausreichend.<br />

Von den 19 befragten Personen haben zehn Personen bereits vor der Benutzung von ShopTel<br />

e<strong>in</strong> anderes Dialogsystem benutzt. Ebenfalls zehn Personen bezeichneten sich selbst als Computerprofis,<br />

ansonsten wurde sechs mal Anwender und drei mal Laie angegeben.<br />

Insgesamt wurde von den Befragten das System mit durchschnittlichen 2,97 auf e<strong>in</strong>er Skala<br />

von 1 (sehr gut) bis 6 (ungenügend) benotet, dabei wurde die Systembenutzung sogar etwas<br />

besser und damit als eher e<strong>in</strong>fach bewertet. Aus den Kommentaren geht hervor, daß die<br />

synthetisierte Stimme zwar nicht als angenehm empfunden wurde, jedoch verständlich war.<br />

Durchgehend wurde gesagt, daß es Probleme mit der Erkennungsleistung von ShopTel gegeben<br />

hat. Die auf Aufforderung wiederholte E<strong>in</strong>gabe wurde als störend empfunden, dagegen<br />

wurde die Verarbeitungsgeschw<strong>in</strong>digkeit des Systems als gut bewertet.<br />

Über die Hälfte der Personen sagte, daß e<strong>in</strong>e Benutzung des Systems auch ohne vorherige<br />

13 Im Anhang <strong>in</strong> Abschnitt B.1 s<strong>in</strong>d ausgewählte Dialoge mit dem System abgebildet.


58 KAPITEL 5. SHOPTEL<br />

E<strong>in</strong>führung möglich sei und etwa zwei Drittel der Befragten gab an, e<strong>in</strong> solches System <strong>in</strong><br />

der Zukunft benutzen zu wollen.<br />

Damit kann gesagt werden, daß die Fehler und Schwächen von ShopTel aus Benutzersicht<br />

durchaus mit den bei der Performanzevaluation aufgetretenen und diagnostizierten Mißständen<br />

übere<strong>in</strong>stimmen. Die TTS konnte dort nicht bewertet werden, da jedoch bed<strong>in</strong>gt<br />

durch die Produktauswahl viele Fremdworte bzw. englische oder französische Ausdrücke vorkamen,<br />

war e<strong>in</strong>e mangelhafte Aussprache oder Betonung mit der derzeitigen TTS nur durch<br />

e<strong>in</strong>e entsprechend geänderte Schreibweise der e<strong>in</strong>zelnen Worte zu beseitigen. Dies hätte allerd<strong>in</strong>gs<br />

Änderungen an der gesamten Datenbasis des Systems verlangt, daher wurde auf<br />

diesen Schritt verzichtet.<br />

Als wichtiges Ergebnis der Benutzerbefragung betrachte ich allerd<strong>in</strong>gs den großen Anteil von<br />

Personen, die angaben, daß ShopTel auch ohne vorherige Informationen benutzbar sei. Der<br />

noch größere Anteil derjenigen, die e<strong>in</strong> solches System auch <strong>in</strong> Zukunft benutzen würden,<br />

kann allgeme<strong>in</strong> als positiv für die gesamte Bandbreite von sprachverarbeitenden Systemen<br />

angesehen werden.<br />

Mit dem Ergebnis dieser Benutzerbefragung kann somit auch nachgewiesen werden, daß die<br />

Ziele für ShopTel, wie sie <strong>in</strong> Abschnitt 5.1 formuliert worden s<strong>in</strong>d, erfüllt wurden. So wurde<br />

bereits <strong>in</strong> der Performanzevaluation gezeigt, daß e<strong>in</strong> Großteil der Bestellungen mit ShopTel<br />

erfolgreich verlief, die Implementation als Aktionssystem ist damit gelungen. Im weiteren<br />

wird die Erreichung der e<strong>in</strong>zelnen Ziele dokumentiert:<br />

• der hohe Anteil der erfolgreichen Bestellungen und die große Zahl von Benutzern, die<br />

e<strong>in</strong>e Systembenutzung auch ohne vorherige Informationen für möglich halten, beweisen<br />

die erfolgreiche Umsetzung e<strong>in</strong>es <strong>in</strong>tuitiven Bestellvorgangs <strong>in</strong> ShopTel<br />

• die Systemmeldungen wurden als kaum störend bewertet, somit kann gefolgert werden,<br />

daß die Umsetzung der Benutzerführung ohne zu große E<strong>in</strong>schränkung der Nutzer<br />

gelungen ist<br />

• die Benotung für das Gesamtsystem und die Benutzung zeugen von e<strong>in</strong>er großen Freiheit<br />

bei der Dialogführung, diese wurde sogar <strong>in</strong> e<strong>in</strong>igen Kommentaren explizit als<br />

positiv bewertet, damit gilt auch das Ziel der freien Dialogführung als erreicht<br />

Daher kann gesagt werden, daß es gelungen ist, bei der Implementation von ShopTel die<br />

Benutzerführung so zu gestalten, daß die Systemnutzung ohne die E<strong>in</strong>haltung fester Dialogmuster<br />

möglich ist. Damit wurden alle die Benutzer betreffenden Ziele, <strong>in</strong>klusive der<br />

Funktionserfüllung, erreicht.<br />

Die Ergebnisse der Benutzerevaluation können als positiv e<strong>in</strong>gestuft werden, da diese sowohl<br />

die Erfüllung der aufgestellten Ziele bestätigen, als auch e<strong>in</strong>e gute Gesamtbewertung des<br />

Systems enthalten. Zusammengenommen mit den Ergebnissen der Performanzevaluation<br />

kann nur gefolgert werden, daß e<strong>in</strong>e Überarbeitung und Verbesserung des Systems zu e<strong>in</strong>er<br />

akzeptierten und noch benutzerfreundlicheren Anwendung führen würde.<br />

5.6 Zusammenfassung<br />

In diesem Kapitel wurde das System ShopTel als prototypische Umgebung für e<strong>in</strong>en automatisierten<br />

telefonischen Bestellservice vorgestellt. Im Rahmen dieser Vorstellung wurden


5.6. ZUSAMMENFASSUNG 59<br />

die Grundlagen des Systems und die Entwurfsziele dargestellt, dabei wurde vor allem die<br />

Benutzerführung während e<strong>in</strong>es Dialogs mit dem System herausgestellt.<br />

Nach e<strong>in</strong>er E<strong>in</strong>führung <strong>in</strong> das grundlegende Szenario der Anwendung, folgte e<strong>in</strong>e e<strong>in</strong>gehende<br />

Erläuterung der Systemarchitektur. In diesem Rahmen wurde auf die Besonderheiten<br />

des IBM ViaVoice Telephony Toolkit und der IBM ViaVoice Telephony Natural<br />

Language Tools, auf denen das System basiert, e<strong>in</strong>gegangen. So wurde zum Beispiel der 2-<br />

Wege-Ansatz <strong>in</strong>nerhalb des Pars<strong>in</strong>gs der NLU-Tools genau erläutert und auf die Forms und<br />

den dazugehörigen Dialogmanager Bezug genommen. Schließlich wurde die Konstruktion des<br />

Systems grob erläutert und e<strong>in</strong>e Abschätzung des nötigen Aufwands für die Implementation<br />

e<strong>in</strong>es solchen Systems gegeben.<br />

Bei allen Darstellungen wurde, wenn nötig, auf die Unterschiede zu e<strong>in</strong>em allgeme<strong>in</strong>en Dialogsystem,<br />

wie es <strong>in</strong> Kapitel 3 vorgestellt wurde, e<strong>in</strong>gegangen.<br />

Abschließend folgte die Evaluation des aktuellen Systemzustandes und e<strong>in</strong>e Präsentation<br />

der Ergebnisse. Dabei wurde sowohl e<strong>in</strong>e Performanz-, als auch e<strong>in</strong>e Benutzerevaluation<br />

vorgenommen. Im Rahmen dieser Untersuchungen konnte der prototypische Charakter des<br />

Systems belegt werden, da zum Beispiel die Verarbeitung von Benutzeräußerungen nur <strong>in</strong> ungefähr<br />

der Hälfte aller Fälle erfolgreich verlief. Allerd<strong>in</strong>gs gelang es im Rahmen der Evaluation<br />

auch, tatsächliche Fehlerquellen zu detektieren und gleichzeitig Vorschläge für zukünftige<br />

Verbesserungen am System zu machen. Außerdem konnte die Erfüllung der Entwurfsziele<br />

nachgewiesen werden und die positive Bewertung des Systems von den Benutzern wurde<br />

hervorgehoben.<br />

Das resultierende System ist nun <strong>in</strong> se<strong>in</strong>er grundsätzlichen Arbeits- und Funktionsweise<br />

bekannt. Die jeweiligen Pr<strong>in</strong>zipien der e<strong>in</strong>zelnen Systemmodule s<strong>in</strong>d erläutert und an Beispielen<br />

e<strong>in</strong>gehend behandelt worden. Die aus diesem Kapitel gewonnenen Kenntnisse werden<br />

im folgenden nötig se<strong>in</strong>, um im nächsten Kapitel die <strong>Dialogsegmente</strong> und die daraus resultierenden<br />

Forms des Systems behandeln zu können. Auf die e<strong>in</strong>gangs formulierten Ziele für<br />

den Entwurf und die Konstruktion des Systems wird ebenfalls im anschließenden Kapitel<br />

noch e<strong>in</strong>mal Bezug genommen werden.


60 KAPITEL 5. SHOPTEL


Kapitel 6<br />

<strong>Dialogsegmente</strong> für<br />

Shopp<strong>in</strong>g-<strong>Anwendungen</strong><br />

<strong>Dialogsegmente</strong> als Grundlage e<strong>in</strong>es Dialogsystems s<strong>in</strong>d <strong>in</strong> Abschnitt 2.2.2 e<strong>in</strong>geführt worden.<br />

Dort wurden Segmente als zusammengehöriger Teil e<strong>in</strong>es Dialogs <strong>in</strong> e<strong>in</strong>em Dialogsystem<br />

als Äquivalent zur Sequenz aus Benutzersicht e<strong>in</strong>geführt.<br />

In diesem Kapitel werden zuerst menschliche Dialoge des Bereichs Telefonmarket<strong>in</strong>g beschrieben,<br />

um dabei auf die Unterschiede zu e<strong>in</strong>em Dialog mit e<strong>in</strong>em Telefonsystem e<strong>in</strong>gehen<br />

zu können. Dabei wird vor allem die mögliche Verwendbarkeit von menschlichen Vorgehensweisen<br />

für die Konstruktion von ShopTel geprüft werden.<br />

Ausgehend von der Beschreibung des Systems ShopTel im letzten Kapitel werden im folgenden<br />

die e<strong>in</strong>zelnen <strong>Dialogsegmente</strong> des Systems vorgestellt, um anschließend das Konzept der<br />

Forms, auf dem der Dialogmanager des Systems beruht (vgl. Abschnitt 5.3.13), aufzugreifen.<br />

Im Anschluß wird e<strong>in</strong>e ausführliche Darstellung der Forms im System ShopTel gegeben, dabei<br />

werden auch die jeweiligen Besonderheiten der e<strong>in</strong>zelnen Forms dargestellt. Als nächstes<br />

werden <strong>Strategien</strong> für ShopTel vorgestellt, <strong>in</strong> diesem Rahmen wird auch das graphical<br />

ControlCenter betrachtet, e<strong>in</strong> Tool, mit dem auf die Forms e<strong>in</strong>er Anwendung zugegriffen<br />

werden kann. Schließlich wird noch e<strong>in</strong>e Zusammenfassung gegeben, <strong>in</strong> der die wesentlichen<br />

Erkenntnisse dieses Kapitels zusammengefaßt werden und e<strong>in</strong> kompletter Überblick über<br />

das System ShopTel erfolgt.<br />

6.1 Menschliche Dialoge im Telefonmarket<strong>in</strong>g<br />

Um menschliche Dialoge im Telefonmarket<strong>in</strong>g den Systemdialogen mit ShopTel gegenüberstellen<br />

zu können, erfolgt zuerst e<strong>in</strong>e begriffliche E<strong>in</strong>ordnung. Anschließend werden die Besonderheiten<br />

e<strong>in</strong>es menschlichen Dialogs <strong>in</strong> diesem Rahmen dargestellt.<br />

Das Telefonmarket<strong>in</strong>g als e<strong>in</strong>e Form des Market<strong>in</strong>g 1 wird allgeme<strong>in</strong> dem Direktmarket<strong>in</strong>g<br />

zugeordnet [Müller 1994]. Dabei wird letzteres von [Dallmer 1993] als marktgerichtete Ak-<br />

1 Unter Market<strong>in</strong>g werden laut [Schneider 1993] alle Maßnahmen der ziel- und wettbewerbsorientierten<br />

Ausrichtung der marktrelevanten Aktivitäten e<strong>in</strong>es Unternehmens an ausgewählten Problemfeldern von<br />

Kundenpotentialen unter E<strong>in</strong>satz planender, steuernder, koord<strong>in</strong>ierender und kontrollierender sowie market<strong>in</strong>gpolitischer<br />

Instrumente zusammengefaßt.


62 KAPITEL 6. DIALOGSEGMENTE FÜR SHOPPING-ANWENDUNGEN<br />

tivität angesehen, die sich e<strong>in</strong>stufiger (direkter) Kommunikation bedient, um Zielgruppen<br />

<strong>in</strong> <strong>in</strong>dividueller E<strong>in</strong>zelansprache gezielt zu erreichen. E<strong>in</strong>stufige Kommunikation bedeutet <strong>in</strong><br />

diesem S<strong>in</strong>ne, daß die Aktivität nur von e<strong>in</strong>er Person, dem Sender, ausgeht, ohne daß der<br />

Empfänger reagieren muß. E<strong>in</strong> Beispiel für den Fall e<strong>in</strong>er solchen Kommunikation ist das<br />

klassische Werbemail<strong>in</strong>g.<br />

Grundsätzlich wird aktives und passives Telefonmarket<strong>in</strong>g unterschieden, dabei wird ersteres<br />

als vom Verkäufer ausgehende Market<strong>in</strong>gmaßnahme def<strong>in</strong>iert, während beim passiven Telefonmarket<strong>in</strong>g<br />

die Initiative beim Kunden liegt. Da dieser Fall auch bei ShopTel vorliegt,<br />

wird im weiteren das aktive Telefonmarket<strong>in</strong>g nicht weiter behandelt. 2<br />

Allen Arten des Telefonmarket<strong>in</strong>g geme<strong>in</strong> ist die Tatsache, daß bei Telefongesprächen beiden<br />

Gesprächspartnern ausschließlich die auditive Ebene zur Verfügung steht. Eventuelle<br />

Mißverständnisse oder Verständigungsprobleme müssen also über den Kanal gelöst oder<br />

aufgeklärt werden, der auch den Grund der entsprechenden Probleme darstellt. Gerade für<br />

die Verkaufssituation ist dies e<strong>in</strong> großes H<strong>in</strong>dernis, da beispielsweise Angebote nicht zusätzlich<br />

auf e<strong>in</strong>er visuellen Ebene schmackhaft gemacht werden können. Von daher kommt zum<br />

Beispiel der Wortwahl <strong>in</strong> telefonischen Verkaufsgesprächen e<strong>in</strong>e viel bedeutendere Rolle zu,<br />

als <strong>in</strong> face-to-face Situationen. Dies gilt zwar vor allem, wenn das Interesse e<strong>in</strong>es potentiellen<br />

Kunden für e<strong>in</strong>e Ware erst noch geweckt werden muß, wie es beim aktiven Telefonmarket<strong>in</strong>g<br />

der Fall ist, jedoch auch <strong>in</strong> der passiven Form sollte es das Ziel se<strong>in</strong>, e<strong>in</strong>em Anrufenden<br />

möglichst e<strong>in</strong> positives Bild zu vermitteln. Ansonsten kann es se<strong>in</strong>, daß e<strong>in</strong> Kundenauftrag<br />

erfolgreich durchgeführt wurde, der Kunde allerd<strong>in</strong>gs wegen des schlechten E<strong>in</strong>drucks ke<strong>in</strong><br />

zweites Mal anruft. So wird unabhängig von der Wahl oder Qualität e<strong>in</strong>es Produkts e<strong>in</strong><br />

schlechtes Image produziert, welches sich nachteilig auf die Auftragslage auswirken kann.<br />

Bei [Plog 1996] wird daher mehrfach betont, daß die Art und Weise der Kommunikation mit<br />

e<strong>in</strong>em Kunden <strong>in</strong>sbesondere bei Telefonverkaufsgesprächen sehr entscheidend für den Erfolg<br />

e<strong>in</strong>es Anrufs ist.<br />

Aus den genannten Gründen kommt bei den meisten E<strong>in</strong>sätzen von Telefonmarket<strong>in</strong>g daher<br />

ausschließlich speziell geschultes Personal zum E<strong>in</strong>satz [Weber 1984; Plog 1996]. Dabei wird<br />

vor allem auf Freundlichkeit und Kompetenz e<strong>in</strong>es jeden Mitarbeiters wert gelegt. Außerdem<br />

wird häufig das Anbieten e<strong>in</strong>es Zusatzgeschäfts tra<strong>in</strong>iert, e<strong>in</strong> Geschäft das nach dem Abschluß<br />

e<strong>in</strong>en Zusatznutzen bei der Komb<strong>in</strong>ation mit e<strong>in</strong>em anderen Produkt br<strong>in</strong>gen soll.<br />

E<strong>in</strong>e telefonische Bestellannahme, die <strong>in</strong> etwa ShopTel ähnlich wäre, zeichnet sich daher<br />

idealerweise durch e<strong>in</strong>e sehr große Kompetenz <strong>in</strong> der entsprechenden Produktauswahl aus,<br />

außerdem sollte die Rolle des Annehmenden eher aktiv se<strong>in</strong>, um z.B. die bereits angesprochenen<br />

Zusatzgeschäfte zu generieren. An Informationen wird <strong>in</strong> diesem Fall ebenfalls der<br />

Kundenname, die genaue Bestellung, die Bezahlungsart und e<strong>in</strong>e Lieferadresse benötigt.<br />

Häufig wird der Kunde allerd<strong>in</strong>gs nur über e<strong>in</strong>e Kundennummer identifiziert, unter der bereits<br />

die genaue Anschrift und die bevorzugte Bezahlungsart gespeichert ist. E<strong>in</strong>e genaue<br />

Abfolge der e<strong>in</strong>zelnen Segmente <strong>in</strong> e<strong>in</strong>em Dialog mit e<strong>in</strong>er solchen Bestellannahme ist allerd<strong>in</strong>gs<br />

nicht vorhanden, diese Anordnung kann sehr flexibel gehandhabt werden und sich von<br />

Gespräch zu Gespräch unterscheiden. Wichtig ist jedoch, daß für e<strong>in</strong>e effektive Bestellung<br />

alle benötigten Informationen vorliegen.<br />

Bed<strong>in</strong>gt durch die Fähigkeit des Menschen, sich auf andere Mitmenschen e<strong>in</strong>zustellen und<br />

jede Situation selbständig beurteilen zu können, kann bei Telefongesprächen e<strong>in</strong>er Bestellannahme<br />

ke<strong>in</strong>e feste Abfolge von Sequenzen (siehe Abschnitt 2.2.1) beobachtet werden.<br />

2 Für Details, <strong>in</strong>sbesondere die verschiedenen Sprechakte des aktiven Telefonmarket<strong>in</strong>gs betreffend, wird<br />

auf [Plog 1996] verwiesen. Die Akzeptanz und das rechtliche Umfeld des aktiven Telefonmarket<strong>in</strong>gs werden<br />

bei [Müller 1994] dargestellt.


6.2. DIALOGSEGMENTE IN SHOPTEL 63<br />

Grundsätzlich können jedoch zwei bis vier Grundsequenzen e<strong>in</strong>er Bestellung extrahiert werden:<br />

• Sequenz Authentifizierung mit den Komponenten Namensnennung und Nennung der<br />

Kundennummer<br />

• die Sequenz Bestellung mit den Komponenten Produkt und Anzahl, weitere optionale<br />

Komponenten, wie Eigenschaften, Mengene<strong>in</strong>heit oder Ausschlußkriterien können<br />

ebenfalls existieren<br />

• die Angabe e<strong>in</strong>er Bezahlungsart, wenn diese nicht beim Versender gespeichert ist, die<br />

Komponenten s<strong>in</strong>d dabei die jeweiligen erforderlichen Daten<br />

• die optionale Sequenz Lieferadresse mit der gleichnamigen Komponente<br />

Neben diesen maximal vier Grundsequenzen kann es allerd<strong>in</strong>gs beliebig viele Erweiterungsformen<br />

geben: so ist zum Beispiel e<strong>in</strong>e gezielte Kundenberatung denkbar, es kann e<strong>in</strong> erster<br />

Support gegeben werden oder e<strong>in</strong> Vergleich von verschiedenen Produkten kann angestellt<br />

werden.<br />

Da die meisten dieser Problemfelder momentan für e<strong>in</strong> Dialogsystem sehr schwer zu bearbeiten<br />

s<strong>in</strong>d und außerdem ShopTel <strong>in</strong> e<strong>in</strong>em engen Zeitrahmen entstanden ist, wurde für die<br />

aktuelle Version ke<strong>in</strong>e dieser Erweiterungen aufgenommen. Daher wurde, wie bereits <strong>in</strong> der<br />

Spezifikation <strong>in</strong> Abschnitt 5.4.1 festgehalten, das System nur mit e<strong>in</strong>er Grundfunktionalität<br />

ausgestattet, die allerd<strong>in</strong>gs erweiterbar ist. Diese Funktionalität konnte im gesteckten Zeitrahmen<br />

implementiert werden und führte auch zu brauchbaren Ergebnissen (vgl. Abschnitt<br />

5.5).<br />

Für ShopTel konnten kaum menschliche Vorgehensweisen übernommen werden. Die Komplexität<br />

des menschlichen Verhaltens ist dafür momentan noch zu groß. Es wurde lediglich<br />

versucht, die Prompts möglichst benutzerfreundlich und <strong>in</strong>formativ zu gestalten, um damit<br />

e<strong>in</strong>en zuvorkommenden und freundlichen E<strong>in</strong>druck zu vermitteln. Es werden für e<strong>in</strong>e<br />

Bestellung mit ShopTel die gleichen Informationen benötigt, wie für e<strong>in</strong>e Bestellung mit<br />

e<strong>in</strong>em menschlichen Gesprächspartner. Auch im Falle von ShopTel werden diese solange<br />

nachgefragt, bis e<strong>in</strong>e zufriedenstellende Antwort gegeben wird.<br />

6.2 <strong>Dialogsegmente</strong> <strong>in</strong> SHOPTEL<br />

Im letzten Abschnitt wurden die Sequenzen mit ihren jeweiligen Komponenten für e<strong>in</strong>e<br />

Bestelldomäne dargestellt. Diese Sequenzen aus menschlichen Dialogen stellen die Basis für<br />

die Segmente des Konversationssystems ShopTel dar. Dabei werden nur die Segmente e<strong>in</strong>er<br />

Bestellung konstruiert, die für e<strong>in</strong>e Grundfunktionalität benötigt werden. Bereits im Rahmen<br />

der Spezifikation (siehe Abschnitt 5.4.1) s<strong>in</strong>d die mit dem System durchführbaren Aktionen<br />

festgehalten worden, die <strong>in</strong> <strong>Dialogsegmente</strong> umgesetzt werden. Die Aktionen g<strong>in</strong>gen vor<br />

allem von dem Szenario aus, das <strong>in</strong> Abschnitt 5.2 beschrieben wurde. Demnach besteht das<br />

erste für e<strong>in</strong>en Benutzer durchführbare Dialogsegment aus der Authentifizierung. In diesem<br />

Segment müssen der Name und e<strong>in</strong>e Kundennummer geäußert werden. Als zweites Segment<br />

kommt anschließend e<strong>in</strong>e Auflistung und Disambiguierung der verschiedenen Produkte <strong>in</strong><br />

Frage. Dieses ist das Hauptsegment von ShopTel, hier sollte e<strong>in</strong> Produkt disambiguiert<br />

und anschließend <strong>in</strong> beliebiger Größenordnung bestellt werden können. Schließlich sollte


64 KAPITEL 6. DIALOGSEGMENTE FÜR SHOPPING-ANWENDUNGEN<br />

e<strong>in</strong>e Bezahlungsrout<strong>in</strong>e folgen, die ebenfalls als Dialogsegment angesehen wurde. In diesem<br />

Segment stehen verschiedene Bezahlungsmöglichkeiten zur Verfügung unter denen der Kunde<br />

e<strong>in</strong>e auswählt und die dafür nötigen Angaben macht. In e<strong>in</strong>er E<strong>in</strong>satzumgebung wäre es<br />

sicherlich s<strong>in</strong>nvoll, diese Stelle nur e<strong>in</strong>mal von e<strong>in</strong>em Kunden abzufragen, die jeweiligen<br />

Angaben zu speichern und sich diese bei e<strong>in</strong>er erneuten Bestellung nur bestätigen zu lassen.<br />

Um jedoch die Funktionalität und Möglichkeiten des Systems vorzuführen, werden diese<br />

Angaben bei jedem Bestellvorgang <strong>in</strong>dividuell abgefragt.<br />

E<strong>in</strong>e Lieferadresse kann ebenfalls gespeichert und nur nötigenfalls geändert werden, doch<br />

um auch hier die Leistungsfähigkeit des Systems zu demonstrieren und den gesamten Ablauf<br />

e<strong>in</strong>er Bestellung abzubilden, werden auch diese Daten bei jeder Bestellung erneut angefragt.<br />

Damit s<strong>in</strong>d für ShopTel vier verschiedene <strong>Dialogsegmente</strong> gefunden worden, die für die<br />

Realisierung dieser Grundfunktionalität <strong>in</strong> die Forms umgesetzt werden müssen. Die Umsetzung<br />

und die daraus resultierenden verschiedenen Forms werden im nachfolgenden Abschnitt<br />

näher beschrieben. Dabei wird auch das Konzept der Forms <strong>in</strong> den IBM ViaVoice<br />

Telephony Natural Language Tools noch e<strong>in</strong>mal kurz aufgegriffen.<br />

6.3 Forms <strong>in</strong> SHOPTEL<br />

Bereits <strong>in</strong> Abschnitt 5.3.13 wurden Forms grundsätzlich dargestellt. Hier soll genauer auf<br />

die Forms im allgeme<strong>in</strong>en und die Forms von ShopTel im speziellen e<strong>in</strong>gegangen werden.<br />

Grundsätzlich s<strong>in</strong>d die Forms anwendungsabhängig, sie müssen also für jede Anwendung<br />

neu erstellt werden. Die Forms werden vom FDM geladen und ermöglichen diesem die Abwicklung<br />

der jeweiligen Aufgaben. Die Forms s<strong>in</strong>d dabei <strong>in</strong> e<strong>in</strong>er Datei enthalten, die e<strong>in</strong>en<br />

klar strukturierten Aufbau hat. Wie allgeme<strong>in</strong> <strong>in</strong> Computerprogrammen üblich, existiert<br />

e<strong>in</strong> Hauptmenü, <strong>in</strong> dem alle nötigen Variablen für die Forms def<strong>in</strong>iert werden. So wird zum<br />

Beispiel der erste Systemprompt def<strong>in</strong>iert, der zur Begrüßung e<strong>in</strong>es Benutzers synthetisiert<br />

wird. Desweiteren werden die ersten aktiven Forms def<strong>in</strong>iert, also die Forms, die von Anfang<br />

an aktiviert s<strong>in</strong>d und <strong>in</strong> die der Benutzer mit se<strong>in</strong>en Äußerungen spr<strong>in</strong>gen kann. Anschliessend<br />

werden verschiedene Nachrichten (engl. messages) gesetzt, wie Hilfetexte oder auch die<br />

Rückfragen für nicht verstandene Äußerungen. Es folgen die e<strong>in</strong>zelnen Forms <strong>in</strong> der Datei. In<br />

e<strong>in</strong>em Form werden üblicherweise zuerst die abstrakten Slots (Slots ohne <strong>in</strong>haltlichen Wert 3 )<br />

def<strong>in</strong>iert, danach die konkreten Slots. Die abstrakten Slots dienen nur der Zuordnung e<strong>in</strong>er<br />

Äußerung zu e<strong>in</strong>em Form, die konkreten Slots werden zur Erfassung von Daten e<strong>in</strong>gesetzt.<br />

Für jeden konkreten Slot wird e<strong>in</strong>e Message def<strong>in</strong>iert, die synthetisiert wird, wenn der Slot<br />

nicht gefüllt ist. Desweiteren existiert für jeden dieser Slots e<strong>in</strong> Backend-Aufruf, der zur Disambiguierung<br />

der Information nötig ist (vgl. Abschnitt 5.3.5). Im Anschluß an jede Backend-<br />

Message existiert e<strong>in</strong>e RC-List (return code), <strong>in</strong> welcher differenziert nach der Rückgabe des<br />

Backends verschiedene Aktionen ausgeführt werden können. Nach allen Slots enthält e<strong>in</strong><br />

Form e<strong>in</strong>en weiteren Backend-Aufruf, <strong>in</strong> dem e<strong>in</strong>e weitere Disambiguierung erfolgt. In diesem<br />

Aufruf wird nun auf alle Informationen des kompletten Forms zugegriffen, egal ob sie <strong>in</strong><br />

e<strong>in</strong>er Äußerung oder <strong>in</strong> mehreren mitgeteilt wurden. Nach diesem Aufruf existiert wieder e<strong>in</strong>e<br />

RC-Liste, die auch wieder je nach Rückgabe des Backend verschiedene Aktionen erlaubt.<br />

Zusätzlich können hier auch neue Messages def<strong>in</strong>iert werden, somit wird zum Beispiel die<br />

kontextsensitive Hilfe ermöglicht.<br />

3 E<strong>in</strong> Beispiel für e<strong>in</strong>en abstrakten Slot wurde <strong>in</strong> Abschnitt 5.3.13 vorgestellt.


6.3. FORMS IN SHOPTEL 65<br />

Jedes Form muß über m<strong>in</strong>destens e<strong>in</strong>en Slot verfügen, dabei s<strong>in</strong>d sowohl abstrakte, als auch<br />

konkrete Slots erlaubt. Desweiteren stehen optionale Slots zur Verfügung, die nur nachgefragt<br />

werden, wenn sie mit e<strong>in</strong>er Benutzeräußerung gefüllt werden können. Jeder Slot, der e<strong>in</strong>mal<br />

gefüllt wurde, muß auch disambiguiert werden. Aus diesem Verhalten resultiert die Klärung<br />

von ambigen Daten, wie sie <strong>in</strong> Abschnitt 5.3.13 erwähnt wurde.<br />

Somit s<strong>in</strong>d die Forms im allgeme<strong>in</strong>en e<strong>in</strong>geführt. 4 Dies ist die Voraussetzung, für die folgende<br />

exemplarische Darstellung e<strong>in</strong>es konkreten Forms von ShopTel.<br />

Wie bereits im letzten Abschnitt dargelegt, wurden für ShopTel folgende verschiedene <strong>Dialogsegmente</strong><br />

für die <strong>in</strong> Abschnitt 5.2 beschriebene Grundfunktionalität herausgearbeitet:<br />

• Authentifizierung<br />

• Auflistung<br />

• Bezahlung<br />

• E<strong>in</strong>gabe der Lieferadresse<br />

Diese Segmente stellen damit auch die ersten zu implementierenden Forms für ShopTel dar.<br />

Das Form für die Authentifizierung wird im folgenden Abschnitt vorgestellt, dabei werden<br />

die jeweiligen Slots und etwaige Besonderheiten zur Sprache kommen. Die anderen Forms<br />

werden kurz im nachfolgenden Abschnitt behandelt.<br />

6.3.1 Form INIT<br />

Wie bereits e<strong>in</strong>geführt, sollte <strong>in</strong> ShopTel e<strong>in</strong>e Bestellung nur identifizierten Kunden möglich<br />

se<strong>in</strong>. Daher wird jeder Benutzer von ShopTel zuerst nach se<strong>in</strong>er Kundennummer und se<strong>in</strong>em<br />

Namen gefragt. Diese Abfragen werden von dem Form INIT geleistet. Für die Kundennummer<br />

und den Namen wird jeweils e<strong>in</strong> Slot benötigt, desweiteren wurde e<strong>in</strong> abstrakter Slot<br />

geschaffen. Um außerdem bereits bei der Authentifizierung geäußerte Bestellwünsche verarbeiten<br />

zu können, wurde e<strong>in</strong> optionaler Slot für Produkte vorgesehen.<br />

Die Kundennummer und der Name müssen mit dem Backend (siehe Abschnitt 5.3.5) abgeglichen<br />

werden. Wenn beide Werte bestätigt werden, ist das Form abgearbeitet und e<strong>in</strong><br />

anderes Form kann verarbeitet werden. Wie alle Forms, so enthält auch dieses e<strong>in</strong>en eigenen<br />

Hilfetext, der bei Bedarf synthetisiert wird. Außerdem wurde bei diesem Form die Möglichkeit<br />

geschaffen, neue Benutzer zu akzeptieren. Dies wurde durch die Implementierung e<strong>in</strong>es<br />

Musterbenutzers mit e<strong>in</strong>er allgeme<strong>in</strong>en Kundennummer verwirklicht. Wenn dieser Benutzer<br />

geäußert wird, liefert das Backend e<strong>in</strong>en anderen RC, als wenn e<strong>in</strong> normaler, bereits registrierter<br />

Benutzer, sich anmelden wollte. Diese Nachricht wird <strong>in</strong> der RC-List ausgewertet.<br />

Bei e<strong>in</strong>er üblichen Anmeldung wird das Form normal beendet, bei e<strong>in</strong>em neuen Kunden e<strong>in</strong><br />

anderer Prompt für das Hauptmenü und außerdem e<strong>in</strong>e <strong>in</strong>terne Variable gesetzt, welche die<br />

weitere Verarbeitung <strong>in</strong> den Forms bee<strong>in</strong>flußt. Näheres über diese Abläufe kann Abschnitt<br />

6.4 entnommen werden.<br />

Um e<strong>in</strong>en besseren Überblick zu ermöglichen, ist e<strong>in</strong>e gekürzte Fassung des Forms INIT <strong>in</strong><br />

Abbildung 6.1 dargestellt. Die e<strong>in</strong>zelnen Slots des Forms werden <strong>in</strong> Tabelle 6.1 dargestellt.<br />

Die Tags und Labels des Parsers, die zur Identifikation dieses Forms und für die e<strong>in</strong>zelnen<br />

Slots benötigt werden, s<strong>in</strong>d im Anhang <strong>in</strong> Abschnitt B.2 abgebildet.<br />

4 Weitere Informationen können [IBM 1999b; Pap<strong>in</strong>eni et al. 1999] entnommen werden.


66 KAPITEL 6. DIALOGSEGMENTE FÜR SHOPPING-ANWENDUNGEN<br />

\beg<strong>in</strong>{form} INIT<br />

\beg<strong>in</strong>{slots}<br />

\slot INIT ^MatchedBy: INIT<br />

\slot NAME ^MatchedBy: NAME name<br />

\beg<strong>in</strong>{messages}<br />

\msg Prompt: ‘‘bitte nennen sie ihren namen’’;<br />

\msg BEMsg: BE-EXIST {$NAME}<br />

\beg<strong>in</strong>{rclist}<br />

\rc NOT_FOUND \msg Prompt: ‘‘der name ist falsch’’;<br />

\end{rclist}<br />

\end{messages}<br />

\slot PIN ^MatchedBy: NUM num<br />

\beg<strong>in</strong>{messages}<br />

\msg Prompt: ‘‘bitte nennen sie ihre kundennummer’’;<br />

\msg BEMsg: BE-EXIST {$PIN}<br />

\beg<strong>in</strong>{rclist}<br />

\rc NOT_FOUND \msg Prompt: ‘‘falsche kundennummer’’;<br />

\end{rclist}<br />

\end{messages}<br />

\slot PRODUCT ^MatchedBy: PRODUCT product<br />

^Optional: yes<br />

\beg<strong>in</strong>{messages}<br />

\msg BEMsg: BE-SET {$PRODUCT}<br />

\end{messages}<br />

\end{slots}<br />

\beg<strong>in</strong>{messages}<br />

\msg HelpMsg: ‘‘bitte nennen sie den namen und die kundennummer ...’’;<br />

\msg BEMsg: BE-EXAM {$PIN $NAME}<br />

\beg<strong>in</strong>{rclist}<br />

\rc ERROR \msg Prompt: ‘‘falsche angaben, bitte wiederholen’’;<br />

\rc TEST \msg Prompt: ‘‘willkommen als probebenutzer ...’’<br />

\rc OK \msg Prompt: ‘‘hallo $NAME ...’’;<br />

\end{rclist}<br />

\end{messages}<br />

\end{form}<br />

Abbildung 6.1: Form INIT (gekürzt)


6.3. FORMS IN SHOPTEL 67<br />

Slotname Slotart Beschreibung<br />

INIT abstrakt Slot für Auswahl des Forms<br />

NAME konkret Slot für Kundenname<br />

PIN konkret Slot für Kundennummer<br />

PRODUCT optional, konkret Slot für Produktauswahl<br />

6.3.2 Weitere Forms<br />

Tabelle 6.1: Slots im Form INIT<br />

In diesem Abschnitt werden kurz die wesentlichen Merkmalen der wichtigsten übrigen Forms<br />

von ShopTel vorgestellt. Die Darstellungen erfolgen stark vergröbert, da diese Informationen<br />

als IBM Vertraulich e<strong>in</strong>gestuft s<strong>in</strong>d.<br />

Form LIST<br />

Das Form für die Auflistung und Disambiguierung der zu bestellenden Produkte wird mit<br />

LIST bezeichnet. In diesem Form werden vor allem Informationen über die gewünschten<br />

Produkte mit ihren Eigenschaften benötigt. Daneben wird die Angabe e<strong>in</strong>er Anzahl und<br />

e<strong>in</strong>er Größene<strong>in</strong>heit gebraucht, um e<strong>in</strong>e Bestellung abwickeln zu können. Um schließlich<br />

auch e<strong>in</strong>e Preisgrenze für e<strong>in</strong>e mögliche Bestellung angeben zu können, wurde e<strong>in</strong> Slot für<br />

diesen Zweck e<strong>in</strong>geführt, der letzte Slot dient für Ausschlußkriterien, um beispielsweise e<strong>in</strong><br />

Notebook ohne DVD-Laufwerk bestellen zu können.<br />

Die meisten implementierten Slots s<strong>in</strong>d als optionale Slots implementiert worden, da entweder<br />

Default-Annahmen gesetzt werden oder Slots auch ungefüllt bleiben können. Die<br />

Produkteigenschaften s<strong>in</strong>d als e<strong>in</strong> optionaler Slot implementiert, da so der Benutzer nur<br />

nach dem Produkt, nicht nach se<strong>in</strong>en Eigenschaften direkt gefragt wird.<br />

Die Auswahl e<strong>in</strong>es zu bestellenden Produkts verläuft normalerweise <strong>in</strong> mehreren Schritten.<br />

Zuerst wird e<strong>in</strong>e Produktkategorie geäußert, diese wird mit dem Backend abgeglichen und<br />

wenn mehr als fünf mögliche Produkte vorliegen, als longlist zurückgegeben. Bei diesem<br />

RC wird nur die Anzahl der verfügbaren Produkte genannt und nach e<strong>in</strong>er weiteren Spezifizierung<br />

der Auswahl gefragt. Wenn die Auswahlmenge fünf oder weniger Elemente umfaßt,<br />

ist der RC shortlist, nun werden alle Produkte e<strong>in</strong>zeln vorgetragen. Dies läßt sich an<br />

Abbildung 6.2 nachvollziehen, dort ist <strong>in</strong> e<strong>in</strong>em Ausschnitt aus dem Form LIST der Slot<br />

PRODUCT dargestellt.<br />

Die Unterscheidung zwischen e<strong>in</strong>er shortlist und e<strong>in</strong>er longlist wird bereits vom Dialogmanager<br />

unterstützt. Es muß für diesen nur def<strong>in</strong>iert werden, wieviele Elemente die kurze<br />

Liste enthält, dann bietet der DM diese Unterscheidung selbstätig an.<br />

Selbstverständlich ist es mit diesem Form auch möglich, gezielt e<strong>in</strong> bestimmtes Produkt<br />

mit se<strong>in</strong>er Artikelnummer zu bestellen. In diesem Fall wird die Nummer dem Slot PRODUCT<br />

zugeordnet, da bereits der Classer diese Zuordnung durchführt.<br />

Grundsätzlich werden alle Slots nur von passenden Tags und Labels gefüllt. Diese werden<br />

gesondert für jeden Slot aufgezählt. Auf der Abbildung 6.2 ist nicht nur product <strong>in</strong> dieser<br />

Liste enthalten, num-ord ist ebenfalls aufgezählt, da die Auswahl aus e<strong>in</strong>er Liste sehr<br />

häufig durch Nennung der entsprechenden Position erfolgt, die Positionsnummer steht daher<br />

<strong>in</strong> diesem Fall für das auszuwählende Produkt. Erst im Backend wird die Unterscheidung


68 KAPITEL 6. DIALOGSEGMENTE FÜR SHOPPING-ANWENDUNGEN<br />

zwischen der expliziten Nennung e<strong>in</strong>es Produkts und der se<strong>in</strong>er Listenposition aufgelöst und<br />

das jeweilige Produkt disambiguiert.<br />

\slot PRODUCT ^MatchedBy: product num-ord<br />

\beg<strong>in</strong>{messages}<br />

\msg Prompt: ‘‘was möchten sie bitte bestellen’’;<br />

\msg BEMsg: BE-EXIST {$PRODUCT}<br />

\beg<strong>in</strong>{rclist}<br />

\rc OK \msg Prompt: ‘‘sie möchten also $PRODUCT bestellen’’;<br />

\rc LONG_LIST \msg Prompt: ‘‘ich habe $::count produkte ...’’;<br />

\rc SHORT_LIST \msg Prompt: ‘‘ich habe $PRODUCT, welches ...’’;<br />

\rc NOT_FOUND \msg Prompt: ‘‘ke<strong>in</strong> passendes produkt gefunden’’;<br />

\end{rclist}<br />

\end{messages}<br />

Abbildung 6.2: Der Slot PRODUCT (Ausschnitt aus dem Form LIST)<br />

Der Dialogmanager handhabt auch Überbeantwortungen, kann also mehr als e<strong>in</strong>en Slot pro<br />

Benutzeräußerung füllen. Wenn jedoch e<strong>in</strong>e wichtige Information fehlt, muß diese nachgefragt<br />

werden. Um diese Nachfragen für den Benutzer möglichst komfortabel zu gestalten,<br />

wurden die Prompts <strong>in</strong> vielen Slots kontextsensitiv gestaltet. Wenn e<strong>in</strong>e Stückzahl und e<strong>in</strong><br />

korrektes Produkt angegeben wurden, kann der Prompt für den RC OK lauten, wie auf<br />

Abbildung 6.2 dargestellt, falls jedoch die Stückzahl fehlt, muß diese nachgefragt werden.<br />

Die Abbildung ist daher stark vere<strong>in</strong>facht. Häufig werden, um den Informationsgehalt der<br />

e<strong>in</strong>zelnen Prompts zu maximieren, diese im Backend generiert und nur noch an die Forms<br />

übertragen. Dieser Schritt war zwar sehr aufwendig zu implementieren, erlaubt dem System<br />

jedoch sehr viel benutzerfreundliche Antworten.<br />

Mit diesem Vorgehen wurde versucht, soviel erkannte Information wie möglich dem Benutzer<br />

vorzulegen, um damit möglicherweise aufgetretene Fehler korrigieren zu können. Dieses<br />

Vorgehen entspricht e<strong>in</strong>er robusten und kooperativen Dialogstrategie (vgl. Abschnitt 2.5).<br />

Um e<strong>in</strong>e Bestellung abschließend auch durchzuführen, muß diese noch e<strong>in</strong>mal komplett<br />

bestätigt werden. Da es sich bei e<strong>in</strong>er Bestellung um e<strong>in</strong>e Aktion handelt, die sich f<strong>in</strong>anziell<br />

bei e<strong>in</strong>em Benutzer auswirkt, gilt für diese auch e<strong>in</strong> gewisser Sicherheitsfaktor. Der<br />

FDM bietet die Möglichkeit, Bestätigungsfragen e<strong>in</strong>fach <strong>in</strong> e<strong>in</strong> Form zu <strong>in</strong>tegrieren. Nur<br />

bei positiver Beantwortung wird mit dem Form fortgefahren, e<strong>in</strong>e Ablehnung wird e<strong>in</strong>malig<br />

h<strong>in</strong>terfragt und hat bei erneuter Ablehnung den Abbruch der Aktion zur Folge, das Form<br />

wird beendet und etwaig gefüllte Slots werden gelöscht. E<strong>in</strong>e solche Bestätigungsfrage wurde<br />

auch <strong>in</strong> LIST verwendet, erst nach dieser Bestätigung wird das Form beendet. Die RC-List<br />

des Forms ist sehr kurz, da es nur den Fall e<strong>in</strong>er erfolgreichen durchgeführten Bestellung<br />

gibt. E<strong>in</strong> Benutzer kann allerd<strong>in</strong>gs jederzeit die Aktion e<strong>in</strong>fach abbrechen und bef<strong>in</strong>det sich<br />

dann wieder im Hauptmenü von ShopTel.<br />

Form PAYMENT<br />

Zur Bezahlung e<strong>in</strong>er erfolgreich durchgeführten Bestellung dient das Form PAYMENT. Wie<br />

schon im Szenario (Abschnitt 5.2) erwähnt, stehen <strong>in</strong> ShopTel mehrere Bezahlungsmöglichkeiten<br />

zur Auswahl, die alle von e<strong>in</strong>em Form verarbeitet werden. Dies vere<strong>in</strong>facht die grundlegende<br />

Struktur der Forms.


6.4. STRATEGIEN FÜR SHOPTEL 69<br />

Die benötigten Slots leiten sich aus den möglichen Bezahlungsmodalitäten ab. Zuerst muß<br />

der jeweils gewählte Modus festgehalten werden. Für die Bezahlung mit der Kreditkarte<br />

werden ferner der Kartentyp, e<strong>in</strong>e Kartennummer und e<strong>in</strong> Gültigkeitsdatum gebraucht (der<br />

Name ist ja bereits am Anfang erfaßt worden), für e<strong>in</strong>en Banke<strong>in</strong>zug bedarf es e<strong>in</strong>er Kontonummer,<br />

e<strong>in</strong>er BLZ und e<strong>in</strong>er Bank. Nur für die Zusendung mit Rechnung oder per Nachnahme<br />

werden ke<strong>in</strong>e weiteren Angaben benötigt. Die Adresse wird bei jeder Rechnungsart<br />

benötigt, ist jedoch idealerweise von jedem Kunden bereits bekannt oder wird abschließend<br />

mit der Abfrage der Lieferadresse erfaßt.<br />

Form DELIVERY<br />

Um e<strong>in</strong>e Bestellung schließlich noch zusenden zu können, wird e<strong>in</strong>e Lieferadresse benötigt.<br />

Diese muß nicht mit der Heimatadresse e<strong>in</strong>es Benutzers übere<strong>in</strong>stimmen, daher wurde das<br />

Form DELIVERY konstruiert, das e<strong>in</strong>e Lieferadresse verarbeiten kann. Neben dem für jedes<br />

Form nötigen abstrakten Slot wurden je e<strong>in</strong> Slot für e<strong>in</strong>en Straßennamen, e<strong>in</strong>e Postleitzahl<br />

und den Ortsnamen implementiert. Mit diesen Angaben kann e<strong>in</strong>e komplette Adresse<br />

abgefragt werden. Vorteilhaft für den Benutzer ist an dieser Stelle die Möglichkeit e<strong>in</strong>er<br />

Überbeantwortung, es ist nicht nötig, jede benötigte Angabe extra zu äußern.<br />

Hilfsforms<br />

Die bisher aufgeführten Forms reichen für e<strong>in</strong>e Grundfunktionalität von ShopTel aus. Um jedoch<br />

die Funktionalität des Systems zu erweiteren, wurden e<strong>in</strong>ige weitere Forms konstruiert,<br />

die hier aus Vertraulichkeitsgründen nicht näher dargestellt werden.<br />

6.4 <strong>Strategien</strong> für SHOPTEL<br />

Nachdem das Szenario und die Funktionalität von ShopTel vorgestellt und auch die e<strong>in</strong>zelnen<br />

Forms des Systems besprochen wurden, werden <strong>in</strong> diesem Abschnitt verschiedene Möglichkeiten<br />

für die Abfolge der e<strong>in</strong>zelnen Forms bei e<strong>in</strong>er Bestellung mit dem System diskutiert<br />

und dargelegt. E<strong>in</strong>e feste Abfolge ist nötig, um e<strong>in</strong>e übersichtliche, e<strong>in</strong>fache und nachvollziehbare<br />

Bestellung mit dem System zu ermöglichen. Zwar ist der DM der NLU-Tools auch <strong>in</strong><br />

der Lage, Benutzeräußerungen ohne e<strong>in</strong>e feste Abfolge der Forms richtig zuzuordnen, doch<br />

sank mit E<strong>in</strong>führung dieser Abfolge die Fehlerrate erheblich. Außerdem kann mit dieser<br />

Maßnahme der doppelten Erhebung von Daten wirksam begegnet werden.<br />

Die Steuerung der e<strong>in</strong>zelnen Forms wird anhand der RC-List vorgenommen, die am Ende<br />

jedes Forms zw<strong>in</strong>gend vorliegen muß. Diese Listen haben die Aufgabe, je nach Rückgabewert<br />

des Backends, e<strong>in</strong>e differenzierte Weiterverarbeitung zu ermöglichen. Am Beispiel des<br />

Forms LIST (Abschnitt 6.3.2) wurde dies für e<strong>in</strong>en Slot verdeutlicht. E<strong>in</strong>e solche Unterscheidung<br />

ist jedoch auch für e<strong>in</strong> gesamtes Form, also nach Füllung aller Slots möglich.<br />

Bei ShopTel wurde somit beispielsweise die Differenzierung von bekannten und von Testbenutzern<br />

im Form INIT (Abschnitt 6.3.1) realisiert. Mit den RC-Lists s<strong>in</strong>d jedoch auch<br />

noch andere Maßnahmen durchführbar, so s<strong>in</strong>d <strong>in</strong> den IBM ViaVoice Telephony Natural<br />

Language Tools auch Befehle zur Aktivierung und Deaktivierung von ganzen Forms enthalten.<br />

Mit diesen können nur bestimmte Forms als aktiv def<strong>in</strong>iert werden, um damit e<strong>in</strong>e<br />

neue Äußerung nur noch <strong>in</strong> e<strong>in</strong>em der aktiven Forms zu verarbeiten. Die Auswahlmenge


70 KAPITEL 6. DIALOGSEGMENTE FÜR SHOPPING-ANWENDUNGEN<br />

für e<strong>in</strong> passendes Form wird also kle<strong>in</strong>er. Mittels dieser Kommandos lassen sich somit zum<br />

Beispiel Steuerungsmöglichkeiten <strong>in</strong> e<strong>in</strong>em Dialogsystem implementieren.<br />

Für die Betrachtung der <strong>Strategien</strong> ist die <strong>in</strong>terne Arbeitsweise der Forms nicht weiter<br />

wichtig, es wird daher von dieser abstrahiert. E<strong>in</strong> Form wird somit <strong>in</strong> diesem Abschnitt nur<br />

als e<strong>in</strong>e black box angesehen, das e<strong>in</strong>e Aktion oder Aufgabe erfüllen kann. Es wird nur auf<br />

die verschiedenen möglichen Zustände e<strong>in</strong>es Forms nach se<strong>in</strong>er Abarbeitung e<strong>in</strong>gegangen.<br />

Diese Zustände werden <strong>in</strong> der RC-List repräsentiert.<br />

In den folgenden Abschnitten wird die Strategie der Steuerungsmöglichkeiten näher dargestellt.<br />

Es werden die verschiedenen <strong>Strategien</strong> für ShopTel erläutert und deren E<strong>in</strong>fluß auf<br />

das Benutzerverhalten diskutiert. Desweiteren wird das graphical ControlCenter vorgestellt,<br />

das e<strong>in</strong>e e<strong>in</strong>fache Änderung dieser <strong>Strategien</strong> erlaubt.<br />

6.4.1 <strong>Strategien</strong> <strong>in</strong> SHOPTEL<br />

In diesem Abschnitt wird die Abfolge der Forms für das System dargestellt, wie sie <strong>in</strong><br />

der momentan lauffähigen Version vorliegt. Die anderen denkbaren Alternativen werden<br />

anschließend im nächsten Abschnitt behandelt.<br />

Wie bereits erwähnt, sollte e<strong>in</strong>e Bestellung mit ShopTel nur e<strong>in</strong>em authentifizierten Kunden<br />

möglich se<strong>in</strong>, daher wurde das Form INIT als erstes aktiviert. Sämtliche anderen Forms stehen<br />

am Anfang nicht zur Verfügung. Mit dieser Maßnahme wird e<strong>in</strong> Benutzer somit gezwungen,<br />

sich zu authentifizieren, ansonsten wird ke<strong>in</strong>e Bestellung angenommen, da das System vor<br />

der Abarbeitung dieses Forms über ke<strong>in</strong>e weiteren aktiven Forms verfügt.<br />

Wie bereits mehrfach dargestellt, kann INIT auf zwei verschiedene Arten beendet werden.<br />

Zum e<strong>in</strong>en kann sich e<strong>in</strong> Benutzer mit se<strong>in</strong>er eigenen Kundennummer anmelden, zum anderen<br />

besteht die Möglichkeit das System als Testbenutzer zu verwenden. Es gibt noch e<strong>in</strong>en<br />

weiteren Fall <strong>in</strong> der RC-List, der allerd<strong>in</strong>gs im folgenden bei allem Forms nicht weiter behandelt<br />

werden wird, die Rede ist von der RC-List ERROR. Sollte der RC diesen Wert aufweisen,<br />

werden die Werte sämtlicher Slots gelöscht und das Form kann wieder von neuem abgearbeitet<br />

werden. Da <strong>in</strong> diesem Fall ke<strong>in</strong>e erfolgreiche Abarbeitung e<strong>in</strong>es Forms geschehen ist,<br />

wird er im folgenden nicht weiter behandelt.<br />

Für jeden Benutzer beg<strong>in</strong>nt e<strong>in</strong> Gespräch mit ShopTel mit der Initialisierung, die das Form<br />

INIT leistet. E<strong>in</strong> Benutzer, der bereits über e<strong>in</strong>e Kundennummer verfügt, wird im Anschluß<br />

daran um die Angabe se<strong>in</strong>es Bestellwunsches gebeten. Um diese Funktionalität bieten zu<br />

können, wird das Forms LIST aktiviert. Desweiteren wird der Prompt des Hauptmenüs<br />

geändert, statt des E<strong>in</strong>gangstextes wird nun nach der gewünschten Bestellung gefragt.<br />

Für e<strong>in</strong>en Testbenutzer stehen exakt die gleichen Forms zur Verfügung, allerd<strong>in</strong>gs ist der<br />

Begrüßungsprompt des Systems nach erfolgter Authentifizierung sehr viel ausführlicher und<br />

es wird e<strong>in</strong>e <strong>in</strong>terne Variable gesetzt, um den Status des Kunden dar<strong>in</strong> abzuspeichern.<br />

Wenn die erste Bestellung erfolgreich durchgeführt wurde, wird automatisch PAYMENT aktiviert,<br />

um somit sicherzustellen, daß die erfolgte Bestellung auch bezahlt wird. Gleichzeitig<br />

wird der Prompt des Hauptmenüs verändert, der nun nicht mehr nur nach e<strong>in</strong>er Bestellung<br />

fragt, sondern auch anbietet, diese bezahlen zu können. Da aber e<strong>in</strong>em Benutzer noch weitere<br />

Bestellungen möglich se<strong>in</strong> sollen, s<strong>in</strong>d die dafür nötigen Forms ke<strong>in</strong>en Veränderungen<br />

unterworfen.


6.4. STRATEGIEN FÜR SHOPTEL 71<br />

Nach erfolgter Bezahlung der Bestellung <strong>in</strong> PAYMENT werden zuerst sämtliche Forms für<br />

die Durchführung e<strong>in</strong>er Bestellung deaktiviert. Desweiteren wird <strong>in</strong> Abhängigkeit des Benutzerstatus<br />

getrennt verfahren. Für Testbenutzer ist an dieser Stelle der Bestelldurchgang<br />

beendet. Der Standardbenutzer wird noch nach e<strong>in</strong>er Lieferadresse befragt, dafür wird das<br />

Form DELIVERY aktiviert, außerdem fordert der Prompt nun die Nennung dieser Adresse.<br />

Abbildung 6.3: Grobes Dialogmodell für Bestelldurchgang e<strong>in</strong>es bekannten Benutzers<br />

Die vorgestellte Strategie für e<strong>in</strong>en bekannten Benutzer ist zur besseren Verdeutlichung<br />

auch der Abbildung 6.3 zu entnehmen, diese enthält das Dialogmodell der vorgestellten<br />

Strategie auf der Basis von Segmenten. In der aktuell laufenden Version von ShopTel ist<br />

diese Strategie implementiert. Beispiele für Dialoge mit dieser Version des Systems s<strong>in</strong>d im<br />

Anhang zu f<strong>in</strong>den.<br />

6.4.2 Alternative <strong>Strategien</strong><br />

Neben der im letzten Abschnitt dargestellten Strategie können auch weitere mit ShopTel<br />

umgesetzt werden. So kann zum Beispiel die Authentifizierung erst nach e<strong>in</strong>er erfolgreichen<br />

Bestellung, vor der Bezahlung durchgeführt werden. Die E<strong>in</strong>gabe e<strong>in</strong>er Lieferadresse<br />

kann elim<strong>in</strong>iert werden und es können sogar die Aktionen der Forms INIT, PAYMENT und<br />

DELIVERY weggelassen werden und somit e<strong>in</strong> re<strong>in</strong>es Bestellsystem konstruiert werden. Die<br />

Übermittlung der persönlichen Daten zu dieser Bestellung müßte dann auf anderem Wege<br />

vorgenommen werden.<br />

E<strong>in</strong>e weitere Möglichkeit besteht dar<strong>in</strong>, nach Durchführung der Bezahlung weitere Bestellungen<br />

mit LIST zuzulassen und somit verschiedene Bezahlungsarten für unterschiedliche<br />

Produkte zu ermöglichen.<br />

Während der Konstruktion von ShopTel wurden e<strong>in</strong>ige der erwähnten Alternativen ausprobiert.<br />

Die Implementation der vorhandenen Strategie begündete sich dabei weniger mit e<strong>in</strong>er<br />

hohen Erfolgsrate, sondern mit der größeren Komplexität dieser Lösung. Dies dient nicht nur<br />

der Demonstration der Leistungsfähigkeit von modernen Dialogsystemen, vielmehr konnten<br />

auf dieser Basis auch ansprechendere Dialoge geführt und anspruchsvolle Testdaten gesammelt<br />

werden. Am wichtigsten ist allerd<strong>in</strong>gs, daß dieser Verlauf e<strong>in</strong>er Bestellung der Realität<br />

me<strong>in</strong>er Me<strong>in</strong>ung nach am nächsten ist und somit diese Strategie den schon <strong>in</strong> Abschnitt 5.1<br />

geforderten Zielen folgt.


72 KAPITEL 6. DIALOGSEGMENTE FÜR SHOPPING-ANWENDUNGEN<br />

Die Bandbreite der möglichen <strong>Strategien</strong> für ShopTel ist sehr groß und zeigt damit die<br />

Flexibilität des Forms-Ansatzes der NLU-Tools. Für den Große<strong>in</strong>satz von Dialogsystemen<br />

<strong>in</strong> der Praxis heißt dies, daß die teure und langwierige Konstruktion von solchen Systemen<br />

verkürzt werden kann, <strong>in</strong>dem für jeden Zweck auf entsprechende Forms zurückgegriffen wird.<br />

Nach Veränderung der jeweiligen Prompts ist damit nicht nur e<strong>in</strong> <strong>in</strong>ternationaler, mehrsprachiger<br />

E<strong>in</strong>satz von Dialogsystemen machbar, auch die Wiederverwendung von e<strong>in</strong>zelnen<br />

Forms <strong>in</strong> anderen Kontexten ist möglich. Das Form INIT kann beispielsweise auch zur Initialisierung<br />

von Kunden <strong>in</strong> anderen sicherheitskritischen Bereichen e<strong>in</strong>gesetzt werden, wie<br />

zum Beispiel zum automatischen Telebank<strong>in</strong>g. Für diesen Zweck müssen nur die Prompts<br />

entsprechend angepaßt werden, die Funktionalität ist vorhanden und flexibel e<strong>in</strong>setzbar.<br />

Um die Implementation von e<strong>in</strong>zelnen <strong>Strategien</strong> <strong>in</strong> e<strong>in</strong>em Dialogsystem schnell und e<strong>in</strong>fach<br />

möglich zu machen, wurde e<strong>in</strong> spezielles Tool entwickelt. Dieses kann dem E<strong>in</strong>satz zur Konstruktion<br />

von Dialogsystemen, die auf den NLU-Tools basieren, dienen. Das Tool, graphical<br />

ControlCenter genannt, wird im folgenden Abschnitt vorgestellt.<br />

6.4.3 Graphical ControlCenter<br />

Das graphical ControlCenter (gCC) wurde konstruiert, um verschiedene <strong>Strategien</strong> <strong>in</strong><br />

e<strong>in</strong>em Dialogsystem schnell anwenden zu können. Es handelt sich dabei um e<strong>in</strong>e graphische<br />

Oberfläche (engl. graphical user <strong>in</strong>terface) (GUI), die <strong>in</strong> Tcl betriebssystemunabhängig<br />

implementiert wurde.<br />

Da die Veränderung von Abläufen <strong>in</strong> der Forms-Datei e<strong>in</strong>e gewisse Kenntnis der Umgebung<br />

voraussetzt, wurde mit gCC e<strong>in</strong> Ansatz geschaffen, die Erstellung von Dialogsystemen auf<br />

diesen Tools stark zu vere<strong>in</strong>fachen und somit zu beschleunigen.<br />

Abbildung 6.4: Ansicht des gCC mit MAINMENU von ShopTel


6.4. STRATEGIEN FÜR SHOPTEL 73<br />

Abbildung 6.5: Ansicht des gCC mit PAYMENT von ShopTel<br />

Das gCC kann Forms-Dateien von verschiedensten <strong>Anwendungen</strong> e<strong>in</strong>lesen und bereitet deren<br />

Inhalt graphisch auf. In der aktuellen Version werden die e<strong>in</strong>zelnen Forms e<strong>in</strong>er Datei<br />

angezeigt, beg<strong>in</strong>nend mit dem MAINMENU, dem für jede Forms-Datei nötigen Hauptmenü,<br />

<strong>in</strong> dem die <strong>in</strong>itial aktiven Forms vermerkt werden. Das geöffnete Hauptmenü von ShopTel<br />

<strong>in</strong> gCC ist auf Abbildung 6.4 dargestellt, dort ist auch zu erkennen, daß nur INIT am Anfang<br />

als <strong>in</strong>itiales Form aktiviert ist.<br />

Die Ansicht von gCC zeigt die geladene Datei shopp<strong>in</strong>g.forms und als Karteikartenreiter<br />

die e<strong>in</strong>zelnen Forms der Anwendung. Im ausgewählten Hauptmenü werden neben dem Namen<br />

des Forms auch die Kommentare aus diesem angezeigt. Desweiteren werden alle Slots<br />

des Forms präsentiert, im MAINMENU ist dies nur der Slot MMVARS, <strong>in</strong> dem die Variablen<br />

für das Haupmenü gesetzt werden. Als letztes werden alle möglichen <strong>in</strong>itialen Forms der<br />

Anwendung angezeigt, der Benutzer kann die jeweils gewünschten Forms per Mausklick aktivieren.<br />

Im Falle von Veränderungen wird diese sofort automatisch im Programmcode der<br />

Forms umgesetzt, es muß also ke<strong>in</strong>e separate Speicherung durchgeführt werden.<br />

Es besteht die Möglichkeit, sich den Programmcode <strong>in</strong> e<strong>in</strong>em Editor anzeigen zu lassen, e<strong>in</strong><br />

Druck auf den entsprechenden Knopf <strong>in</strong> gCC öffnet automatisch die jeweilige Datei <strong>in</strong> der<br />

aktuellsten Version im Standardeditor.<br />

Wenn e<strong>in</strong> anderes Form angezeigt wird, stehen dem Benutzer andere E<strong>in</strong>flußmöglichkeiten<br />

zur Verfügung. In diesem Fall kann die RC-List der e<strong>in</strong>zelnen Forms verändert werden. Es<br />

können <strong>in</strong> jeder Liste alle Forms jeweils aktiviert oder deaktiviert werden, sie können aber<br />

auch unbehandelt bleiben. Mit dieser Möglichkeit könnnen schnell verschiedene <strong>Strategien</strong>,<br />

wie sie <strong>in</strong> den vorherigen Abschnitten angesprochen wurden, zum E<strong>in</strong>satz gebracht werden.<br />

Dies wird <strong>in</strong> Abbildung 6.5 am Beispiel des Forms PAYMENT illustriert. Dort s<strong>in</strong>d die bereits<br />

im Rahmen der Strategie <strong>in</strong> ShopTel (Abschnitt 6.4.1) erwähnten beiden RC-Lists darge-


74 KAPITEL 6. DIALOGSEGMENTE FÜR SHOPPING-ANWENDUNGEN<br />

stellt. Für beide werden die Forms LIST-INF-DATA, LIST-INF-PRICE und LIST deaktiviert,<br />

für TEST wird HANGUP aktiviert und damit das Ende des Gesprächs mit ShopTel e<strong>in</strong>geleitet.<br />

Für den Standardbenutzer werden <strong>in</strong> OK DELIVERY und DELIVERY-SPEC aktiviert, um<br />

die Lieferadresse angeben zu können. Außerdem wird für beide Listen das Form PAYMENT<br />

deaktiviert, um e<strong>in</strong>e erneute Frage nach der Bezahlung zu vermeiden.<br />

Bisher nicht <strong>in</strong> gCC implementiert s<strong>in</strong>d die verschiedenen Prompts der e<strong>in</strong>zelnen RC-Lists.<br />

Diese s<strong>in</strong>d im Fall der beiden vorgestellten Alternativen ebenfalls unterschiedlich, müssen<br />

bisher allerd<strong>in</strong>gs noch manuell <strong>in</strong> der Forms-Datei verändert werden. Die Integration der<br />

Prompts <strong>in</strong> gCC stellt somit e<strong>in</strong>e angestrebte Erweiterung des Tools dar.<br />

Mit e<strong>in</strong>er zusätzlichen Erweiterung kann gCC auch e<strong>in</strong>e Unterstützung bei der Konstruktion<br />

von neuen Forms darstellen. Das gCC könnte dann mittels e<strong>in</strong>facher benutzergesteuerter<br />

Auswahl neue Forms aus Standardelementen generieren und somit schnell erstellen. In diesem<br />

Fall muß nur noch die Funktionalität des Backends bereitgestellt werden, um die Forms<br />

erfolgreich e<strong>in</strong>setzen zu können. Dies wird auf längere Sicht die anspruchsvollere und nicht<br />

vere<strong>in</strong>fachbare Aufgabe des Konstrukteurs e<strong>in</strong>es solchen Systems bleiben. Mit der teilweisen<br />

oder auch ganzen Wiederverwendung von Forms, die das gCC ebenfalls ermöglicht, können<br />

der Entwurf und die Konstruktion von neuen Dialogsystemen weiter beschleunigt werden.<br />

6.5 Zusammenfassung<br />

Mit diesem Kapitel wurde die Darstellung und Beschreibung des Konversationssystems<br />

ShopTel abgeschlossen, die <strong>in</strong> Kapitel 5 begonnen wurde. Dort wurden vor allem die technischen<br />

Merkmale des Systems und se<strong>in</strong>er Architektur beschrieben<br />

In diesem Kapitel wurden zuerst menschliche Dialoge <strong>in</strong> der Domäne von ShopTel und ihre<br />

Besonderheiten vorgestellt. In diesem Rahmen wurde das Telefonmarket<strong>in</strong>g kurz skizziert<br />

und die Wichtigkeit der Wortwahl <strong>in</strong> dieser auf e<strong>in</strong>en Kanal reduzierten Kommunikation<br />

dargestellt. Auf Grund dieser Umstände und wegen des zunehmenden Erfolgsdrucks der jeweiligen<br />

Mitarbeiter wurde e<strong>in</strong>geführt, daß <strong>in</strong> diesem Beschäftigungsfeld meist ausschließlich<br />

speziell geschultes Personal e<strong>in</strong>gesetzt wird.<br />

Die durch solche Schulungen erworbene Kompetenz <strong>in</strong> e<strong>in</strong>em Dialogsystem abzubilden ersche<strong>in</strong>t<br />

sehr schwer. Aus diesem Grund wurde für ShopTel e<strong>in</strong> vere<strong>in</strong>fachtes Szenario entworfen,<br />

daß bereits <strong>in</strong> Abschnitt 5.2 thematisiert wurde und für das <strong>in</strong> diesem Kapitel die nötigen<br />

Sequenzen und Komponenten, sowie die daraus abgeleiteten <strong>Dialogsegmente</strong> dargestellt<br />

wurden. Letztere wurden auf die Forms abgebildet, die jeweils e<strong>in</strong>e eigene Funktionalität <strong>in</strong><br />

Zusammenarbeit mit dem Backend bereitstellen. Dabei wurden e<strong>in</strong>ige Forms des Systems<br />

behandelt und <strong>in</strong> ihrer Funktionalität vorgestellt.<br />

Somit wurden nun alle Komponenten und Bestandteile von ShopTel e<strong>in</strong>geführt und <strong>in</strong> ihrer<br />

Funktionsweise dargestellt. Um den Ablauf e<strong>in</strong>es Dialogs mit dem System zu steuern, wurden<br />

die implementierte und auch verschiedene andere <strong>Strategien</strong> vorgestellt. Erstere besteht<br />

aus e<strong>in</strong>em festen Ablauf der e<strong>in</strong>zelnen <strong>Dialogsegmente</strong> des Systems. Dieser entspricht me<strong>in</strong>er<br />

Ansicht nach am besten der bereits <strong>in</strong> Abschnitt 5.1 gestellten Forderung nach e<strong>in</strong>er s<strong>in</strong>nvollen<br />

Anordnung der <strong>Dialogsegmente</strong> mit e<strong>in</strong>em <strong>in</strong>tuitiven Ablauf. Trotz des festen Ablaufs<br />

wird im Rahmen der aktuell während e<strong>in</strong>es Dialogs aktiven Forms dem Benutzer e<strong>in</strong>e Auswahl<br />

unter diesen ermöglicht. So kann beispielsweise nach e<strong>in</strong>er erfolgten Bestellung benutzer<strong>in</strong>itiativ<br />

zwischen der Aktion ”<br />

weitere Bestellung“ und der Aktion ”<br />

Bezahlung“ gewählt<br />

werden. Die vorgestellte Strategie ermöglicht damit zwar e<strong>in</strong>e Benutzerführung, stellt aber


6.5. ZUSAMMENFASSUNG 75<br />

trotzdem ke<strong>in</strong>e zu starke E<strong>in</strong>schränkung für den Benutzer dar, da sie, trotz ihrer Existenz,<br />

dem Benutzer <strong>in</strong> vielen Fällen die Wahl der nächsten auszuführenden Aktion überläßt.<br />

Die Erreichung der <strong>in</strong> Abschnitt 5.1 formulierten Ziele für die Konstruktion des Konversationssystems<br />

ShopTel wird im folgenden noch e<strong>in</strong>mal zusammenfassend dokumentiert. Dabei<br />

wird auf die Erkenntnisse der Kapitel 5 und 6 zurückgegriffen.<br />

• Die implementierte Dialogstrategie (Abschnitt 6.4.1) ordnet die verschiedenen Segmente<br />

von ShopTel <strong>in</strong> der Weise an, daß e<strong>in</strong> <strong>in</strong>tuitiver Ablauf des Bestellvorgangs<br />

gewährleistet ist. Dies konnte auch mit der hohen Anzahl erfolgreich durchgeführter<br />

Bestellungen im Rahmen der Evaluation <strong>in</strong> Abschnitt 5.5 nachgewiesen werden.<br />

• Die Benutzerführung wurde, wie bereits angesprochen, durch die gewählte Strategie<br />

mit den aktivierten und deaktivierten Forms vorgenommen. Dabei wurden gesteuerte<br />

Dialoge nur dann geführt, wenn Angaben zur vollständigen Abarbeitung e<strong>in</strong>er Aktion<br />

fehlten oder aber diese bestätigt werden mußten. Die hier<strong>in</strong> bestehenden Beschränkungen<br />

des Benutzers werden als sehr schwach bewertet.<br />

• Ansonsten hatte der Benutzer stets die volle Auswahl unter den aktuell zur Verfügung<br />

stehenden Aktionen und konnte somit e<strong>in</strong>en freien Dialog mit dem System führen.<br />

Die formulierten Ziele h<strong>in</strong>sichtlich der Qualitätseigenschaften von Software konnten ebenfalls<br />

alle erfüllt werden. Die Datenbank mit den enthaltenen Produkten und Kunden kann<br />

jederzeit erweitert werden. E<strong>in</strong>e Modularisierung der e<strong>in</strong>zelnen Komponenten wurde bereits<br />

von der Architektur der NLU-Tools gefordert und auch umgesetzt.<br />

Die aufgestellte Forderung nach e<strong>in</strong>er Wiederverwendbarkeit e<strong>in</strong>zelner Module konnte ebenfalls<br />

erfüllt werden. Dies wurde bereits bei der Vorstellung der verschiedenen denkbaren<br />

<strong>Strategien</strong> für ShopTel dargestellt. Dieses Ziel entspricht dem grundlegenden Ziel der gesamten<br />

Arbeit. Es sollten allgeme<strong>in</strong>e <strong>Dialogsegmente</strong> gefunden werden und die Möglichkeit<br />

für deren Wiederverwendung <strong>in</strong> anderen Systemen geprüft werden. Dies wurde schon für<br />

das Form INIT positiv beantwortet und kann auch auf andere Forms ausgedehnt werden.<br />

Außerdem bietet das System durch die verschiedenen möglichen <strong>Strategien</strong> vielfältige E<strong>in</strong>satzmöglichkeiten,<br />

die ebenfalls e<strong>in</strong>e ganze oder teilweise Weiterverwendung erlauben.<br />

Mit dem graphical ControlCenter wurde e<strong>in</strong> Ansatz zur schnellen Aktivierung von unterschiedlichen<br />

<strong>Strategien</strong> <strong>in</strong> e<strong>in</strong>em Dialogsystem vorgestellt. Gleichzeitig bietet dieses Tool<br />

e<strong>in</strong>en Rahmen für e<strong>in</strong>e schnellere Konstruktion von zukünftigen Dialogsystemen, die auf<br />

den IBM ViaVoice Telephony Natural Language Tools basieren. Wenn dem gCC noch<br />

e<strong>in</strong> GUI für die Prompts e<strong>in</strong>es Dialogsystems h<strong>in</strong>zugefügt werden kann, wird die Konstruktion<br />

von Systemen <strong>in</strong> unterschiedlichen Sprachen sehr stark vere<strong>in</strong>facht. Es müßten nur die<br />

Prompts, der Canonicalizer, die E<strong>in</strong>träge der Datenbank, die TTS und der Erkenner <strong>in</strong> e<strong>in</strong>er<br />

anderen Sprachversion vorliegen, schon kann das Dialogsystem auch <strong>in</strong> e<strong>in</strong>er Fremdsprache<br />

betrieben werden.<br />

Es kann somit festgestellt werden, daß auf der Basis von ShopTel unterschiedliche Konversationssysteme<br />

schnell zur Anwendung gebracht werden können, die durch Erweiterungen<br />

und Anpassungen sehr <strong>in</strong>dividuell ausgeführt se<strong>in</strong> können. Insbesondere die Forms können<br />

als Templates für neue Systeme dienen und im Zusammenhang mit e<strong>in</strong>er Weiterentwicklung<br />

des gCC zu e<strong>in</strong>er Beschleunigung der Konstruktionsphase beitragen.


76 KAPITEL 6. DIALOGSEGMENTE FÜR SHOPPING-ANWENDUNGEN


Kapitel 7<br />

Ausblick<br />

In der vorliegenden Arbeit wurde e<strong>in</strong> Konversationssystem für e<strong>in</strong>e Shopp<strong>in</strong>g-Domäne vorgestellt,<br />

das auf den IBM ViaVoice Telephony Natural Language Tools basiert. Die Konstruktion<br />

mit den Werkzeugen der IBM erforderte e<strong>in</strong>ige Besonderheiten, die <strong>in</strong> dieser Arbeit<br />

dargestellt wurden. Ihre Verwendung bot jedoch auch Vorteile, die sich nicht zuletzt <strong>in</strong> der<br />

schnellen Konstruktion e<strong>in</strong>es Systems, der e<strong>in</strong>fachen Austauschbarkeit se<strong>in</strong>er Komponenten<br />

und se<strong>in</strong>er Flexibilität erschöpfen. Diese Arbeit konnte auch die Wiederverwendbarkeit der<br />

Forms und die e<strong>in</strong>fache Implementation verschiedener <strong>Strategien</strong> aufzeigen. Mit Verwendung<br />

und Weiterentwicklung des graphical ControlCenter können diese Vorteile konsequent<br />

ausgebaut werden, um so <strong>in</strong> Zukunft die Implementation e<strong>in</strong>es neuen Konversationssystems<br />

noch weiter zu beschleunigen.<br />

Das vorgestellte System ShopTel ist zwar immer noch e<strong>in</strong> Prototyp, jedoch konnte <strong>in</strong>nerhalb<br />

von fast acht Monaten e<strong>in</strong> komplettes System konzipiert und implementiert werden, dessen<br />

Ergebnisse mehr als zufriedenstellend s<strong>in</strong>d. Es konnten e<strong>in</strong>ige Verbesserungsmöglichkeiten<br />

aufgezeigt werden und es bleibt zu hoffen, daß dieses sehr komplexe System weiterentwickelt<br />

wird und so vielleicht se<strong>in</strong>en Beitrag zur Verbreitung von telefonischen Dialogsystemen leistet.<br />

Die Voraussetzungen für die Weiterentwicklung des Systems s<strong>in</strong>d mit dieser Arbeit<br />

gelegt worden.<br />

Wie bereits im vierten Kapitel gezeigt wurde, ist die Bandbreite von Dialogsystemen <strong>in</strong> der<br />

Fachwelt sehr groß, allerd<strong>in</strong>gs werden solche Systeme bisher nur sehr selten <strong>in</strong> der Praxis<br />

e<strong>in</strong>gesetzt. Die Vorbehalte der Benutzer s<strong>in</strong>d meist zu groß. Dabei wird die Leistungsfähigkeit<br />

solcher Systeme häufig grundlegend falsch e<strong>in</strong>geschätzt. Diese Beobachtung konnte ich<br />

auch bei der Sammlung der Evaluationsdaten machen: entweder wird e<strong>in</strong>em System zu wenig<br />

zugetraut und es werden nur E<strong>in</strong>zelworte geäußert oder der Umfang des Vokabulars<br />

und die Leistungsfähigkeit der Dialogkomponente werden als unermeßlich angesehen und<br />

es werden hochkomplizierte Satzkonstruktionen geäußert. Dies Problem ist durch bessere<br />

Datensammlungen und Sprachmodelle, höhere verfügbare Rechenkapazitäten und bessere<br />

sprechende“ Anleitungen, <strong>in</strong> denen formuliert wird, was das System kann, zu lösen. E<strong>in</strong><br />

”<br />

größeres Problem besteht <strong>in</strong> der E<strong>in</strong>stellung vieler Benutzer gegenüber Dialogsystemen im<br />

allgeme<strong>in</strong>en. Häufig werden solche Systeme abgelehnt, da die Vorstellung der Kommunikation<br />

mit e<strong>in</strong>er Masch<strong>in</strong>e vielen sehr suspekt ist, jeder Besitzer e<strong>in</strong>es Anrufbeantworters weiß<br />

dies nur zu gut. E<strong>in</strong>e Lösung dieses Problems kann nur <strong>in</strong> der langsamen Verbreitung der<br />

Technik bestehen, während der die Benutzer zunehmend positive Erfahrungen im Umgang<br />

mit Dialogsystemen sammeln.


78 KAPITEL 7. AUSBLICK<br />

Doch bieten Dialogsysteme, vor allem die telefonischen Varianten, sehr viele Vorteile. Insbesondere<br />

<strong>in</strong> e<strong>in</strong>fachen Auskunftsdomänen bieten Dialogsysteme e<strong>in</strong>e preiswerte und flexible<br />

Alternative zu menschlichen Call-Centern. Bei ihrem E<strong>in</strong>satz entfallen nicht nur Personalund<br />

Schulungskosten für den Betreiber, vor allem die ständige Erreichbarkeit e<strong>in</strong>es solchen<br />

Services ist e<strong>in</strong> großer Vorteil. Außerdem können Kapazitätsgrenzen schnell erweitert werden,<br />

die Zeit, die Anrufer <strong>in</strong> Warteschleifen verbr<strong>in</strong>gen müssen, kann somit e<strong>in</strong>fach reduziert<br />

und damit e<strong>in</strong>e größere Zufriedenheit der Kunden erreicht werden. Da Betreiber von Call-<br />

Centern häufig heute schon ihre Dienste auch über die Telefongebühren der Anrufer f<strong>in</strong>anzieren,<br />

können die Kosten für e<strong>in</strong> Dialogsystem bald amortisiert werden, weil die laufenden<br />

Kosten für e<strong>in</strong> Dialogsystem sehr ger<strong>in</strong>g s<strong>in</strong>d. Doch bietet sich auch e<strong>in</strong>e Komb<strong>in</strong>ation von<br />

Call-Center und Dialogsystem an, um so beispielsweise die Warteschlangen abzubauen oder<br />

die Dienstzeiten zu verlängern und trotzdem <strong>in</strong> Bedarfsfällen menschliche Unterstützung zu<br />

liefern. Insbesondere <strong>in</strong> den nächsten Jahren wird sich dieses Vorgehen durchsetzen. Dies<br />

sieht auch [Ste<strong>in</strong>biss 2000], der argumentiert, daß die Sprachtechnologie nur wenige der<br />

herkömmlichen Technologien ersetzen, mit den meisten aber koexistieren wird.<br />

Die Zukunft von telefonischen Dialogsystemen wird trotz der formulierten Vorbehalte als<br />

grundsätzlich positiv angesehen. Wichtig für e<strong>in</strong>e steigende Akzeptanz und Nachfrage dieser<br />

Systeme ist allerd<strong>in</strong>gs weniger ihre technische Machbarkeit, als die natürlichere Bedienbarkeit,<br />

die e<strong>in</strong>en enormen Vorteil gegenüber anderen Informationsquellen darstellen kann. So<br />

kommt beispielsweise [Cameron 2000] zu dem Schluß, daß die e<strong>in</strong>zige Motivation zur Verwendung<br />

von telefonischen Dialogsystemen <strong>in</strong> Zukunft die Zeitersparnis ist. Nur wenn die<br />

Nutzung e<strong>in</strong>es sprachgesteuerten Systems e<strong>in</strong>en schnelleren Erfolg verspricht, als die Verwendung<br />

anderer Informationsquellen, wird es auch genutzt werden.<br />

Ich denke, daß neben der Zeitersparnis die <strong>in</strong>tuitive Benutzung von Dialogsystemen, <strong>in</strong>sbesondere<br />

im Telefoniebereich, e<strong>in</strong>e wichtige Grundlage für den Erfolg dieser Systeme darstellen<br />

wird. E<strong>in</strong>en wichtigen Beitrag dafür leistet auch die Strategie e<strong>in</strong>es Dialogsystems, wie sie<br />

<strong>in</strong> dieser Arbeit thematisiert wurde. Allerd<strong>in</strong>gs wird noch e<strong>in</strong>ige Forschungsarbeit geleistet<br />

werden müssen, um die <strong>in</strong>tuitive Benutzung wirklich jedem zu ermöglichen. Die Arbeit an<br />

diesem Ziel wird auch <strong>in</strong> der nächsten Zeit vor allem durch große Forschungsvorhaben geleistet<br />

werden, die sowohl von der öffentlichen Hand, als auch von der Industrie f<strong>in</strong>anziert<br />

werden. Mit dem EU-Projekt CATCH 2004 1 und dem BMBF-Projekt SmartKom 2 können hier<br />

zwei große Vorhaben mit deutscher Beteiligung genannt werden.<br />

Allerd<strong>in</strong>gs b<strong>in</strong> ich der Überzeugung, daß mit e<strong>in</strong>er zunehmenden Verbesserung der Dialogsysteme,<br />

deren Verbreitung größtenteils auf Grund ihres ernormen Rationalisierungspotentials<br />

e<strong>in</strong>setzen wird und nicht, wegen der e<strong>in</strong>fachen und <strong>in</strong>tuitiven Benutzbarkeit.<br />

1 Siehe unter www.catch2004.org.<br />

2 Vergleiche hierzu www.smartkom.org.


Anhang A<br />

IBM Tools für Telefoniesysteme<br />

Das <strong>in</strong> dieser Arbeit vorgestellte System ShopTel wurde mit Hilfe der IBM-Tools für Telefoniesysteme<br />

erstellt, die e<strong>in</strong>e schnelle Konstruktion von telefonbasierten Dialogsystemen<br />

ermöglichen. Im folgenden werden die beiden im Rahmen der Arbeit verwendeten Werkzeuge<br />

kurz vorgestellt.<br />

A.1 IBM ViaVoice Telephony Toolkit<br />

Das IBM ViaVoice Telephony Toolkit (VVT) ist e<strong>in</strong> Entwicklungswerkzeug, das der Konstruktion<br />

von e<strong>in</strong>fachen, grammatikbasierten Dialogsystemen dient. Das Werkzeug verfügt<br />

bereits über e<strong>in</strong>en Spracherkenner und e<strong>in</strong>e TTS, desweiteren ist e<strong>in</strong> Telefoniemodul enthalten,<br />

das die Schnittstelle zwischen der Telefonkarte im Rechner und der eigentlichen<br />

Anwendung darstellt. Die steuernden Komponenten des VVT s<strong>in</strong>d der IVR-Hub (Interactive<br />

Voice Response) und der Prozeßmanager. Letzterer dient vor allem der Nutzung mehrerer<br />

(Telefon)Kanäle für verschiedene <strong>Anwendungen</strong> auf e<strong>in</strong>em Rechner. Der IVR-Hub steht für<br />

die eigentliche VVT-Anwendung und muß für jede Applikation neu erstellt werden. In der<br />

Regel handelt es sich dabei um e<strong>in</strong> Skript das <strong>in</strong> Tcl implementiert wird und das mit e<strong>in</strong>em<br />

Backend <strong>in</strong>teragiert. Für die Spracherkennung müssen e<strong>in</strong>e Grammatik und die zu den jeweiligen<br />

Worten korrespondierende Aussprache (Baseforms) erstellt werden. Die Architektur<br />

des VVT ist auf Abbildung A.1 bestehend aus den dunkel e<strong>in</strong>gefärbten Komponenten dargestellt.<br />

Nähere Angaben zum VVT können [IBM 1999a; Günther et al. 2000] entnommen<br />

werden.<br />

A.2 IBM ViaVoice Telephony Natural Language Tools<br />

Die IBM ViaVoice Telephony Natural Language Tools (NLU-Tools) stellen e<strong>in</strong>e Erweiterung<br />

des VVT dar, wie auch aus Abbildung A.1 ersehen werden kann. Die NLU-Tools<br />

bestehen somit aus allen Komponenten, die auch das VVT aufweist. Zusätzlich wurden sie<br />

jedoch um e<strong>in</strong>en Dialogmanager erweitert. <strong>Anwendungen</strong>, die für diese Tools erstellt werden,<br />

s<strong>in</strong>d nicht grammatikbasiert, sondern werden mit Daten aus e<strong>in</strong>er umfangreichen Treebank<br />

gespeist. Ausführliche Angaben hierzu und zum Pars<strong>in</strong>g-Pr<strong>in</strong>zip der Tools wurden bereits<br />

<strong>in</strong> Abschnitt 5.3.8 gemacht.


80 ANHANG A. IBM TOOLS FÜR TELEFONIESYSTEME<br />

Abbildung A.1: Architektur des IBM ViaVoice Telephony Toolkit mit NLU-Tools<br />

Die Konstruktion e<strong>in</strong>er Anwendung mit den NLU-Tools bedeutet im Vergleich zur Erstellung<br />

e<strong>in</strong>er Applikation mit dem VVT e<strong>in</strong>en größeren Aufwand. Der IVR-Hub und das NLU-<br />

ControlCenter müssen jeder neuen Anwendung angepaßt werden. Desweiteren müssen die<br />

Daten für den Classer und Parser gesammelt, annotiert und tra<strong>in</strong>iert, sowie der Canonicalizer<br />

konstruiert werden. Bisher wurden auch die Forms für jede Anwendung neu erstellt.<br />

Mit der vorliegenden Arbeit wurde jedoch e<strong>in</strong> Beitrag geleistet, der die ganze oder teilweise<br />

Wiederverwendung von Forms fördert und somit zu e<strong>in</strong>er Beschleunigung des Konstruktionsprozesses<br />

von zukünftigen <strong>Anwendungen</strong> führen kann. Für die Spracherkennung wird<br />

aus den gewonnen Daten e<strong>in</strong> Sprachmodell berechnet, desweiteren werden ebenfalls die Baseforms<br />

der jeweiligen Worte benötigt. Weitere Informationen über die NLU-Tools s<strong>in</strong>d <strong>in</strong><br />

[Davies et al. 1999; IBM 1999b; Pap<strong>in</strong>eni et al. 1999; Mast et al. 2000] zu f<strong>in</strong>den.


Anhang B<br />

SHOPTEL<br />

B.1 Beispieldialoge mit SHOPTEL<br />

Im folgenden werden e<strong>in</strong>ige Beispieldialoge mit ShopTel wiedergegeben, um e<strong>in</strong>en E<strong>in</strong>druck<br />

des Systems zu geben. Dargestellt werden die jeweiligen Transkriptionen des Anrufers (A:),<br />

gekürzt um nicht relevante sprachliche Phänomene, und die Systemprompts von ShopTel<br />

(S:).<br />

B.1.1<br />

Dialog I<br />

Um Erkennungsfehler bere<strong>in</strong>igte Testbestellung bei ShopTel, dem Beispieldialog aus Abschnitt<br />

5.5 folgend.<br />

S: herzlich willkommen bei shoptel, dem automatischen bestellsystem der IBM. wenn sie<br />

noch ke<strong>in</strong>e kundennummer haben, melden sie sich bitte mit mustermann und der<br />

nummer 0 8 15 an, ansonsten nennen sie bitte ihren namen und ihre kundennummer,<br />

bevor sie etwas bestellen.<br />

A: hallo hier ist mustermann<br />

S: bitte nennen sie ihre vierstellige kundennummer.<br />

A: 0 8 15<br />

S: hallo sie s<strong>in</strong>d nun als neuer kunde erkannt worden und dürfen das system jetzt zu testzwecken<br />

benutzen. ausgeführte bestellungen s<strong>in</strong>d nicht reell, sie gehen mit benutzung<br />

dieses systems ke<strong>in</strong>e verpflichtungen irgende<strong>in</strong>er art e<strong>in</strong>. was möchten sie denn gerne<br />

bestellen? sie haben die auswahl zwischen büchern, notebooks und we<strong>in</strong>en.<br />

A: e<strong>in</strong> notebook zu 5 tausend euro bitte<br />

S: ich habe 8 <strong>in</strong> frage kommende notebooks gefunden. um ihre auswahl e<strong>in</strong>zuschränken, spezifizieren<br />

sie ihre bestellung bitte weiter, <strong>in</strong>dem sie zum beispiel e<strong>in</strong>e produktnummer,<br />

e<strong>in</strong>en produktnamen, e<strong>in</strong>e obere preisgrenze, e<strong>in</strong>en prozessornamen oder e<strong>in</strong> betriebssystem<br />

sagen, sie können auch e<strong>in</strong> notebook mit dvd oder cd-rom laufwerk auswählen.


82 ANHANG B. SHOPTEL<br />

A: ich möchte e<strong>in</strong>s mit dvd-laufwerk bitte<br />

S: ich habe IBM-th<strong>in</strong>kpad-6005-ege und IBM-th<strong>in</strong>kpad-6009-ege gefunden, welches möchten<br />

sie bestellen?<br />

A: die daten bitte<br />

S: die daten der ausgewählten notebooks: notebook 1: IBM-th<strong>in</strong>kpad-6005-ege für 9420 DM<br />

hat e<strong>in</strong>en pentium-3 mit 500 mhz, es hat 64 mb sd-ram und kann auf maximal 576<br />

mb erweitert werden, die festplatte ist 12 gb gross, es hat e<strong>in</strong> dvd laufwerk und als<br />

betriebssystem ist w<strong>in</strong>dows-98 vor<strong>in</strong>stalliert. notebook 2: IBM-th<strong>in</strong>kpad-6009-ege für<br />

9686 DM hat e<strong>in</strong>en pentium-3 mit 500 mhz, es hat 64 mb sd-ram und kann auf maximal<br />

576 mb erweitert werden, die festplatte ist 12 gb gross, es hat e<strong>in</strong> dvd laufwerk und<br />

als betriebssystem ist w<strong>in</strong>dows-nt vor<strong>in</strong>stalliert. alle notebooks s<strong>in</strong>d <strong>in</strong> bewährter IBM<br />

qualität hergestellt und haben e<strong>in</strong> 13,3 zoll display das maximal e<strong>in</strong>e auflösung von<br />

1024 mal 768 erlaubt. ich habe 2 notebooks gefunden, welches möchten sie bestellen?<br />

A: ich nehme das billigste bitte<br />

S: sie möchten also e<strong>in</strong> mal IBM-th<strong>in</strong>kpad-6005-ege zu je 9420 DM bestellen?<br />

A: ja bitte<br />

S: möchten sie e<strong>in</strong> mal IBM-th<strong>in</strong>kpad-6005-ege zu 9420 DM bestellen?<br />

A: ja<br />

S: produkt bestellung ok. möchten sie noch e<strong>in</strong>e bestellung aufgeben oder lieber bezahlen?<br />

A: zahlen bitte<br />

S: die summe ihrer e<strong>in</strong>käufe beträgt: 9420 DM, nennen sie dafür bitte ihre gewünschte<br />

zahlungsweise.<br />

A: per kreditkarte bitte<br />

S: was für e<strong>in</strong>e kreditkarte haben sie bitte?<br />

A: e<strong>in</strong>e eurocard<br />

S: bitte geben sie an, bis zu welchem monat <strong>in</strong> welchem jahr ihre kreditkarte noch gültig<br />

ist.<br />

A: bis märz 2002<br />

S: bitte nennen sie ihre kreditkartennummer.<br />

A: 1 2 3 4 5 6 7 8 9<br />

S: ok, die bezahlungsmodalitäten s<strong>in</strong>d hiermit abgeschlossen, damit ist der testdurchlauf<br />

von shoptel nun beendet. hoffentlich hat es ihnen gefallen.<br />

A: auf wiederhören<br />

S: vielen dank, daß sie shoptel benutzt haben. bis zum nächsten mal! auf wiederhören. bitte<br />

legen sie jetzt auf! bitte legen sie jetzt auf, das telefonat ist beendet. sie können das<br />

telefonat nun beenden <strong>in</strong>dem sie ende sagen oder e<strong>in</strong>fach auflegen.


B.1. BEISPIELDIALOGE MIT SHOPTEL 83<br />

B.1.2<br />

Dialog II<br />

Erfolgreicher Dialog mit Erkennungsfehlern und Slotfehler (obere Zahlungsgrenze als Stückzahl<br />

<strong>in</strong>terpretiert) e<strong>in</strong>es bekannten Kunden.<br />

S: herzlich willkommen bei shoptel, dem automatischen bestellsystem der IBM. wenn sie<br />

noch ke<strong>in</strong>e kundennummer haben, melden sie sich bitte mit mustermann und der<br />

nummer 0 8 15 an, ansonsten nennen sie bitte ihren namen und ihre kundennummer,<br />

bevor sie etwas bestellen.<br />

A: markus klehr<br />

S: bitte nennen sie ihre vierstellige kundennummer.<br />

A: 6 3 6 3<br />

S: hallo markus klehr, sie s<strong>in</strong>d als registrierter kunde erkannt worden. was möchten sie bitte<br />

bestellen?<br />

A: ich wuerde gerne ’n notebook auch mit dvd-laufwerk fuer so 2 äh 5 tausend euro [bestellen]<br />

S: es wurde ke<strong>in</strong> passendes produkt gefunden, bitte geben sie e<strong>in</strong>e neue bestellung auf!<br />

A: ja notebooks mit dvd-laufwerk [will] ich<br />

S: ich habe IBM-th<strong>in</strong>kpad-6005-ege, IBM-th<strong>in</strong>kpad-6005-fge, IBM-th<strong>in</strong>kpad-6009-ege, IBMth<strong>in</strong>kpad-6005-bge<br />

und IBM-th<strong>in</strong>kpad-6005-age gefunden, welches möchten sie bestellen?<br />

A: was kostet das 1.<br />

S: sie möchten also 25000 mal IBM-th<strong>in</strong>kpad-6005-ege bestellen?<br />

A: ja<br />

S: möchten sie 25000 mal IBM-th<strong>in</strong>kpad-6005-ege zu 235500000 DM bestellen?<br />

A: ja<br />

S: produkt bestellung ok. möchten sie noch e<strong>in</strong>e bestellung aufgeben oder lieber bezahlen?<br />

A: ich moechte bezahlen<br />

S: die summe ihrer e<strong>in</strong>käufe beträgt: 235500000 DM, nennen sie dafür bitte ihre gewünschte<br />

zahlungsweise.<br />

A: ich zahle mit kreditkarte<br />

S: was für e<strong>in</strong>e kreditkarte haben sie bitte?<br />

A: visa card<br />

[akustische Bewertung zu schlecht]<br />

S: entschuldigung ich habe sie nicht verstanden.


84 ANHANG B. SHOPTEL<br />

A: visa card<br />

[nicht als Kreditkarte verstanden]<br />

S: was für e<strong>in</strong>e kreditkarte haben sie denn?<br />

A: american express<br />

[nicht als Kreditkarte verstanden]<br />

S: was für e<strong>in</strong>e kreditkarte haben sie denn?<br />

A: eurocard<br />

S: bitte geben sie an, bis zu welchem monat <strong>in</strong> welchem jahr ihre kreditkarte noch gültig<br />

ist.<br />

A: oktober 2 tausend<br />

S: bitte nennen sie ihre kreditkarten nummer.<br />

A: 4 4 4 3 8 9 9<br />

S: ok, die bezahlungsmodalitäten s<strong>in</strong>d hiermit abgeschlossen. bitte geben sie nun noch die<br />

lieferadresse an.<br />

A: friedrich schiller strasse 4 <strong>in</strong> 6 7 4 5 4 nussloch<br />

[nicht korrekt verstanden, da nicht im Vokabular vorgesehen]<br />

S: <strong>in</strong> welcher strasse wohnen sie bitte?<br />

A: friedrich schiller strasse<br />

[nicht korrekt verstanden, da nicht im Vokabular]<br />

S: ich habe sie nicht verstanden bitte sprechen sie deutlicher.<br />

A: vangerowstrasse 18<br />

S: nennen sie bitte den namen ihres wohnortes.<br />

A: heidelberg<br />

S: schönen dank, mehr angaben brauche ich nicht mehr. auf wiederhören.<br />

A: [auflegen]<br />

B.1.3<br />

Dialog III<br />

Gescheiterte Bestellung e<strong>in</strong>es Testbenutzers mit e<strong>in</strong>igen Fehlern.<br />

S: herzlich willkommen bei shoptel, dem automatischen bestellsystem der IBM. wenn sie<br />

noch ke<strong>in</strong>e kundennummer haben, melden sie sich bitte mit mustermann und der<br />

nummer 0 8 15 an, ansonsten nennen sie bitte ihren namen und ihre kundennummer,<br />

bevor sie etwas bestellen.<br />

A: guten tag me<strong>in</strong> name ist mustermann ich habe die kundennummer 0 8 1 5


B.1. BEISPIELDIALOGE MIT SHOPTEL 85<br />

S: hallo sie s<strong>in</strong>d nun als neuer kunde erkannt worden und dürfen das system jetzt zu testzwecken<br />

benutzen. ausgeführte bestellungen s<strong>in</strong>d nicht reell, sie gehen mit benutzung<br />

dieses systems ke<strong>in</strong>e verpflichtungen irgende<strong>in</strong>er art e<strong>in</strong>. was möchten sie denn gerne<br />

bestellen? sie haben die auswahl zwischen büchern, notebooks und we<strong>in</strong>en.<br />

A: ich haette gerne e<strong>in</strong> paar we<strong>in</strong>e bestellt<br />

S: ich habe 20 <strong>in</strong> frage kommende we<strong>in</strong>e gefunden. um ihre auswahl e<strong>in</strong>zuschränken, spezifizieren<br />

sie ihre bestellung bitte weiter, sie können dafür e<strong>in</strong>en produktnamen, e<strong>in</strong>e<br />

preisgrenze, e<strong>in</strong>e traubensorte, geschmacksrichtung, farbe, e<strong>in</strong> anbaugebiet oder e<strong>in</strong><br />

herkunftsland nennen.<br />

A: ich haette gerne e<strong>in</strong>en roten bordeaux<br />

S: es wurde ke<strong>in</strong> passendes produkt gefunden, bitte geben sie e<strong>in</strong>e neue bestellung auf!<br />

A: ich haette gerne e<strong>in</strong>e palette rotwe<strong>in</strong><br />

[richtige Verarbeitung obwohl Wort ’Palette’ nicht im Vokabular]<br />

S: ich habe 6 <strong>in</strong> frage kommende we<strong>in</strong>e gefunden. um ihre auswahl e<strong>in</strong>zuschränken, spezifizieren<br />

sie ihre bestellung bitte weiter, sie können dafür e<strong>in</strong>en produktnamen, e<strong>in</strong>e<br />

preisgrenze, e<strong>in</strong>e traubensorte, geschmacksrichtung, farbe, e<strong>in</strong> anbaugebiet oder e<strong>in</strong><br />

herkunftsland nennen.<br />

A: ich haette gerne e<strong>in</strong>en we<strong>in</strong> fuer 9 demark<br />

S: ich habe deidesheimer klostergarten und wallertheimer vogelsang kab<strong>in</strong>ett gefunden, welches<br />

möchten sie bestellen?<br />

A: ich moechte gerne e<strong>in</strong>en anderen we<strong>in</strong> bestellen<br />

[Satz ist nicht <strong>in</strong> Treebank enthalten, daher falsche Verarbeitung]<br />

S: ich habe deidesheimer klostergarten und wallertheimer vogelsang kab<strong>in</strong>ett gefunden, welches<br />

möchten sie bestellen?<br />

A: ke<strong>in</strong>en der we<strong>in</strong>e moechte ich bestellen<br />

S: ich habe 20 <strong>in</strong> frage kommende we<strong>in</strong>e gefunden. um ihre auswahl e<strong>in</strong>zuschränken, spezifizieren<br />

sie ihre bestellung bitte weiter, sie können dafür e<strong>in</strong>en produktnamen, e<strong>in</strong>e<br />

preisgrenze, e<strong>in</strong>e traubensorte, geschmacksrichtung, farbe, e<strong>in</strong> anbaugebiet oder e<strong>in</strong><br />

herkunftsland nennen.<br />

A: ich haette gerne e<strong>in</strong>en we<strong>in</strong> aus frankreich<br />

S: ich habe beaujolais und chateauneuf du pape gefunden, welches möchten sie bestellen?<br />

[frz. We<strong>in</strong>e wegen deutscher TTS sehr schlecht verständlich]<br />

A: bitte wiederholen sie<br />

S: ich habe beaujolais und chateauneuf du pape gefunden, welches möchten sie bestellen?<br />

A: den beaujolais<br />

[akustische Bewertung von ASR zu schlecht]<br />

S: entschuldigung ich habe sie nicht verstanden.


86 ANHANG B. SHOPTEL<br />

A: hilfe<br />

[als ’11’ verstanden]<br />

S: tut mir leid, ich kann sie nicht verstehen, bitte formulieren sie ihre anfrage um.<br />

A: bitte geben sie mir ihre hilfedatei<br />

[Satz nicht von Classer verarbeitet]<br />

S: was möchten sie gerne tun?<br />

A: ich moechte gerne mit der hilfe sprechen<br />

[Satz falsch geclasst]<br />

S: was möchten sie gerne tun?<br />

A: e<strong>in</strong>en franzoesischen rotwe<strong>in</strong> bestellen<br />

S: ich habe 6 <strong>in</strong> frage kommende we<strong>in</strong>e gefunden. um ihre auswahl e<strong>in</strong>zuschränken, spezifizieren<br />

sie ihre bestellung bitte weiter, sie können dafür e<strong>in</strong>en produktnamen, e<strong>in</strong>e<br />

preisgrenze, e<strong>in</strong>e traubensorte, geschmacksrichtung, farbe, e<strong>in</strong> anbaugebiet oder e<strong>in</strong><br />

herkunftsland nennen.<br />

A: lesen sie mir bitte alles vor<br />

[Satz nicht <strong>in</strong> Treebank enthalten, wird als ’NULL’ verarbeitet]<br />

S: ich habe 6 <strong>in</strong> frage kommende we<strong>in</strong>e gefunden. um ihre auswahl e<strong>in</strong>zuschränken, spezifizieren<br />

sie ihre bestellung bitte weiter, sie können dafür e<strong>in</strong>en produktnamen, e<strong>in</strong>e<br />

preisgrenze, e<strong>in</strong>e traubensorte, geschmacksrichtung, farbe, e<strong>in</strong> anbaugebiet oder e<strong>in</strong><br />

herkunftsland nennen.<br />

A: ich moechte nichts mehr bestellen vielen dank<br />

S: vielen dank, daß sie shoptel benutzt haben. bis zum nächsten mal! auf wiederhören. bitte<br />

legen sie jetzt auf! bitte legen sie jetzt auf, das telefonat ist beendet.<br />

A: [auflegen]


B.2. VERGEBENE TAGS UND LABELS IN SHOPTEL 87<br />

B.2 Vergebene Tags und Labels <strong>in</strong> SHOPTEL<br />

Dieser Abschnitt wurde als IBM Vertraulich klassifiziert<br />

und darf daher nicht veröffentlicht werden.<br />

B.3 Performanzevaluation<br />

Dieser Abschnitt wurde als IBM Vertraulich klassifiziert<br />

und darf daher nicht veröffentlicht werden.


88 ANHANG B. SHOPTEL<br />

B.4 Fragebogen zur Evaluation von SHOPTEL<br />

Abbildung B.1: Fragebogen zur Evaluation von ShopTel (erste Seite)


B.4. FRAGEBOGEN ZUR EVALUATION VON SHOPTEL 89<br />

Abbildung B.2: Fragebogen zur Evaluation von ShopTel (zweite Seite)


90 ANHANG B. SHOPTEL<br />

B.5 Auswertung des Fragebogens<br />

Dieser Abschnitt wurde als IBM Vertraulich klassifiziert<br />

und darf daher nicht veröffentlicht werden.


Literaturverzeichnis<br />

[Albesano et al. 1996] Albesano, A.; Baggia, P.; Danieli, M.; Gemello, R.; Gerb<strong>in</strong>o, E. und<br />

Rullent, C. Dialogos: A Robust System for Human-Mach<strong>in</strong>e Spoken Dialogue on the<br />

Telephone. cmp-lg/9612004, 1996.<br />

[Alexandersson et al. 1995] Alexandersson, J.; Maier, E. und Reith<strong>in</strong>ger, N. A Robust and<br />

Efficient Three-Layered Dialogue Component for a Speech-To-Speech Translation System.<br />

In: Proceed<strong>in</strong>gs of the Conference of the European chapter of the Association for Computational<br />

L<strong>in</strong>guistics (EACL), Dubl<strong>in</strong>, Irland, 1995, S. 188-193.<br />

[Alexandersson et al. 1997] Alexandersson, J.; Buschbeck-Wolf, B.; Fuj<strong>in</strong>ami, T.; Maier, E.;<br />

Reiht<strong>in</strong>ger, N.; Schmitz, B. und Siegel, M. Dialogue Acts <strong>in</strong> Verbmobil-2. Verbmobil<br />

Report 204, DFKI GmbH, Saarbrücken, 1997.<br />

[Alexandersson et al. 1998] Alexandersson, J.; Buschbeck-Wolf, B.; Fuj<strong>in</strong>ami, T.; Kipp, M.;<br />

Koch, S.; Maier, E.; Reith<strong>in</strong>ger, N.; Schmitz, B. und Siegel, M. Dialogue Acts <strong>in</strong> Verbmobil-<br />

2 – Second Edition. Verbmobil Report 226, DFKI GmbH, Saarbrücken, 1998.<br />

[Allen et al. 1982] Allen, J. F.; Frische, A. M. und Litman, D. J. ARGOT: The Rochester<br />

Dialog System. In: Proceed<strong>in</strong>gs of the Annual Meet<strong>in</strong>g of the American Association of<br />

Artificial Intelligence (AAAI), Pittsburgh, USA, 1982, S. 66-70.<br />

[Allen et al. 1994] Allen, J. F.; Schubert, L. K.; Ferguson, G.; Heeman, P.; Hwang, C. H.;<br />

Kato, T.; Light, M.; Mart<strong>in</strong>, N. G.; Miller, B. W.; Pocsio, M. und Traum, D. R. The<br />

TRAINS Project: A Case Study <strong>in</strong> Build<strong>in</strong>g a Conversational Plann<strong>in</strong>g Agent. Tra<strong>in</strong>s<br />

Technical Note 94-3, Department of Computer Science, University of Rochester, Rochester,<br />

USA, 1994.<br />

[Allen 1995] Allen, J. F. Natural Language Understand<strong>in</strong>g. Benjam<strong>in</strong> Cumm<strong>in</strong>gs, Redwood<br />

City, USA, 1995.<br />

[Allen et al. 1996] Allen, J. F.; Miller, B. W.; R<strong>in</strong>gger, E. K. und Sikorski, T. Robust Understand<strong>in</strong>g<br />

<strong>in</strong> a Dialogue System. In: Proceed<strong>in</strong>gs of the Annual Meet<strong>in</strong>g of the Association<br />

for Computational L<strong>in</strong>guistics (ACL), Santa Cruz, USA, 1996.<br />

[Amtrup et al. 1996] Amtrup, J. W.; He<strong>in</strong>e, H. und Jost, U. What’s <strong>in</strong> a Word Graph<br />

– Evaluation and Enhancement of Word Lattices. Verbmobil Report 186, Fachbereich<br />

Informatik, Universität Hamburg, Hamburg, 1996.<br />

[Araki und Doshita 1997] Araki, M. und Doshita, S. Automatic Evaluation Environment for<br />

Spoken Dialogue Systems. In: E. Maier, M. Mast und S. LuperFoy (Hrsg.): Dialogue Process<strong>in</strong>g<br />

<strong>in</strong> Spoken Language Systems, Bd. 1236 der Lecture Notes <strong>in</strong> Artificial Intelligence,<br />

Spr<strong>in</strong>ger Verlag, Berl<strong>in</strong>, 1997, S. 183-194.


92 LITERATURVERZEICHNIS<br />

[Aust und Schröer 1998a] Aust, H. und Schröer, O. Application Development with the Philips<br />

Dialog System. In: Proceed<strong>in</strong>gs of the International Symposium on Spoken Dialogue,<br />

Sydney, Australien, 1998, S. 27-34.<br />

[Aust und Schröer 1998b] Aust, H. und Schröer, O. An Overview of the Philips Dialog<br />

System. Technical Report, Philips Speech Process<strong>in</strong>g, Aachen, 1998.<br />

[Averbuch et al. 1986] Averbuch, A.; Bahl, L.; Bakis, R.; Brown, P.; Cole, A.; Daggett, G.;<br />

Das, S.; Davies, K.; DeGennaro, S.; de Souza, P.; Epste<strong>in</strong>, E.; Fraleigh, D.; Jel<strong>in</strong>ek, F.;<br />

Katz, S.; Lewis, B.; Mercer, R.; Nadas, A.; Nahamoo, D.; Picheny, M.; Shichman, G.<br />

und Sp<strong>in</strong>elli, P. An IBM PC based Lage-Vocabulary Isolated-Utterance Speech Recognizer.<br />

Research Report RC 11663 (52371), IBM Thomas J. Watson Research Center, Yorktown<br />

Heights, USA, 1986.<br />

[Bahl et al. 1993] Bahl, L.; de Souza, P.; Gopalakrishnan, P.; Nahamoo, D. und Picheny,<br />

M. Context-Dependent Vector Quantization for Cont<strong>in</strong>uous Speech Recognition. In: Proceed<strong>in</strong>gs<br />

of the International Conference on Accoustics, Speech, and Signal Process<strong>in</strong>g<br />

(ICASSP), M<strong>in</strong>neapolis, USA, 1993.<br />

[Boros et al. 1997] Boros, M.; Aretoulaki, M.; Gallwitz, F.; Nöth, E. und Niemann, H. Semantic<br />

Process<strong>in</strong>g of Out-of-Vocabulary Words <strong>in</strong> a Spoken Dialogue System. In: Proceed<strong>in</strong>gs<br />

of the European Conference on Speech Communication and Technology (EURO-<br />

SPEECH), Rhodos, Griechenland, 1997.<br />

[Bunt 1981] Bunt, H. C. Rules for the Interpretation, Evaluation and Generation of Dialogue<br />

Acts. In: IPO Annual Progress Report 16, Tilburg University, Tilburg, Niederlande, 1981,<br />

S. 99-107.<br />

[Bunt 1989] Bunt, H. C. Information Dialogues as Communicative Action <strong>in</strong> Relation to<br />

Partner Modell<strong>in</strong>g and Information Process<strong>in</strong>g. In: M. M. Taylor, F. Néel und D. G.<br />

Bouwhuis (Hrsg.): The Structure of Multimodal Dialogue, North-Holland, Amsterdam,<br />

Niederlande, 1989, S. 47-73.<br />

[Busemann 1995] Busemann, S. (Hrsg.). Sprachverarbeitung. In: G. Görz (Hrsg.):<br />

E<strong>in</strong>führung <strong>in</strong> die Künstliche Intelligenz, Addison-Wesley, Bonn, 1995, S. 361-557.<br />

[Cameron 2000] Cameron, H. Speech at the Interface. In: Proceed<strong>in</strong>gs of the International<br />

Workshop ‘Voice Operated Telecom Services’, Gent, Belgien, 2000, S. 1-7.<br />

[Constant<strong>in</strong>ides et al. 1998] Constant<strong>in</strong>ides, P. C.; Hansma, S.; Tchou, C. und Rudnicky,<br />

A. I. A Schema based Approach to Dialog Control. In: Proceed<strong>in</strong>gs of the International<br />

Conference on Spoken Language Process<strong>in</strong>g (ICSLP), Philadelphia, USA, 1998.<br />

[Crestani 1998] Crestani, F. Vocal Access to a Newspaper Archive: Design Issues and Prelim<strong>in</strong>ary<br />

Investigation. cs.DL/9812009, 1998.<br />

[Dallmer 1993] Dallmer, H. Direct Market<strong>in</strong>g. In: Gabler-Wirtschafts-Lexikon, Gabler Verlag,<br />

Wiesbaden, 1993.<br />

[Davies et al. 1999] Davies, K.; Donovan, R.; Epste<strong>in</strong>, M.; Franz, M.; Ittycheriah, A.; Jan,<br />

E. E.; LeRoux, J. M.; Lubensky, D.; Neti, C.; Padmanabhan, M.; Pap<strong>in</strong>eni, K.; Roukos, S.;<br />

Sakrajda, A.; Sorensen, J.; Tydlitat, B. und Ward, T. The IBM Conversational Telephony<br />

System for F<strong>in</strong>ancial Applications. In: Proceed<strong>in</strong>gs of the European Conference on Speech<br />

Communciation and Technology (EUROSPEECH), Budapest, Ungarn, 1999.


LITERATURVERZEICHNIS 93<br />

[Denecke und Waibel 1997] Denecke, M. und Waibel, A. Dialogue Strategies Guid<strong>in</strong>g Users<br />

to their Communicative Goals. In: Proceed<strong>in</strong>gs of the European Conference on Speech<br />

Communication and Technology (EUROSPEECH), Rhodos, Griechenland, 1997.<br />

[Drosdowski 1990] Drosdowski, G. (Hrsg.). Duden – Fremdwörterbuch. Dudenverlag, Mannheim,<br />

1990.<br />

[Eckert et al. 1995] Eckert, W.; Nöth, E.; Niemann, H. und Schukat-Talamazz<strong>in</strong>i, E.-G. Real<br />

Users behave Weird – Experience made collect<strong>in</strong>g large Human-Mach<strong>in</strong>e-Dialog Corpora.<br />

In: Proceed<strong>in</strong>gs of the Tutorial and Research Workshop on Spoken Dialogue Systems,<br />

Vigsø, Dänemark, 1995, S. 193-196.<br />

[Ehrlich et al. 1992] Ehrlich, U.; Mast, M. und Niemann, H. Bedeutungsanalyse und Interpretation<br />

von Äußerungen relativ zu e<strong>in</strong>em Dialogmodell im Spracherkennungs- und Dialogsystem<br />

EVAR. In: H. Mangold (Hrsg.): Sprachliche Mensch-Masch<strong>in</strong>e-Kommunikation,<br />

Oldenbourg Verlag, München, 1992, S. 117-130.<br />

[Fischer 1999] Fischer, K. Annotat<strong>in</strong>g Emotional Language Data. Verbmobil Report 236,<br />

Fachbereich Informatik, Universität Hamburg, Hamburg, 1999.<br />

[Foth et al. 2000a] Foth, K.; Schröder, I. und Menzel, W. A Transformation-based Pars<strong>in</strong>g<br />

Technique With Anytime Properties. In: Proceed<strong>in</strong>gs of the International Workshop on<br />

Pars<strong>in</strong>g Technologies, Trient, Italien, 2000, S. 89-100.<br />

[Foth et al. 2000b] Foth, K.; Menzel, W.; Pop, H. F. und Schröder, I. An Experiment on Incremental<br />

Analysis Us<strong>in</strong>g Robust Pars<strong>in</strong>g Techniques. In: Proceed<strong>in</strong>gs of the International<br />

Conference on Computational L<strong>in</strong>guistics (COLING), Saarbrücken, 2000, S. 1026-1030.<br />

[Gallwitz et al. 1998] Gallwitz, F.; Aretoulaki, M.; Boros, M.; Haas, J.; Harbeck, S.; Huber,<br />

R.; Niemann, H. und Nöth, E. The Erlangen Spoken Dialogue System EVAR: A State-ofthe-Art<br />

Information Retrieval System. In: Proceed<strong>in</strong>gs of the International Symposium<br />

on Spoken Dialogue, Sydney, Australien, 1998, S. 19-26.<br />

[Gates et al. 1997] Gates, D.; Lavie, A.; Lev<strong>in</strong>, L.; Waibel, A.; Gavaldá, M.; Mayfield, L.;<br />

Woszcyna, M. und Zhan, P. End-to-End Evaluation <strong>in</strong> JANUS: A Speech-to-Speech Translation<br />

System. In: E. Maier, M. Mast und S. LuperFoy (Hrsg.): Dialogue Process<strong>in</strong>g <strong>in</strong><br />

Spoken Language Systems, Bd. 1236 der Lecture Notes <strong>in</strong> Artificial Intelligence, Spr<strong>in</strong>ger<br />

Verlag, Berl<strong>in</strong>, 1997, S. 195-206.<br />

[Glass und Hazen 1998] Glass, J. und Hazen, T. J. Telephone-Based Conversational Speech<br />

Recognition <strong>in</strong> the Jupiter Doma<strong>in</strong>. In: Proceed<strong>in</strong>gs of the International Conference on<br />

Spoken Language Process<strong>in</strong>g (ICSLP), Sydney, Australien, 1998.<br />

[Glass et al. 1999] Glass, J. R.; Hazen, T. J. und Hether<strong>in</strong>gton, I. L. Real-Time Telephone-<br />

Based Speech Recognition <strong>in</strong> the JUPITER Doma<strong>in</strong>. In: Proceed<strong>in</strong>gs of the International<br />

Conference on Accoustics, Speech, and Signal Process<strong>in</strong>g (ICASSP), Phoenix, USA, 1999.<br />

[Grävemeyer 1998] Grävemeyer, A. Spracherkennung und Bildtelefon an jeder Straßenecke.<br />

Computer Zeitung, Nr. 18, 1998, S. 18.<br />

[Grävemeyer 1999a] Grävemeyer, A. Telefonauskunft hört auf jeden Anrufer. Computer<br />

Zeitung, Nr. 15, 1999, S. 20.<br />

[Grävemeyer 1999b] Grävemeyer, A. Software hört Ärzten und Ratsuchenden zu. Computer<br />

Zeitung, Nr. 43, 1999, S. 14.


94 LITERATURVERZEICHNIS<br />

[Günther et al. 2000] Günther, C.; Hamerich, S. W.; Kunzmann, S. und Roß, T. ISA: A<br />

Traffic Jam Information System based on the IBM ViaVoice Telephony Toolkit. In: Proceed<strong>in</strong>gs<br />

of the International Workshop ‘Voice Operated Telecom Services’, Gent, Belgien,<br />

2000, S. 63-66.<br />

[von Hahn und Amtrup 1996] von Hahn, W. und Amtrup, J. W. Speech-to-Speech Translation:<br />

The Project Verbmobil. In: Proceed<strong>in</strong>gs of the International Workshop ‘Speech and<br />

Computer’, St. Petersburg, Rußland, 1996.<br />

[Hamerich 1999] Hamerich, S. W. Menübasierte Generierung natürlicher Sprache. Studienarbeit,<br />

Fachbereich Informatik, Universität Hamburg, Hamburg, 1999.<br />

[Heeman und Allen 1994] Heeman, P. und Allen, J. F. Detect<strong>in</strong>g and Correct<strong>in</strong>g Speech<br />

Repairs. In: Proceed<strong>in</strong>gs of the Annual Meet<strong>in</strong>g of the Association for Computational<br />

L<strong>in</strong>guistics (ACL), Las Cruces, USA, 1994, S. 295-302.<br />

[IBM 1999a] IBM Corp. (Hrsg.). IBM ViaVoice Telephony Tools – Programmer’s Reference.<br />

Yorktown Heights, USA, 1999.<br />

[IBM 1999b] IBM Corp. (Hrsg.). IBM ViaVoice Telephony Natural Language Tools – Developer’s<br />

Guide and Reference. Yorktown Heights, USA, 1999.<br />

[Jekat-Rommel 1994] Jekat-Rommel, S. J. Zur Struktur gedolmetschter VM-Dialoge. Verbmobil<br />

Memo 11, Fachbereich Informatik, Universität Hamburg, Hamburg, 1994.<br />

[Jekat et al. 1995] Jekat, S. J.; Kle<strong>in</strong>, A.; Maier, E.; Maleck, I.; Mast, M. und Quantz, J. J.<br />

Dialogue Acts <strong>in</strong> Verbmobil. Verbmobil Report 65, Fachbereich Informatik, Universität<br />

Hamburg, Hamburg, 1995.<br />

[Jekat et al. 1997] Jekat, S. J.; Tappe, H.; Gerlach, H. und Schöllhammer, T. Dialogue Interpret<strong>in</strong>g:<br />

Data and Analysis. Verbmobil Report 189, Fachbereich Informatik, Universität<br />

Hamburg, Hamburg, 1997.<br />

[Jekat und von Hahn 2000] Jekat, S. J. und von Hahn, W. Multil<strong>in</strong>gual Verbmobil-Dialogs:<br />

Experiments, Data Collection and Data Analysis. In: W. Wahlster (Hrsg.): Verbmobil:<br />

Foundations of Speech-to-Speech Translation, Spr<strong>in</strong>ger Verlag, Berl<strong>in</strong>, 2000, S. 577-585.<br />

[Jel<strong>in</strong>ek et al. 1994] Jel<strong>in</strong>ek, F.; Lafferty, J.; Magerman, D. M.; Mercer, R.; Ratnaparkhi, A.<br />

und Roukos, S. Decision Tree Pars<strong>in</strong>g us<strong>in</strong>g a Hidden Derivation Model. In: Proceed<strong>in</strong>gs<br />

of the Human Language Technology Workshop, Pr<strong>in</strong>ceton, USA, 1994, S. 272-277.<br />

[Kamm et al. 1999] Kamm, C.; Walker, M. A. und Litman, D. Evaluat<strong>in</strong>g Spoken Language<br />

Systems. In: Proceed<strong>in</strong>gs of the Conference of the American Voice Input/Output Society<br />

(AVIOS), San Jose, USA, 1999.<br />

[Karger und Wahlster 2000] Karger, R. und Wahlster, W. Facts and Figures about the Verbmobil<br />

Project. In: W. Wahlster (Hrsg.): Verbmobil: Foundations of Speech-to-Speech Translation,<br />

Spr<strong>in</strong>ger Verlag, Berl<strong>in</strong>, 2000, S. 22-30.<br />

[Komatani und Kawahara 2000] Komatani, K. und Kawahara, T. Flexible Mixed-Initiative<br />

Dialogue Management us<strong>in</strong>g Concept-Level Confidence Measures of Speech Recognizer<br />

Output. In: Proceed<strong>in</strong>gs of the International Conference on Computational L<strong>in</strong>guistics<br />

(COLING), Saarbrücken, 2000, S. 467-473.


LITERATURVERZEICHNIS 95<br />

[Krause 1997] Krause, D. Us<strong>in</strong>g an Interpretation System – Some Observations <strong>in</strong> Hidden<br />

Operator Simulations of Verbmobil. In: E. Maier, M. Mast und S. LuperFoy (Hrsg.):<br />

Dialogue Process<strong>in</strong>g <strong>in</strong> Spoken Language Systems, Bd. 1236 der Lecture Notes <strong>in</strong> Artificial<br />

Intelligence, Spr<strong>in</strong>ger Verlag, Berl<strong>in</strong>, 1997, S. 41-54.<br />

[Lavie et al. 1997] Lavie, A.; Gates, D.; Coccaro, N. und Lev<strong>in</strong>, L. Input Segmentation of<br />

Spontaneous Speech <strong>in</strong> JANUS: A Speech-to-Speech Translation System. In: E. Maier, M.<br />

Mast und S. LuperFoy (Hrsg.): Dialogue Process<strong>in</strong>g <strong>in</strong> Spoken Language Systems, Bd. 1236<br />

der Lecture Notes <strong>in</strong> Artificial Intelligence, Spr<strong>in</strong>ger Verlag, Berl<strong>in</strong>, 1997, S. 86-99.<br />

[Lewandowski 1979] Lewandowski, T. L<strong>in</strong>guistisches Wörterbuch. Nr. 200 <strong>in</strong> Uni-<br />

Taschenbücher (UTB). Quelle und Meyer, Heidelberg, 1979.<br />

[L<strong>in</strong>ke et al. 1994] L<strong>in</strong>ke, A.; Nussbaumer, M. und Portmann, P. R. Studienbuch L<strong>in</strong>guistik.<br />

Nr. 121 <strong>in</strong> Reihe Germanistische L<strong>in</strong>guistik. Max Niemeyer Verlag, Tüb<strong>in</strong>gen, 1994.<br />

[Litman et al. 1998] Litman, D. J.; Pan, S. und Walker, M. A. Evaluat<strong>in</strong>g Response Strategies<br />

<strong>in</strong> a Web-Based Spoken Dialogue Agent. In: Proceed<strong>in</strong>gs of the Annual Meet<strong>in</strong>g of<br />

the Association for Computational L<strong>in</strong>guistics (ACL) and the International Conference<br />

on Computational L<strong>in</strong>guistics (COLING), Montréal, Kanada, 1998, S. 780-786.<br />

[Litman und Shimei 1999] Litman, D. J. und Shimei, P. Empirically Evaluat<strong>in</strong>g an Adaptable<br />

Spoken Dialogue System. cs.CL/9903008, 1999.<br />

[Litman et al. 2000] Litman, D. J.; Kearns, M. S.; S<strong>in</strong>gh, S. und Walker, M. A. Automatic<br />

Optimization of Dialogue Management. In: Proceed<strong>in</strong>gs of the International Conference<br />

on Computational L<strong>in</strong>guistics (COLING), Saarbrücken, 2000, S. 502-508.<br />

[Magerman 1994] Magerman, D. M. Pars<strong>in</strong>g as Statistical Pattern Recognition. Research<br />

Report RC 19443 (84518), IBM T. J. Watson Research Center, Yorktown Heights, USA,<br />

1994.<br />

[Magerman 1995] Magerman, D. M. Statistical Decision-Tree Models for Pars<strong>in</strong>g. cmplg/9504030,<br />

1995.<br />

[Mast 1993] Mast, M. E<strong>in</strong> Dialogmodul für e<strong>in</strong> Spracherkennungs- und Dialogsystem. Dissertation,<br />

Lehrstuhl für Mustererkennung, Universität Erlangen-Nürnberg, Erlangen, 1993.<br />

[Mast et al. 1996] Mast, M.; Kompe, R.; Harbeck, S.; Kießl<strong>in</strong>g, A.; Niemann, H.; Nöth, E.;<br />

Schukat-Talamazz<strong>in</strong>i, E. G. und Warnke, V. Dialog Act Classification with the Help of<br />

Prosody. In: Proceed<strong>in</strong>gs of the International Conference on Spoken Language Process<strong>in</strong>g<br />

(ICSLP), Philadelphia, USA, 1996.<br />

[Mast et al. 2000] Mast, M.; Günther, C.; Kunzmann, S. und Roß, T. Multimodal Output<br />

for a Conversational Telephony System. In: Proceed<strong>in</strong>gs of the International Conference<br />

on Multimedia and Expo, New York, USA, 2000.<br />

[McGlashan 1994] McGlashan, S. The Sundial Spoken Dialogue Systems. Auf:<br />

http://www.sics.se/ scott/sundial/sundialOverview/, 1994.<br />

[Menzel 1998] Menzel, W. Constra<strong>in</strong>t Satisfaction for Robust Pars<strong>in</strong>g of Spoken Language.<br />

Journal of Experimental & Theoretical Artificial Intelligence, Bd. 3, Nr. 4, 1998, S. 77-89.


96 LITERATURVERZEICHNIS<br />

[Menzel und Schröder 1998] Menzel, W. und Schröder, I. Constra<strong>in</strong>t-based Diagnosis for<br />

Intelligent Language Tutor<strong>in</strong>g Systems. Bericht des Fachbereichs Informatik FBI-HH-B<br />

208/98, Fachbereich Informatik, Universität Hamburg, Hamburg, 1998.<br />

[Möller 1999] Möller, J.-U. Dia-MoLE: Modellierung gesprochen-sprachlicher Dialoge unter<br />

Zuhilfenahme e<strong>in</strong>es masch<strong>in</strong>ellen Lernverfahrens. Dissertation, Fachbereich Informatik,<br />

Universität Hamburg, Hamburg, 1999.<br />

[Müller 1994] Müller, W. E<strong>in</strong> kundenorientiertes Konzept zur Messung von<br />

Telefonmarket<strong>in</strong>g-Aktionen im Allf<strong>in</strong>anzbereich, Bd. 29 der Beiträge zu wirtschaftswissenschaftlichen<br />

Problemen der Versicherung. Verlag Versicherungswirtschaft,<br />

Karlsruhe, 1994.<br />

[Ney 1982] Ney, H. Untersuchungen zur automatischen Erkennung kooperativer Sprecher<br />

über Telefon. Dissertation, Fakultät für Masch<strong>in</strong>enbau und Eletktrotechnik, Technische<br />

Universität Braunschweig, Braunschweig, 1982.<br />

[Ney et al. 1992] Ney, H.; Ste<strong>in</strong>biss, V. und Paeseler, A. A Research Prototype System for<br />

Large-Vocabulary Cont<strong>in</strong>uous-Speech Recognition. In: H. Mangold (Hrsg.): Sprachliche<br />

Mensch-Masch<strong>in</strong>e-Kommunikation, Oldenbourg Verlag, München, 1992, S. 79-90.<br />

[Niedermair 1987] Niedermair, G. T. Syntactic Analysis <strong>in</strong> Speech Understand<strong>in</strong>g. In: Proceed<strong>in</strong>gs<br />

of the European Conference on Speech Technology (EUROSPEECH), Ed<strong>in</strong>burgh,<br />

Großbritanien, 1987.<br />

[Niedermair 1992] Niedermair, G. T. Syntax, Semantik und Dialog <strong>in</strong> Spicos II. In:<br />

H. Mangold (Hrsg.): Sprachliche Mensch-Masch<strong>in</strong>e-Kommunikation, Oldenbourg Verlag,<br />

München, 1992, S. 91-102.<br />

[Pap<strong>in</strong>eni et al. 1999] Pap<strong>in</strong>eni, K. A.; Roukos, S. und Ward, R. T. Free-Flow Dialog Management<br />

us<strong>in</strong>g Forms. In: Proceed<strong>in</strong>gs of the European Conference on Speech Communication<br />

and Technology (EUROSPEECH), Budapest, Ungarn, 1999.<br />

[Peckham 1993] Peckham, J. A new Generation of Spoken Dialogue Systems: Results and<br />

Lessons from the SUNDIAL Project. In: Proceed<strong>in</strong>gs of the European Conference on<br />

Speech Communication and Technology (EUROSPEECH), Berl<strong>in</strong>, 1993, S. 33-40.<br />

[Plog 1996] Plog, K. Telefonmarket<strong>in</strong>g – Ziele und Methoden aus l<strong>in</strong>guistischer Perspektive.<br />

Westdeutscher Verlag, Opladen, 1996.<br />

[Polifroni et al. 1998] Polifroni, J.; Seneff, S.; Glass, J. und Hazen, T. J. Evaluation Methodology<br />

for a Telephone-Based Conversational System. In: Proceed<strong>in</strong>gs of the International<br />

Conference on Language Resources and Evaluation, Granada, Spanien, 1998, S. 42-50.<br />

[Ratnaparkhi et al. 1996] Ratnaparkhi, A.; Roukos, S. und Ward, R. T. A Maximum Entropy<br />

Model for Pars<strong>in</strong>g. In: Proceed<strong>in</strong>gs of the International Conference on Spoken Language<br />

Process<strong>in</strong>g (ICSLP), Philadelphia, USA, 1996.<br />

[Rudnicky et al. 1999] Rudnicky, A. I.; Thayer, E.; Constant<strong>in</strong>ides, P.; Tchou, C.; Shern, R.;<br />

Lenzo, K.; Xu, W. und Oh, A. Creat<strong>in</strong>g Natural Dialogs <strong>in</strong> the Carnegie Mellon Communicator<br />

System. In: Proceed<strong>in</strong>gs of the European Conference on Speech Communication<br />

and Technology (EUROSPEECH), Budapest, Ungarn, 1999, S. 1531-1534.


LITERATURVERZEICHNIS 97<br />

[Schmitz 1997] Schmitz, B. Collaboration <strong>in</strong> Automatic Dialogue Interpret<strong>in</strong>g. In: Proceed<strong>in</strong>gs<br />

of the International Jo<strong>in</strong>t Conference on Artificial Intelligence (IJCAI), Nagoya,<br />

Japan, 1997, S. 79-88.<br />

[Schneider 1993] Schneider, D. J. G. Market<strong>in</strong>g. In: Gabler-Wirtschafts-Lexikon, Gabler<br />

Verlag, Wiesbaden, 1993.<br />

[Seneff et al. 1998] Seneff, S.; Hurley, E.; Lau, R.; Pao, C.; Schmid, P. und Zue, V. Galaxy-II:<br />

A reference Architecture for Conversational System Development. In: Proceed<strong>in</strong>gs of the<br />

International Conference on Spoken Language Process<strong>in</strong>g (ICSLP), Syndey, Australien,<br />

1998.<br />

[Sikorski und Allen 1997] Sikorski, T. und Allen, J. F. A Task-Based Evaluation of the<br />

TRAINS-95 Dialogue System. In: E. Maier, M. Mast und S. LuperFoy (Hrsg.): Dialogue<br />

Process<strong>in</strong>g <strong>in</strong> Spoken Language Systems, Bd. 1236 der Lecture Notes <strong>in</strong> Artificial Intelligence,<br />

Spr<strong>in</strong>ger Verlag, Berl<strong>in</strong>, 1997, S. 207-220.<br />

[Smith und Hipp 1994] Smith, R. W. und Hipp, D. R. Spoken Natural Language Dialog<br />

Systems: A Practical Approach. Oxford University Press, New York, USA, 1994.<br />

[Ste<strong>in</strong>biss 2000] Ste<strong>in</strong>biss, V. Speech Dialogue Systems <strong>in</strong> the Telecom Network. In: Proceed<strong>in</strong>gs<br />

of the International Workshop ‘Voice Operated Telecom Services’, Gent, Belgien,<br />

2000, S. 25-28.<br />

[Tessiore und von Hahn 2000] Tessiore, L. und von Hahn, W. Functional Validation of a<br />

Mach<strong>in</strong>e Interpretation System: Verbmobil. In: W. Wahlster (Hrsg.): Verbmobil: Foundations<br />

of Speech-to-Speech Translation, Spr<strong>in</strong>ger Verlag, Berl<strong>in</strong>, 2000, S. 613-637.<br />

[Vary et al. 1998] Vary, P.; Heute, U. und Hess, W. Digitale Sprachsignalverarbeitung. Teubner<br />

Verlag, Stuttgart, 1998.<br />

[Vuer<strong>in</strong>ckx und Vanpoucke 2000] Vuer<strong>in</strong>ckx, R. und Vanpoucke, F. Evaluation of the Robustness<br />

of ASR Systems on Cellular Phone Speech. In: Proceed<strong>in</strong>gs of the International<br />

Workshop ‘Voice Operated Telecom Services’, Gent, Belgien, 2000, S. 91-94.<br />

[Wahlster 1993a] Wahlster, W. Verbmobil – Translation of Face-To-Face Dialogues. In:<br />

Proceed<strong>in</strong>gs of the Mach<strong>in</strong>e Translation Summit, Kobe, Japan, 1993, S. 127-135.<br />

[Wahlster 1993b] Wahlster, W. Verbmobil: Translation of Face-To-Face Dialogs. In: Proceed<strong>in</strong>gs<br />

of the European Conference on Speech Communication and Technology (EURO-<br />

SPEECH), Berl<strong>in</strong>, 1993, S. 29-38.<br />

[Wahlster 1997] Wahlster, W. Verbmobil – Erkennung, Analyse, Transfer, Generierung und<br />

Synthese von Spontansprache. Verbmobil Report 198, DFKI GmbH, Saarbrücken, 1997.<br />

[Wahlster 2000] Wahlster, W. Mobile Speech-to-Speech Translation of Spontaneous Dialogs:<br />

An Overview of the F<strong>in</strong>al Verbmobil System. In: W. Wahlster (Hrsg.): Verbmobil: Foundations<br />

of Speech-to-Speech Translation, Spr<strong>in</strong>ger Verlag, Berl<strong>in</strong>, 2000, S. 3-21.<br />

[Waibel 1996] Waibel, A. Interactive Translation of conversational Speech. Computer,<br />

Bd. 29, Nr. 7, 1996.<br />

[Walker et al. 1997] Walker, M. A.; H<strong>in</strong>dle, D.; Fromer, J.; Fabrizzio, G. D. und Mestel,<br />

C. Evaluat<strong>in</strong>g Compet<strong>in</strong>g Agent Strategies for a Voice Email Agent. In: Proceed<strong>in</strong>gs of<br />

the European Conference on Speech Communication and Technology (EUROSPEECH),<br />

Rhodos, Griechenland, 1997.


98 LITERATURVERZEICHNIS<br />

[Walker et al. 1998a] Walker, M. A.; Fromer, J. und Narayanan, S. Learn<strong>in</strong>g Optimal Dialogue<br />

Strategies: A Case Study of a Spoken Dialogue Agent for Email. In: Proceed<strong>in</strong>gs<br />

of the Annual Meet<strong>in</strong>g of the Association for Computational L<strong>in</strong>guistics (ACL) and the<br />

International Conference on Computational L<strong>in</strong>guistics (COLING), Montréal, Kanada,<br />

1998.<br />

[Walker et al. 1998b] Walker, M. A.; Litman, D. J.; Kamm, C. A. und Abella, A. Evaluat<strong>in</strong>g<br />

Spoken Dialogue Agents with PARADISE: Two Case Studies. Computer Speech and<br />

Language, Bd. 12, Nr. 3, 1998.<br />

[Warnke et al. 1997] Warnke, V.; Kompe, R.; Nieman, H. und Nöth, E. Integrated Dialog Act<br />

Segmentation and Classification usig Prosodic Features and Language Models. Verbmobil<br />

Report 218, Lehrstuhl für Mustererkennung, Universität Erlangen-Nürnberg, Erlangen,<br />

1997.<br />

[Weber 1984] Weber, M. R. Telefonmarket<strong>in</strong>g – Das Telefon im Dienste des Unternehmens<br />

und se<strong>in</strong>er Kunden. Verlag Moderne Industrie, Landsberg am Lech, 1984.<br />

[Zue et al. 1997] Zue, V.; Seneff, S.; Glass, J.; Hether<strong>in</strong>gton, L.; Hurley, E.; Meng, H.; Pao,<br />

C.; Polifroni, J.; Schlom<strong>in</strong>g, R. und Schmid, P. From Interface to Content: Transl<strong>in</strong>gual<br />

Access and Delivery of on-l<strong>in</strong>e Information. In: Proceed<strong>in</strong>gs of the European Conference<br />

on Speech Communication and Technology (EUROSPEECH), Rhodos, Griechenland,<br />

1997, S. 2227-2230.


Erklärung nach § 23 IX DPO<br />

Hiermit erkläre ich, daß ich die vorliegende Arbeit selbständig durchgeführt habe und ke<strong>in</strong>e<br />

anderen als die angegebenen Quellen und Hilfsmittel benutzt habe.<br />

Barsbüttel, den 20. Dezember 2000<br />

(Stefan Hamerich)

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!