Modalitätenwahl bei multimodaler Interaktion. - Graduiertenkolleg ...
Modalitätenwahl bei multimodaler Interaktion. - Graduiertenkolleg ...
Modalitätenwahl bei multimodaler Interaktion. - Graduiertenkolleg ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
<strong>Modalitätenwahl</strong> <strong>bei</strong> <strong>multimodaler</strong> <strong>Interaktion</strong>.<br />
Eine experimentelle Untersuchung<br />
zum Einfluss fehlerbehafteter Eingabenerkennung<br />
auf Nutzungsverhalten und subjektive Bewertung.<br />
vorgelegt von<br />
Michael Minge<br />
Matrikelnummer: 310466<br />
Masterar<strong>bei</strong>t zur Erlangung des akademischen Grades<br />
Master of Science (M.Sc.)<br />
im Studiengang<br />
Human Factors<br />
an der Technischen Universität Berlin<br />
Fakultät V für Verkehrs- und Maschinensysteme<br />
Institut für Psychologie und Ar<strong>bei</strong>tswissenschaft<br />
Erstgutachter: Prof. Dr. Manfred Thüring<br />
Zweitgutachter: M.Sc. Stefan Schaffer<br />
Berlin, im August 2012
Erklärung<br />
Hiermit erkläre ich die selbstständige und eigenständige Anfertigung der vorliegenden<br />
Masterar<strong>bei</strong>t im Studiengang Human Factors an Eides statt.<br />
Berlin, den 24.08.2012<br />
…...….………………………………<br />
Michael Minge
Zusammenfassung<br />
______________________________________________________________________________<br />
Zusammenfassung<br />
Bei der Multimodalität handelt es sich um ein aktuell weit verbreitetes und viel<br />
umworbenes Bedienkonzept zur Gestaltung von Mensch-Maschine-<strong>Interaktion</strong>en, das<br />
vor allem darauf abzielt, eine verbesserte Anpassung der Systemsteuerung an die<br />
menschlichen Leistungsvoraussetzungen zu gewährleisten. Um dies zu erreichen, bieten<br />
multimodale Geräte verschiedene Wahrnehmungs- und Aktionsmodalitäten alternativ<br />
oder kombiniert an, damit Nutzer über unterschiedliche Kanäle Informationen von der<br />
Maschine registrieren bzw. Systemeingaben an die Maschine vornehmen können.<br />
Bietet das technische Gerät seinen Anwendern verschiedene Aktionsmodalitäten<br />
an, welche alternativ für eine Systemeingabe verwendet können, so ist der Nutzer gefordert,<br />
sich für eine der zur Verfügung stehenden Alternativen zu entscheiden und somit<br />
eine <strong>Modalitätenwahl</strong> zu treffen. Häufig kann die Wahl der Modalität jederzeit,<br />
auch innerhalb einer Aufgabe, angepasst bzw. revidiert werden, sodass in diesem Zusammenhang<br />
auch von einem Modalitätenwechsel gesprochen wird (vgl. Jöckel, 2010).<br />
Das Ziel der vorliegenden Ar<strong>bei</strong>t besteht darin, im Rahmen einer experimentellen<br />
Untersuchung ausgewählte Faktoren, die die <strong>Modalitätenwahl</strong> beeinflussen können,<br />
systematisch zu variieren und Auswirkungen auf das Nutzungsverhalten und subjektive<br />
Bewertungen zu studieren. Als Untersuchungsgegenstand dient in dieser Masterar<strong>bei</strong>t<br />
ein prototypisches Testprogramm in Form eines Listenauswahlsystems, das auf einem<br />
mobilen Endgerät (Smartphone) präsentiert wird. Dieses System kann sowohl über einen<br />
Touchscreen (manuell) als auch über Spracherkennung (auditiv) gesteuert werden.<br />
Der theoretische Teil dieser Ar<strong>bei</strong>t definiert die grundlegenden Begriffe und<br />
stellt ausgewählte ingenieurspsychologische Konzepte vor, welche aus kognitiver Sicht<br />
beleuchten, wie Menschen Entscheidungen treffen. Aus der Diskussion möglicher Einflussfaktoren<br />
für die <strong>Modalitätenwahl</strong> werden die Untersuchungsfrage und Forschungshypothesen<br />
abgeleitet, welche mit dem empirischen Teil dieser Ar<strong>bei</strong>t beantwortet werden.<br />
Zusammenfassend zeigen die Ergebnisse, dass sowohl die <strong>Modalitätenwahl</strong> als<br />
auch subjektive Bewertungen durch erlebte fehlerhafte Systemeingaben und durch unterschiedlich<br />
erwartete Effizienzvorteile beeinflusst werden.<br />
Schlagworte: Mensch-Technik-<strong>Interaktion</strong>, Multimodalität, <strong>Modalitätenwahl</strong>, Spracherkennung,<br />
Nutzungserleben, Usability.<br />
I
Vorwort<br />
______________________________________________________________________________<br />
Vorwort<br />
Mein Dank gilt allen, die den Entstehungsprozess dieser Ar<strong>bei</strong>t ermöglicht, motiviert<br />
und hinterfragt haben. Dazu gehören allen voran die Mitglieder des <strong>Graduiertenkolleg</strong>s<br />
prometei (Prospektive Mensch-Technik-<strong>Interaktion</strong>) sowie des Fachgebiets Kognitionspsychologie<br />
und Kognitive Ergonomie der Technischen Universität Berlin.<br />
Zudem danke ich der Deutschen Forschungsgemeinschaft (DFG), die die Realisierung<br />
der empirischen Datenerhebung finanziell förderte sowie allen Studienteilnehmerinnen<br />
und Studienteilnehmern für ihre Zuverlässigkeit, ihre Neugier und ihr Engagement <strong>bei</strong><br />
der Durchführung der Untersuchung.<br />
II
Inhaltsverzeichnis<br />
______________________________________________________________________________<br />
Inhaltsverzeichnis<br />
Zusammenfassung ……………………………………………………………..<br />
Vorwort ………………………………...……………………………………….<br />
Inhaltsverzeichnis ……………………………………………………………...<br />
Abbildungsverzeichnis …………………………………………………………<br />
Tabellenverzeichnis ……………………………………………………………<br />
I<br />
II<br />
III<br />
V<br />
VI<br />
1 Einführung …………………………………………………………….. 1<br />
1.1 Ausgangslage und Zielsetzung ………………………………….. 1<br />
1.2 Aufbau der Ar<strong>bei</strong>t ……………………………………………...... 3<br />
2 Theoretischer Hintergrund …………………………………………… 4<br />
2.1 Grundlegende Begriffe …………………………………………. 4<br />
2.1.1 Mensch-Technik-<strong>Interaktion</strong> …..………..…………….. 4<br />
2.1.2 Modalität ……………………………..………............... 6<br />
2.1.2.1 Wahrnehmungsmodalitäten …………………………… 7<br />
2.1.2.2 Aktionsmodalitäten …………………………………… 8<br />
2.1.3 Multimodale Mensch-Maschine-<strong>Interaktion</strong> ………….. 10<br />
2.2 <strong>Modalitätenwahl</strong> ……………………………………………….. 13<br />
2.2.1 Entscheidungen ……………………………………….. 13<br />
2.2.1.1 Merkmale von Entscheidungen ……………………….. 13<br />
2.2.1.2 Klassen der Entscheidungsforschung …………………. 14<br />
2.2.2 Informationsverar<strong>bei</strong>tungsmodell der Entscheidung ….. 15<br />
2.2.3 Modell der multiplen Ressourcen ……………………... 19<br />
2.2.4 Heuristiken …………………………………………….. 21<br />
2.2.4.1 Verankerungsheuristik …………………………………. 21<br />
2.2.4.2 Verfügbarkeitsheuristik ………………………………... 22<br />
2.2.4.3 Repräsentativitätsheuristik …………………………….. 22<br />
2.2.5 Zusammenfassung …………………………………....... 23<br />
2.3 Einflussfaktoren für die <strong>Modalitätenwahl</strong> ……………................. 23<br />
2.3.1 Effektivität …………………………………………….. 23<br />
2.3.2 Effizienz ……………………………………………….. 24<br />
2.3.3 Zeitdruck und mentale Beanspruchung ……………….. 25<br />
III
Inhaltsverzeichnis<br />
______________________________________________________________________________<br />
2.3.4 Hedonische Qualität …………………………………… 26<br />
2.3.5 Präferenzen und statische Benutzerattribute ..……..…... 26<br />
2.3.6 Umgebungsfaktoren ………………………………..…. 27<br />
2.4 Fragestellung und experimentelle Hypothesen …………………. 27<br />
2.4.1 Forschungsfrage ……………………………………….. 27<br />
2.4.2 Experimentelle Hypothesen …………………………… 28<br />
3 Methode …………………………………………………………….……. 30<br />
3.1 Untersuchungsdesign und unabhängige Variablen ……………… 30<br />
3.2 Untersuchungsmaterial …………….……………………………. 30<br />
3.2.1 Manipulation der fehlerbehafteten Erkennung von<br />
Eingaben ………………………………………………. 33<br />
3.2.1.1 Fehlerbehaftete Sprachinteraktion …………………….. 33<br />
3.2.1.2 Fehlerbehaftete Touchinteraktion ……………………... 34<br />
3.3 Versuchsaufbau …………………………………………………. 34<br />
3.4 Abhängige Variablen und Messinstrumente ……………………. 37<br />
3.5 Datenaufbereitung ……………………………………………… 37<br />
3.6 Untersuchungsablauf ………………..………………………….. 38<br />
3.7 Stichprobenbeschreibung ……………………………………….. 40<br />
4 Ergebnisse …………………………………………………………...…. 42<br />
4.1 Prüfung der statistischen Voraussetzungen ……..………………. 42<br />
4.2 Analyse der <strong>Modalitätenwahl</strong> …………………………………… 43<br />
4.2.1 <strong>Modalitätenwahl</strong> auf dem Startbildschirm ..…………….. 44<br />
4.2.2 <strong>Modalitätenwahl</strong> auf den Listenbildschirmen …………. 45<br />
4.3 Analyse der subjektiv erlebten Anstrengung (SEA) ……………. 48<br />
4.4 Wahrgenommene Produktqualitäten (AttrakDiff) ……………… 50<br />
4.5 Zusammenfassung ………………………………………………. 53<br />
5 Diskussion ……………………………………………………………… 55<br />
5.1 Hypothesen zur <strong>Modalitätenwahl</strong> ………………………………. 55<br />
5.2 Hypothesen zur subjektiv erlebten Anstrengung ……………….. 58<br />
5.3 Hypothesen zu wahrgenommenen Produktqualitäten …………... 59<br />
5.4 Kritische Würdigung und Limitation …………………………… 62<br />
6 Ausblick ………………………………………………………………… 64<br />
Literaturverzeichnis …………………………………………………………... 65<br />
Anhang …………………………………………………………………………. 72<br />
IV
Abbildungsverzeichnis<br />
______________________________________________________________________________<br />
Abbildungsverzeichnis<br />
1: Potentiale der Multimodalität …………………………………………... 1<br />
2: Strukturmodell eines Mensch-Maschine-Systems ……………………... 5<br />
3: Technische Komponenten einer multimodalen Schnittstelle …………… 9<br />
4: Informationsverar<strong>bei</strong>tungsmodell der Entscheidung …………………… 16<br />
5: Prozess der Informationsintegration …………………………………… 18<br />
6: Dimensionale Repräsentation der Struktur multipler Ressourcen ……… 20<br />
7: Startbildschirm der Anwendung …………………………………....…… 31<br />
8: Listenbildschirm für die Subaufgabe „Stadt auswählen“ ……….………. 32<br />
9: Startbildschirm <strong>bei</strong> fortschreitendem Bear<strong>bei</strong>tungsstand …………….…. 32<br />
10: Feedback in der Bedingung fehlerbehafteter Eingaben <strong>bei</strong> der<br />
Sprachinteraktion ………………………………………………………. 33<br />
11: Wizard-of-Oz Versuchsaufbau ………………………………………….. 35<br />
12: Systemansicht für den zweiten Versuchsleiter (Wizard) ………………... 36<br />
13: Schematischer Versuchsablauf ……………...…………………………… 40<br />
14: Mittelwerte und Standardabweichungen der Modalität Sprache auf dem<br />
Startbildschirm in Abhängigkeit zu den vier Versuchsbedingungen ……. 44<br />
15: Mittelwertverläufe der <strong>Modalitätenwahl</strong> Sprache auf dem jeweils ersten<br />
Listenbildschirm einer Subaufgabe ……………………………………… 47<br />
16: Mittelwertverläufe der subjektive erlebten Anstrengung (SEA) auf dem<br />
jeweils ersten Listenbildschirm einer Subaufgabe ……………………… 50<br />
17: Mittelwerte und Standardabweichungen der wahrgenommenen<br />
pragmatischen Qualität ………………………………………………….. 51<br />
18: Mittelwerte und Standardabweichungen der wahrgenommenen<br />
hedonischen Qualität (Stimulation) ……………………….…………….. 52<br />
19: Mittelwerte und Standardabweichungen der wahrgenommenen<br />
pragmatischen Qualität (Identifikation) ……………………...………….. 52<br />
20: Mittelwerte und Standardabweichungen der wahrgenommenen<br />
Attraktivität ………………………………..…………………………….. 53<br />
V
Tabellenverzeichnis<br />
______________________________________________________________________________<br />
Tabellenverzeichnis<br />
1: Sinnesmodalitäten des Menschen …………………………………..……. 7<br />
2: Übersicht über die cooperation types nach Martin (1998) …………….... 12<br />
3: Varianzanalyse zur Sprachnutzung auf der Startseite …………………… 44<br />
4: Varianzanalyse zur Sprachnutzung auf dem jeweils ersten Listenbildschirm<br />
einer Subaufgabe ………………………………………………… 45<br />
5: Varianzanalyse zur subjektiv erlebten Anstrengung (SEA) …………….. 48<br />
VI
Einführung<br />
______________________________________________________________________________<br />
1 Einführung<br />
1.1 Ausgangslage und Zielsetzung<br />
Multimodalität ist ein vielversprechendes Konzept, um die Bedienung technischer<br />
Systeme zu erleichtern und Nutzer nicht nur zufriedenzustellen, sondern auch zu<br />
begeistern. Insbesondere im Bereich mobiler Anwendungen werden viele Produkte<br />
heutzutage mit „<strong>multimodaler</strong> Bedienbarkeit“ beworben. So ist zum Beispiel in aktuellen<br />
Smartphones die Spracheingabe als alternative Möglichkeit zur Eingabe von Nutzerintentionen<br />
mittlerweile standardmäßig integriert. Im Bereich stationärer Systeme erfreuen<br />
sich vor allem Blickbewegungsmessungen einem sprunghaft ansteigendem Interesse,<br />
teils als vollständige Alternative zur taktilen Eingabe, um entsprechend körperlich<br />
eingeschränkten Personen die <strong>Interaktion</strong> mit Technik zu ermöglichen (z.B. Bates &<br />
Istance, 2005), teils als Kombination mit der taktilen Eingabe, um die jeweiligen Vorteile<br />
<strong>bei</strong>der <strong>Interaktion</strong>smodalitäten zusammenzuführen (z.B. Aula et al., 2005).<br />
Tatsächlich eröffnet das Konzept Multimodalität <strong>bei</strong> einem erhöhten technischen<br />
Aufwand und einer verlängerten Entwicklungszeit zahlreiche Potenziale, um die<br />
Mensch-Maschine-<strong>Interaktion</strong> effizienter, effektiver, robuster und natürlicher zu gestalten<br />
(vgl. Maybury & Stock, 1999; Oviatt 1999). Abbildung 1 fasst diese Potentiale<br />
überblicksartig zusammen. Sie konnten bereits mehrfach in Studien experimentell<br />
nachgewiesen werden (z.B. Hauptmann, 1989; Vo & Waibel, 1993; Oviatt, 1996; Althoff<br />
et al., 2001).<br />
möglichst schnelle<br />
Aufgabenbear<strong>bei</strong>tung<br />
<strong>bei</strong> geringem Aufwand<br />
Effizienz<br />
Effektivität<br />
Benutzer macht in der jeweiligen<br />
Dialogsituation<br />
das Richtige<br />
Potenziale<br />
Multimodalität<br />
Unempfindlichkeit<br />
gegenüber Bedienund<br />
Erkennungsfehlern<br />
Robustheit<br />
Natürlichkeit<br />
Nachahmung<br />
zwischenmenschlicher<br />
Kommunikationsformen<br />
Abb. 1: Potenziale der Multimodalität (nach Niedermaier, 2003).<br />
1
Einführung<br />
______________________________________________________________________________<br />
Ein weit verbreiteter Irrglaube ist es jedoch, Multimodalität als Selbstzweck zu<br />
betrachten. Die Konzeption <strong>multimodaler</strong> Benutzungsschnittstellen erfordert ein schlüssiges<br />
Gesamtbedienkonzept, sodass in der jeweiligen Dialogsituation die spezifischen<br />
Vorteile einer Modalität dem Nutzer optimal zur Verfügung gestellt werden können<br />
(Niedermeier, 2003). Ebenso sollte nicht die technologische Realisierbarkeit einer Modalität<br />
im Vordergrund stehen, sondern die Berücksichtigung wahrnehmungspsychologischer<br />
und kognitiver Grundlagen des Nutzers (Oviatt, 1999). Alternativ angebotene<br />
Modalitäten zur Eingabe von Nutzerintentionen sind nur dann zweckmäßig, wenn sie<br />
sich im längerfristigen Systemgebrauch durch eine hohe Akzeptanz und eine entsprechende<br />
Nutzung auszeichnen. So beschreibt <strong>bei</strong>spielsweise Buxton (2007) die Güte eines<br />
Systems nicht nur dadurch, dass dieses sowohl nützlich (useful) als auch benutzbar<br />
(usable) ist, sondern dass es auch tatsächlich benutzt wird (used).<br />
Die Wahl einer Modalität und ggf. der Wechsel zur alternativ angebotenen Modalität<br />
innerhalb der Bear<strong>bei</strong>tung einer Aufgabe ist von verschiedenen Faktoren abhängig,<br />
so zum Beispiel von persönlichen Präferenzen des Nutzers und seinem Grad an<br />
mentaler Beanspruchung, von der umgebenden Situation oder von den Vorteilen, die<br />
sich ein Anwender in einer bestimmten Dialogsituation von einer Modalität erhofft (vgl.<br />
Abschnitt 2.3). Aufbauend auf frühere Studien, in denen der auch in dieser Ar<strong>bei</strong>t verwendete<br />
Untersuchungsgegenstand bereits zum Einsatz kam, liegt der Fokus in der vorliegenden<br />
Ar<strong>bei</strong>t auf Effizienzüberlegungen aus Nutzersicht, die sich exemplarisch auf<br />
die nötigen <strong>Interaktion</strong>sschritte zur Erledigung von Bedienaufgaben sowie auf die Fehlerbehaftung<br />
der angebotenen Modalitäten einer mobilen Anwendung beziehen.<br />
Der innovative Aspekt dieser Ar<strong>bei</strong>t besteht darin, erstmalig die Fehlerbehaftung<br />
<strong>bei</strong>der Modalitäten, der Spracherkennung und der Eingabe per Touchscreen, experimentell<br />
zu manipulieren und Auswirkungen sowohl auf das Nutzungsverhalten als auch auf<br />
subjektive Bewertungen zu erheben. Damit wird einerseits das Ziel verfolgt, die Studienergebnisse<br />
der vorliegenden Ar<strong>bei</strong>t in die Resultate der bisher durchgeführten Untersuchungsreihe<br />
einzuordnen und vor diesem Hintergrund zu interpretieren. Auf der anderen<br />
Seite ist beabsichtigt, durch die fehlerbehaftete Manipulation <strong>bei</strong>der Eingabemodalitäten<br />
einen zusätzlichen unabhängigen Untersuchungsfaktor zu produzieren, um eine<br />
erhöhte Varianzaufklärung auf Seiten der abhängigen Variablen zu ermöglichen. Zudem<br />
stellt sich die generelle Frage, inwieweit die zusätzliche Manipulation bisherige Ergebnisse<br />
verstärkt oder sich aus den vorliegenden Resultaten etwaig ein differenzierteres<br />
Verständnis der <strong>Modalitätenwahl</strong> <strong>bei</strong> <strong>multimodaler</strong> <strong>Interaktion</strong> ableiten lässt.<br />
2
Einführung<br />
______________________________________________________________________________<br />
1.2 Aufbau der Ar<strong>bei</strong>t<br />
Die vorliegende Ar<strong>bei</strong>t ist wie folgt aufgebaut: Im folgenden Kapitel werden zunächst<br />
die grundlegenden Begriffe der in dieser Masterar<strong>bei</strong>t behandelten Konzepte<br />
erläutert. Hierzu zählt insbesondere die Definition der Mensch-Maschine-<strong>Interaktion</strong><br />
und eines Mensch-Maschine-Systems sowie der Begriffe Modalität und Multimodalität.<br />
In diesem Zusammenhang wird auch ein Überblick über den Stand der Technik zur<br />
Nutzung ausgewählter Modalitäten gegeben. Anschließend wird im zweiten Abschnitt<br />
des Kapitels die <strong>Modalitätenwahl</strong> als entscheidungstheoretisches Problem thematisiert.<br />
Als Schwerpunkt in der Argumentation wird das kognitive Informationsverar<strong>bei</strong>tungsmodell<br />
der Entscheidung nach Wickens und Hollands (2000) ausführlich vorgelegt.<br />
Zudem geht dieser Abschnitt auf Entscheidungsroutinen, sogenannte Heuristiken, und<br />
auf Faktoren, welche die <strong>Modalitätenwahl</strong> beeinflussen können, ein. Aus den hier diskutierten<br />
empirischen Befunden werden abschließend die Fragestellung und die experimentellen<br />
Hypothesen als Basis der durchgeführten Untersuchung abgeleitet.<br />
Im dritten Kapitel werden zunächst das Versuchsdesign und das Untersuchungsmaterial<br />
dargelegt. Einen wesentlichen Stellenwert nimmt in diesem Zusammenhang<br />
die Operationalisierung der Manipulation fehlerbehafteter Eingabenerkennungen<br />
in den zur Verfügung gestellten Modalitäten ein. Die Beschreibung des Versuchsaufbaus<br />
und -ablaufs, der abhängigen Variablen und der verwendeten Messinstrumente<br />
sowie der akquirierten Stichprobe schließen den Methodenteil ab.<br />
Die Ergebnisse der Hauptuntersuchung werden im vierten Kapitel vorgestellt.<br />
Da<strong>bei</strong> werden zuvorderst Voraussetzungen geprüft, deren Erfüllung für die statistischen<br />
Analysen von Bedeutung sind. Anschließend werden Berechnungen zu den Ausprägungsunterschieden<br />
der abhängigen Variablen zur <strong>Modalitätenwahl</strong>, zur subjektiv erlebten<br />
Anstrengung (SEA) sowie zu wahrgenommenen Produktqualitäten dargestellt.<br />
Die Beantwortung der Fragestellungen und Hypothesen, der Bezug zur aktuellen<br />
Literatur und zu vorliegenden Befunden sowie eine Kritik der Methoden und Anmerkungen<br />
zu Limitationen der durchgeführten Studie werden schließlich im fünften Kapitel<br />
diskutiert. Ein Ausblick zur multimodalen Mensch-Maschine-<strong>Interaktion</strong> schließt die<br />
vorliegende Masterar<strong>bei</strong>t ab.<br />
3
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
2 Theoretischer Hintergrund<br />
Im folgenden Kapitel werden die theoretischen Grundlagen für das Verständnis<br />
dieser Ar<strong>bei</strong>t vorgestellt. Dazu werden zunächst die zentralen Begriffe um das Thema<br />
<strong>multimodaler</strong> Mensch-Maschine-<strong>Interaktion</strong> erläutert. Anschließend werden ingenieurspsychologische<br />
Theorien und empirische Befunde zur <strong>Modalitätenwahl</strong> skizziert, auf<br />
deren Basis dann die Fragestellungen und die Forschungshypothesen der durchgeführten<br />
experimentellen Untersuchung abgeleitet werden.<br />
2.1 Grundlegende Begriffe<br />
Obwohl multimodale Mensch-Maschine-<strong>Interaktion</strong> heutzutage eine weite Verbreitung<br />
und Akzeptanz erfährt, mangelt es bislang sowohl an einer einheitlichen Definition<br />
als auch an einem integrativen Modell zur Gestaltung und Umsetzung von Systemen,<br />
die Multimodalität für einen erweiterten Austausch von Informationen zwischen<br />
einem technischen System und einem Nutzer anbieten (Neuss, 2000). Erschwerend<br />
kommt hinzu, dass die zahlreichen Disziplinen, die sich mit Multimodalität beschäftigen,<br />
zentrale Begriffe häufig mit unterschiedlichen Bedeutungshöfen versehen. Aus<br />
diesem Grund dient der folgende Abschnitt vorab einer sorgfältigen Klärung der verwendeten<br />
grundlegenden Begriffe dieser Ar<strong>bei</strong>t.<br />
2.1.1 Mensch-Maschine-<strong>Interaktion</strong><br />
Unter Mensch-Maschine-<strong>Interaktion</strong> wird der wechselseitige Austausch von Informationen<br />
zwischen einem menschlichen Nutzer und einem maschinellen Teilsystem<br />
verstanden (Charwat, 1994). Wirkt die Person bzw. die Personengruppe mit der Maschine<br />
zusammen, um zielgerichtet einen bestimmten Auftrag zu erledigen, welcher<br />
entweder selbst- oder fremdgestellt sein kann, wird von einem Mensch-Maschine-<br />
System gesprochen (Timpe & Kolrep, 2000). Mensch-Maschine-Systeme weisen stets<br />
eine rückgekoppelte Struktur auf, da steuernde bzw. regelnde Eingriffe des Menschen<br />
den Zustand und damit die Rückmeldungen der Maschine beeinflussen (siehe Abbildung<br />
2). Der wechselseitige Austausch von Informationen erfolgt in Mensch-Maschine-<br />
Systemen über eine sogenannte Benutzungsschnittstelle, die einerseits Informationen<br />
über den Zustand der Maschine für den Menschen wahrnehmbar vermitteln und ihm<br />
andererseits Möglichkeiten einräumen soll, Eingriffe in den technischen Prozess der<br />
4
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
Maschine vorzunehmen. Im Vergleich zur Maschine, die grundsätzlich auf eine klar<br />
definierte Benutzungsschnittstelle angewiesen ist, ist es dem Menschen aufgrund seines<br />
deutlich facettenreicheren Wahrnehmungsvermögens darüber hinaus auch möglich, direkte<br />
Informationen über den Zustand der Maschine jenseits der Benutzungsschnittstelle<br />
sensorisch zu registrieren. Als Beispiel nennen die Autoren einen Wasserkessel, an welchem<br />
der Zustand des kochenden Wassers sowohl durch ein Anzeigeelement auf der<br />
Benutzungsschnittstelle (indirekt) als auch durch den austretenden Wasserdampf bzw.<br />
die zunehmende Wärme an der Außenseite des Kessels (direkt) erkannt werden kann.<br />
Abbildung 2: Strukturmodell eines Mensch-Maschine-Systems (entnommen aus Timpe und Kolrep<br />
(2000, S 3).<br />
Die Benutzungsschnittstelle stellt heutzutage ein zentrales Element in der Vermittlung<br />
von Informationen in Mensch-Maschine-Systemen dar, sodass ihrer Gestaltung<br />
eine besondere Bedeutung zukommt (Streitz, 1990). Die Güte der Aufgabenerledigung<br />
wird maßgeblich durch die Gebrauchstauglichkeit (Usability) der Schnittstelle in Relation<br />
zu den Kenntnissen und Fertigkeiten der Nutzer sowie vor dem Hintergrund limitierender<br />
Faktoren aufgrund des Nutzungskontextes bestimmt. Als Kriterien für eine<br />
hohe Gebrauchstauglichkeit haben sich die Begriffe Effektivität, Effizienz und Zufriedenheit<br />
etabliert (ISO 9241-210, 2010, S. 7), wo<strong>bei</strong> unter Effektivität verstanden wird,<br />
dass ein Mensch-Maschine-System die intendierten Zielen genau und vollständig erreicht.<br />
Als effizient wird das System bezeichnet, wenn die intendierten Ziele im Verhältnis<br />
zu den Kosten, der Zeit und/ oder dem Aufwand einfach erreicht werden können<br />
und zufriedenstellend bedeutet, dass sich Nutzer durch die <strong>Interaktion</strong> subjektiv wenig<br />
5
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
beansprucht erleben und dem technischen System gegenüber eine positive Gesamteinstellung<br />
entwickeln (Bevan, 1995).<br />
Effektive Mensch-Maschine-Systeme erfordern vor diesem Hintergrund somit<br />
eine Benutzungsschnittstelle, die jederzeit einen reibungslosen wechselseitigen Austausch<br />
von Informationen gewährleistet. Da der Mensch, wie bereits erwähnt, über vielfältige<br />
spezialisierte <strong>Interaktion</strong>sformen verfügt, kann der Austausch von Informationen<br />
für ihn auf einer ebenso breiten Vielfalt unterschiedlicher Kanäle stattfinden. Die<br />
Grundidee <strong>multimodaler</strong> Systeme zielt darauf ab, eine möglichst große Bandbreite an<br />
menschlichen <strong>Interaktion</strong>sformen zur Ein- und Ausgabe von Informationen technisch zu<br />
realisieren und nutzbar zu machen. Die technische Umsetzung solch eines Kanals wird<br />
als „Modalität“ bezeichnet. Eine Definition des Begriffs und der Zusammenhang zwischen<br />
menschlicher Sinneswahrnehmung und technischer Realisierbarkeit <strong>bei</strong> der Gestaltung<br />
von Benutzungsschnittstellen werden im folgenden Abschnitt näher ausgeführt.<br />
2.1.2 Modalität<br />
Unter dem Begriff „Modalität“ kann im Allgemeinen die zu spezifizierende Art<br />
und Weise verstanden werden, wie bestimmte Informationen zwischen einem Sender<br />
und einem Empfänger vermittelt bzw. ausgetauscht werden. Eine von Beuter (2007)<br />
übernommene Definition des Begriffs Modalität lautet:<br />
„Eine Modalität bezeichnet ein kommunikatives System, das durch die Art und Weise, wie Informationen<br />
kodiert und interpretiert werden, gekennzeichnet ist“ (Beuter, 2007, S. 7).<br />
Während sich der Begriff Modalität im technischen Sinn am konkreten Zusammenschluss<br />
eines <strong>Interaktion</strong>sgerätes mit einer <strong>Interaktion</strong>ssprache orientiert (Engesser,<br />
1993), werden unter dem Begriff Modalität im physiologischen Sinn die Möglichkeiten<br />
der menschlichen Wahrnehmung (Sensorik) und des menschlichen Handelns (Motorik)<br />
verstanden. In diesem Zusammenhang unterscheidet Hedicke (2000) zwischen sogenannten<br />
Aktionsmodalitäten und Wahrnehmungsmodalitäten. Aktionsmodalitäten bezieht<br />
er da<strong>bei</strong> auf die verfügbaren Eingabeformen zur Vermittlung von Informationen<br />
des Menschen an die Maschine, wohingegen die Wahrnehmungsmodalitäten im Sinne<br />
von Systemausgaben die Informationsübertragung von der Maschine zum Menschen<br />
betreffen. Vereinfacht, jedoch unspezifischer, werden die Wahrnehmungsmodalitäten<br />
von einigen Autoren auch als Ausgabemodalitäten und die Aktionsmodalitäten als Eingabemodalitäten<br />
bezeichnet (Engesser, 1993). Das Konzept des User-Centered Design<br />
6
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
geht davon aus, dass der Mensch als Nutzer im Mittelpunkt der Gestaltung von Technik<br />
steht (ISO 9242-210, 2010). Demzufolge sollten <strong>bei</strong> der Konzeption <strong>multimodaler</strong> Benutzungsschnittstellen<br />
nicht technologische Fragen im Vordergrund stehen, wie es häufig<br />
der Fall ist, sondern wahrnehmungspsychologische und kognitive Grundlagen des<br />
Nutzers (Oviatt, 1999). Aus diesem Grund werden im folgenden Abschnitt die Möglichkeiten<br />
menschlicher Wahrnehmung und damit die für die Realisierung <strong>multimodaler</strong><br />
Schnittstellen potentiell nutzbaren Wahrnehmungsmodalitäten charakterisiert.<br />
2.1.2.1 Wahrnehmungsmodalitäten<br />
Als Wahrnehmungsmodalitäten bezeichnen Roetting und Seifert (2005) alle<br />
menschlichen Sinneskanäle, die über spezialisierte Wahrnehmungsorgane bestimmte<br />
physikalische Umgebungsreize registrieren können. Neben den klassischen Wahrnehmungsmodalitäten<br />
Sehen, Hören, Fühlen, Riechen und Schmecken, verfügt der Mensch<br />
nach heutigem Wissensstand jedoch noch über eine Reihe weiterer Sinne, wie z.B. dem<br />
Gleichgewichtssinn, dem Schmerzsinn und dem Temperatursinn, wo<strong>bei</strong> die genaue Anzahl<br />
und eine exakte Abgrenzung noch nicht endgültig geklärt zu sein scheint (vgl.<br />
Schmidt & Thews, 1997). Eine Übersicht über die Sinnesmodalitäten nach Luczak<br />
(1998) wurde mit Tabelle 1 aus Roetting und Seifert (2005) übernommen.<br />
Tabelle 1: Sinnesmodalitäten des Menschen (vgl. Luczak, 1998; entnommen aus Roetting & Seifert,<br />
2005, S. 284).<br />
Wahrnehmungssystem<br />
visuell<br />
elektromagnetische Strahlung<br />
Auge<br />
auditiv<br />
periodische<br />
Ohr<br />
Luftschwankungen<br />
vestibulär Flüssigkeitsverschiebung Vestibulärapparat<br />
und Statolithen<br />
im<br />
(Schwerkraft)<br />
Mittelohrbereich<br />
olfaktorisch Moleküle in Gasen Schleimhautstücke<br />
im oberen<br />
Nasenraum<br />
gustatorisch Moleküle in<br />
Zungenoberfläche<br />
Flüssigkeiten<br />
Reiz Organ Empfindung<br />
Farbe, Helligkeit<br />
Tonhöhe,<br />
Lautstärke<br />
Lineare und<br />
Winkelbeschleunigung<br />
Geruch<br />
Geschmack<br />
taktil Verformungen der Haut Haut Druck, Berührung,<br />
Vibration<br />
kinästhetisch Dehnung der Muskeln und<br />
Bänder,<br />
Gelenkbewegungen<br />
Muskelspindeln Stellung der<br />
Körperteile<br />
zueinander<br />
thermisch Temperatur Haut warm, kalt<br />
Schmerz<br />
Verletzung und<br />
alle freien<br />
Schmerz<br />
Belastung<br />
Nervenenden<br />
7
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
Betrachtet man, welche dieser vielfältigen Wahrnehmungskanäle <strong>bei</strong> der Gestaltung<br />
von Mensch-Maschine-<strong>Interaktion</strong> explizit berücksichtigt werden, um Informationen<br />
von der Maschine an den Menschen zu übermitteln, fällt auf, dass die menschliche<br />
Wahrnehmung meist auf eine kleine und begrenzte Auswahl an Sinneskanälen reduziert<br />
wird (Roetting & Seifert, 2005). Im Kontext der Informationsdarstellung definieren einige<br />
Autoren lediglich optische, akustische und haptische Anzeigeelemente (z.B. Geiser,<br />
1990). Verschiedene Autoren vermuten, dass erst die zunehmende Technologisierung<br />
unseres Alltags in Leben und Ar<strong>bei</strong>t zu einem Verlust des direkten Kontakts<br />
zum Gerät bzw. zur Maschine führte und dadurch eine schrittweise Verdrängung der<br />
Sinnesvielfalt somit sogar begünstigt worden ist (z.B. Norman, 1990).<br />
Tatsächlich findet der größte Anteil der spezifizierten Informationsübertragung<br />
bis dato unter Nutzung der visuellen Modalität statt (Norman, 1990). Hier<strong>bei</strong> werden<br />
meist über Monitore, Displays, Dioden, etc. elektromagnetische Strahlungen unterschiedlicher<br />
Wellenlänge versendet, welche Nutzer in Form von Licht wahrnehmen und<br />
zu den Charakteristika Helligkeit, Farbigkeit, Größe, Form, Orientierung, Entfernung,<br />
Bewegung und Richtung verar<strong>bei</strong>ten (Muthig, 1990). Zur Nutzung der auditiven Wahrnehmungsmodalität<br />
werden durch Lautsprecher Informationen an den Menschen über<br />
Luftschwingungen in Form von Schallwellen kodiert. Diese können von Nutzern sowohl<br />
als nonverbale Töne oder Tonfolgen, als bedeutungsbehaftete Geräusche oder als<br />
verbale Sprachinformation wahrgenommen und verar<strong>bei</strong>tet werden. Taktile Reize gewinnen<br />
vor allem im Bereich mobiler Anwendungen zunehmend an Einfluss. Hier<strong>bei</strong><br />
werden über Bewegungsmotoren bzw. Aktoren bestimmte Kräfte an den Nutzer in<br />
Form von Schwingungen (Vibrationen) oder Druck (Kraftrückkoppelungen) abgegeben.<br />
Die vestibuläre Wahrnehmung wird hauptsächlich in größeren technischen Systemen,<br />
z.B. Auto- oder Flugzeugsimulatoren gezielt für Ausgaben des Systems genutzt (Shoemaker<br />
et al., 1995). Gustatorische oder olfaktorische Simulatoren spielen ebenso wie<br />
thermische oder Schmerzsimulatoren bis auf wenige Ausnahmen (z.B. Iwata et al.,<br />
2004) bislang eine geringe Rolle <strong>bei</strong> der Gestaltung von Mensch-Maschine-Systemen.<br />
2.1.2.2 Aktionsmodalitäten<br />
Aktionsmodalitäten beschreiben maschinenseitig, wie ein technisches System<br />
Informationen registriert und auf welche Art und Weise Eingriffsmöglichkeiten durch<br />
den Nutzer vorgenommen werden können. Während sich die Anzahl und die Beschaffenheit<br />
der Wahrnehmungsmodalitäten trotz der sensorischen Vielfalt vergleichbar ein-<br />
8
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
fach kategorisieren lassen, fällt dies für die Aktionsmodalitäten deutlich schwerer. Einige<br />
Autoren betonen sogar, dass sich insbesondere die Aktionsmodalitäten an der technologischen<br />
Realisierbarkeit orientieren, den aktuellen Stand der Technik widerspiegeln<br />
und daher per se nicht a priori begrenzend kategorisieren lassen (Vilimek, 2007).<br />
Im einfachsten Fall können Aktionsmodalitäten analog zu den Wahrnehmungskanälen<br />
des Menschen klassifiziert werden. So unterscheidet Hedicke (2000) zwischen<br />
einer auditiven, einer visuellen und einer haptischen Benutzungsschnittstelle (siehe Abbildung<br />
3). Während die auditive Schnittstelle zur Eingabe von Informationen Klänge<br />
per Mikrofon aus der Umgebung registriert, welche sowohl verbaler (z.B. Spracheingabe)<br />
als auch non-verbaler (z.B. Händeklatschen) Natur sein können, erkennen visuelle<br />
Schnittstellen Informationen über Gestik und Mimik des Nutzers mittels Kamerasysteme.<br />
Hierunter fallen für den Autor <strong>bei</strong>spielsweise auch Kameras, deren elektromagnetische<br />
Strahlung im für den Menschen nicht-sichtbaren Bereich liegt (z.B. Infrarot-<br />
Bewegungssensoren). Haptische Schnittstellen beziehen Informationen aus der Registration<br />
der Lageveränderung von Teilen eines Gerätes (z.B. <strong>bei</strong>m Drücken von Tasten,<br />
<strong>bei</strong>m Betätigen von Stellteilen, <strong>bei</strong>m Bewegen von Geräten bzw. Geräteteilen oder <strong>bei</strong>m<br />
Verformen von Körpern).<br />
Wahrnehmungsmodalitäten<br />
Schnittstelle<br />
Aktionsmodalitäten<br />
Ausgabe von Sprache,<br />
Tönen, Klängen<br />
auditives<br />
Interface<br />
Registrierung von Sprache,<br />
Tönen, Klängen<br />
Ausgabe von Text,<br />
Grafik, Bildern, Videos<br />
visuelles<br />
Interface<br />
Registrierung von<br />
Gestik, Mimik, Blickbewegungen<br />
Ausgabe von Druck,<br />
Vibration, Kraftrückkoppelungen<br />
haptisches<br />
Interface<br />
Registrierung von<br />
Kraft, manueller<br />
Betätigung<br />
Abbildung 3: Technische Komponenten einer multimodalen Schnittstelle (entnommen aus Hedicke,<br />
2000, S. 210).<br />
Liegen in diesen drei Bereichen aus technologischer Sicht bereits zahlreiche<br />
<strong>Interaktion</strong>smöglichkeiten und Innovationspotentiale vor und stellen sie vermutlich<br />
auch den größten und wichtigsten Bereich einer gezielten und intendierten Übertragung<br />
9
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
von Informationen eines Menschen an ein System dar, bestehen darüber hinaus jedoch<br />
noch weitere Möglichkeiten, um sowohl explizite als auch implizite Informationen über<br />
den Nutzer für eine Systemeingabe verwertbar zu machen. So hat sich insbesondere die<br />
Nutzung neuro- oder peripherphysiologischer Signale mittlerweile zu einer bedeutenden<br />
Möglichkeit entwickelt, um Informationen über den Zustand des Nutzers oder seinen<br />
intendierten Systemeingaben abzuleiten. Wesentliche Forschungsthemen liegen hier<strong>bei</strong><br />
auf den Gebieten der Brain-Computer-Interfaces (vgl. Walpow & Winter Walpow,<br />
2012), der Emotionsdetektion (vgl. Mahlke & Minge, 2008) und der mentalen Beanspruchung<br />
(vgl. Nickel et al., 2002).<br />
Neben den klassischen Schnittstellen sind auch olfaktorische und gustatorische<br />
Schnittstellen denkbar. So sind Sensoren zur Registrierung von Geruch bereits in verschiedenen<br />
Anwendungen, <strong>bei</strong>spielsweise zur Überwachung von Biogasanlagen oder<br />
Lüftungssystemern im Einsatz (z.B. Technoplus, 2012). Ebenso gibt es prototypische<br />
Konzeptionen von mobilen Robotern, die Sensoren verwenden, um die Herkunft bestimmter<br />
Gerüche, wie z.B. Sprengstoff oder Drogen, zu lokalisieren (Lochmatter et al.,<br />
2007). Da die Verwertbarkeit der interpretierten Informationen jedoch für die Gestaltung<br />
der Mensch-Technik-<strong>Interaktion</strong> stark kontextbezogen ist, bleiben solche Realisierungen<br />
vermutlich auch in Zukunft für solch spezielle Anwendungszwecke beschränkt.<br />
Wie dieser Abschnitt aufgezeigt hat, existieren sowohl auf der Wahrnehmungsseite<br />
als auch auf der Aktionsseite vielfältige Möglichkeiten, um Informationen in der<br />
Mensch-Maschine-<strong>Interaktion</strong> auszutauschen. Nachdem die einzelnen Modaltäten benannt<br />
und beschrieben wurden, widmet sich der folgende Abschnitt der kombinierten<br />
Nutzung parallel angebotener Modalitäten und damit dem Begriff Multimodalität.<br />
2.1.3 Multimodale Mensch-Maschine-<strong>Interaktion</strong><br />
Ginge es <strong>bei</strong> Multimodalität lediglich darum, verschiedene <strong>Interaktion</strong>smodalitäten<br />
für Systemeingaben oder -ausgaben zu verwenden bzw. Informationen auf unterschiedlichen<br />
Kanälen auszutauschen, so führte dies zu einer eklatanten Unschärfe in der<br />
Definition des Begriffs, worauf bereits Schomaker et al. (1995) hingewiesen haben:<br />
“In this sense every human-computer-interaction has to be considered as multimodal, because<br />
the user looks at the monitor, types in some commands or moves the mouse and clicks at certain<br />
positions, hears the reaction (beeps, key clicks, etc.) and so on” (Schomaker et al., 1995, S. 6).<br />
10
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
Um diese triviale Form der Multimodalität einzuschränken, ging das European<br />
Telecommunications Standards Institute (ETSI) dazu über, von Multimodalität nur dann<br />
zu sprechen, wenn verschiedene <strong>Interaktion</strong>smodalitäten sowohl für Systemeingaben als<br />
auch für -ausgaben bzw. zumindest für eine Kommunikationsrichtung vorliegen:<br />
“[Multimodal is an] adjective that indicates that at least one of the directions of a two-way communication<br />
uses two sensory modalities (vision, touch, hearing, olfaction, speech, gestures, etc.).<br />
[That means, that]<br />
a) more than one sensory modality is available for the channel (e.g. output can be visual or auditory)<br />
or<br />
b) within a channel, a particular piece of information is represented in more than one sensory<br />
modality (e.g. the command to open can be visual or typed)” (ETSI EG 202 191, 2003, S. 7)<br />
In diesem Zusammenhang betont Vilimek (2007), dass nicht allein die Anzahl<br />
an Geräten bzw. Sensoren entscheidend ist, um von Multimodalität zu sprechen. So<br />
werden <strong>bei</strong>spielsweise auch bereits durch einen Lautsprecher sowohl akustische als<br />
auch vibrotaktile haptische Informationen gleichzeitig ausgesendet. Vielmehr sei es<br />
erforderlich, die explizite Gestaltungsintention der verwendeten Schnittstelle im Kontext<br />
einer effektiven und effizienten Mensch-Maschine-<strong>Interaktion</strong> zu berücksichtigen.<br />
Bezogen auf die Systemausgaben bedeutet dies, dass <strong>bei</strong> Multimodalität<br />
“[…] eine durch den Systemdesigner manipulierbare aktive, technisch vermittelte Rückmeldung<br />
einer Nutzerreaktion über mehrere Signale vorliegt [und nicht lediglich] eine passive, rein mechanische<br />
Auswirkung dieser Nutzerreaktion“ (Vilimek, 2007, S. 14)<br />
Aus Sicht der Medienpsychologie wird der Begriff Multimodalität häufig mit<br />
den Wahrnehmungsmodalitäten des Menschen in Verbindung gebracht, wo<strong>bei</strong> darunter<br />
verstanden wird, dass zur Informationsübertragung verschiedene Sinneskanäle gleichzeitig<br />
angesprochen werden (Weidenmann, 1995). Ingenieurspsychologische Bestrebungen<br />
im Bereich <strong>multimodaler</strong> Mensch-Maschine-Systeme zielen heutzutage jedoch<br />
vor allem darauf ab, ein breites Angebot an parallel zur Verfügung stehenden Aktionsmodalitäten<br />
zu realisieren, um Nutzern verschiedene Varianten zur Eingabe von Informationen<br />
zu ermöglichen. In Anlehnung an die aktuell mit am häufigsten vorzufindende<br />
Definition von Multimodalität nach Oviatt (2003) werden parallel angebotene Wahrnehmungskanäle<br />
in Abgrenzung zum Begriff multimodal als multimedial bezeichnet:<br />
11
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
”Multimodal system process combined natural input modes – such as speech, pen, touch, manual<br />
gestures, gaze, and head and body movements – in a coordinated manner with multimedia system<br />
ouptut“ (Oviatt, 2003, S. 286)<br />
In Anlehnung an diese Definition von Oviatt (2003) wird in der vorliegenden<br />
Ar<strong>bei</strong>t unter Multimodalität verstanden, dass ein Mensch-Maschine-System zum Austausch<br />
von Informationen mindestens zwei Aktionsmodalitäten und eine oder mehrere<br />
Wahrnehmungsmodalitäten kombiniert. Um die unter 2.1.1 geforderte hohe Gebrauchstauglichkeit<br />
der Benutzungsschnittstelle zu gewährleisten, muss das Zusammenspiel aus<br />
Aktions- und Wahrnehmungsmodalitäten so ausgelegt sein, dass das Mensch-Maschine-<br />
System seine fremd- bzw. selbstgestellten Ziele effektiv und effizient erreichen kann<br />
(Nigay, Jambon & Coutaz, 1995). Zahlreiche Autoren haben bereits detaillierte Vorschläge<br />
unterbreitet, wie verschiedene Modalitäten sinnvoll aufeinander abgestimmt<br />
werden können (Neuss, 2000; Nigay & Coutaz, 1993; Oviatt, 2003).<br />
Martin (1998) unterscheidet da<strong>bei</strong> zum Beispiel sechs verschiedene Formen, sogenannte<br />
cooperation types, die er als Äquivalenz, Spezialisierung, Redundanz, Komplementarität,<br />
Übertragung und Simultanität bezeichnet (siehe Tabelle 2).<br />
Tabelle 2: Übersicht über die cooperation types (nach Martin, 1998).<br />
cooperation type<br />
Äquivalenz<br />
(equivalence)<br />
Spezialisierung<br />
(specialization)<br />
Redundanz<br />
(redundancy)<br />
Komplementarirät<br />
(complementarity)<br />
Übertragung<br />
(transfer)<br />
Simultanität<br />
(concurrency)<br />
verschiedene Modalitäten sind zueinander gleichwertig und können alternativ<br />
für eine Information verwendet, z.B. Eingabe über Touchscreen<br />
oder Spracherkennung<br />
für eine bestimmte Eingabe wird exklusiv eine bestimmte Modalität<br />
verwendet, z.B. Ton als Warnsignal<br />
dieselbe Information wird über mehrere Modalitäten zeitgleich übermittelt,<br />
z.B. verbale Tonausgabe und Lippenbewegungen<br />
die Gesamtinteraktion ist auf mehrere Modalitäten verteilt, z.B. Blickbewegung,<br />
um ein bestimmtes Objekt auszuwählen und Spracheingabe,<br />
um eine bestimmte Aktion an diesem Objekt vorzunehmen<br />
Informationen, die in einer Modalität erzeugt wurden, werden in einer<br />
anderen Modalität genutzt<br />
unterschiedliche Arten von Informationen werden über mehrere Modalitäten<br />
gleichzeitig verar<strong>bei</strong>tet, z.B. taktile Steuerung eines Kraftfahrzeugs<br />
über Lenkrad, Pedal, Schaltknauf und Bedienung des Navigationssystems<br />
über Spracheingabe<br />
Die vorliegende Ar<strong>bei</strong>t widmet sich dem Thema der <strong>Modalitätenwahl</strong> und möglichen<br />
Faktoren, die diese Wahl des Nutzers <strong>bei</strong> verschiedenen alternativ angebotenen<br />
Aktionsmodalitäten beeinflussen können. Im Sinne Martins (1998) wird somit der<br />
cooperation type der Äquivalenz näher untersucht.<br />
12
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
2.2 <strong>Modalitätenwahl</strong><br />
Werden durch ein technisches System verschiedene Aktionsmodalitäten zur Verfügung<br />
gestellt, die ein Nutzer für seine beabsichtigten Eingaben alternativ verwenden<br />
kann, so ist er gefordert, sich für oder gegen eine bestimmte Modalität zu entscheiden.<br />
Diese <strong>Modalitätenwahl</strong> basiert auf der Wahrnehmung und Verar<strong>bei</strong>tung von Hinweisreizen,<br />
die durch eine bestimmte Aufgabe vorgegeben werden und den jeweils aktuellen<br />
Handlungszielen des Nutzers, nämlich der erfolgreichen Erledigung der Aufgabe unter<br />
Nutzung einer der alternativ zur Verfügung stehenden Modalitäten, gegenübergestellt<br />
werden (Jöckel, 2010). Somit kann die <strong>Modalitätenwahl</strong> als ein entscheidungstheoretisches<br />
Problem verstanden werden (Schmid & Kindsmüller, 1996). Im folgenden Abschnitt<br />
werden deshalb als theoretische Grundlage für die <strong>Modalitätenwahl</strong> entscheidungswissenschaftliche<br />
Modelle aus ingenieurspsychologischer Perspektive erläutert<br />
und anschließend mögliche Einflussfaktoren sowie empirische Befunde aus bereits vorliegenden<br />
Untersuchungen zur <strong>Modalitätenwahl</strong> skizziert.<br />
2.2.1 Entscheidungen<br />
Wie Menschen Entscheidungen treffen und welche Mechanismen da<strong>bei</strong> eine<br />
Rolle spielen, ist für viele Disziplinen von Interesse. Vor allem in den Wirtschafts-, Sozial-<br />
und Politikwissenschaften hat die Entwicklung und die empirische Validierung<br />
von Entscheidungstheorien bereits eine lange Tradition. Seitdem der Faktor Mensch an<br />
Beachtung gewonnen hat, werden jedoch auch in den Ingenieurwissenschaften Erkenntnisse<br />
aus der Entscheidungsforschung zunehmend für die Gestaltung von Mensch-<br />
Maschine-Systemen berücksichtigt (Wickens & Hollands, 2000).<br />
2.2.1.1 Merkmale von Entscheidungen<br />
Entscheidungen beschreiben die Wahl zwischen mindestens zwei Optionen bzw.<br />
Alternativen auf der Basis persönlicher Präferenzen. Diese Präferenzen können entweder<br />
bewusst-abwägend (deliberativ), bewusst-heuristisch (regelbehaftet) oder intuitiv<br />
(spontan) ermittelt werden (Ostermann, 2010). Einige charakteristische Merkmale von<br />
Entscheidungen sind unter anderem, ob ein Problem mit binären oder multiplen Handlungsalternativen<br />
vorliegt, ob es sich um einen einmaligen oder einen iterativen Entscheidungsprozess<br />
handelt oder ob Entscheidungen durch eine Einzelperson oder durch<br />
eine Gruppe getroffen werden (vgl. Duffy, 1993).<br />
13
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
Stets werden Entscheidungen auch in Hinblick auf die Konsequenzen einer Option<br />
getroffen (Tversky & Kahneman, 1992). Da der Zusammenhang zwischen Option<br />
und Konsequenz häufig probabilistischer Natur ist, stellt der Grad an Unsicherheit über<br />
die möglichen Konsequenzen ein weiteres wichtiges Merkmal von Entscheidungen dar.<br />
In der Entscheidungsforschung wird in diesem Zusammenhang auch von einer Entscheidung<br />
unter Risiko (wenn die Wahrscheinlichkeiten für die möglichen Konsequenzen<br />
bekannt sind) bzw. einer Entscheidung unter Ungewissheit (wenn die Wahrscheinlichkeiten<br />
nicht bekannt sind), gesprochen (Jungermann, Pfister & Fischer, 2006).<br />
Die Entscheidung <strong>bei</strong>m Kauf eines Autos, wenn zwei Typen zur Auswahl stehen,<br />
stellt nach genauer Vorinformation über Vor- und Nachteile <strong>bei</strong>der Fahrzeuge zum<br />
Beispiel eine vergleichbar sichere Entscheidungssituation dar: Im Sinne einer multiattributiven<br />
Kosten-Nutzen-Analyse können die einzelnen Eigenschaften für jedes Auto<br />
separat bewertet, nach etwaigen persönlichen Präferenzen gewichtet und anschließend<br />
für die zwei zur Verfügung stehenden Optionen aufsummiert werden. Das Endergebnis<br />
sind Summenwerte, auf deren Basis eine Entscheidung getroffen werden kann (Wickens<br />
& Hollands, 2000).<br />
In zahlreichen Entscheidungssituationen, insbesondere im Umgang mit komplexen,<br />
dynamischen technischen Systemen sind jedoch entweder die Konsequenzen oder<br />
die Wahrscheinlichkeiten ihres Auftretens unbekannt. Entscheidungen werden vor allem<br />
dann als „risikoreich“ bezeichnet, wenn einige der möglichen, aber unsicheren Ergebnisse<br />
besonders unangenehm oder mit hohen Kosten verbunden sind (Tversky &<br />
Kahneman, 1992). Als Beispiel für ein komplexes, unsicheres Entscheidungsproblem<br />
nennen Wickens und Hollands (2000) die Entscheidung eines Piloten, seinen Flug <strong>bei</strong><br />
unsicherem Wetter fortzusetzen oder sich zum Umkehren zu entscheiden. In diesem Fall<br />
sind die Konsequenzen ausschließlich probabilistisch, d.h. dass es schwer vorherzusehen<br />
ist, welchen Einfluss das Wetter auf die Sicherheit des Flugs tatsächlich haben wird.<br />
2.2.1.2 Klassen der Entscheidungsforschung<br />
Nach Wickens und Hollands (2000) können drei Klassen der Entscheidungsforschung<br />
unterschieden werden: das rationale, das kognitive und das naturalistische Entscheiden.<br />
Während sich die rationale bzw. normative Entscheidungsforschung dafür<br />
interessiert, wie Menschen Entscheidungen entsprechend eines optimalen Rahmens,<br />
eines „goldenen Standards“ und unter Maximierung von Gewinnen und Minimierung<br />
von Verlusten, treffen sollten, betrachtetet die kognitive bzw. informationsverar<strong>bei</strong>tende<br />
14
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
Entscheidungsforschung, inwieweit Fehler bzw. Verzerrungen im Entscheidungsprozess<br />
auf begrenzte menschliche Aufmerksamkeit, Ar<strong>bei</strong>tsgedächtnis oder Auswahlstrategien<br />
bzw. vertraute Entscheidungsroutinen (siehe „Heuristiken“ in Abschnitt 2.2.4) zurückzuführen<br />
sind. Die naturalistische Entscheidungsforschung schließlich interessiert sich<br />
für das Entscheiden in realen Anwendungsbereichen und berücksichtigt da<strong>bei</strong> bedeutsame<br />
Kontextfaktoren aus der wirklichen Welt, wie z.B. domänenspezifische Expertise,<br />
Zeitdruck, Umweltdynamiken, hohe Risiken und Zielkonflikte (Zsambok, 1997).<br />
Die normative Entscheidungsforschung bietet mit der hier kurz skizzierten multiattributiven<br />
Kosten-Nutzen-Analyse ein rational begründetes Entscheidungsinstrument,<br />
jedoch erweist sie sich gegenüber der naturalistischen Entscheidungsforschung<br />
häufig nur als begrenzt gültig. Beispielsweise streben Menschen nicht immer nach Gewinnmaximierung<br />
bzw. Verlustminimierung und es liegen Unterschiede zwischen objektiven<br />
und subjektiven Werten bzw. Wahrscheinlichkeitsschätzungen vor, die zu Urteilsverzerrungen<br />
führen, welche teilweise durch bestimmte kognitive Entscheidungsroutinen<br />
(Heuristiken) erklärt werden können (vgl. Abschnitt 2.2.4).<br />
Die Beantwortung der in dieser Ar<strong>bei</strong>t entwickelten Fragestellung erfolgt unter<br />
Berücksichtigung menschlicher Informationsverar<strong>bei</strong>tungsroutinen und orientiert sich<br />
damit am kognitiven Entscheidungsprozess. Dies hat einerseits zur Folge, dass nicht die<br />
objektiv beste Entscheidung <strong>bei</strong> der <strong>Modalitätenwahl</strong> von Interesse sein wird, sondern<br />
das tatsächliche Nutzungs- und Akzeptanzverhalten der Anwender. Andererseits wird<br />
nur eine begrenzte Auswahl an Einflussfaktoren für die <strong>Modalitätenwahl</strong> systematisch<br />
untersucht, welche im Rahmen einer kontrollierten Laborstudie einer experimentellen<br />
Manipulation zugeführt wird. Um die <strong>bei</strong> einer Entscheidung relevanten Informationsverar<strong>bei</strong>tungsprozesse<br />
zu erläutern, wird im folgenden Abschnitt das kognitive Informationsverar<strong>bei</strong>tungsmodell<br />
der Entscheidung nach Wickens und Hollands (2000) näher<br />
spezifiziert.<br />
2.2.2 Informationsverar<strong>bei</strong>tungsmodell der Entscheidung<br />
Bei diesem Modell handelt es sich um ein Perzeptions-Aktions-Schema, worin<br />
die Autoren Wickens und Hollands (2000) die zentralen Elemente menschlicher Informationsverar<strong>bei</strong>tung<br />
aus ihrem Informationsverar<strong>bei</strong>tungsmodell integriert haben<br />
(Wickens & Hollands, 2000, S. 11). Als die drei Hauptschritte einer Entscheidung werden<br />
in diesem Modell insbesondere die selektive Aufmerksamkeit, die Diagnose und die<br />
Auswahl einer Reaktion betrachtet (siehe Abbildung 4).<br />
15
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
Aufmerksamkeit,<br />
Ressourcen,<br />
Aufwand<br />
Umwelt<br />
Reize<br />
(cues)<br />
=<br />
Selektive<br />
Aufmerksamkeit<br />
clue filtering<br />
Bestätigung<br />
Wahrnehmung<br />
Situationsbewusstsein<br />
Sinnesempfindung<br />
Langzeitgedächtnis<br />
Langzeit-Ar<strong>bei</strong>ts-<br />
Gedächtnis<br />
Ar<strong>bei</strong>ts-<br />
Gedächtnis-<br />
Mustererkennung<br />
Diagnose:<br />
H1, H2, …<br />
Optionen<br />
Entscheidung<br />
Auswahl der<br />
Reaktion<br />
Meta-Kognition<br />
Risiken (Werte)<br />
Ausführung<br />
der Reaktion<br />
Abbildung 4: Informationsverar<strong>bei</strong>tungsmodell der Entscheidung (nach Wickens & Hollands, 2000).<br />
Als Grundlage einer jeden Entscheidung werden zunächst Hinweisreize (cues) in<br />
ihrer entsprechenden Modalität aus der Systemumgebung (Umwelt) aufgenommen und<br />
kurz zwischengespeichert. Anschließend werden die sensorisch aufgenommen Reize<br />
gefiltert. Hier<strong>bei</strong> führt ein Selektionsprozess (clue filtering) nur solche Reize einer bewussten<br />
Verar<strong>bei</strong>tung (Wahrnehmung) weiter, welche aufgrund der Expertise des Entscheiders<br />
als momentan für die Situation relevant eingeschätzt werden. Diese „selektive<br />
Aufmerksamkeit“ wird zentral gesteuert, bindet in Abhängigkeit zur Komplexität des<br />
Problems Aufmerksamkeitsressourcen und stellt für Wickens und Hollands (2000) einen<br />
ersten zentralen Schritt <strong>bei</strong>m Treffen von Entscheidungen dar. Da der Mensch kein<br />
passiver Empfänger von Reizen oder Informationen, sondern ein aktives dynamisches<br />
System ist, das Information mit Flexibilität aufsucht, aufnimmt, verar<strong>bei</strong>tet und umsetzt<br />
(Muthig, 1990), kann die Filterung sowohl Bottom-Up, also durch die Reize selbst,<br />
oder Top-Down, also durch Beiträge des Langzeitgedächtnisses, gesteuert werden. Die<br />
anschließende Wahrnehmung der selektiv aufgenommenen Reize dient ihrer Identifikation<br />
und Interpretation.<br />
Auf Basis der selektiv aufgenommenen und verar<strong>bei</strong>teten Informationen wird<br />
daraufhin ein Verständnis bzw. eine Einschätzung der Entscheidungssituation im Sinne<br />
einer Diagnose abgeleitet und entwickelt (Rasmussen & Rouse, 1981). In Anlehnung an<br />
das Ar<strong>bei</strong>tsgedächtnismodell von Baddeley (1986) fassen Wickens und Hollands (2000)<br />
zur Unterstützung der Planungs- und Diagnoseabläufe Kognition und Ar<strong>bei</strong>tsgedächtnis<br />
als eine zentrale Exekutive zusammen, welche darüber hinaus einen wechselseitigen<br />
Informationsaustausch zum Langzeitgedächtnis organisiert. Ein wesentliches Ziel in<br />
16
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
dieser Diagnosephase besteht in der Ableitung von Hypothesen über den Zustand der<br />
Welt bzw. des Entscheidungsraumes, auf deren Grundlage anschließend eine adäquate<br />
Handlungsauswahl erfolgen kann. Da viele Diagnosen iterativ sind, d.h. dass zum Bekräftigen<br />
oder Wiederlegen anfänglicher Hypothesen die Suche nach weiteren Information<br />
angestoßen werden muss, existiert ein Pfeil von der zentralen Exekutive zur selektiven<br />
Aufmerksamkeit (clue filtering), der als „Bestätigung“ bezeichnet ist.<br />
Zur Entwicklung einer Diagnose messen Wickens und Hollands (2000) dem<br />
Konzept des Situationsbewusstseins nach Endsley (1995) eine besondere Bedeutung zu,<br />
die hier<strong>bei</strong> drei Stufen unterscheidet. Zu Beginn steht zunächst die Wahrnehmung aller<br />
relevanten Informationen aus der Umgebung (Stufe 1). Die wahrgenommenen Informationen<br />
werden anschließend Top-Down oder Bottom-Up zu einem angemessenen Verständnis<br />
der gegenwärtigen Situation integriert (Stufe 2), sodass daraus die weitere dynamische<br />
Entwicklung der gegenwärtigen Situation korrekt vorhergesagt und eine Antizipation<br />
zukünftiger Informationen abgeleitet werden kann (Stufe 3). Über alle Stufen<br />
hinweg wird somit ein allgemeines Systemverständnis aufgebaut, woraus sich Hypothesen<br />
zum Systemverhalten und Diagnosen ableiten lassen.<br />
Auf der Grundlage der Diagnose wird anschließend in Relation zu den erwarteten<br />
Konsequenzen und den damit verbundenen Werten einer Entscheidung (Kosten-<br />
Nutzen-Abwägung) der Prozess der Handlungsauswahl eingeleitet, welcher wiederum<br />
die Handlungsausführung anstößt. Ein bedeutsamer Einflussfaktor für die Handlungsauswahl<br />
ist da<strong>bei</strong> auch das Bewusstsein über das eigene Wissen (Meta-Kognition nach<br />
Reder, 1988). So zeigten Orasanu und Fischer (1997), dass sich gute Entscheidungsträger<br />
einer Informationsunterversorgung bewusst sind und daher besonders aufmerksam<br />
suchen bzw. falls nötig, auf wesentliche Informationen warten, bevor sie eine Entscheidung<br />
treffen. Da die Situation, der man sich bewusst ist, den sich entwickelnden Entscheidungsprozess<br />
<strong>bei</strong>nhaltet, zeigt die Meta-Kognition auch eine deutliche Verbindung<br />
zum Situationsbewusstsein (Endsley, 1995). Die allgemeine Feedbackschleife ermöglicht<br />
Lernprozesse und erhöht damit die Qualität zukünftiger Entscheidungen. Wird<br />
Feedback ins Langzeitgedächtnis übertragen, können zum einen die selektive Aufmerksamkeit<br />
für Hinweisreize, aber auch Risikoeinschätzungen und interne Entscheidungsregeln<br />
modifiziert werden.<br />
Betrachtet man den Prozess der Informationsintegration über alle Instanzen des<br />
Modells hinweg (siehe Abbildung 5), können drei Eigenschaften von Hinweisreizen und<br />
wie diese potentiell auf eine getroffene Hypothese einwirken, identifiziert werden.<br />
17
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
Abbildung 5: Prozess der Informationsintegration (von unten nach oben), um sich für eine von zwei<br />
Hypothesen zu entscheiden (nach Wickens und Hollands, 2000).<br />
Die Diagnostizität (Eindeutigkeit) beschreibt, wie eindeutig der beobachtete<br />
Hinweisreiz ist bzw. wieviel Evidenz er für die vorliegende Hypothese liefert, so ist z.B.<br />
ein Regentropfen ein sicherer diagnostischer Hinweisreiz für die Hypothese „Es regnet“,<br />
jedoch nur ein probabilistischer für die die Hypothese „Ein schweres Unwetter<br />
naht“ (vgl. Wickens und Hollands, 2000). Die Reliabilität gibt unabhängig von der Eindeutigkeit<br />
die Wahrscheinlichkeit an, mit dem einem Reiz geglaubt werden kann. Liefert<br />
z.B. ein Alarmsystem in einer Leitwarte einen bestimmten Anteil an Fehlalarmen,<br />
so ist dieses System auch nur bis zu diesem Grad als reliabel zu betrachten. Als Informationswert<br />
eines Reizes bezeichnen Wickens und Hollands (2000) das Produkt aus<br />
Diagnostizität und Reliabilität. Eine dritte Charakteristik von Reizen sind physikalische<br />
Eigenschaften und die Frage, wie auffällig bzw. herausragend die Hinweisreize sind.<br />
Entscheidend nach dem Informationsverar<strong>bei</strong>tungsmodell der Entscheidung ist,<br />
dass die Verar<strong>bei</strong>tungsvorgänge in der zentralen Exekutive zur Diagnosebildung bewusst<br />
ablaufen, ressourcenlimitiert und hochanfällig für Interferenzen sind (Wickens &<br />
Hollands, 2000). Das bedeutet, dass zwischen der ressourcenfordernden selektiven<br />
Aufmerksamkeit und Wahrnehmung auf der einen Seite und der Schaffung des Situati-<br />
18
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
onsbewusstseins auf der anderen Seite eine Interferenz vorliegt, wenn <strong>bei</strong>de Vorgänge<br />
zur Speicherung und Manipulation von Informationen auf das Ar<strong>bei</strong>tsgedächtnis zugreifen.<br />
Tatsächlich konnten solche Interferenzen experimentell belegt werden (Wickens,<br />
2002). Da solche Interferenzen dazu führen können, dass der Informationsaustausch in<br />
Mensch-Maschine-Systemen nicht oder nicht effizient genug gewährleistet werden<br />
kann, setzt eine erfolgreiche Umsetzung <strong>multimodaler</strong> <strong>Interaktion</strong> voraus, dass Interferenzen<br />
möglichst ausgeschlossen bzw. minimiert werden.<br />
2.2.3 Modell der multiplen Ressourcen<br />
Um sowohl Interferenzen frühzeitig zu identifizieren als auch unterschiedliche<br />
Modalitäten in einem Mensch-Maschine-System sinnvoll aufeinander abzustimmen,<br />
kann das Modell der multiplen Ressourcen nach Wickens & Hollands (2000) als ein<br />
erster Ansatz dienen. Eine Grundidee da<strong>bei</strong> ist, dass der menschliche Systemnutzer<br />
prinzipiell über verschiedene Ressourcen zur simultanen Durchführung kognitiver Prozesse<br />
verfügt. Je unterschiedlicher die beanspruchten Ressourcenanteile <strong>bei</strong> der Bear<strong>bei</strong>tung<br />
einer Doppelaufgabe sind, desto besser können die entsprechenden Einzelaufgaben<br />
zeitgleich bear<strong>bei</strong>tet werden (Wickens, 2002). Die zur Verfügung stehenden Ressourcen<br />
werden entsprechend dem Modell nach drei dichotomen Dimensionen klassifiziert,<br />
nämlich den Verar<strong>bei</strong>tungsstufen (stages), den Modalitäten (modalities) und dem Verar<strong>bei</strong>tungstyp<br />
(codes bzw. responses; siehe Abbildung 6). Auf Seiten der Modalitäten<br />
unterscheiden die Autoren zwischen auditiven und visuellen Ressourcen, wo<strong>bei</strong> zur<br />
ausführlichen Darstellung und Diskussion der experimentellen Belege für diese Modellannahme<br />
auf Wickens und Hollands (2000) verwiesen wird. Beim Verar<strong>bei</strong>tungstyp<br />
werden verschiedene Ebenen sowohl auf der Eingabeseite des menschlichen Nutzers<br />
(räumliche oder sprachliche Wahrnehmung) als auch auf der Ausgabenseite (manuelle<br />
oder sprachliche Aktionen) unterschieden. Auch die Phasen der Informationsverar<strong>bei</strong>tung<br />
differenzieren lediglich zwischen zwei Dimensionen, da davon ausgegangen wird,<br />
dass die Ressourcen für perzeptive und kognitive Prozesse der zentralen Exekutive<br />
identisch sind. Aufgrund der Ergebnisse zahlreicher Studien wurde im Bereich der visuellen<br />
Wahrnehmung eine weitere Modellannahme hinzugefügt, welche das foveale Sehen<br />
(focal) zur aufmerksamkeitsgesteuerten und fokussierten Informationsaufnahme<br />
vom peripherem Sehen (ambient) angrenzt, welches Orientierungs- und Bewegungswahrnehmung<br />
und visuelle Reize aus dem Umfeld zu detektieren unterstützt (z.B.<br />
Previc, 1998).<br />
19
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
Abbildung 6: Dimensionale Repräsentation der Struktur multipler Ressourcen (entnommen aus<br />
Wickens und Hollands, 2000, S. 449).<br />
Das Informationsverar<strong>bei</strong>tungsmodell und das Modell der mutiplen Ressourcen<br />
beschreiben aus kognitionspsychologischer Sicht, wie Menschen multimodale Informationen<br />
im Rahmen eines Mensch-Maschine-Systems aufnehmen und auf Basis des vorliegenden<br />
Wissens Hypothesen über die Angemessenheit bestimmter Handlungsmöglichkeiten<br />
und damit Handlungsentscheidungen, z.B. für die Nutzung einer Modalität<br />
<strong>bei</strong> äquivalent angebotenen Modalitäten auf Basis selektiv wahrgenommener und interpretierter<br />
Hinweisreize, treffen. Wie bereits in 2.2.1.1 bereits erwähnt wurde, können<br />
jedoch viele Entscheidungssituationen dadurch charakterisiert werden, dass der aktuelle<br />
Zustand des Entscheidungsraumes unbekannt ist, da nicht alle relevanten Informationen<br />
genau und vollständig zur Verfügung stehen bzw. die beste Entscheidung nicht durch<br />
einen Abruf von Informationen aus dem Langzeitgedächtnis ermittelt werden können<br />
(Kahneman, Slovic & Tversky, 1982). Dennoch sind Menschen auch in solchen Situationen,<br />
in denen die Konsequenz einer Entscheidung mit Unsicherheit behaftet sind, in<br />
der Lage, mit begrenzten geistigen und zeitlichen Ressourcen gute und brauchbare Entscheidungen<br />
zu treffen (Gigerenzer & Brighton, 2009). Solche Strategien, einfache<br />
„Faustregeln“, die auf leicht zu erhaltende Informationen angewendet werden können,<br />
werden auch als Heuristiken bezeichnet. Die wichtigsten Heuristiken, auf die Menschen<br />
für ihre Entscheidungen und Urteile zugreifen, stellt der folgende Abschnitt vor.<br />
20
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
2.2.4 Heuristiken<br />
Heuristiken ermöglichen es dem Menschen, in Situationen nicht alle für eine<br />
Entscheidungsoption notwendigen Informationen aufzunehmen und zu verar<strong>bei</strong>ten,<br />
sondern lediglich einen hinreichend notwendigen Anteil, um mit diesen begrenzten Informationen<br />
trotzdem ein gutes Entscheidungsergebnis zu erzielen (Kahneman et al.,<br />
1982). Heuristiken wirken da<strong>bei</strong> als Annahmen, die sich in früheren Entscheidungssituationen<br />
als erfolgreich bewährt haben. Drei zentrale Heuristiken sind die Verankerungsheuristik,<br />
die Verfügbarkeitsheuristik und die Repräsentativitätsheuristik.<br />
2.2.4.1 Verankerungsheuristik<br />
Als Verankerungsheuristik wird die Tendenz beschrieben, <strong>bei</strong> einem Urteil oder<br />
im Rahmen einer Entscheidungssituation zunächst einen groben Ausgangspunkt in<br />
Form einer ersten Hypothese zu finden und diesen als Anker für den weiteren Verlauf<br />
zu verwenden (Tversky & Kahneman, 1974). Die Autoren gehen davon aus, dass eine<br />
Adjustierung des Ankers (adjustment) prinzipiell möglich ist, die endgültigen Urteile<br />
jedoch grundsätzlich in Richtung des Ausgangswertes (anchor) verzerrt sind. Charakteristisch<br />
ist zudem, dass zur Verar<strong>bei</strong>tung der Ankerinformation bevorzugt diejenigen<br />
Informationen gesucht und verar<strong>bei</strong>tet werden, welche die zuvor aufgestellte Hypothese<br />
bestätigen. In diesem Zusammenhang wird auch von einer positiven Teststrategie<br />
(Liberman & Trope, 1996) oder vom Confirmation Bias (Jones & Roelofsma, 2000)<br />
gesprochen. Ebenso konnte gezeigt werden, dass die Informationssuche zur Prüfung<br />
eines Urteils bzw. zur Verifikation einer Handlungsauswahl häufig vorzeitig eingestellt<br />
wird, da das subjektive Gefühl über die Richtigkeit der eigenen Hypothese größer ist als<br />
die Wahrscheinlichkeit für die adäquate Urteils- bzw. Handlungsoption (Kruger &<br />
Dunning, 1999). Dies wird auch als Overconfidence Bias bezeichnet. Für die Wahl einer<br />
<strong>Interaktion</strong>smodalität <strong>bei</strong> alternativ angebotenen Aktionsmodalitäten bedeutet die Verankerungsheuristik,<br />
dass Anwender schnell eine erste Hypothese über die Brauchbarkeit<br />
der zur Verfügung stehenden Modalitäten treffen und sich daraufhin für eine bestimmte<br />
Modalität zur Bear<strong>bei</strong>tung einer Aufgabe entscheiden. Der bewusste Wechsel zu einer<br />
anderen Modalität im Laufe der Aufgabenbear<strong>bei</strong>tung dürfte hingegen, insbesondere <strong>bei</strong><br />
geringer Erfahrung mit dem technischen System erschwert sein, da Personen an ihrer<br />
ersten Entscheidung festhalten und dadurch die Kosten für einen Modalitätenwechsel<br />
vermeiden, welcher mit einem kognitiven Aufwand verbunden wäre.<br />
21
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
2.2.4.2 Verfügbarkeitsheuristik<br />
Die Verfügbarkeitsheuristik beschreibt die Leichtigkeit mit der Informationen<br />
aus dem Langzeitgedächtnis abgerufen werden können: Je verfügbarer Informationen<br />
sind, d.h. je leichter sie einfallen oder je geringer der kognitive Aufwand ist, um sich ein<br />
bestimmtes Ereignis oder eine bestimmte Handlungsauswahl vorzustellen, desto höher<br />
wird die Häufigkeit des Auftretens dieses Ereignisses geschätzt bzw. desto eher wird die<br />
Auswahl des entsprechenden Handlungsmusters vorgenommen (Tversky & Kahneman,<br />
1973). Wie Greening, Dollinger und Pitz (1996) aufgezeigt haben, sind vor allem solche<br />
Ereignisse verfügbarer, welche Menschen aus persönlicher Erfahrung heraus kennen.<br />
Dies impliziert, dass Anwender zunächst Erfahrungen mit der Ausführung von Aktionsmodalitäten,<br />
insbesondere wenn diese für sie innovativ sind, erleben müssen, um<br />
sich die Nutzung dieser Modalitäten in zukünftigen Situationen leicht vorstellen zu<br />
können. Ebenso sollten die zur Verfügung stehenden Aktionsmodalitäten präsent gemacht<br />
werden, z.B. durch das Aufleuchten eines Mikrofon-Icons, wenn zu bestimmten<br />
<strong>Interaktion</strong>szeitpunkten die Spracheingabe eine sinnvolle Alternative darstellt. Entstehen<br />
<strong>bei</strong> der Nutzung einer bestimmten <strong>Interaktion</strong>smodalität nachteilige Erfahrungen,<br />
erlebt der Anwender <strong>bei</strong>spielsweise mehrere fehlerhafte Spracherkennungssituationen,<br />
so wird ihm der Verfügbarkeitsheuristik entsprechend jedoch auch die Handlungsauswahl<br />
zur Nutzung diese Modalität zukünftig weniger leicht verfügbar ins Bewusstsein<br />
gebracht werden können.<br />
2.2.4.3 Repräsentativitätsheuristik<br />
Die Repräsentativitätsheuristik bezieht sich darauf, wie typisch ein wahrgenommenes<br />
Element für eine Kategorie, eine Population oder eine Wirkung für eine Ursache<br />
ist: Je besser der konkrete Fall das im Langzeitgedächtnis gespeicherte abstrakte Modell<br />
repräsentiert, desto größer wird die Wahrscheinlichkeit eingeschätzt, dass der Fall dem<br />
Modell zugehörig ist (Kahneman & Tversky, 1972). Liegt demnach eine große Übereinstimmung<br />
zwischen Hinweismuster und gespeichertem Muster vor, wird die entsprechende<br />
Handlungsanweisung gewählt. Hat ein Anwender <strong>bei</strong>spielsweise die Erfahrung<br />
gemacht, dass bestimmte Systemeingaben unter Nutzung einer bestimmten <strong>Interaktion</strong>smodalität<br />
schneller und einfacher vorgenommen werden können, so werden ihm <strong>bei</strong><br />
alternativ angebotenen Aktionsmodalitäten genau diese Situationen zukünftig besonders<br />
repräsentativ für die Nutzung dieser Modalität erscheinen.<br />
22
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
2.2.5 Zusammenfassung<br />
Sowohl das kognitive Informationsverar<strong>bei</strong>tungsmodell (vgl. 2.2.3) als auch die<br />
im vorigen Abschnitt aufgezeigten Heuristiken (vgl. 2.2.4) beschreiben, wie die <strong>Modalitätenwahl</strong><br />
<strong>bei</strong> <strong>multimodaler</strong> <strong>Interaktion</strong> aus entscheidungstheoretischer Sicht nachvollzogen<br />
und verstanden werden kann: Anwender nutzen die Informationen aus einer Aufgabe<br />
als Hinweisreize und bilden auf dieser Basis Hypothesen darüber, welche der zur<br />
Verfügung stehenden Modalitäten am geeignetsten erscheint, um die Aufgabe vollständig<br />
und unter geringem Aufwand zu erfüllen. Bei der Bildung von Hypothesen werden<br />
die Informationen unter Einbezug von Kosten-Nutzen-Überlegungen, persönlichen Präferenzen<br />
und externen Parametern gewichtet (Jöckel, 2010). Mögliche Faktoren, die<br />
diese Gewichtung umsetzen, werden im folgenden Abschnitt 2.3 vorgestellt. Aus dem<br />
Ergebnis wird schließlich eine Handlungsauswahl getroffen, welche in wiederholten<br />
Nutzungssituationen evaluiert und ggf. korrigiert werden kann. Heuristiken vereinfachen<br />
und beschleunigen den Entscheidungsprozess sowohl zu frühen Nutzungszeitpunkten<br />
(z.B. Ankerheuristik) als auch deutlich spezialisierter <strong>bei</strong> erfahrener Benutzung<br />
(z.B. Repräsentativitätsheuristik).<br />
2.3 Einflussfaktoren für die <strong>Modalitätenwahl</strong><br />
In diesem Abschnitt werden zentrale Einflussfaktoren für die <strong>Modalitätenwahl</strong><br />
vorgestellt, auf deren Basis eine Gewichtung zur Integration der Hinweisreize vorgenommen<br />
wird. Neben der Effektivität und Effizienz, welche in der hier vorliegenden<br />
Ar<strong>bei</strong>t als Einflussfaktoren systematisch manipuliert und untersucht werden, werden<br />
auch Zeitdruck und mentale Beanspruchung, hedonische Qualitäten, Präferenzen und<br />
statische Benutzerattribute sowie Umgebungsfaktoren thematisiert.<br />
2.3.1 Effektivität<br />
Unter Effektivität wird die Vollständigkeit und Genauigkeit verstanden, mit der<br />
geplante Aufgabenziele erreicht werden können (ISO 9241-210, 2010). Thomas et al.<br />
(1996) sprechen in diesem Zusammenhang auch von Quantität und Qualität der Zielfindung.<br />
Im Bereich interaktiver Produkte wird die Effektivität vor allem durch die Fehleranfälligkeit<br />
einer Modalität sowie durch die Genauigkeit bestimmt, mit der Systemeingaben<br />
vorgenommen werden können (Card et al., 1990). In einem multimodalen Versuchsaufbau<br />
zeigten Bilici et al. (2000), dass eine eingeschränkte Effektivität, operatio-<br />
23
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
nalisiert über Fehler in der automatischen Spracherkennung, signifikant dazu <strong>bei</strong>trägt,<br />
dass Personen von der auditiven zur manuellen Systemeingabe wechseln. Ebenso stellten<br />
Suhm et al. (1999) fest, dass Nutzer <strong>bei</strong> mehrfacher Verwendung eines multimodalen<br />
Systems dazu tendieren, diejenige Modalitäten zu benutzen, welche weniger fehleranfällig<br />
sind. Als fehlerhafte Eingaben können <strong>bei</strong> der automatischen Spracherkennung<br />
Einfügungen (insertions), Ersetzungen (substitutions) und Auslassungen (deletions)<br />
unterschieden werden (Hunt, 1990). Während <strong>bei</strong> Einfügungen Wörter erkannt werden,<br />
obwohl keine intendierte Eingabe durch den Nutzer erfolgte, werden <strong>bei</strong> Ersetzungen<br />
Systemeingaben falsch wiedergegeben. Unter Auslassungen wird das reine Nichterkennen<br />
von Eingaben verstanden. Um in der vorliegenden Ar<strong>bei</strong>t eine ebenso praktikable<br />
wie plausibel vermittelbare Fehlermanipulation zu untersuchen, welche sich zudem zwischen<br />
der auditiven und der manuellen Systemeingabe vergleichbar operationalisieren<br />
lässt, wird der Fokus ausschließlich auf Auslassungen beschränkt sein (vgl. Abschnitt<br />
3.2.1.1). Ebenso wurden Fehler in früheren Studien mit dem Untersuchungsgegenstand<br />
über Auslassungen in der Spracherkennung operationalisiert. Dass sich die Spracherkennungsfehlerrate<br />
auf die <strong>Modalitätenwahl</strong> auswirkt, konnte bereits durchweg belegt<br />
werden. Verglichen wurden da<strong>bei</strong> meist sehr hohe (30 %) mit geringeren Fehlerraten<br />
(10 %, Schaffer et al., 2011a) bzw. sehr hohe Fehlerraten (30 %t) mit einer Kontrollbedingung<br />
(0 %). Bei einer dreifachgestuften Aufteilung der Fehlerrate (bis zu 10 %, 10-<br />
25 %, über 25 %) konnte eine bedeutsame Erhöhung der Wechselbereitschaft zur manuellen<br />
Eingabe nur zwischen den Extrembedingungen nachgewiesen werden (Joeckel,<br />
2010). Um mit der vorliegenden Untersuchung Daten zu Versuchsbedingungen zu erheben,<br />
die mit den bereits vorliegenden Ergebnissen zusammenhängend interpretiert werden<br />
können, soll in dieser Ar<strong>bei</strong>t neben der Kontrollbedingung mit einer Fehlerrate von<br />
0 Prozent eine nicht extreme, jedoch praxisrelevante Fehlerrate von durchschnittlich 20<br />
Prozent gegenübergestellt werden. Diese wird sowohl für die auditive (Spracherkennung)<br />
als auch für die manuelle Modalität (Touchscreen-Eingabe) umgesetzt (vgl. Abschnitt<br />
3.2.1).<br />
2.3.2 Effizienz<br />
Als Effizienz wird das Verhältnis aus Genauigkeit und Vollständigkeit der Zielerreichung<br />
zum eingesetzten Aufwand beschrieben, den ein Nutzer aufbringen muss,<br />
um eine bestimmte Aufgabe zu erfüllen (ISO 9241-210, 2010). Als Aufwand können<br />
verschiedene Maße herangezogen werden. So zum Beispiel die erforderliche Zeit zum<br />
24
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
Lösen einer Aufgabe (Task Completion Time), monetäre Kosten, die kognitive Beanspruchung<br />
des Nutzers oder die Anzahl an <strong>Interaktion</strong>sschritten, die zur Erledigung einer<br />
Aufgabe notwendig sind (Bevan, 1995). Bedienzeiten werden häufig miteinander<br />
verglichen, um Aussagen über die Effizienz eines multimodalen Systems zu treffen. So<br />
konnten Perakakis et al. (2008) aufzeigen, dass die Nutzung der Modalität Sprache<br />
sprunghaft ansteigt, wenn diese im Vergleich zu einer manuellen Eingabe effizienter im<br />
Sinne einer höheren Informationsdatenrate ausfällt. Demgegenüber zeigte Rudnicky<br />
(1993), das Nutzer diejenigen Modalitäten bevorzugen, mit denen zusätzliche oder umständliche<br />
<strong>Interaktion</strong>sschritte eingespart werden können, sogar wenn die Bedienzeiten<br />
dadurch länger ausfallen. Auf ähnliche Ergebnisse bezüglich der Effizienzmetrik weisen<br />
auch Wechsung et al. (2010) hin. Aus diesem Grund und vor dem Hintergrund der bisher<br />
mit dem Untersuchungsgegenstand durchgeführten Versuchsreihe wird Effizienz in<br />
der vorliegenden Studie über das Einsparen von Bedienschritten operationalisiert.<br />
Durch mehrere Experimente konnte bereits die Hypothese gestützt werden, dass<br />
sich Nutzer äußerst sensitiv an der erwarteten notwendigen Anzahl an <strong>Interaktion</strong>sschritten<br />
zur Erledigung einer Aufgabe orientieren und daraufhin diejenige Modalität<br />
für eine Eingabe auswählen, welche die erforderliche Anzahl an <strong>Interaktion</strong>sschritten<br />
minimal hält (Jöckel, 2010; Schaffer et al., 2011b).<br />
2.3.3 Zeitdruck und mentale Beanspruchung<br />
Mentale Beanspruchung beschreibt das Verhältnis aus Anforderungen aus der<br />
Umgebung und den Informationsverar<strong>bei</strong>tungskapazitäten des Anwenders (Kantowitz et<br />
al., 1996). Meist werden unter mentaler Beanspruchung Leistungseinbußen aufgrund<br />
von Monotonie, Stress, psychischer Sättigung oder Ermüdung untersucht (Wickens &<br />
Hollands, 2000). Mit dem Modell der multiplen Ressourcen nach Wickens & Hollands<br />
(2000) wurde in Abschnitt 2.3.3 ein Kapazitätsmodell der Informationsverar<strong>bei</strong>tung<br />
vorgestellt, anhand dessen mentale Beanspruchung operationalisiert werden kann. Entsprechend<br />
dieses Modells lassen sich auf der einen Seite Interferenzen zwischen Aufgabenanteilen,<br />
die auf identische Ressourcen zugreifen und somit eine hohe mentale Beanspruchung<br />
induzieren, und andererseits Möglichkeiten zur Beschleunigung von Prozessen,<br />
wenn Wahrnehmungsprozesse und Informationsverar<strong>bei</strong>tung zur Verringerung<br />
der mentalen Beanspruchung auf distinkte Ressourcen verteilt werden, identifizieren.<br />
Schaffer et al. (2011b) konnte zeigen, dass zunehmende Aufgabenkomplexität<br />
im Rahmen <strong>multimodaler</strong> Systeme mit einem Ansteigen der subjektiv erlebten Bean-<br />
25
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
spruchung verbunden ist. Demgegenüber entscheiden sich Probanden für die jeweils<br />
effizientere Modalität, wenn sie dadurch die Aufgabenkomplexität reduzieren können<br />
(Schaffer et al., 2011a). Durch solch einen spezifischen Modalitäteneinsatz im Laufe<br />
eines Versuchs bzw. einer Aufgabenbear<strong>bei</strong>tung ist es Probanden zusammenfassend<br />
möglich, ihr Niveau an subjektiv erlebter Anstrengung trotz steigender Aufgabenkomplexität<br />
konstant zu halten. Obwohl es Hinweise darauf gibt, dass der Wechsel zwischen<br />
Modalitäten mit Kosten auf Seiten der mentalen Beanspruchung verbunden sein können<br />
(Spence et al., 2001), konnte dies für den vorliegenden multimodalen Untersuchungsgegenstand<br />
bislang nicht aufgezeigt werden (Joeckel, 2010).<br />
2.3.4 Hedonische Qualität<br />
Mit der hedonischen Qualität wird beschrieben, dass ein interaktives Produkt<br />
Nutzer nicht nur zufriedenstellt, sondern Begeisterung <strong>bei</strong> ihnen auszulösen vermag<br />
(Jordan, 2000). Im Gegensatz zur sogenannten pragmatischen Qualität und dem Fokus<br />
auf den Aufgaben und darauf, wie gut man diese mit dem Gerät erledigen kann, geht es<br />
<strong>bei</strong> der hedonischen Qualität darum, was das Produkt symbolisiert bzw. an neuen Möglichkeiten<br />
für seine Anwender bereithält (Hassenzahl et al., 2008).<br />
„Erweitert ein interaktives Produkt durch neue Funktionen die Möglichkeiten des Benutzers,<br />
stellt neue Herausforderungen, stimuliert durch visuelle Gestaltung und neuartige <strong>Interaktion</strong>sformen<br />
oder kommuniziert eine gewünschte Identität, z.B. indem es professionell, cool, modern,<br />
anders wirkt, besitzt es hedonische Qualität.“ (Hassenzahl et al., 2003, S. 188).<br />
Hedonische Qualitäten beziehen sich direkt auf die psychologischen Bedürfnissen<br />
des Benutzers und spielen heutzutage vor allem <strong>bei</strong> Produkten eine Rolle, für die es<br />
ein gesättigtes Angebot auf dem Markt gibt, wie es für mobile Endgeräte bereits seit<br />
längerem der Fall ist (Kreuzbauer & Malter, 2005). Die Nachahmung zwischenmenschlicher<br />
Kommunikation stellt bereits einen wesentlichen Aspekt hedonischer Qualität<br />
von multimodalen Systemen dar. Doch auch die Wahl einer bestimmten Modalität kann<br />
dadurch beeinflusst werden, dass diese als innovativ und originell wahrgenommen wird<br />
bzw. Nutzer erwarten, dadurch neue Handlungsmöglichkeiten offeriert zu bekommen.<br />
2.3.5 Präferenzen und statische Benutzerattribute<br />
Bei Benutzertests zur <strong>Modalitätenwahl</strong> liegen häufig erhöhte Varianzen in der<br />
Wahl einer bestimmten Modalität vor (z.B. Schaffer & Reitter, 2012). Diese Varianzen<br />
lassen sich zu einem vermutlich großen Teil auf persönliche Präferenzen der Nutzer<br />
26
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
zurückführen. Als sogenannte statische Benutzerattribute zählen <strong>bei</strong>spielsweise auch<br />
körperliche Eigenarten, Einstellungen, Charakterzüge, Bildung, Expertise und Affinitäten<br />
(vgl. Jöckel, 2010).<br />
2.3.6 Umgebungsfaktoren<br />
Insbesondere <strong>bei</strong> Multimodalität in mobilen Endgeräten, deren Nutzung in sehr<br />
unterschiedlichen und teilweise nur schwer vorhersehbaren Situationen erfolgen kann,<br />
spielen Umgebungsfaktoren für die <strong>Modalitätenwahl</strong> eine entscheidende Rolle. Nach<br />
Rohs (2009) können in diesem Bereich physische, psychische und soziale Einflussfaktoren<br />
unterschieden werden. Darunter fallen Aspekte wie Lichtverhältnisse, Umgebungslautstärke,<br />
Temperatur, Verbote oder soziale (Un-)Erwünschtheit (vgl. Jöckel, 2010).<br />
2.4 Fragestellung und experimentelle Hypothesen<br />
In diesem Abschnitt werden die drei zentralen Forschungsfragen der vorliegenden<br />
Ar<strong>bei</strong>t und die darauf aufbauenden Hypothesen vorgestellt. Falls nötig, wird im<br />
Rahmen der Forschungsfragen auf entsprechende Abschnitt des Theorieteils verwiesen.<br />
2.4.1 Forschungsfragen<br />
Die leitende Forschungsfrage für die vorliegende Untersuchung lautet, welchen<br />
Einfluss die fehlerbehaftete Erkennung von Nutzereingaben <strong>bei</strong> einem multimodalen<br />
System (manuelle Eingabe und Spracherkennung) auf das Nutzungsverhalten und die<br />
<strong>Modalitätenwahl</strong>, auf die subjektiv erlebte Anstrengung und auf subjektive Bewertungen<br />
von Produktqualitäten hat. Wie bereits dargestellt wurde (vgl. Abschnitt 2.3.1), basieren<br />
bisherige Untersuchungen ausschließlich auf der Manipulation von Spracherkennungsfehlern,<br />
jedoch wurde die äquivalente manuelle Modalität bislang nicht mit manipulierten<br />
Erkennungsfehlern untersucht.<br />
Die zweite Fragestellung zielt darauf ab, zu untersuchen, inwieweit sich Effizienzvorteile<br />
einer Modalität im Sinne einer geringen Anzahl an <strong>Interaktion</strong>sschritten zur<br />
Bear<strong>bei</strong>tung einer Aufgabe auf die <strong>Modalitätenwahl</strong> auswirken. Auch in diesem Bereich<br />
konnte bereits gezeigt, dass eine Reduktion an <strong>Interaktion</strong>sschritten <strong>bei</strong> der Sprachmanipulation<br />
dazu führt, dass die Modalität Sprache häufiger verwendet wird (vgl. Abschnitt<br />
2.3.2). Der Fokus in der vorliegenden Untersuchung liegt in einer Replikation<br />
27
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
und einer möglichen Erweiterung dieser Befunde, da durch die Manipulation der<br />
Touchinteraktion erstmals ein zweifaktorielles Versuchsdesign umgesetzt wird.<br />
Abschließend interessiert sich die Studie dafür, ob zeitbezogene Veränderungen<br />
in der <strong>Modalitätenwahl</strong>, in der mentalen Beanspruchung und in Produktbewertungen<br />
auftreten, wenn Probanden Gelegenheit haben, zwei Aufgabenblöcke im Rahmen einer<br />
Untersuchungseinheit zu bear<strong>bei</strong>ten. Bezüglich der <strong>Modalitätenwahl</strong> wird eine höhere<br />
Nutzung der Sprache im zweiten Block erwartet, da Probanden diese eher innovative<br />
Aktionsmodalität als Alternative zunehmend verfügbarer wird (vgl. Abschnitt 2.2.4.2).<br />
Auf Seiten der pragmatischen Qualität wird ebenfalls <strong>bei</strong> sinkender mentaler Beanspruchung<br />
ein Ansteigen erwartet, da fortschreitende Nutzung <strong>bei</strong> diesem einfachen prototypischen<br />
Gerät Lerneffekte begünstigen sollte und eine zunehmend spezialisierte Verwendung<br />
der Sprachmodalität die <strong>Interaktion</strong> effizienter machen sollte (vgl. Abschnitt<br />
2.2.4.3, Hornbaek, 2006). Auf Seiten der Attraktivitätsdimension wird davon ausgegangen,<br />
dass aufgrund von Familiarität durch die fortschreitende Darbietung des Untersuchungsgegenstandes<br />
die Einstellung der Probanden zum interaktiven Gerät im Sinne<br />
eines mere exposure Effekts positiv beeinflusst werden sollte (Zajonc, 1968).<br />
2.4.2 Experimentelle Hypothesen<br />
Zur Beantwortung der Fragestellungen wurden vor der experimentellen Untersuchung<br />
die folgenden Hypothesen aufgestellt, die entsprechend der betrachteten abhängigen<br />
Variablen zu drei Blöcken zusammengefasst werden:<br />
Hypothesenblock 1: Einflüsse auf das Nutzungsverhalten und die <strong>Modalitätenwahl</strong><br />
Die Modalität Sprache wird <strong>bei</strong> <strong>Interaktion</strong> mit einem multimodalen System häufiger<br />
angewendet, wenn<br />
H1.1 die Spracherkennung einwandfrei funktioniert.<br />
H1.2 die Toucherkennung fehlerbehaftet ist.<br />
H1.3 die Anwender mit der Nutzung von Sprache vertrauter sind.<br />
H1.4 <strong>Interaktion</strong>sziele <strong>bei</strong> Nutzung der Modalität Sprache effizienter erreicht<br />
werden können als <strong>bei</strong> Nutzung der Modalität Touch.<br />
H1.5 Während die Modalität Sprache <strong>bei</strong> einwandfreier Erkennung von Spracheingaben<br />
bereits <strong>bei</strong> geringen Effizienzvorteilen zur Modalität Touch verstärkt genutzt<br />
28
Theoretischer Hintergrund<br />
______________________________________________________________________________<br />
wird, führt eine Fehlerbehaftung dazu, dass eine vermehrte Nutzung von Sprache<br />
erst <strong>bei</strong> hohen Effizienzvorteilen vorliegt.<br />
H1.6 Während die Modalität Sprache <strong>bei</strong> fehlerbehafteter Erkennung von Toucheingaben<br />
bereits <strong>bei</strong> geringen Effizienzvorteilen zur Modalität Touch häufiger<br />
genutzt wird, führt eine einwandfreie Touchfunktionalität dazu, dass eine vermehrte<br />
Nutzung von Sprache erst <strong>bei</strong> hohen Effizienzvorteilen auftritt.<br />
Hypothesenblock 2: Einflüsse auf die subjektiv erlebte Anstrengung<br />
Nutzer erleben <strong>bei</strong> <strong>Interaktion</strong> mit einem multimodalen System eine geringere Beanspruchung,<br />
wenn<br />
H2.1 die Spracherkennung einwandfrei funktioniert.<br />
H2.2 die Toucherkennung einwandfrei funktioniert.<br />
H2.3 die Systemnutzung ihnen vertrauter ist.<br />
H2.4 Zunehmende Aufgabenkomplexität, die durch eine Effizienzsteigerung in der<br />
Modalität Sprache kompensiert werden kann, führt zu keiner bedeutsamen Steigerung<br />
in der subjektiv erlebten Anstrengung.<br />
Hypothesenblock 3: Einflüsse auf die Wahrnehmung von Produktqualitäten<br />
Die pragmatische Qualität eines multimodalen Systems wird höher bewertet, wenn<br />
H3.1 die Spracherkennung einwandfrei funktioniert.<br />
H3.2 die Toucherkennung einwandfrei funktioniert.<br />
H3.3 die Systemnutzung Nutzern vertrauter ist.<br />
Die globale Produktgüte (Attraktivität) eines multimodalen Systems wird höher bewertet,<br />
wenn<br />
H3.4 die Spracherkennung einwandfrei funktioniert.<br />
H3.5 die Toucherkennung einwandfrei funktioniert.<br />
H3.6 die Systemnutzung Nutzern vertrauter ist.<br />
29
Methoden<br />
______________________________________________________________________________<br />
3 Methoden<br />
3.1 Untersuchungsdesign und unabhängige Variablen<br />
Im vorliegenden Experiment wurde im Rahmen eines multimodalen Systems untersucht,<br />
welchen Einfluss die fehlerbehaftete Erkennung von Eingaben sowohl auf die<br />
Wahl der Modalität als auch auf subjektive Bewertungen ausübt. Der Untersuchung<br />
liegt ein vierfaktorieller 2x2x6x2-Versuchsplan mit Messwiederholung zugrunde.<br />
Als jeweils zweifachgestufte Zwischensubjektfaktoren wurden die <strong>bei</strong>den unabhängigen<br />
Variablen ‚fehlerbehaftete Spracherkennung‘ (keine Fehler, 20% Fehlerrate)<br />
sowie ‚fehlerbehaftete Toucherkennung‘ (keine Fehler, 20% Fehlerrate) manipuliert.<br />
Darüber hinaus wurde die Effizienzsteigerung der Spracheingabe gegenüber der<br />
Toucheingabe systematisch variiert. Hierzu wurde es Probanden ermöglicht, unterschiedlich<br />
aufwändige Touchinteraktionen (0 bis 5 zusätzliche Klicks) durch eine<br />
Sprachinteraktion (Nennung eines ein- bis mehrsilbigen Wortes) zu ersetzen. Diese unabhängige<br />
Variable wurde als Innersubjektfaktor umgesetzt und zeigte sich aufgrund<br />
der Einsparung von 0 bis 5 zusätzlichen <strong>Interaktion</strong>sschritten <strong>bei</strong> Nutzung der Spracheingabe<br />
als sechsfach gestuft. Komplettiert wird das Versuchsdesign durch einen weiteren<br />
zweifachgestuften Innersubjektfaktor, welcher eine Messwiederholung aller abhängigen<br />
Variablen in einem ersten und einem zweiten Aufgabenblock repräsentiert.<br />
3.2 Untersuchungsmaterial<br />
Als Untersuchungsmaterial wurde eine von Schaffer et al. (2011a) vorgeschlagene<br />
Simulationsumgebung weiterentwickelt und verwendet, welche ein interaktives<br />
Restaurantbuchungssystem als mobile Anwendung (Smartphone App) im Zustand eines<br />
Prototypen darstellt. Die Simulation wurde in Java für Android-Systeme programmiert<br />
und erlaubt, freie Variationen u.a. in der Ausgestaltung des Systems und in der Fehlerrate<br />
von Eingaben vorzunehmen. Für den Probanden sichtbar wird das Restaurantbuchungssystem<br />
auf einem mobilen Endgerät mit Touchscreen Funktionalität präsentiert.<br />
Die Buchung eines Restaurants erfolgt über Subaufgaben, nämlich die Wahl der<br />
Stadt, in der ein Tisch gebucht werden soll (z.B. „Berlin“), der Kategorie des Restaurants<br />
(z.B. „indisch“), der Uhrzeit (z.B. „18:00 Uhr“) und der Anzahl der anwesenden<br />
Personen (z.B. „4 Personen“). Welche Angaben Probanden jeweils genau auszuwählen<br />
haben, wurde ihnen in Form von prototypischen Bedienaufgaben stets vorgegeben.<br />
30
Methoden<br />
______________________________________________________________________________<br />
Um Eingaben im Restaurantbuchungssystem vorzunehmen, ist auf der Startseite<br />
der Anwendung zunächst das Kriterium der entsprechenden Subaufgabe auszuwählen<br />
(siehe Abbildung 7). Hierfür kann ein Nutzer jederzeit frei wählen, ob er die Auswahl<br />
per Touchscreen, also durch Drücken eines der grau unterlegten Buttons, oder per<br />
Spracheingabe vornimmt. Als Kommandos für die Spracheingabe sind die unmittelbaren<br />
Beschriftungen an den Buttons zu verwenden (z.B. „Stadt“ oder „Stadt auswählen“).<br />
Abbildung 7: Startbildschirm der Anwendung. Bei jeder Aufgabe sind Eingaben für die vier Subaufgaben:<br />
(1) Suche nach Stadt (2) nach der Kategorie (3) der Uhrzeit und (4) der Personenanzahl zu tätigen.<br />
Nach der Wahl des Suchkriteriums auf der Startseite erscheint für jede Subaufgabe<br />
anschließend der erste von insgesamt sechs Listenbildschirmen mit Auswahlmöglichkeiten<br />
zur erfolgreichen Bear<strong>bei</strong>tung der jeweiligen Subaufgabe (siehe Abbildung<br />
2). Die Sortierung der Auswahlmöglichkeiten erfolgt über alle sechs Listenbildschirme<br />
in erwarteter alphanumerischer Reihenfolge. Um die konkrete Eingabe vorzunehmen,<br />
werden Probanden instruiert, dass sie jederzeit frei entscheiden können, ob sie den<br />
Touchscreen oder die Spracheingabe verwendet möchten. Während über die Spracheingabe<br />
bereits auf dem ersten Listenbildschirm alle verfügbaren Eingaben auch von weiter<br />
hinten liegenden Listenbildschirmen erkannt werden, können per Toucheingabe nur<br />
Eingaben ausgewählt werden, die unmittelbar sichtbar sind und direkt angeklickt werden<br />
können. Um <strong>bei</strong> der Touchinteraktion also Eingaben von weiter hinten liegenden<br />
Listenbildschirmen auszuwählen, ist ein Klick auf die Taste mit dem blauen Pfeil am<br />
rechten unteren Rand der Anwendung notwendig, um zum jeweils nächsten Listenbildschirm<br />
geführt zu werden – und zwar solange bis der entsprechende Eintrag als grau<br />
unterlegter Button auf dem Listenbildschirm erscheint. Dessen Auswahl ist dann durch<br />
einen Klick zu bestätigen.<br />
31
Methoden<br />
______________________________________________________________________________<br />
Aachen<br />
Augsburg<br />
Berlin<br />
a)<br />
Bremen<br />
Aachen<br />
Chemnitz<br />
Essen<br />
Hamburg<br />
Leipzig<br />
Osnabrück<br />
Augsburg<br />
Cottbus<br />
Erfurt<br />
Hannover<br />
Lübeck<br />
Rostock<br />
Berlin<br />
Dortmund<br />
Frankfurt<br />
Kiel<br />
Mannheim<br />
Stuttgart<br />
Bremen<br />
Düsseldorf<br />
Freiburg<br />
Köln<br />
München<br />
Wiesbaden<br />
b)<br />
Abbildung 2: Listenbildschirme für die Subaufgabe „Stadt auswählen“. Während per Spracheingabe<br />
alle verfügbaren Eingaben bereits auf dem ersten Listenbildschirm erkannt werden (a), erfordert es die<br />
Toucheingabe, durch alle Listenbildschirme bis zur entsprechenden Eingabe zu klicken (b).<br />
Hat der Nutzer einen Eintrag für die Subaufgabe per Spracheingabe oder per<br />
Touchscreen ausgewählt, gelangt er automatisch zur Startseite zurück, auf dem nun die<br />
entsprechende Auswahl als übernommen angezeigt wird (siehe Abbildung 3a). Sind alle<br />
vier Subaufgaben entsprechend der Vorgaben einer Aufgabe bear<strong>bei</strong>tet, kann die Suche<br />
per Spracheingabe oder per Klick auf den Button „Restaurant suchen“ auf der Startseite<br />
abschließend initiiert werden (siehe Abbildung 3b). Damit ist die Aufgabe erfolgreich<br />
erledigt, und es erscheint ein Abschlussbildschirm mit der Möglichkeit, die nächste Suche<br />
zu starten (siehe Abbildung 3c).<br />
Berlin<br />
Berlin<br />
indisch<br />
18:00 Uhr<br />
4 Personen<br />
a) b) c)<br />
Abbildung 3: Startbildschirm <strong>bei</strong> fortschreitendem Bear<strong>bei</strong>tungsstand: (a) eine bear<strong>bei</strong>tete Subaufgabe<br />
(Stadtauswahl), (b) alle Subaufgaben bear<strong>bei</strong>tet, anschließend erfolgt der Start zur Suche mit dem<br />
Button „Restaurant suchen“, (c) Abschluss der Aufgabe (Endbildschirm).<br />
32
Methoden<br />
______________________________________________________________________________<br />
3.2.1 Manipulation der fehlerbehafteten Erkennung von Eingaben<br />
Im vorliegenden Versuch wurde die Erkennung sowohl von Spracheingaben als<br />
auch von Toucheingaben durch fehlerbehaftete <strong>Interaktion</strong>en systematisch manipuliert.<br />
Wie bereits in Abschnitt 2.3.1 erwähnt, werden als Fehler sogenannte „Auslassungen“<br />
verstanden, d.h. dass das System getätigte Eingaben des Nutzers nicht verar<strong>bei</strong>tet und<br />
Probanden somit gefordert sind, die entsprechende Eingabe erneut vorzunehmen. Um an<br />
bisherige Versuche anzuknüpfen und sowohl für die auditive als auch für die manuelle<br />
Eingabe vergleichbare und plausible Situationen realisieren zu können, wurden in der<br />
vorliegenden Untersuchungen weder Ergänzungen noch Ersetzungen als mögliche Fehler<br />
einbezogen (vgl. Hunt, 1990). Sowohl <strong>bei</strong> der Spracheingabe als auch <strong>bei</strong> der<br />
Touchinteraktion lag die Rate fehlerhafter Auslassungen in den entsprechenden Versuchsbedingungen<br />
<strong>bei</strong> jeweils 20 Prozent, sodass durchschnittlich jeder fünfte Aktionsschritt<br />
des Nutzers zu einer fehlenden Reaktion des Systems führte.<br />
3.2.1.1 Fehlerbehaftete Sprachinteraktion<br />
Im Fall der Sprachinteraktion erlebten Probanden fehlerhafte Auslassungen dadurch,<br />
dass sie grundsätzlich auf den Startbildschirm zurückgelangten und im unteren<br />
Bereich der Anwendung die Rückmeldung „Die Spracheingabe wurde nicht verstanden“<br />
für ca. 700 ms wahrnehmen konnten (siehe Abbildung 4). Die Fehlerrate wurde automatisch<br />
durch einen Wahrscheinlichkeitsalgorithmus erzeugt, sodass fehlerhafte Auslassungen<br />
in keinen regelmäßigen Abständen im Lauf der <strong>Interaktion</strong> auftraten.<br />
Abbildung 4: Feedback in der Bedingung fehlerbehafteter Eingaben <strong>bei</strong> der Sprachinteraktion.<br />
33
Methoden<br />
______________________________________________________________________________<br />
3.2.1.2 Fehlerbehaftete Touchinteraktion<br />
Fehlerhafte Auslassungen <strong>bei</strong> der Touchinteraktion nahmen Probanden dadurch<br />
wahr, dass sie den Touchscreen zwar berührten, das Gerät jedoch keine Reaktion zeigte<br />
und für 1.4 Sekunden nicht bedient werden konnte. Im Gegensatz zur Sprachinteraktion<br />
wurde <strong>bei</strong> fehlerhaften Auslassungen in der Touchinteraktion auf eine verbalisierte<br />
Rückmeldung an die Probanden verzichtet, da es äußerst unwahrscheinlich erschien,<br />
dass ein reales System solche Rückmeldungen <strong>bei</strong>m Nicht-Erkennen einer<br />
Toucheingabe produzieren würde. Bereits im Rahmen unsystematisch durchgeführter<br />
Vorbefragungen und Experteneinschätzungen zeigte sich, dass ein verbalisiertes Feedback<br />
für die Fehlermanipulation der Touchinteraktion aus anwendungsorientierter Sicht<br />
nicht überzeugend vermittelbar gewesen wäre.<br />
Zudem wurde <strong>bei</strong> der Ermittlung der Fehlerrate kein statistischer Algorithmus<br />
verwendet, sondern es wurde exakt jede fünfte Touchinteraktion mit einer fehlerbehafteten<br />
Auslassung versehen. Dies wiederum hat zur Folge, dass das Zurückwerfen auf<br />
die Startseite analog zur fehlerbehafteten Spracheingabe nicht umgesetzt werden konnte.<br />
In diesem Fall wären nämlich Subaufgaben, <strong>bei</strong> denen Zieleingaben auf dem vierten,<br />
fünften oder sechsten Listenbildschirm zu finden sind, durch die reine Touchinteraktion<br />
allein nicht mehr lösbar gewesen. Um den entstehenden Zeitvorteil <strong>bei</strong> fehlerbehafteten<br />
Eingaben in der Touchvariante auszugleichen, wurde die bereits erwähnte zeitliche Verzögerung<br />
von 1.4 Sekunden im Anschluss an den fehlerhaften Klick eingesetzt, in welcher<br />
das Gerät nicht bedient werden konnte. Diese Zeitspanne wurde empirisch ermittelt<br />
und entsprach der durchschnittlichen Zeit, die ein Nutzer benötigt, um vom Startbildschirm<br />
per Sprachinteraktion auf den ersten Listenbildschirm zu wechseln, von wo aus<br />
er per Sprachinteraktion alle verfügbaren Eingabeelemente auswählen kann. Durch diese<br />
Verzögerung zeigen sich <strong>bei</strong>de fehlerbehafteten Modalitäten bezüglich des zeitlichen<br />
Aufwandes der Aufgabenlösung wiederum miteinander vergleichbar.<br />
3.3 Versuchsaufbau<br />
Das vorliegende Experiment wurde als Wizard-of-Oz Versuch mit zwei Versuchsleitern<br />
umgesetzt. Hier<strong>bei</strong> betreut ein Versuchsleiter jeweils die Probanden und<br />
organisiert den Versuchsablauf, wohingegen der zweite Versuchsleiter für die Probanden<br />
nicht erkennbar im Hintergrund agiert und Systemreaktionen einleitet. Solche Ver-<br />
34
Methoden<br />
______________________________________________________________________________<br />
suchsaufbauten werden im Bereich der Mensch-Maschine-<strong>Interaktion</strong> immer dann verwendet,<br />
wenn nicht die technische Realisierung einer Systemkomponente im Vordergrund<br />
steht, sondern vielmehr das Nutzerverhalten und die Akzeptanz für bestimmte<br />
Gestaltungslösungen. Da Wizard-of-Oz Versuche bereits mit vereinfachten Prototypen<br />
durchgeführt werden können, stellen sie eine effektive Möglichkeit dar, um die Erfüllung<br />
von Nutzerbedürfnissen bereits in frühen Phasen der Produktentwicklung evaluieren<br />
und absichern zu können. Im vorliegenden Fall wurde die Spracherkennung durch<br />
einen zweiten Versuchsleiter simuliert. Die Entscheidung wurde zugunsten eines Wizard-of-Oz<br />
Versuchsaufbaus getroffen, da die gängige Spracherkennungstechnik keine<br />
absolut zuverlässige Versuchsbedingung (0% Fehlerrate) hätte garantieren können. Für<br />
den berichteten Versuch ist der Aufbau in Abbildung 5 dargestellt. Der Proband saß zur<br />
Bear<strong>bei</strong>tung der Aufgaben in einer schallisolierten Akustikkabine, welche mit einer<br />
Mikrofonverbindung zum zweiten Versuchsleiter (Wizard) präpariert war. Der Wizard<br />
befand sich während des gesamten Versuchs außerhalb der Kabine und war für den<br />
Probanden auch <strong>bei</strong>m Betreten des Versuchsraumes durch eine abgetrennte Wandverkleidung<br />
nicht sichtbar. Über einen Kopfhörer vernahm der Wizard die Sprachbefehle<br />
des Probanden, die er an das System stellte. Als mobiles Endgerät wurde ein Google G1<br />
Mobiltelefon von HTC mit Android 1.6 als Betriebssystem verwendet. Dieses wiederum<br />
war mittels einer TCP/IP-Verbindung über ein separates W-Lan-Netz und einer<br />
Übertragungsrate von 54 Mbit/s mit einem Rechner verbunden, an welchem der Wizard<br />
die gewünschten Eingaben des Probanden durch einen Klick direkt vornehmen konnte.<br />
Abbildung 5: Wizard-of-Oz Versuchsaufbau. Während der Proband in der Akustikkabine am Gerät<br />
ar<strong>bei</strong>tet, wurden Spracheingaben vom zweiten Versuchsleiter (Wizzard) außerhalb der Kabine simuliert.<br />
35
Methoden<br />
______________________________________________________________________________<br />
Da <strong>bei</strong> der Spracheingabe der Proband bereits auf dem ersten Listenbildschirm<br />
alle verfügbaren Elemente einer Subaufgabe nennen konnte, verfügte der Wizard über<br />
eine erweiterte Benutzerschnittstelle, die auf seinem Monitor sämtliche Eingabemöglichkeiten<br />
auf einen Blick darstellte. Da Nutzer auch jederzeit selbstständig per<br />
Toucheingabe mit dem Gerät interagieren konnten, zeigte eine rote Markierung jeweils,<br />
in welcher Subaufgabe sich ein Nutzer gerade befindet (siehe Abbildung 6). Zu bemerken<br />
ist an der Stelle, dass Fehler <strong>bei</strong> der Spracherkennung wie bereits im Abschnitt<br />
4.2.1 beschrieben, durch einen statistischen Wahrscheinlichkeitsalgorithmus automatisiert<br />
in die <strong>Interaktion</strong> eingebracht wurden. Somit reagierte der Wizard ausschließlich<br />
auf die Sprachkommandos des Probanden, wohingegen ihm die Manipulation der Fehler<br />
nicht zugänglich war.<br />
Abbildung 6: Systemansicht für den zweiten Versuchsleiter (Wizard). Rot markiert ist zur besseren<br />
Übersichtlichkeit die aktuell dem Probanden zur Verfügung stehende Auswahl an möglichen Eingaben.<br />
Insgesamt haben am Versuch vier verschiedene Versuchsleiter teilgenommen,<br />
wo<strong>bei</strong> ein Versuchsleiter durchweg als erster Versuchsleiter fungierte und drei Versuchsleiter<br />
sich als Wizard unsystematisch abwechselten. Die drei Wizards wurden in<br />
einem vorherigen Versuchsleitertraining auf ihren Einsatz vorbereitet und übten in verschiedenen<br />
Testläufen die Normalbedienung als auch ein konsistentes Reagieren auf<br />
kritische Bedienvorgänge, wie <strong>bei</strong>spielsweise unverständliche oder unvollständige<br />
Sprachkommandos.<br />
36
Methoden<br />
______________________________________________________________________________<br />
3.4 Abhängige Variablen und Messinstrumente<br />
Als abhängige Variablen wurden Verhaltensdaten und subjektive Bewertungen<br />
erhoben. Im Bereich des Nutzerverhaltens diente die relative Nutzungshäufigkeit von<br />
Sprache als Kennwert für die Wahl der Eingabemodalität. Als subjektive Bewertung<br />
wurde die erlebte Beanspruchung und die wahrgenommene Produktqualität als Gesamturteil<br />
über die <strong>Interaktion</strong> erhoben. Zur Messung der Beanspruchungshöhe diente im<br />
Anschluss an jede Aufgabe die eindimensionale Skala zur Erfassung der subjektiv erlebten<br />
Anstrengung (SEA) nach Eilers, Nachreiner & Hänecke (1986). Die Produktqualität<br />
wurde im Anschluss an jeden Aufgabenblock mit Hilfe des AttrakDiff nach<br />
Hassenzahl, Burmester & Koller (2003) erhoben. Dieser Fragebogen besteht aus insgesamt<br />
28 Items in Form eines semantischen Differentials, welche zu den vier Dimensionen<br />
(1) pragmatische Qualität, (2) hedonische Qualität – Identifikation, (3) hedonische<br />
Qualität – Stimulation und (4) Attraktivität aggregiert werden. Während die pragmatische<br />
Qualität vor allem Aspekte der Zielerreichung (Einfachheit, Übersichtlichkeit und<br />
Erwartungskonformität) betreffen, beschreiben die Dimensionen zur hedonischen Qualität<br />
vor allem nicht-aufgabenbezogene Systemeigenschaften, wie soziale Verbundenheit,<br />
Integration, Prestige (Identifikation) oder Originalität, Neuartigkeit und Motivation<br />
(Stimulation). Mit der Dimension Attraktivität wird ein globales Gesamturteil zum Produkt<br />
(Sympathie, Schönheit) erfasst.<br />
3.5 Datenaufbereitung<br />
Um die unmittelbare <strong>Interaktion</strong> mit dem mobilen Endgerät zu erheben, wurde<br />
für jede Versuchsperson ein Logfile in Form eines Excel-Dokumentes erstellt, in welches<br />
folgende Angaben automatisch abgespeichert wurden: (1) die Aufgabe, die die<br />
Person bear<strong>bei</strong>tete, (2) den Ausgangszustand des Systems vor der <strong>Interaktion</strong>, (3) die<br />
Modalität, mit der die <strong>Interaktion</strong> stattfand, (4) die Eingabe, die gemacht wurde und ob<br />
diese gegebenfalls mit einer fehlerbehaften Auslassung versehen wurde, (5) die Anzahl<br />
getätigter <strong>Interaktion</strong>sschritte seit Beginn einer Subaufgabe, (6) ein Systemzeitstempel<br />
und (7) der Druck in g/mm², mit dem eine Eingabe im Fall einer Touchinteraktion vorgenommen<br />
wurde. Im Rahmen der vorliegenden Ar<strong>bei</strong>t wurden ausschließlich aus der<br />
aufgezeichneten <strong>Modalitätenwahl</strong> relative Prozentangaben der Nutzung von Sprache für<br />
die <strong>bei</strong>den Bildschirmansichten Startseite und erster Listenbildschirm einer Subaufgabe<br />
ermittelt. Um die Angaben aus den aufgezeichneten Logfiles zu erhalten, wurde ein<br />
37
Methoden<br />
______________________________________________________________________________<br />
mathematischer Algorithmus in MatLAB ® verwendet, der die Werte für alle Subaufgaben<br />
sortierte und aggregierte. In Folge, lagen für jeden Probanden pro Aufgabenblock<br />
genau sechs Kennwerte vor, welche der jeweiligen Listenbildschirmtiefe der Subaufgabe<br />
entsprechen. Somit geben diese Werte die prozentuale Nutzung von Sprache an unter<br />
Berücksichtigung, auf welchem Listenbildschirm die konkreten Auswahlmöglichkeiten<br />
zu finden waren. Zur Analyse wurden die Kennwerte in die Statistiksoftware SPSS ®<br />
exportiert.<br />
Die Angaben zum subjektiven Erleben (Beanspruchung und Systembewertungen)<br />
wurden manuell in die Datenmaske übertragen. Hier<strong>bei</strong> wurden die SEA-Werte als<br />
Rohwerte ausgewertet, wohingegen die Items des AttrakDiff zu den unter 4.5 erwähnten<br />
Dimensionen aggregiert wurden.<br />
3.6 Untersuchungsablauf<br />
Nach dem Betreten des Untersuchungslabors führte der erste Versuchsleiter die<br />
Probanden unmittelbar in die Akustikkabine, wo sie auf einem bequemen Bürosessel<br />
Platz nehmen konnten. Die Akustikkabine wurde den Probanden als optimale Umgebung<br />
für die Untersuchung der Spracheingabemodalität eingeführt. Wie bereits in Abschnitt<br />
4.3 erläutert, lag der Ar<strong>bei</strong>tsplatz des zweiten Versuchsleiters, des Wizard, außerhalb<br />
der Akustikkabine durch mehrere Sichtschutzwände abgetrennt.<br />
Zu Beginn des Versuchs erklärten die Probanden ihr Einverständnis zur Teilnahme<br />
an der Untersuchung, und sie füllten einen kurzen Fragebogen zur Erhebung<br />
soziodemografischer Daten sowie ihrer Vorerfahrung mit Touchdisplays bzw. Sprachdialogsystemen<br />
aus. Anschließend wurden die Teilnehmer schriftlich über den Verlauf<br />
der Untersuchung sowie über die Bedienmöglichkeiten des Prototypen informiert. Hier<strong>bei</strong><br />
wurde ihnen erklärt, dass sie im Laufe der Untersuchung eine Reihe prototypischer<br />
Bedienaufgaben bear<strong>bei</strong>ten werden und dass der Prototyp sowohl per Toucheingabe als<br />
auch per Spracheingabe bedient werden kann. Die Probanden wurden instruiert, dass sie<br />
sich selbst für eine Eingabemodalität entscheiden können und ein Modalitätenwechsel<br />
jederzeit, auch innerhalb einer Aufgabe, möglich ist. Es wurde darauf hingewiesen,<br />
dass, egal welche Modalität genutzt wird, auf der Startseite zunächst das Kriterium<br />
(Stadt, Kategorie, Uhrzeit, Personen) auszuwählen ist, bevor die eigentliche Eingabe<br />
vorgenommen werden kann. Ebenso wurde erwähnt, dass per Spracheingabe bereits auf<br />
dem ersten Listenbildschirm alle verfügbaren Auswahlelemente aufgerufen werden<br />
können, während per Toucheingabe nur die unmittelbar angezeigten Elemente auf den<br />
38
Methoden<br />
______________________________________________________________________________<br />
Listenbildschirmen angeklickt werden können. Für die genauen Instruktionen sei an<br />
dieser Stelle auf den Anhang dieser Ar<strong>bei</strong>t (Abschnitt B) verwiesen.<br />
Daraufhin startete der Versuchsleiter eine der vier Anwendungsversionen auf<br />
dem Smartphone, zu der die Probanden zuvor randomisiert zugeordnet wurden (Sprache<br />
einwandfrei/ Touch einwandfrei, Sprache einwandfrei/ Touch fehlerbehaftet, Sprache<br />
fehlerbehaftet/ Touch einwandfrei, Sprache fehlerbehaftet/ Touch fehlerbehaftet). Um<br />
die Probanden mit dem Versuchsablauf vertraut zu machen und weitere standardisierte<br />
Instruktionen zu vermitteln, wurden zunächst drei Übungsdurchgänge unter Anwesenheit<br />
des Versuchsleiters durchgeführt. Hierzu bekamen die Probanden das Smartphone<br />
in die Hand unter Beachtung, dass sie das Gerät während des Versuchs stets in der linken<br />
Hand halten mögen, um Eingaben per Touch jederzeit mit der rechten Hand vornehmen<br />
zu können; keinesfalls sollte das Gerät während der Aufgabenbear<strong>bei</strong>tung unberührt<br />
auf dem Tisch liegen. Die Übungsdurchgänge bestanden aus drei Aufgaben, die<br />
den Probanden in Papierform vorgelegt wurden. Um <strong>bei</strong>de Eingabemodalitäten mit ihren<br />
Vor- und Nachteilen (Effizienzsteigerung durch Spracheingabe, manipulierte Fehlerbedingungen)<br />
kennenzulernen, war die erste Aufgabe ausschließlich per Touch zu<br />
erledigen und die zweite ausschließlich per Sprache. Die dritte Aufgabe konnte, wie<br />
instruiert, mit der präferierten Modalität bzw. unter einer jederzeit vorliegenden Wechselmöglichkeit<br />
bear<strong>bei</strong>tet werden. Nach jeder Aufgabe bewerteten die Probanden ihre<br />
subjektiv erlebte Anstrengung auf der SEA-Skala, die ihnen als Stift-Papier-Version<br />
vorgelegt wurde. Für einen geregelten Ablauf wurden Teilnehmer instruiert, den bereitgelegten<br />
Stift nur zum Ankreuzen in die Hand zu nehmen und diesen während der Aufgabenbear<strong>bei</strong>tung<br />
frei auf dem Tisch liegen zu lassen. Nach dem Training bestand die<br />
Möglichkeit, noch offene Fragen zum Versuch zu klären.<br />
Anschließend wurde die Akustikkabine geschlossen und die Probanden konnten<br />
die zwölf Aufgaben des ersten Blockes alleine und in ihrem eigenen Ar<strong>bei</strong>tstempo erledigen.<br />
Die Aufgaben wurden den Teilnehmern einzeln und nacheinander auf einem 14‘‘<br />
Monitor präsentiert und waren während der Bear<strong>bei</strong>tung für die Probanden jederzeit<br />
sichtbar. Bei der Aufgabenkonstruktion wurde im Vorfeld darauf geachtet, dass sechs<br />
der zwölf Aufgaben subaufgabenkonsistent waren, d.h. dass die Auswahlelemente für<br />
alle vier Subaufgaben einer Gesamtaufgabe auf einer bestimmten Listentiefe liegen (also<br />
alle vier Elemente auf dem jeweils ersten, zweiten, dritten, vierten, fünften oder<br />
sechsten Listenbildschirm). Für die übrigen sechs Aufgaben des Blockes wurde die Listentiefe<br />
<strong>bei</strong> den Subaufgaben systematisch variiert (siehe Abschnitt C.II im Anhang).<br />
39
Methoden<br />
______________________________________________________________________________<br />
Zudem wurde die Präsentationsreihenfolge der zwölf Aufgaben für alle Probanden innerhalb<br />
einer Versuchsbedingung systematisch ausbalanciert, um mögliche Reihenfolgeeffekte<br />
zu vermeiden (siehe Abschnitt D im Anhang). Nach jeder Aufgabe bewerteten<br />
die Probanden selbstständig die subjektiv erlebte Anstrengung, worauf sie zusätzlich<br />
über den Präsentationsbildschirm hingewiesen wurden. Nach Bear<strong>bei</strong>tung des ersten<br />
Blockes betrat der Versuchsleiter die Akustikkabine und überreichte den Probanden den<br />
Fragebogen AttrakDiff mit der Bitte, damit das Gesamtsystem zu bewerten. Währenddessen<br />
startete der Versuchsleiter die Anwendung erneut, wo<strong>bei</strong> jeder Proband im zweiten<br />
Aufgabenblock dieselbe Versuchsbedingung zugewiesen bekam wie im ersten<br />
Block. Ebenso waren Instruktionen und Ablauf für den zweiten Block identisch. Teilnehmer<br />
bear<strong>bei</strong>teten auch dieselben zwölf Aufgaben, jedoch wurden diese in einer anderen<br />
Reihenfolge präsentiert. Entgegen des ersten Aufgabenblockes erhielten alle Probanden<br />
im zweiten Aufgabenblock jedoch keine ausbalancierten Reihenfolgen, sondern<br />
es gab nur eine für alle Probanden zugewiesene Reihenfolge. Nach Erledigung des<br />
zweiten Blocks wurde auch der Fragebogen AttrakDiff ein zweites Mal vorgelegt.<br />
Begrüßung<br />
Einverständnis<br />
Instruktionen<br />
Trainingsaufgaben<br />
SEA-Skala<br />
Aufgaben im<br />
1.Block<br />
SEA-Skala<br />
AttrakDiff<br />
Aufgaben im<br />
2. Block<br />
SEA-Skala<br />
AttrakDiff<br />
Aufklärung<br />
Verabschiedung<br />
drei Aufgaben:<br />
(1) nur Touch<br />
(2) nur Sprache<br />
(3) multimodal<br />
12 Aufgaben<br />
ausbalancierte<br />
Reihenfolgen<br />
12 Aufgaben<br />
unbalancierte<br />
Reihenfolgen<br />
Abbildung 7: Schematischer Versuchsablauf.<br />
Zum Abschluss wurde die Teilnahmevergütung von 10 Euro ausbezahlt, und die<br />
Probanden wurden vor der Verabschiedung ausführlich über den Wizard-of-Oz Versuchsaufbau<br />
aufgeklärt. Je nach Versuchsbedingung dauerte eine Untersuchungseinheit<br />
zwischen 30 und 45 Minuten. Der schematische Versuchsablauf ist in Abbildung 7 grafisch<br />
zusammengefasst.<br />
3.7 Stichprobenbeschreibung<br />
An der Untersuchung haben insgesamt 48 Probanden teilgenommen, darunter 24<br />
Frauen und 24 Männer, welche gleichmäßig auf die vier Untersuchungsbedingungen<br />
40
Methoden<br />
______________________________________________________________________________<br />
verteilt wurden. Das Alter der Personen lag zwischen 19 und 40 Jahren mit einem<br />
Durchschnittsalter von M = 25.2 Jahren (s = 3.73). Die Akquise der Teilnehmer erfolgte<br />
über die Probandenserver der Humboldt-Universität (PESA) und des Zentrums Mensch-<br />
Maschine-Systeme sowie über die eMail-Verteiler der Studenten im Fach Human<br />
Factors an der Technischen Universität Berlin und der Studenten in Psychologie an der<br />
Freien Universität Berlin. Die Stichprobe bestand aus 44 Studenten unterschiedlicher<br />
Fachrichtungen, zwei Selbstständigen, einer Berufstätigen sowie einer Abiturientin.<br />
Bei der Rekrutierung wurden Personen ausgeschlossen, die an früheren Versuchen<br />
mit dem Restaurantbuchungssystem teilgenommen haben. Dennoch wiesen acht<br />
Probanden (17 Prozent) darauf hin, dass sie bereits aus anderen Untersuchungen Erfahrungen<br />
zum Einsatz von Sprachsteuerungssystemen mitbrachten.<br />
Die Hälfte aller Teilnehmer (n = 24) gab an, ein Mobiltelefon mit Touchscreen<br />
Display zu besitzen, welches in drei von vier Fällen (n = 18) zusätzlich auch über eine<br />
Funktion zur Spracheingabe verfügt. Bemerkenswert ist, dass nur ein Proband einschätzte,<br />
diese Funktion „oft“ zu verwenden, wohingegen fünf Probanden sie lediglich<br />
„selten“ und zwölf Probanden „nie“ benutzen. Darüber hinaus gab ein großer Teil der<br />
Stichprobe (n = 40 bzw. 83 Prozent) an, zumindest über gelegentliche Erfahrungen mit<br />
Sprachdialogsystemen (z.B. Hotline, Callcenter, etc.) zu verfügen. Ebenso werden interaktive<br />
Geräte mit Touchscreen Funktionalität von den meisten Teilnehmern (n = 39<br />
bzw. 81 Prozent) mindestens ein Mal pro Woche verwendet.<br />
Zusammenfassend kann somit festgehalten werden, dass die Teilnehmer des vorliegenden<br />
Experimentes hauptsächlich junge Studenten aus unterschiedlichen Fachdisziplinen<br />
sind, deren Verteilung im Bereich selbst eingeschätzter Nutzungserfahrung für<br />
ein insgesamt technikaffin ausgeprägtes Nutzungsverhalten sprechen.<br />
41
Ergebnisse<br />
______________________________________________________________________________<br />
4 Ergebnisse<br />
Im folgenden Kapitel werden die Ergebnisse der experimentellen Untersuchung<br />
berichtet. Begonnen wird mit der Prüfung der statistischen Voraussetzungen in den Verteilungen<br />
der abhängigen Variablen. Im zweiten Abschnitt werden anschließend die<br />
Ergebnisse zur <strong>Modalitätenwahl</strong> vorgestellt. Die Prüfung der statistischen Bedeutsamkeit<br />
von Unterschieden in der subjektiv erlebten Anstrengung fasst der dritte Abschnitt<br />
zusammen, diejenigen zur wahrgenommenen Produktqualität sodann der vierte Abschnitt.<br />
4.1 Prüfung der statistischen Voraussetzungen<br />
Bevor die durchgeführten Analysen dargelegt werden, sind zunächst die statistischen<br />
Voraussetzungen in den Verteilungen der abhängigen Variablen zu betrachten.<br />
Als wichtigste Merkmale <strong>bei</strong> der Durchführung von (multivariaten) Varianzanalysen<br />
mit Messwiederholung sind die Annahmen zur Normalverteilung, zur Varianzhomogenität<br />
und ggf. zur Sphärizität zu überprüfen (Backhaus et al., 2011).<br />
Der Test auf Normalverteilung der Variablen wurde aufgrund der vorliegenden<br />
Stichprobengröße (n = 48) mit dem Shapiro-Wilk-Test durchgeführt, der sich für Stichproben<br />
bis zu n < 50 eignet. Ist der Shapiro-Wilk-Test signifikant (p < .05), weicht die<br />
untersuchte Variable von der Normalverteilung ab. Es zeigte sich, dass für den überwiegenden<br />
Teil der abhängigen Variablen signifikante Werte im Shapiro-Wilk-Test vorliegen,<br />
sodass in diesen Fällen nicht von einer Normalverteilung ausgegangen werden<br />
kann (siehe Tabelle im Anhang). Bei dem Shapiro-Wilk-Test handelt es sich um ein<br />
sehr sensitives Maß für die Nicht-Normalverteilung (Hopkins & Weeks, 1990). Einige<br />
Autoren betrachten Abweichungen von der Normalverteilung als unproblematisch,<br />
wenn die Schiefe der Verteilung einen Betrag von unter drei und eine Kurtosis von<br />
nicht größer als zehn aufweist (z.B. Kline, 1998). Die Betrachtung der entsprechenden<br />
Kennwerte zeigt, dass diese Kriterien durchweg für sämtliche kritische Verteilungen<br />
erfüllt sind (siehe Abschnitt F.I im Anhang). Aus diesem Grund wurde von einer Transformation<br />
der berichteten Variablen abgesehen.<br />
Die Homogenität der Varianz für jede abhängige Variable über alle Stufenkombinationen<br />
der Zwischensubjektfaktoren wurde mit dem Levene-Test auf Gleichheit der<br />
Kovarianzen überprüft. Ist der Levene-Test signifikant (p < .05), muss davon ausgegan-<br />
42
Ergebnisse<br />
______________________________________________________________________________<br />
gen werden, dass die Varianzhomogenität verletzt ist. Die Ergebnisse zeigen, dass der<br />
Levene-Test in mehreren Fällen (<strong>bei</strong> 47 Prozent aller Überprüfungen) zu signifikanten<br />
Resultaten führt (siehe Abschnitt F.II Anhang). Da im vorliegenden Versuchsdesign<br />
jedoch alle Zellen vollständig und gleichmäßig besetzt sind und inhomogene Varianzen<br />
die Interpretation der Varianzanalyse nur dann ernsthaft in Frage stellen, wenn die<br />
Gruppengröße der verglichenen Zellen ungleich groß bzw. das Verhältnis zwischen<br />
größter und kleinster Zellenbesetzung größer als 1.5 ist (Tinsley & Brown, 2000), wurde<br />
auch in diesem Fall von einer Transformation der Werte abgesehen.<br />
Die Voraussetzung der Sphärizität wurde mit dem Mauchly-Test geprüft. Dieser<br />
Test analysiert, ob die Varianzen der Differenzen zwischen Messwertpaaren in Messwiederholungsdesigns<br />
gleich groß sind. Da die Überprüfung der Sphärizität erst für Innersubjektfaktoren<br />
relevant wird, die mindestens dreifach gestuft sind, wurde der<br />
Mauchly-Test nur für den Faktor Listentiefe und nicht für den Faktor Aufgabenblock<br />
angewendet. In einer durchgeführten Varianzanalyse lieferte der Mauchly-Test für den<br />
Faktor Listentiefe ein signifikantes Ergebnis (p < .05), sodass angenommen werden<br />
muss, dass die Voraussetzung der Sphärizität verletzt ist (siehe Abschnitt 5.3). In einer<br />
weiteren Varianzanalyse erwies sich die Annahme der Sphärizität für den <strong>Interaktion</strong>sterm<br />
Listentiefe x Aufgabenblock als nicht erfüllt (siehe Abschnitt 5.4). In <strong>bei</strong>den Fällen<br />
wurde für die Bestimmung der Signifikanz eine Adjustierung der Zähler- und<br />
Nennerfreiheitsgrade mit Hilfe der Greenhouse-Geisser Korrektur vorgenommen. Bei<br />
der Vorstellung der Analyseverfahren in der Einleitung dieser Abschnitte wird auf diese<br />
Anpassung erneut hingewiesen.<br />
4.2 Analyse der <strong>Modalitätenwahl</strong><br />
Um zu überprüfen, inwieweit fehlerhafte Auslassungen in den Eingabemodalitäten<br />
einerseits und der manipulierte Effizienzvorteil von Sprache gegenüber Toucheingaben<br />
andererseits zu systematischen Veränderungen in der <strong>Modalitätenwahl</strong> führten,<br />
wurden die relativen Häufigkeiten der Sprachnutzung auf dem Startbildschirm sowie<br />
die nach Subaufgaben aggregierten relativen Häufigkeiten der Nutzung von Sprache<br />
auf dem jeweils ersten Listenbildschirm einer Subaufgabe ausgewertet. Beide Analysen<br />
werden in den folgenden Abschnitten berichtet.<br />
43
Ergebnisse<br />
______________________________________________________________________________<br />
4.2.1 <strong>Modalitätenwahl</strong> auf dem Startbildschirm<br />
Zur Analyse der <strong>Modalitätenwahl</strong> auf dem Startbildschirm der Anwendung wurde<br />
eine 2x2x2 Varianzanalyse mit einfacher Messwiederholung und den <strong>bei</strong>den unabhängigen<br />
Variablen Spracherkennung (einwandfrei: S+/ fehlerhaft: S-) sowie Toucherkennung<br />
(einwandfrei: T+/ fehlerhaft: T-) gerechnet. Die inferenzstatistischen Ergebnisse<br />
der Analyse sind in Tabelle 3 zusammengefasst.<br />
Tabelle 3: Varianzanalyse zur Sprachnutzung auf der Startseite. Anmerkung: (*) p < .1; ** p < .01.<br />
Quelle der Varianz F df1 df2 p part. η 2<br />
Spracherkennung (S) - between 2.967 1 44 .092 (*) 0.063<br />
Toucherkennung (T) - between 18.049 1 44 < .001 ** 0.291<br />
Aufgabenblock (B) - within 0.009 1 44 .923 < 0.001<br />
S x T 0.579 1 44 .451 0.013<br />
B x T 1.444 1 44 .236 0.032<br />
B x S 0.723 1 44 .400 0.016<br />
B x S x T 0.858 1 44 .359 0.019<br />
Für <strong>Interaktion</strong>en auf dem Startbildschirm zeigt sich, dass die Präferenz für die<br />
Verwendung der Modalität Sprache bedeutsam von Fehlern in der Toucherkennung,<br />
jedoch nur tendenziell von Fehlern in der Spracherkennung beeinflusst wird (siehe Tabelle<br />
3). Entsprechend der Mittelwerte in Abbildung 8 ist ersichtlich, dass fehlerhafte<br />
Auslassungen in der Modalität Touch (T-) erwartungsgemäß dazu führen, dass Sprache<br />
signifikant häufiger gewählt wird. Ebenfalls erwartungskonform ist die Tendenz zur<br />
geringeren Sprachnutzung, wenn das System Spracherkennungsfehler (S-) produziert.<br />
Zwischen den zwei Aufgabenblöcken liegen keine relevanten Unterschiede vor.<br />
Sprachnutzung auf dem Startbildschirm<br />
1<br />
0,8<br />
0,6<br />
0,4<br />
0,2<br />
0<br />
keine Touchfehler (T+)<br />
Touchfehler (T-)<br />
Spracherkennungsfehler (S-)<br />
keine Spracherkennungsfehler (S+)<br />
Abbildung 8: Mittelwerte und Standardabweichungen der <strong>Modalitätenwahl</strong> Sprache (relative Häufigkeiten)<br />
auf dem Startbildschirm in Abhängigkeit zu den vier Versuchsbedingungen.<br />
44
Ergebnisse<br />
______________________________________________________________________________<br />
4.2.2 <strong>Modalitätenwahl</strong> auf den Listenbildschirmen<br />
Um zu überprüfen, inwieweit die Modalität Sprache auf dem jeweils ersten Listenbildschirm<br />
einer Subaufgabe unterschiedlich häufig in Abhängigkeit zu den fehlerbehafteten<br />
Eingabemodalitäten und zur manipulierten Listentiefe der auszuwählenden<br />
Einträge verwendet wird, wurde eine 2x2x6x2 Varianzanalyse mit einfacher Messwiederholung<br />
sowie der fehlerbehafteten Spracherkennung (einwandfrei: S+/ fehlerhaft: S-)<br />
und der fehlerbehafteten Toucherkennung (einwandfrei: T+/ fehlerhaft: T-) gerechnet.<br />
Als sechsfachgestufter Innersubjektfaktor gingen in die Analyse die nach Listentiefe<br />
sortierten und aggregierten Werte der Sprachnutzung für alle 48 Subaufgaben eines<br />
Aufgabenblockes ein. Jede Faktorstufe wird somit durch einen Mittelwert aus acht Einzelmessungen<br />
präsentiert. Die Resultate der Varianzanalyse zeigt Tabelle 4. Zu beachten<br />
ist hier<strong>bei</strong>, dass sich für den Innersubjektfaktor Listentiefe (L) die<br />
Sphärizitätsannahme als Voraussetzung für die Interpretation der Ergebnisse einer Varianzanalyse<br />
mit Messwiederholung als verletzt zeigt (p < .01), sodass die<br />
Signifikanzprüfung in diesen Fällen nach einer Adjustierung der Zähler- und Nennerfreiheitsgrade<br />
mit Hilfe der Greenhouse-Geisser Korrektur vorgenommen wurde.<br />
Tabelle 4: Varianzanalyse zur Sprachnutzung auf dem jeweils ersten Listenbildschirm einer Subaufgabe.<br />
Anmerkung: 1 = Greenhouse-Geisser korrigierte Freiheitsgrade; (*) p < .1; * p < .05; ** p < .01.<br />
Quelle der Varianz F df1 df2 p part. η 2<br />
Spracherkennung (S) - between 0.149 1 44 .701 0.003<br />
Toucherkennung (T) - between 11.994 1 44 .001 ** 0.214<br />
Listentiefe (L) – within 30.837 2.38 1 104.58 1 < .001 ** 0.412<br />
Aufgabenblock (B) - within 9.977 1 44 < .003 ** 0.185<br />
S x T 0.534 1 44 .469 0.012<br />
S x L 1.793 2.38 1 104.58 1 .165 0.039<br />
S x B 0.035 1 44 .853 0.001<br />
T x L 4.100 2.38 1 104.58 1 .014 * 0.085<br />
T x B 3.674 1 44 .062 (*) 0.019<br />
L x B 1.288 3.45 1 151.95 1 .280 0.028<br />
S x T x B 0.907 1 44 .346 0.020<br />
S x L x B 0.366 3.45 1 151.95 1 .805 0.008<br />
T x L x B 0.258 3.45 1 151.95 1 .881 0.006<br />
S x T x L 0.625 2.38 1 104.58 1 .564 0.014<br />
S x T x L x B 1.739 3.45 1 151.95 1 .153 0.038<br />
45
Ergebnisse<br />
______________________________________________________________________________<br />
Analog zum <strong>Interaktion</strong>sverhalten auf dem Startbildschirm beeinflusste das Vorliegen<br />
von Fehlern in der Modalität Touch die Präferenz für die Nutzung von Sprache<br />
signifikant, wohingegen Spracherkennungsfehler keinen bedeutsamen Einfluss auf die<br />
Nutzung der Sprachmodalität ausübten. Die vorliegenden Unterschiede in der Häufigkeit<br />
der Sprachnutzung visualisiert Abbildung 9 grafisch. Bereits deskriptiv ist zur erkennen,<br />
dass die Systemvarianten mit Touchfehlern (blaue und violette Kurven: T-) in<br />
<strong>bei</strong>den Aufgabenblöcken mit einer deutlich erhöhten Sprachnutzung einhergehen.<br />
Zudem konnte beobachtet werden, dass die <strong>Modalitätenwahl</strong> auf den jeweils ersten<br />
Listenbildschirmen bedeutsam davon abhängt, auf welchem Listenbildschirm das<br />
entsprechende Auswahlelement zu finden war: Je höher die Listentiefe ist und je mehr<br />
Klickinteraktionen per Toucheingabe erforderlich wären, um die Aufgabe erfolgreich zu<br />
bear<strong>bei</strong>ten, desto wahrscheinlicher wird es, dass Nutzer den <strong>Interaktion</strong>svorteil der direkten<br />
Spracheingabe auf dem ersten Listenbildschirm akzeptieren (siehe Abbildung 9).<br />
Bonferroni korrigierte post Hoc Einzelpaarvergleiche 1 zeigen auf, dass die relative Häufigkeit<br />
der Sprachnutzung zwischen den <strong>bei</strong>den Bedingungen der Touchfunktionalität<br />
(einwandfrei: T+ und fehlerhaft: T-) im ersten Aufgabenblock signifikant unterschiedlich<br />
ausfällt, wenn die Eingaben auf dem ersten, zweiten oder dritten Listenbildbildschirm<br />
zu finden sind. Demnach verwenden Nutzer die Modalität Touch häufiger, wenn<br />
der Vorteil gegenüber Sprache eine Einsparung von bis zu zwei <strong>Interaktion</strong>sschritten<br />
<strong>bei</strong>nhaltet, allerdings nur, wenn die Modalität Touch nicht fehlerbehaftet ist. Im zweiten<br />
Aufgabenblock zeigen die Bonferroni post Hoc Einzelpaarvergleiche 1 , dass die fehlerfrei<br />
funktionierende Modalität Touch lediglich <strong>bei</strong> Eingaben auf dem ersten Listenbildschirm<br />
verwendet wird, also nur dann, wenn kein direkter Effizienzvorteil der Modalität<br />
Sprache im Sinne eingesparter <strong>Interaktion</strong>sschritte vorliegt.<br />
1 Zur Bonferroni-Korrektur wurden die relevanten Mittelwerte auf der Basis von t-Tests verglichen und<br />
die Grenze zur Signifikanzprüfung auf das lokale Alpha-Niveau von α lok = α global / k herabgesetzt, wo<strong>bei</strong><br />
α global dem in den t-Tests ermittelten Signifikanzniveau entspricht und k die Anzahl an durchgeführten<br />
Einzelpaarvergleichen präsentiert.<br />
46
Ergebnisse<br />
______________________________________________________________________________<br />
.<br />
1. Aufgabenblock<br />
relative Häufigkeit der Sprachnutzung<br />
2. Aufgabenblock<br />
Listentiefe<br />
Listentiefe<br />
Abbildung 9: Mittelwertverläufe der <strong>Modalitätenwahl</strong> Sprache (relative Häufigkeiten) auf dem<br />
jeweils ersten Listenbildschirm einer Subaufgabe für die vier verschiedenen Versuchsbedingungen im<br />
ersten (oben) bzw. zweiten Aufgabenblock (unten). Auf der Abszisse ist die Listentiefe der Auswahlelemente<br />
abgetragen, der Wert „5“ bedeutet demnach, dass das Element auf dem fünften Listenbildschirm zu<br />
finden ist.<br />
Die signifikante <strong>Interaktion</strong> zwischen der Listentiefe und der Versuchsbedingung<br />
Touch zeigt darüber hinaus, dass die Zunahme der Sprachnutzung über die Listentiefe<br />
hinweg für die Bedingungen mit fehlerbehafteter Toucheingabe (blaue und violette<br />
Kurven in Abbildung 9) auf bereits hohem Niveau eher flach ausfällt, wohingegen der<br />
<strong>Interaktion</strong>svorteil <strong>bei</strong> einwandfreier Toucherkennung (orange und grün) bedeutsam<br />
steiler verläuft. Inhaltlich bedeutet dies, dass Probanden für die Auswahl von Elementen,<br />
welche bereits direkt auf dem ersten bzw. noch auf dem zweiten Listenbildschirm<br />
zu finden waren, eher die Modalität Touch verwendet haben und zwar insbesondere<br />
dann, wenn diese Modalität nicht mit fehlerhaften Auslassungen versehen war.<br />
Wie Tabelle 3 zudem darstellt, entschieden sich die Probanden im zweiten Aufgabenblock<br />
signifikant öfter für die Modalität Sprache als im ersten Block (M = .82,<br />
s = 0.22 versus M = .78 s = 0.24).<br />
47
Ergebnisse<br />
______________________________________________________________________________<br />
4.3 Analyse der subjektiv erlebten Anstrengung (SEA)<br />
Die Werte zur wahrgenommenen Beanspruchung wurden ebenfalls in einer<br />
2x2x6x2 Varianzanalyse mit Messwiederholung ausgewertet. Da die Bewertungen retrospektiv,<br />
also nach Abschluss jeder Aufgabe, erhoben worden sind, konnten nur diejenigen<br />
sechs Beanspruchungsurteile pro Aufgabenblock in die Analyse aufgenommen<br />
werden, für die die Aufgaben aus konsistenten Subaufgaben bestanden. Konsistent bedeutet<br />
an dieser Stelle, dass alle vier Subaufgaben, auf die sich das eine Abschlussurteil<br />
bezieht, eine identische Listentiefe aufweisen. Im Gegensatz zur <strong>Modalitätenwahl</strong>, <strong>bei</strong><br />
der alle Subaufgaben berücksichtigt werden konnten, werden die Faktorstufen der Listentiefe<br />
in der Messung der subjektiv erlebten Anstrengung somit jeweils durch genau<br />
eine Einzelmessung präsentiert. Während die Sphärizitätsannahme für den Faktor Listentiefe<br />
nicht mit ausreichender Sicherheit verworfen kann, erzielte der Mauchly-Test<br />
für die <strong>Interaktion</strong> der Innersubjektfaktoren Aufgabenblock x Listentiefe (B x L) ein<br />
signifikantes Ergebnis (p < .01), sodass die Freiheitsgrade für diesen Fall korrigiert<br />
worden sind (vgl. Abschnitt 5.1). Die Resultate der Varianzanalyse fasst Tabelle 5 zusammen,<br />
die deskriptiven Daten werden in Abbildung 10 grafisch dargestellt.<br />
Tabelle 5: Varianzanalyse zur subjektiv erlebten Anstrengung. Anmerkung: 1 = Greenhouse-Geisser<br />
korrigierte Freiheitsgrade; (*) p < .1; * p < .05; ** p < .01.<br />
Quelle der Varianz F df1 df2 p part. η 2<br />
Spracherkennung (S) - between 16.898 1 44 < .001 ** 0.277<br />
Toucherkennung (T) - between 5.036 1 44 .030 * 0.103<br />
Listentiefe (L) – within 1.170 5 220 .325 0.026<br />
Aufgabenblock (B) - within 6.214 1 44 .017 * 0.124<br />
S x T 3.378 1 44 .073 (*) 0.071<br />
S x L 0.591 5 220 .707 0.013<br />
S x B 0.401 1 44 .530 0.090<br />
T x L 2.232 5 220 .052 (*) 0.048<br />
T x B 0.277 1 44 .601 0.006<br />
L x B 1.490 3.11 1 137.03 1 .219 0.033<br />
S x T x B 0.210 1 44 .649 0.005<br />
S x L x B 1.378 3.11 1 137.03 1 .251 0.030<br />
T x L x B 0.766 3.11 1 137.03 1 .519 0.017<br />
S x T x L 1.706 5 220 .134 0.037<br />
S x T x L x B 0.833 3.11 1 137.03 1 .481 0.019<br />
48
Ergebnisse<br />
______________________________________________________________________________<br />
Wie aus Abbildung 10 deutlich wird, liegen die SEA-Bewertungen insgesamt in<br />
einem Bereich geringer Beanspruchung; zur besseren Übersichtlichkeit ist die Ordinate<br />
daher verkürzt dargestellt. Die Varianzanalyse zeigt signifikante Effekte aufgrund der<br />
Manipulation von Fehlern sowohl in der Spracherkennung als auch in der<br />
Touchbedienung (siehe Tabelle 4). Erwartungsgemäß nahmen Probanden höhere Beanspruchung<br />
wahr, wenn fehlerhafte Auslassungen in der Modalität Sprache (M = 31.39,<br />
s = 20.71 versus M = 12.91, s = 11.37 <strong>bei</strong> einwandfreier Funktionalität) oder in der<br />
Modalität Touch (M = 27.20, s = 22.49 versus M = 17.10, s = 13.62 <strong>bei</strong> einwandfreier<br />
Funktionalität) vorlagen. Besonders hohe Werte in der Beanspruchung liegen in der<br />
Versuchsbedingung vor, welche fehlerhafte Auslassungen sowohl in der Modalität<br />
Sprache als auch in der Modalität Touch aufweist (siehe violette Kurve in Abbildung<br />
10). Bonferroni post hoc Paarvergleiche 2 zwischen den vier Systemvarianten zeigen auf,<br />
dass die subjektiv erlebte Anstrengung in dieser Bedingung über den Faktor Listentiefe<br />
hinweg signifikant von allen anderen drei Systemen abweicht (p < .05).<br />
Neben den Zwischensubjektfaktoren weist auch der Innersubjektfaktor Aufgabenblock<br />
einen signifikanten Einfluss auf die Beanspruchungswerte auf, dahingehend,<br />
dass im zweiten Aufgabenblock durchschnittlich geringere Werte in der subjektiv erlebten<br />
Anstrengung angegeben werden (M = 24.92, s = 22.36 im ersten Block versus<br />
M = 19.38, s = 19.25 im zweiten Block).<br />
2 Zur Bonferroni-Korrektur wurden die relevanten Mittelwerte auf der Basis von t-Tests verglichen und<br />
die Grenze zur Signifikanzprüfung auf das lokale Alpha-Niveau von α lok = α global / k herabgesetzt, wo<strong>bei</strong><br />
α global dem in den t-Tests ermittelten Signifikanzniveau entspricht und k die Anzahl an durchgeführten<br />
Einzelpaarvergleichen präsentiert.<br />
49
Ergebnisse<br />
______________________________________________________________________________<br />
1. Aufgabenblock<br />
SEA-Bewertungen [0-220]<br />
2. Aufgabenblock<br />
Listentiefe<br />
Listentiefe<br />
Abbildung 10: Mittelwertverläufe der subjektiv erlebten Anstrengung auf dem jeweils ersten Listenbildschirm<br />
einer Subaufgabe für die vier verschiedenen Versuchsbedingungen im ersten (oben) bzw.<br />
zweiten Aufgabenblock (unten). Auf der Abszisse ist die Listentiefe der Auswahlelemente abgetragen,<br />
der Wert „5“ bedeutet demnach, dass das Element auf dem fünften Listenbildschirm zu finden ist.<br />
4.4 Wahrgenommene Produktqualitäten (AttrakDiff)<br />
Für die Analyse des Fragebogens zu wahrgenommenen Produktqualitäten<br />
(AttrakDiff) wurde eine 2x2x2 multivariate Varianzanalyse mit einfacher Messwiederholung<br />
auf den unabhängigen Variablen Spracherkennung (einwandfrei: S+/ fehlerhaft:<br />
S-) und Toucherkennung (einwandfrei: T+/ fehlerhaft: T-) gerechnet. Als abhängige<br />
Messwerte wurden die vier Dimensionen des Fragebogens (pragmatische Qualität, Identifikation,<br />
Stimulation und Attraktivität) in die Analyse einbezogen. Aus Gründen der<br />
Übersichtlichkeit werden in diesem Abschnitt nur die signifikanten Ergebnisse nach den<br />
vier Dimensionen sortiert, vorgestellt. Für eine Gesamtübersicht der Varianzanalyse<br />
wird auf die entsprechende Tabelle im Anhang verwiesen.<br />
Bei den Bewertungen zur pragmatischen Qualität stellte sich heraus, dass die<br />
Systemvarianten mit fehlerhaften Auslassungen in der Modalität Sprache (S-) durchweg<br />
50
Ergebnisse<br />
______________________________________________________________________________<br />
geringer bewertet werden (F(1,44) = 13.768, p < .01, η p 2 = 0.238), wie aus den Mittelwertunterschieden<br />
in Abbildung 11 grafisch deutlich wird. In Abhängigkeit zu den<br />
Faktorstufen der manipulierten Touchfunktionalität fällt dieser Unterschied <strong>bei</strong>m Vorliegen<br />
von fehlerhaften Auslassung in der Touchbedienung (T-) signifikant stärker auf,<br />
als <strong>bei</strong> der einwandfrei funktionierenden Modalität Touch (T+), was am <strong>Interaktion</strong>seffekt<br />
zwischen den <strong>bei</strong>den unabhängigen Faktoren deutlich wird (F(1,44) = 4.856, p <<br />
.05, η p 2 = 0.099). Im Sinne eines generellen Haupteffekts beeinflussen die Fehler in der<br />
Touchbedienung die abschließenden Gesamturteile jedoch nicht bedeutsam, ebenso<br />
zeigten sich die Unterschiede zwischen den Aufgabenblöcken als nicht signifikant.<br />
Pragmatische Qualität<br />
3<br />
2<br />
1<br />
0<br />
-1<br />
Touchfehler<br />
(T-)<br />
keine Touchfehler<br />
(T+)<br />
Touchfehler<br />
(T-)<br />
keine Touchfehler<br />
(T+)<br />
-2<br />
-3<br />
1. Aufgabenblock 2. Aufgabenblock<br />
Spracherkennungsfehler (S-)<br />
keine Spracherkennungsfehler (S+)<br />
Abbildung 11: Mittelwerte und Standardabweichung der wahrgenommenen pragmatischen Qualität<br />
in Abhängigkeit zu den drei jeweils zweifachgestuften unabhängigen Variablen.<br />
Bezüglich der hedonischen Qualität Identifikation zeigte sich analog zur pragmatischen<br />
Qualität, dass die fehlerbehaftete Modalität Sprache (S-) zu geringeren Bewertungen<br />
führte (F(1,44) = 4.955, p < .05, η 2 p = 0.101). Darüber hinaus liegen keine<br />
weiteren bedeutsamen Haupteffekte bzw. <strong>Interaktion</strong>seffekte auf diese abhängige Variable<br />
vor. Die Mittelwertunterschiede sind der Abbildung 12 zu entnehmen.<br />
51
Ergebnisse<br />
______________________________________________________________________________<br />
Hedonische Qualität: Identifikation<br />
3<br />
2<br />
1<br />
0<br />
-1<br />
Touchfehler<br />
(T-)<br />
keine Touchfehler<br />
(T+)<br />
Touchfehler<br />
(T-)<br />
keine Touchfehler<br />
(T+)<br />
-2<br />
-3<br />
1. Aufgabenblock 2. Aufgabenblock<br />
Spracherkennungsfehler (S-)<br />
keine Spracherkennungsfehler (S+)<br />
Abbildung 12: Mittelwerte und Standardabweichung der wahrgenommenen hedonischen Qualität<br />
Identifikation in Abhängigkeit zu den drei jeweils zweifachgestuften unabhängigen Variablen.<br />
Während für die hedonische Qualität Stimulation keine bedeutsamen Haupteffekte<br />
beobachtet werden konnten, zeigt der signifikante <strong>Interaktion</strong>seffekt zwischen den<br />
unabhängigen Variablen auf, dass hohe Werte vor allem dann vorliegen, wenn entweder<br />
<strong>bei</strong>de Eingabemodalitäten fehlerbehaftet sind oder <strong>bei</strong>de Modalitäten einwandfrei funktionieren.<br />
Geringe Werte in der Stimulation liegen hingegen vor, wenn lediglich eine<br />
Modalität fehlerbehaftet ist und diese durch die jeweils andere kompensiert werden<br />
kann (F(1,44) = 4.259, p < .05, η 2 p = 0.088, siehe Abbildung 13).<br />
Hedonische Qualität: Stimulation<br />
3<br />
2<br />
1<br />
0<br />
-1<br />
Touchfehler<br />
(T-)<br />
keine Touchfehler<br />
(T+)<br />
Touchfehler<br />
(T-)<br />
keine Touchfehler<br />
(T+)<br />
-2<br />
-3<br />
1. Aufgabenblock 2. Aufgabenblock<br />
Spracherkennungsfehler (S-)<br />
keine Spracherkennungsfehler (S+)<br />
Abbildung 13: Mittelwerte und Standardabweichung der wahrgenommenen hedonischen Qualität<br />
Stimulation in Abhängigkeit zu den drei jeweils zweifachgestuften unabhängigen Variablen.<br />
Die Bewertungen zur allgemeinen Produktattraktivität fallen für die Varianten<br />
mit einwandfreier Sprachinteraktion (S+) besser aus, als für die Varianten, in denen die<br />
Sprachinteraktion fehlerbehaftet ist (S-); (F(1,44) = 4.093, p < .05, η 2 p = 0.085, siehe<br />
52
Ergebnisse<br />
______________________________________________________________________________<br />
Abbildung 14). Unterschiede aufgrund der experimentellen Manipulation der<br />
Touchmodalität oder aufgrund des Aufgabenblockes sind ebenso wie vorliegende <strong>Interaktion</strong>en<br />
für die Varianzaufklärung der abschließenden Attraktivitätsurteile statistisch<br />
nicht relevant.<br />
Attraktivität<br />
3<br />
2<br />
1<br />
0<br />
-1<br />
Touchfehler<br />
(T-)<br />
keine Touchfehler<br />
(T+)<br />
Touchfehler<br />
(T-)<br />
keine Touchfehler<br />
(T+)<br />
-2<br />
-3<br />
1. Aufgabenblock 2. Aufgabenblock<br />
Spracherkennungsfehler (S-)<br />
keine Spracherkennungsfehler (S+)<br />
Abbildung 14: Mittelwerte und Standardabweichung der wahrgenommenen Attraktivität in Abhängigkeit<br />
zu den drei jeweils zweifachgestuften unabhängigen Variablen.<br />
4.5 Zusammenfassung<br />
Die Ergebnisse der experimentellen Untersuchung zeigen zusammenfassend auf,<br />
dass die Qualitätsmanipulation in der Erkennung von Toucheingaben die <strong>Modalitätenwahl</strong><br />
und damit das Nutzungsverhalten direkt beeinflusst, und dass Probanden <strong>bei</strong> fehlerhaften<br />
Auslassungen in der Modalität Touch signifikant häufiger die Modalität Sprache<br />
verwenden, um Systemeingaben vorzunehmen. Zudem wird diese Bedingung als<br />
subjektiv beanspruchender wahrgenommen. Die abschließenden Urteile zu den Produktqualitäten<br />
zeigen sich von der Manipulation der Toucheingabe nicht beeinflusst.<br />
Für fehlerhafte Auslassungen in der Modalität Sprache kann kein Einfluss auf<br />
die <strong>Modalitätenwahl</strong> nachgewiesen werden. Hingegen nehmen Probanden <strong>bei</strong> vorliegender<br />
fehlerbehafteter Spracherkennung eine erhöhte subjektive Anstrengung wahr<br />
und bewerten sowohl die pragmatische Qualität, die Identifikation und die Attraktivität<br />
<strong>bei</strong> <strong>Interaktion</strong> mit dem System als geringer.<br />
Für den manipulierten Effizienzvorteil der Modalität Sprache in Form von Einsparungen<br />
an <strong>Interaktion</strong>sschritten gegenüber der Modalität Touch kann gezeigt werden,<br />
dass Sprache signifikant häufiger verwendet wird, wenn die Listentiefe einer Eingabe<br />
hoch ist und damit der <strong>Interaktion</strong>svorteil besonders groß ist. In Abhängigkeit zur Funk-<br />
53
Ergebnisse<br />
______________________________________________________________________________<br />
tionalität der Modalität Touch wird dieser <strong>Interaktion</strong>svorteil von Probanden sogar differenziert<br />
umgesetzt: Ist der Vorteil gering, wird eher die Modalität Touch genutzt, allerdings<br />
auch nur dann, wenn diese Modalität nicht fehlerbehaftet ist. Für die zunehmende<br />
Listentiefe können in der vorliegenden Untersuchung keine erhöhten Beanspruchungswerte<br />
beobachtet werden.<br />
Zwischen den <strong>bei</strong>den Aufgabenblöcken zeigen sich Unterschiede in der <strong>Modalitätenwahl</strong>.<br />
Während auf der Startseite zur Auswahl der Subaufgaben die Modalität<br />
Sprache ähnlich oft verwendet wird, benutzen Probanden Sprache im zweiten Aufgabenblock<br />
auf dem jeweils ersten Listenbildschirm einer Subaufgabe zur Auswahl einer<br />
konkreten Eingabe signifikant häufiger. Darüber hinaus liegen für die subjektiv erlebte<br />
Anstrengung im zweiten Block durchgängig geringere Urteile vor. Die Produktqualitäten<br />
werden nach Abschluss der <strong>bei</strong>den Aufgabenblöcke nicht systematisch unterschiedlich<br />
bewertet.<br />
54
Diskussion<br />
______________________________________________________________________________<br />
5 Diskussion<br />
Entsprechend der drei aufgestellten Hypothesenblöcke (vgl. Abschnitt 2.4.2)<br />
werden die im vorigen Kapitel dargestellten und zusammengefassten Ergebnisse in drei<br />
Abschnitten diskutiert. Zunächst werden die Untersuchungsannahmen zur <strong>Modalitätenwahl</strong><br />
behandelt. Daraufhin werden die Hypothesen zur subjektiv erlebten Anstrengung<br />
und abschließend diejenigen zu den wahrgenommenen Produktqualitäten betrachtet. Die<br />
Diskussion endet mit einer kritischen Würdigung der Ergebnisse und etwaiger Limitationen<br />
<strong>bei</strong> der Generalisierung der Befunde aufgrund des verwendeten methodischen<br />
Vorgehens.<br />
5.1 Hypothesen zur <strong>Modalitätenwahl</strong><br />
Mit den ersten Hypothesen in diesem Bereich wurde angenommen, dass die <strong>Modalitätenwahl</strong><br />
zugunsten der Sprache sowohl durch eine einwandfreie Spracherkennung<br />
(H1.1) als auch durch eine fehlerbehaftete Toucherkennung (H1.2) beeinflusst wird.<br />
Aus den vorliegenden Ergebnissen geht hervor, dass hier<strong>bei</strong> nur die Hypothese H1.2<br />
empirisch gestützt werden kann: Das Vorliegen von Touchfehlern führte sowohl <strong>bei</strong> der<br />
Auswahl der Subaufgaben auf dem Startbildschirm als auch zur Eingabe von Elementen<br />
innerhalb einer Subaufgabe auf dem jeweils ersten Listenbildschirm zu einer signifikant<br />
häufigeren Nutzung der Spracherkennung und somit zu einem erhöhten Wechsel von<br />
der Modalität Touch zur Modalität Sprache. Auf Seiten der Sprachnutzung ließ sich ein<br />
entsprechender Effekt jedoch nicht nachweisen, gleichwohl für <strong>Interaktion</strong>en auf der<br />
Startseite zumindest tendenziell gezeigt werden konnte, dass Nutzer <strong>bei</strong> Spracherkennungsfehlern<br />
vermehrt auf die Modalität Touch auswichen. Dieser Befund steht in Kontrast<br />
zu bisherigen Studien, in denen das Vorliegen von Spracherkennungsfehlern<br />
nachweislich zu einem erhöhten Ausweichen auf die alternative manuelle Modalität<br />
führte (Schaffer et al., 2011a). Jedoch wurden in der eben genannten Studie extremere<br />
Fehlerraten von durchschnittlich 10 Prozent mit durchschnittlich 30 Prozent miteinander<br />
verglichen. Ebenso ließen sich unter Bezugnahme auf Joeckel (2010) in post Hoc Vergleichen<br />
Unterschiede in der Häufigkeit der Nutzung der manuellen Modalität nur zwischen<br />
den Bedingungen geringer Fehler (0-10%) und extrem erhöhter Fehlerraten<br />
(>25%) nachweisen. Somit lässt sich nicht ausschließen, dass die in der vorliegenden<br />
Untersuchung vorgenommenen Manipulationsunterschiede nicht hinreichend waren, um<br />
einen signifikanten Effekt für den Bereich von Spracherkennungsfehlern zu produzie-<br />
55
Diskussion<br />
______________________________________________________________________________<br />
ren. Jedoch muss nach den Erfahrungen aus den Benutzertests und den geschilderten<br />
Berichten der Probanden durchaus zugestanden werden, dass es sich <strong>bei</strong> einer Fehlerrate<br />
von 20 Prozent um eine anwendungsorientiert relevante und überzeugend vermittelbare<br />
Faktorstufe handelte. Als überraschend erweist sich in diesem Zusammenhang zudem,<br />
dass sich, verglichen mit früheren Versuchen, Probanden im Fall einwandfrei funktionierender<br />
Modalitäten deskriptiv deutlich seltener für die Modalität Sprache entschieden<br />
als für die Modalität Touch. Auf der anderen Seite lässt sich die Kurve mit fehlerbehafteter<br />
Spracherkennung und funktionierender Touchbedienung weitestgehend in die bisherige<br />
Versuchsreihe einordnen. Da sowohl der Untersuchungsgegenstand als auch die<br />
Instruktionen und die Aufgaben von ihrem Wesen her nicht unterschiedlich waren, ist<br />
die Abweichung für den ersten Fall entweder zufallsbedingt zu erklären oder dem Einsatz<br />
der Akustikkabine geschuldet. Während in früheren Versuchen der erste Versuchsleiter<br />
mit dem Probanden in einem Raum anwesend war und ihm die Aufgaben sukzessiv<br />
präsentierte, musste für die vorliegende Untersuchung die Akustikkabine aus organisatorischen<br />
Gründen gewählt werden, in der die Probanden die Aufgabenbear<strong>bei</strong>tung<br />
allein durchführten und sich entsprechend unbeobachtet fühlen konnten. Das perfekt<br />
funktionierende System mag unter diesen Umständen entweder dazu geführt haben,<br />
dass Probanden aus einer motivierten Testbereitschaft heraus die Grenzen des Systems<br />
durch häufigere Modalitätenwechsel stärker herausfordern wollten oder die Entwicklung<br />
von Heuristiken durch die Nichtanwesenheit weiterer Personen verbessert werden<br />
konnte, sodass sich Probanden in bestimmten Dialogsituationen verstärkt für die manuelle<br />
Bedienung entschieden haben, da sie hierdurch Effizienzvorteile erwartet haben.<br />
Mit der Hypothese H1.3 wurde angenommen, dass Aktionsmodalitäten mit einem<br />
höheren Innovationsgrad, wie die Spracherkennung, zunächst eine gewisse Gewöhnungszeit<br />
benötigen, um für den Nutzer im Sinne einer Entscheidungsheuristik<br />
kognitiv verfügbarer zu werden. Zur Beantwortung dieser Annahme zeigte sich ein interessanter<br />
Befund. Während die Spracherkennung auf dem Startbildschirm nicht bedeutsam<br />
unterschiedlich verwendet wird, kann die Hypothese durch die Daten aus der Bear<strong>bei</strong>tung<br />
der ersten Listenbildschirmen bekräftigt werden. Dieser Befund ist insofern<br />
erstaunlich, als dass zwischen diesen <strong>bei</strong>den Dialogsituationen tatsächlich ein elementarer<br />
Unterschied vorliegt. Während die Startseite eine Auswahlsituation bereithält, die<br />
mit der Erledigung eines <strong>Interaktion</strong>sschrittes auditiv oder manuell erledigt werden<br />
kann, treten die in der Studie manipulierten Effizienzvorteile durch verkürzte <strong>Interaktion</strong>sschritte<br />
durch die Sprachinteraktion erst auf dem jeweils ersten Listenbildschirm<br />
56
Diskussion<br />
______________________________________________________________________________<br />
einer Subaufgabe zu Tage. In diesem Zusammenhang geht das von McCrasken und<br />
Aldrich (1984) entwickelte Kapazitätenmodell davon aus, dass Spracherkennung zur<br />
Erledigung eines <strong>Interaktion</strong>sschrittes kognitiv beanspruchender sein kann, als eine manuelle<br />
<strong>Interaktion</strong>sform. Wie Bierbaum et al. (1987) aufgezeigt haben, ist der kognitive<br />
Vorbereitungsprozess für die sprachliche Produktion eines Satzes in der Regel aufwendiger<br />
als der entsprechende Prozess für eine manuelle Produktion zur Auswahl einer<br />
Bedienung per Touchscreen. Die Probanden des vorliegenden Experiments verhielten<br />
sich vor diesem Hintergrund äußerst effizient: Für die mit einem <strong>Interaktion</strong>sschritt zu<br />
erledigende Aufgabe auf dem Startbildschirm nutzten sie auch nach längerer Gewöhnung<br />
mit dem System die manuelle <strong>Interaktion</strong>, da diese weniger beanspruchend war<br />
und vermutlich auch in Form von Bedienzeiten schneller als die Spracherkennung zum<br />
Ergebnis geführt hat. Auf den Listenbildschirmen hingegen setzten sie die Spracherkennung<br />
zunehmend häufig ein, sparten damit vor allem <strong>bei</strong> Auswahlelementen mit einer<br />
hohen Listentiefe unnötige manuelle <strong>Interaktion</strong>sschritte und festigten die kognitive<br />
Verfügbarkeit der sprachlichen Eingabe als Entscheidungsheuristik für die <strong>Modalitätenwahl</strong>.<br />
Dass das Lernen bezüglich der <strong>Modalitätenwahl</strong> ausschließlich auf den Listenbildschirmen<br />
nachgewiesen werden kann, spricht dafür, dass sich Probanden über die<br />
jeweiligen Vor- und Nachteile <strong>bei</strong>der Aktionsmodalitäten bewusst zeigten.<br />
Wie bereits in früheren Studien mit dem hier verwendeten Untersuchungsgegenstand<br />
gezeigt werden konnte, stützen auch die Daten aus der vorliegenden Untersuchung<br />
die Hypothese, dass Aufgabeneffizienz, im Sinne einer geringen Anzahl an <strong>Interaktion</strong>sschritten,<br />
ein entscheidender Einflussfaktor für die <strong>Modalitätenwahl</strong> darstellt (vgl.<br />
Schaffer et al., 2011a). Nutzer verwendeten die Modalität Sprache auf den Listenbildschirmen<br />
verstärkt dann, wenn die Eingabe der Elemente über die alternative Modalität<br />
Touch besonders viele zusätzliche <strong>Interaktion</strong>sschritte erfordert hätte, was das Zutreffen<br />
der Hypothese H1.4 bekräftigt.<br />
Die letzten <strong>bei</strong>den zu prüfenden Hypothesen in diesem Block nahmen <strong>Interaktion</strong>seffekte<br />
an, welche davon ausgingen, dass die Effizienzvorteile der Sprache in Abhängigkeit<br />
zur Fehlerbehaftung der Sprachererkennung (H1.5) bzw. der Modalität<br />
Touch (1.6) differenziert zu Tage treten. Auf der Datenbasis der vorliegenden Untersuchung<br />
kann die Hypothese H1.6 als gestützt betrachtet werden: Während <strong>bei</strong> dem Vorliegen<br />
von Touchfehlern bereits für Eingaben mit einer geringen Listentiefe die Spracherkennung<br />
bevorzugt genutzt wird, verhalten sich Nutzer <strong>bei</strong> einwandfreier Touchbedienung<br />
und einer geringen Listentiefe so, als sei die Touchinteraktion für diese Zwe-<br />
57
Diskussion<br />
______________________________________________________________________________<br />
cke effizienter bzw. ebenso effizient wie die Spracherkennung. Diese Ergebnisse unterstützen<br />
die bereits diskutierten Annahmen zu möglichen Vertrautheitseffekten, welche<br />
zu einer verstärkten Nutzung der Sprachmodalität führen sollten. Auch da<strong>bei</strong> zeigte sich<br />
für die <strong>Interaktion</strong> auf den Startbildschirmen, dass keine wesentliche Veränderung in<br />
der <strong>Modalitätenwahl</strong> auftrat. Auch hier ließ sich das Ziel durch einen <strong>Interaktion</strong>sschritt<br />
in der auditiven oder der manuellen Modalität erreichen und Personen entschieden sich<br />
aus dem vermuteten Grund, dass die Touchinteraktion weniger aufwendiger sei als die<br />
Sprachinteraktion (vgl. McCrasken et al., 1984) für die Wahl der manuellen Modalität.<br />
Äquivalent scheint dies auch für den ersten Listenbildschirm zuzutreffen, wenn das entsprechende<br />
Auswahlelement bereits darauf angezeigt wird. Jedoch kann an dieser Stelle<br />
auch gezeigt werden, dass Probanden auch mögliche Effektivitätseinbußen in ihre Entscheidung<br />
einbeziehen und sich auch in dieser Dialogsituation für die Sprachinteraktion<br />
entscheiden, wenn die Touchinteraktion mit fehlerbehafteten Auslassung versehen ist.<br />
Diese Erklärung wird auch dadurch bekräftig, dass Nutzer entgegen der Hypothese H1.5<br />
<strong>bei</strong> einwandfreier Spracherkennung nicht bedeutsam öfter die Modalität Sprache verwendeten,<br />
um Eingaben mit einer geringen Listentiefe vorzunehmen, z.B. um bereits<br />
sichtbare Elemente auf dem ersten Listenbildschirm auszuwählen. An dieser Stelle erscheint<br />
ihnen der einfache Klick, vorausgesetzt die Touchinteraktion funktioniert einwandfrei,<br />
kognitiv oder motorisch weniger aufwändig.<br />
5.2 Hypothesen zur subjektiv erlebten Anstrengung<br />
Die ersten <strong>bei</strong>den Hypothesen in diesem Bereich nahmen an, dass eine geringe<br />
Effektivität in einer der zur Verfügung stehenden Modalitäten zu erhöhten Werten in<br />
der subjektiv erlebten Anstrengung führen. Mit den vorliegenden Ergebnissen können<br />
entsprechende Auswirkungen auf die Beanspruchung sowohl für das Vorliegen von<br />
Spracherkennungsfehlern als auch für das Vorliegen von Touchfehlern gezeigt werden<br />
und somit die Hypothesen H2.1 und H2.2 als gestützt betrachtet werden. Dies zeigt,<br />
dass Probanden <strong>bei</strong> den unmittelbar nach jeder Aufgabe abzugebenen Beanspruchungsurteilen<br />
sensitiv auf das Vorliegen von Effektivitätseinschränkungen reagieren, auch<br />
falls sie aufgrund von Fehlern diese Modalität tatsächlich nur selten benutzt haben sollten.<br />
Im Sinne der zunehmenden Etablierung einer Verfügbarkeitsheuristik zur Auswahl<br />
der eher innovativen Sprachmodalität ging die Hypothese H2.3 davon aus, dass<br />
Probanden im zweiten Durchgang eine geringere Beanspruchung erleben sollten als im<br />
58
Diskussion<br />
______________________________________________________________________________<br />
ersten Durchgang. Auch diese Hypothese kann durch die vorliegenden Ergebnisse bekräftigt<br />
werden. Etwaig mag dieser Effekt jedoch auch dadurch verstärkt worden sein,<br />
dass das Bear<strong>bei</strong>ten der standardisierten Aufgaben von einer hohen Routine geprägt<br />
war. Die Aufgaben waren insgesamt von äußerst geringer Komplexität, wofür das generell<br />
geringe Werteniveau spricht, und hielten keine sonderlich unerwarteten Überraschungen<br />
für die Probanden parat. Auch die Systembedienung und die Effizienz- und<br />
Effektivitätscharakteristika änderten sich nicht im Laufe einer Untersuchungseinheit.<br />
Inwieweit dieser Effekt somit tatsächlich auf die Etablierung einer Entscheidungsheuristik<br />
zur vereinfachten <strong>Modalitätenwahl</strong> oder auf die Gewöhnung an den ohnehin sehr<br />
einfach gehaltenen Nutzungskontext zurückzuführen ist, bleibt somit teilweise offen.<br />
Mit der diesen Bereich abschließenden Hypothese H2.4 wurde davon ausgegangen,<br />
dass es <strong>bei</strong> ansteigender Listentiefe auf Seiten der Auswahlelemente nicht zu einer<br />
erhöhten subjektiv erlebten Anstrengung <strong>bei</strong> den Probanden kommen sollte, da diese<br />
zunehmende Aufgabenkomplexität sich lediglich auf die Touchinteraktion bezieht und<br />
durch die effizientere Spracherkennung unmittelbar kompensiert werden kann (vgl.<br />
Schaffer et al., 2011a). Die vorliegenden Daten stützen diese Nullhypothese, auch <strong>bei</strong><br />
einem entsprechend heraufgesetzten Alpha-Niveau. An dieser Stelle sei auf eine weitere<br />
von Schaffer et al. (2011b) durchgeführte Studie verwiesen, in welcher die erforderlichen<br />
<strong>Interaktion</strong>sschritte zur Erledigung der Subaufgaben zwischen der Touch- und der<br />
Sprachinteraktion gleich gehalten wurden. Aufgaben mit einer erhöhten Listentiefe erforderten<br />
somit auch unter Nutzung der Spracherkennung zunächst ein sukzessives<br />
Blättern in den Listbildschirmen, bevor die Auswahl des Elementes getroffen werden<br />
konnte. Die Ergebnisse dieser Studie bestätigen, dass sich die dadurch ansteigende Aufgabenschwierigkeit<br />
in entsprechend erhöhten Werten subjektiv erlebter Anstrengung<br />
widerspiegeln.<br />
5.3 Hypothesen zu wahrgenommenen Produktqualitäten<br />
Im Bereich der wahrgenommenen Produktqualitäten wurden Hypothesen zur<br />
pragmatischen Qualität und zur globalen Produktgüte (Attraktivität) aufgestellt, dahingehend,<br />
dass erlebte fehlerbehaftete Eingabenerkennungen zu geringeren Pragmatikurteilen<br />
(H3.1 und H3.2) sowie zu geringeren Werten in der Produktgüte führen (H3.4<br />
und H3.5). Durch die Daten bekräftigt wird, dass Spracherkennungsfehler zu geringeren<br />
Bewertungen der pragmatischen Qualität (H3.1) und der abschließenden Systemattraktivität<br />
führen (H3.4). Nicht bekräftigen lassen sich jedoch diejenigen Hypothesen, die<br />
59
Diskussion<br />
______________________________________________________________________________<br />
Einflüsse aufgrund der fehlerbehafteten Touchinteraktion angenommen haben. Da sich<br />
demgegenüber die <strong>Modalitätenwahl</strong> deutlich durch Touchfehler, jedoch nicht nachweislich<br />
durch Spracherkennungsfehler beeinflusst zeigte, dissoziieren die subjektiven Bewertungen<br />
auf den ersten Blick vom tatsächlich gezeigten Verhalten der Nutzer, was für<br />
den Bereich von Fragebogendaten in aktueller Literatur häufiger thematisiert wird (z.B.<br />
Konerding, 2006). Die vorliegenden Verzerrungen lassen sich jedoch insoweit erklären,<br />
als dass die Sprachnutzung in dieser Untersuchung deutlich überdurchschnittlich verwendet<br />
worden ist und Probanden sich somit <strong>bei</strong> der abschließenden Produktbewertung<br />
mehr <strong>Interaktion</strong>ssituationen in Zusammenhang mit der Spracherkennung ins Bewusstsein<br />
rufen konnten. Unter diesen Umständen erscheint es nicht verwunderlich, dass Unterschiede<br />
zwischen der einwandfreien und der fehlerbehafteten Spracherkennung stärker<br />
ins Gewicht fallen als die Unterschiede aufgrund der Touchmanipulation. Aus theoretischer<br />
Sicht erklären lässt sich dies wiederum mit der Verfügbarkeitsheuristik (vgl.<br />
Abschnitt 2.2.4.2), anhand derer Personen Urteile auf Basis der Leichtigkeit ihres Erinnerns<br />
bzw. Vorstellens treffen. Da die Wahrscheinlichkeit für das Erleben von<br />
Touchfehlern aufgrund der erhöhten Wahl für die Modalität Sprache reduziert ist, beeinflussen<br />
entsprechende Situationen zwar das unmittelbare Nutzungsverhalten, jedoch<br />
zeigen sich die entsprechend wenigen, jedoch ausschlaggebenden Situationen mit<br />
Touchfehlern <strong>bei</strong>m abschließenden Urteil weniger präsent.<br />
Diese Erklärung kann dadurch bekräftigen werden, dass sich die unterschiedlichen<br />
pragmatischen Bewertungen in <strong>Interaktion</strong> mit der Effektiviät der Spracherkennung<br />
<strong>bei</strong>m Vorliegen von Touchfehlern deutlicher niederschlagen als wenn die<br />
Touchinteraktion einwandfrei funktioniert. Bei den Ergebnissen zur <strong>Modalitätenwahl</strong><br />
wurde diskutiert, dass sich Probanden ausschließlich auf Basis der Effektivitätsmanipulation<br />
der manuellen <strong>Interaktion</strong> für die Aktionsmodalität Sprache entscheiden. Vor<br />
diesem Hintergrund erscheint es einleuchtend, dass Unterschiede in den pragmatischen<br />
Bewertungen aufgrund von Spracherkennungsfehlern vor allem <strong>bei</strong>m Vorliegen von<br />
Touchfehlern auftreten, da diese ein Ausweichen auf die Spracherkennung begünstigen.<br />
Auf der anderen Seite wird die funktionierende Touchinteraktion für diejenigen Dialogsituationen<br />
eingesetzt, in denen ihr Probanden eine höhere Effizienz zusprechen (z.B.<br />
Auswahl auf dem Startbildschirm, Auswahl auf Listenbildschirmen, wenn Elemente<br />
eine geringe Listentiefe haben), sodass Fehler in der Spracherkennung für das abschließende<br />
Gesamturteil weniger stark ins Gewicht fallen.<br />
60
Diskussion<br />
______________________________________________________________________________<br />
Mit den Hypothesen H3.3 und H3.6 wurden zeitbezogene Veränderungen in den<br />
Urteilen zur pragmatischen Qualität sowie zur globalen Produktgüte vorhergesagt, welche<br />
durch die vorliegenden Daten nicht gestützt werden können. Da die Probanden bereits<br />
im ersten Aufgabenblock das nicht sonderlich komplexe System, welches zudem<br />
als reduzierter Prototyp konzipiert war, sehr gut selbstständig bedienen konnten und die<br />
prototypischen Bedienaufgaben standardmäßig ohne unerwartete Überraschungen für<br />
die Probanden konzipiert waren, erscheint nachvollziehbar, dass eine subjektiv erlebte<br />
Performanzsteigerung im Sinne eines Lerneffektes auf Seiten der Benutzbarkeit zum<br />
zweiten Aufgabenblock nur sehr unwahrscheinlich zu erzielen gewesen ist (vgl.<br />
Hornbaek, 2006). Ebenso liefern die Daten keine Stütze für das Vorliegen einer Attraktivitätssteigerung<br />
aufgrund zunehmender Nutzungszeit. Jedoch erwiesen sich bereits in<br />
früheren Studien Ergebnisse zum mere exposure Effekt (Zajonc, 1968) vor dem Hintergrund<br />
interaktiver Untersuchungsgegenstände als durchaus divergent (Minge, 2011).<br />
Die Dimensionen des AttrakDiff zu den hedonischen Produktqualitäten Identifikation<br />
und Stimulation wurden explorativ in die Auswertung aufgenommen. Hinsichtlich<br />
der Identifikation zeigte sich analog zur pragmatischen Qualität ein bedeutsamer<br />
Haupteffekt aufgrund der Fehlermanipulation in der Sprachererkennung. Da dieser Faktor<br />
aufgrund der zugrundeliegenden Items vor allem erfasst, ob Technik als wertvoll,<br />
vorzeigbar und menschenverbindend betrachtet wird, erscheinen die Ergebnisse nachvollziehbar,<br />
jedoch deutlicher von pragmatischen Qualitäten beeinflusst, als es für diese<br />
von der pragmatischen Qualität unabhängigen hedonischen Qualität vorab zu erwarten<br />
gewesen wäre. Eine Erklärung für dieses Ergebnis kann somit in der Überstrahlung der<br />
aufgabenbezogenen Urteile auf nicht-aufgabenbezogene Bewertungen der Identifikation<br />
im Sinne eines pragmatischen Halo-Effektes gefunden werden (Minge, 2011).<br />
Die Ergebnisse zur Stimulation liefert mit ihren Items zur Originalität, Neuheit<br />
und Motivation zunächst das Bild einer unabhängigen Dimension zur pragmatischen<br />
Qualität, da sich erhöhte Ausprägungen in den <strong>bei</strong>den Extremvarianten zeigten, d.h.<br />
wenn <strong>bei</strong>de Modalitäten entweder einwandfrei funktionierten oder <strong>bei</strong>de Modalitäten<br />
fehlerbehaftet waren. Dieses Ergebnis könnte dem Rahmen der Untersuchungssituation<br />
geschuldet sein, welches das Restaurantbuchungssystem als einen Prototypen vorstellte.<br />
Probanden könnten dazu tendiert haben, nicht nur das perfekt funktionierende System<br />
als besonders stimulierend erlebt zu haben, sondern auch das hoch fehleranfällige, da<br />
sich dieses mit einer deutlich früheren Phase der Produktentwicklung assoziiert zeigt<br />
und eine entsprechende Forschungsar<strong>bei</strong>t notwendig macht.<br />
61
Diskussion<br />
______________________________________________________________________________<br />
5.4 Kritische Würdigung und Limitation<br />
Die Ergebnisse dieses Experimentes zeigen auf, dass sowohl die <strong>Modalitätenwahl</strong><br />
als auch subjektive Bewertungen in Form von erlebter Beanspruchung und wahrgenommener<br />
Produktqualitäten durch die Manipulation der Effektivität und Effizienz<br />
alternativ angebotener Aktionsmodalitäten beeinflusst werden. Während eine fehlerhafte<br />
manuelle Aktionsmodalität den Wechsel zur automatischen Spracherkennung förderte<br />
und die subjektiv erlebte Anstrengung erhöhte, wirkten sich die erlebten Touchfehler,<br />
vermutlich aufgrund der verringerten Nutzung dieser Modalität, nicht bedeutsam auf<br />
abschließenden Gesamturteile aus. Spracherkennungsfehler führten zwar nicht zu einer<br />
reduzierten Nutzung der Sprachmodalität, wurden jedoch mit erhöhter Beanspruchung<br />
und schlechteren Abschlussurteilen bewertet.<br />
Die Resultate dieser Ar<strong>bei</strong>t sind vor einer Verallgemeinerung aus mehrfacher<br />
Sicht kritisch zu betrachten. Zunächst orientieren sich die Befunde am verwendeten<br />
Untersuchungsmaterial, welches ausschließlich aus einer Kombination von Listenbildschirmen<br />
bestand und speziell für die zu bear<strong>bei</strong>tenden Aufgaben konstruiert war. Als<br />
Folge handelte es sich in der Untersuchungssituation um ein deutlich komplexitätsreduzierendes<br />
Szenario, sodass mögliche Unterschiede in der manipulierten Effektivität und<br />
Effizienz für die Probanden offensichtlicher zu Tage traten, als dies in realen Anwendungen<br />
der Fall gewesen wäre.<br />
Methodisch ist zudem kritisch im Auge zu behalten, dass sich die eingesetzte<br />
Stichprobe hauptsächlich aus Studenten unterschiedlicher Fachrichtungen zusammensetzte<br />
und sich <strong>bei</strong> den Probanden ein deutlich technikaffin ausgeprägtes Interesse zeigte.<br />
Die Stichprobe kann daher ausdrücklich nicht als repräsentativ bezeichnet werden<br />
und trifft insbesondere keine Aussagen für spezielle Personengruppen, die von <strong>multimodaler</strong><br />
<strong>Interaktion</strong> unter Umständen besonders profitieren würden, wie z.B. Nutzer<br />
sehr geringen oder sehr hohen Alters, körperlich eingeschränkte Anwender, etc.<br />
Die in diesem Experiment verwendeten Aktionsmodalitäten, die sprachliche und<br />
die manuelle <strong>Interaktion</strong>sform, stellen insbesondere für den mobilen Anwendungsbereich<br />
eine zur Zeit besonders häufig eingesetzte multimodale Kombination dar. Darüber<br />
hinaus sind selbstverständlich zahlreiche weitere Aktionsmodalitäten denkbar (z.B.<br />
Gesteninteraktion, Tastenbedienung, etc.). Die Ergebnisse beziehen sich explizit auf die<br />
in dieser Untersuchung verwendeten Aktionsmodalitäten und halten einer direkten<br />
Übertragbarkeit auf eine andere Klassifikation (z.B. innovativer versus konservative<br />
62
Diskussion<br />
______________________________________________________________________________<br />
Modalität) nicht stand. Wie bereits Vilimek (2007) feststellte, präsentieren multimodale<br />
Geräte immer den Einzelfall einer technischen Systemrealisierung und müssen daher<br />
auch separat evaluiert und auf Verwendbarkeit getestet werden.<br />
Bezüglich der abhängigen Variablen wäre es zum einen wünschenswert, subjektive<br />
Beanspruchungswerte durch objektivere Verfahren, wie z.B. Maße zur Herzfrequenzvariabilität,<br />
zu validieren (vgl. Nickel et al., 2002). Diese wären insbesondere für<br />
die Verwendung in zeitlich kurzen Untersuchungseinheiten von vielversprechendem<br />
Wert. Zum anderen erscheint es zukünftig zweckmäßig, den Bereich der Performanzmessung<br />
durch weitere objektive Maße des Nutzerverhaltens abzudecken. Die vorliegende<br />
Masterar<strong>bei</strong>t fokussierte aus Kapazitätsgründen ausschließlich auf die <strong>Modalitätenwahl</strong><br />
und die prozentuale Nutzungshäufigkeit der Modalität Sprache. Darüber hinaus<br />
sind Maße, wie z.B. Bear<strong>bei</strong>tungszeiten (Task Completion Time), Reaktionszeitmessungen<br />
in spezifischen Dialogsituationen oder der Werte zum Tastendruck, mit dem eine<br />
manuelle Eingabe getätigt wird, von zusätzlichem Interesse.<br />
Abschließend sei kritisch auf das Versuchsdesign hingewiesen, in welchem eine<br />
vollständige Balancierung der Aufgabenreihenfolgen lediglich im ersten, jedoch nicht<br />
im zweiten Aufgabenblock umsetzte. Während für den ersten Block gewährleistet wurde,<br />
dass jede Aufgabe an jeder Stelle innerhalb des Versuchsablaufs gleich häufig vertreten<br />
war, erhielten Probanden im zweiten Aufgabenblock eine grundsätzlich andere,<br />
jedoch für alle Personen identische Reihenfolge (vgl. Anhang D.I). Zudem waren die<br />
Aufgaben im ersten und im zweiten Aufgabenblock identischen Inhalts. Vermutlich<br />
sind die mit der fehlenden Balancierung im zweiten Block verbundenden Auswirkungen<br />
auf die <strong>Modalitätenwahl</strong> und die Bewertungen eher gering, jedoch können sie an dieser<br />
Stelle nicht zweifelsfrei quantifiziert bzw. ausgeschlossen werden. Eine Alternative für<br />
die Optimierung des Versuchsaufbaus wäre es, zum einen auch für den zweiten Block<br />
eine Balancierung der Aufgaben vorzunehmen und zum anderen äquivalente Aufgaben<br />
zu konstruieren, deren Schwierigkeit und Komplexität nicht signifikant von den im ersten<br />
Block verwendeten Aufgaben abweicht. Dies würde maßgeblich dazu <strong>bei</strong>tragen,<br />
Übertragungseffekte <strong>bei</strong> identisch verwendeten Aufgaben zukünftig zu reduzieren.<br />
63
Ausblick<br />
______________________________________________________________________________<br />
8 Ausblick<br />
Es gibt nicht viele Konzepte im Bereich der Mensch-Technik-<strong>Interaktion</strong>, die<br />
wie die Multimodalität eine solch rasante Entwicklung durchlaufen haben und als Hoffnungsträger<br />
gehandelt werden, um Technik einfacher und natürlicher zu machen. Die<br />
vielen unterschiedlichen Innovationsmöglichkeiten, Systemausgaben auf der einen Seite<br />
wahrzunehmen und Systemeingaben auf der anderen Seite vorzunehmen, sind eine<br />
durchaus vielversprechende Begleiterscheinung, die es zukünftig einem noch breiteren<br />
Anwenderkreis möglich machen wird, mit Technik zu interagieren. Multimodalität erreicht<br />
diese Ziele allerdings nur, wenn sie unter dem Fokus einer menschzentrierten<br />
bzw. interaktionszentrierten Entwicklung von Technik beachtet und umgesetzt wird.<br />
Nur dann werden nicht nur Wettbewerbsvorteil am Markt gesichert, sondern auch positive<br />
Effekte langfristig für den Anwender nutzbar gemacht<br />
Mit der vorliegenden Ar<strong>bei</strong>t wurde die <strong>Modalitätenwahl</strong> <strong>bei</strong> <strong>multimodaler</strong> <strong>Interaktion</strong><br />
untersucht. Das Ziel lag darin, für eine spezielle Anwendungssituation Aussagen<br />
über den Einfluss verschiedener Faktoren auf das Nutzungsverhalten und subjektive<br />
Bewertungen zu treffen. Ein größerer Hintergrund der Ar<strong>bei</strong>t liegt jedoch darin, die<br />
Untersuchungsergebnisse in die Resultate der bisherigen Versuchsreihe einzuordnen<br />
und somit Aussagen zur <strong>Modalitätenwahl</strong> zu verallgemeinern. Aus den gewonnen Daten<br />
soll unter Nutzung einer kognitiven Architektur ein Modell der <strong>Modalitätenwahl</strong> generiert<br />
und anschließend durch weitere Nutzertests validiert werden. Die Vorteile solcher<br />
Modellierungsansätze liegen klar auf der Hand: Zum einen erlauben sie ein tieferes Verständnis<br />
über die kognitiv ablaufenden Informationsverar<strong>bei</strong>tungsprozesse, die <strong>bei</strong> der<br />
<strong>Modalitätenwahl</strong> stattfinden, zum anderen lässt sich der Aufwand <strong>bei</strong> der erforderlichen<br />
Evaluation <strong>multimodaler</strong> Systeme zukünftig drastisch reduzieren, vorausgesetzt das<br />
Modell würde auch in neuen Situationen brauchbare Vorhersagen liefern. Gezielt untersucht<br />
werden könnten somit auch kleinere Veränderungen in der Systemgestaltung oder<br />
in der Abstimmung der verschiedenen Modalitäten.<br />
Der Ansatz der kognitiven Modellierung würde somit dem generellen Ziel von<br />
Multimodalität, Mensch-Technik-<strong>Interaktion</strong> ein Stück weit menschlicher und dadurch<br />
einfacher zu machen, gerecht werden.<br />
64
Literaturverzeichnis<br />
______________________________________________________________________________<br />
Literaturverzeichnis<br />
Althoff, F., McGlaun, G. & Lang, M. (2001). Combining Multiple Input Modalities for<br />
Virtual Reality Navigation – A user study. In Proceedings of HCII 2001: 9 th International<br />
Conference on Human Computer Interaction. New Orleans, USA.<br />
Aula, A., Majaranta, P. and Räihä, K.-J. (2005). Eye-tracking Reveals the Personal<br />
Styles for Search Result Evaluation. Human-Computer Interaction - INTERACT<br />
2005, Lecture Notes in Computer Science. Heidelberg: Springer. (S. 1058-1061).<br />
Backhaus, K., Erichson, B., Plinke, W. & Weiber, R. (2011). Multivariate Analysemethoden.<br />
11. Auflage. Berlin: Springer Verlag.<br />
Baddeley, A.D. (1986). Working memory. Oxford, UK: Oxford University Press.<br />
Bates, R. & Istance, H.O. (2005). Towards eye based virtual environment interaction for<br />
users with high-level motor disabilities. International Journal of Disability & Human<br />
Development: The International Conference Series on Disability, Virtual Reality<br />
and Associated Technologies, 4(3), 161-169.<br />
Beuter, N. (2007). Gestenbasierte Positionsreferenzierung für die multimodale <strong>Interaktion</strong><br />
mit einem anthropomorphen Robotersystem. Diplomar<strong>bei</strong>t im Fach Angewandte<br />
Informatik an der Technischen Universität Bielefeld.<br />
Bevan, N. (1995). Usability is Quality of Use. In Proceedings of the 6 th International<br />
Conference on Human Computer Interaction, Yokohama. Amsterdam: Elsevier.<br />
Bierbaum, C.R., Szabo, S.M. & Aldrich, T.B. (1987). A comprehensive task analysis oft<br />
he UH-60 mission with crew workload estimates and preliminary decision rules for<br />
developing a UH-60 workload prediction model (Technical Report ASI690-302-<br />
87[B], Vol. I., II, III, IV). Fort Rucker, AL.<br />
Bilici, V., Krahmer, E., te Riele, S. & Veldhuis, R. (2000). Preferred Modalities in Dialogue<br />
Systems, Proceedings of ICSLP2000, 727-730.<br />
Buxton, B. (2007). Sketching User Experience – Getting the Design Right and the Right<br />
Design. Toronto: Morgan Kaufmann Publishers.<br />
Card, S.K., Mackinlay, J.D. & Robertson, G.G. (1990). The design space of input devices,<br />
Proceedings of SIGCHI’90, ACM Press, 117-124.<br />
Charwat, H.J. (1994). Lexikon der Mensch-Maschine-Kommunikation (2. Auflage).<br />
München: Oldenbourg Verlag.<br />
Duffy, L. (1993). Team decision making biases: An information processing perspective.<br />
In: G.A. Klein, J. Orasanu, R. Calderwodd & C.E. Zsmabok (Hrsg.). Decision Making<br />
in Action: Models and Methods (S. 346-359). Norwood, NJ, Ablex.<br />
65
Literaturverzeichnis<br />
______________________________________________________________________________<br />
Eilers, K., Nachreiner, F. & Hänecke, K. (1986). Entwicklung und Überprüfung einer<br />
Skala zur Erfassung subjektiv erlebter Anstrengung. Zeitschrift für Ar<strong>bei</strong>tswissenschaft,<br />
40 (4), 215-224.<br />
Endsley, M.R. (1995). Toward a theory of situation awareness in dynamic systems.<br />
Human Factors, 37(1), 32-64.<br />
Engesser, H. (1993). Duden “Informatik” (2. Auflage). Mannheim: Duden Verlag.<br />
ETSI EG 202 191 (2003). Human Factors (HF); Multimodal interaction, communication<br />
and navigation guidelines. Sophia-Antipolis Cedex, France: ETSI.<br />
http://docbox.etsi.org/EC_Files/EC_Files/eg_202191v010101p.pdf vom 09.08.2012.<br />
Geiser, G. (1990) Mensch-Maschine-Kommunikation. München: Oldenbourg Verlag.<br />
Greening, L., Dollinger, S.J. & Pitz, G. (1996). Adolescents’ perceived risk and personal<br />
experience with natural disasters: An evaluation of cognitive heuristics. Acta<br />
Psychologica, 91, 27-38.<br />
Hassenzahl, M., Burmester, M. & Koller, F. (2003). AttrakDiff: Ein Fragebogen zur<br />
Messung wahrgenommener hedonischer und pragmatischer Qualität. In G. Szwillus<br />
& J. Ziegler (Hrsg.), Mensch & Computer 2003: <strong>Interaktion</strong> in Bewegung (S. 187-<br />
196). Stuttgart: B.G. Teubner.<br />
Hauptmann, A.G. (1989). Speech and gestures for graphic image manipulation. In: M.<br />
Helander (Hrsg.). Proceedings of ACM CHI ’89 Conference of Human Factors in<br />
Computing Systems. ACM Press (S. 241-245).<br />
Hedicke, V. (2000). Multimodalität in Mensch-Maschine-Schnittstellen (S. 203-232).<br />
In. K.P. Timpe, T. Jürgensohn & H. Kolrep (Hrsg.). Mensch-Maschine-<br />
Systemtechnik, 2. Auflage. Düsseldorf: Symposion Verlag.<br />
Hopkins, K.D. & Weeks, D.L. (1990). Tests for normality and measures of skewness<br />
and kurtosis: Their place in research reporting. Educational and Psychological<br />
Measurement, 50, 717-729.<br />
Hornbaek, K. (2006). Current practice in measuring usability: Challenges to usability<br />
studies and research. Journal of Human-Computer Studies, 64, 79-102.<br />
Hunt, M.J. (1990). Figures of Merit for Assessing Connected Word Recognisers.<br />
Speech Communication, 9, 239-336.<br />
ISO 9241-210 (2010). Ergonomics of human-computer interaction – Part 210: Humancentered<br />
design process for interactive systems. Geneva: International<br />
Standardiziation Organization (ISO).<br />
Iwata, H., Yano, I., Uemura, T. & Moriya, T. (2004). Food Simulator. A Haptic Interface<br />
for Biting. VR 2004: 51-58.<br />
66
Literaturverzeichnis<br />
______________________________________________________________________________<br />
Jöckel, B. (2010). Ermittlung von Schwellenwerten für Modalitätenwechsel in <strong>multimodaler</strong><br />
Mensch-Maschine-<strong>Interaktion</strong>. Masterar<strong>bei</strong>t im Studiengang Human Factors<br />
an der Technischen Universität Berlin.<br />
Jones, P.E. & Roelofsma, P.H.M.P. (2000). The potential for social contextual and<br />
group biases in team decision-making: biases, conditions and psychological<br />
mechanisms. Ergonomics, 43(8), 1129-1152.<br />
Jordan, P.W. (2000). Designing pleasurable products. London: Taylor & Francis.<br />
Jungermann, H., Pfister, H.R. & Fischer, K. (2005). Die Psychologie der Entscheidung<br />
(2. Auflage). Heidelberg: Spektrum Akademischer Verlag.<br />
Kahneman, D., Slovic, P. & Tversky, A. (1982). Jugdment under uncertainty: Heuristics<br />
and biases. Cambridge, New York. Cambridge University Press.<br />
Kahneman, D. & Tversky, A. (1972). Subjective probability: A judgment of representativeness.<br />
Cognitive Psychology, 3, 430-454.<br />
Kantowitz, B.H. & Campbell, J.L. (1996). Pilot workload and flight-deck automation.<br />
In: R. Parasuraman & M. Mouloua (Hrsg.). Automation and human performance:<br />
Theory and applications (S. 117-136). Lawrence Erlbaum: NJ.<br />
Kline, R.B. (1998). Structure equation modeling. New York: Guilford.<br />
Konerding, U. (2006). Theorie und Methoden zur Vorhersage und Erklärung von Verhalten<br />
aufgrund von Fragebogendaten. Habilitationsschrift an der Technischen<br />
Universität Berlin.<br />
Kreuzbauer, R. & Malter, A.J. (2005). Embodied cognition and new product design:<br />
Changing product form to influence brand categorization. In: Journal of Product Innovation<br />
Management, 22(5), 165-176.<br />
Kruger, J. & Dunning, D. (1999). Unskilled and unaware of it. How difficulties in recognizing<br />
one’s own incompetence lead to inflated self-assessments. Journal of Personality<br />
and Social Psychology, 77(6), 1121-1134.<br />
Liberman, A. & Trope, Y. (1996). Social hypothesis testing: Cognitive and motivational<br />
mechanisms. In E.T. Higgins & A.W. Kruglanski (Hrsg.). Social psychology:<br />
Handbook of basic principles (S. 239-270). New York: Guilford.<br />
Lochmatter, T., Raemy, X. & Martinoli, A. (2007). Geruchslokalisation mit mobilen<br />
Robotern. IT Business, 1/2007, 40-41.<br />
Luczak, H. (1998). Ar<strong>bei</strong>tswissenschaft. 2. Auflage. Berlin: Springer Verlag.<br />
Mahlke, S. & Minge, M. (2008). Consideration of Multiple Components of Emotions in<br />
Human-Technology Interaction. In C. Peter & R. Beale (Hrsg.), Affect and Emotion<br />
in HCI, LNCS 4868. Berlin: Springer.<br />
67
Literaturverzeichnis<br />
______________________________________________________________________________<br />
Martin, J.-C. (1998). Types of cooperation and referenceable objects: Implications on<br />
annotation schemas for multimodal language resources. Paper presented at the<br />
LREC 1000 pre-conference workshop, Athen, Griechenland.<br />
Maybury, M.T. & Stock, O. (1999). Multimedia Communication, including Text. In: E.<br />
Hovy, N. Ide, R. Frederking, J. Mariani & A. Zampolli (Hrsg.). Multilingual Information<br />
Management: Current Levels and Future Abilities. A study commissioned<br />
by the US National Science Foundation and also delivered to European Commission<br />
Language Engineering Office and the US Defense Advanced Research Projects<br />
Agency.<br />
McCrasken, J.H. & Aldrich, T.B. (1984). Analysis of selected LHX mission functions:<br />
workload. Proceedings of 34th conference on Winter simulation: exploring new<br />
frontiers, 157-162.<br />
Minge, M. (2011). Dynamische Aspekte des Nutzungserlebens der <strong>Interaktion</strong> mit technischen<br />
Systemen. Dissertation an der Fakultät V der Technischen Universität Berlin.<br />
Muthig, K.-P. (1990). Informationsaufnahme und Informationsverar<strong>bei</strong>tung. In: C.G.<br />
Hoyos & B. Zimolong (Hrsg.). Ingenieurpsychologie (S. 92-114). Göttingen:<br />
Hogrefe.<br />
Neuss, R. (2000). Usability Engineering als Ansatz zum Multimodalen Mensch-<br />
Maschine-Dialog. Dissertationsschrift an der Technischen Universität München.<br />
Nickel, P., Eilers, K., Seehase, L. & Nachreiner, F. (2002). Zur Reliabilität, Validität,<br />
Sensitivität und Diagnostizität von Herzfrequenz- und Herzfrequenzvariabilitätsmaßen<br />
als Indikatoren psychischer Beanspruchung. Zeitschrift für Ar<strong>bei</strong>tswissenschaft,<br />
56(1), 22-36.<br />
Niedermeier,F.B. (2003). Entwicklung und Bewertung eines Rapid-Prototyping Ansatzes<br />
zur multimodalen Mensch-Maschine-<strong>Interaktion</strong> im Kraftfahrzeug. Genehmigte<br />
Dissertation der Fakultät für Elektrotechnik und Informationstechnik der Technischen<br />
Universität München.<br />
Nigay, L. & Courtaz, J. (1993). A design space for multimodal systems – concurrent<br />
processing and data fusion (S. 172-178). In: INTERCHI ’93, Proceedings of the<br />
Conference on Human Factors and Computing Systems. New York: ACM Press.<br />
Nigay, L., Jambon, F. & Coutaz, J. (1995). Formal specification of multimodality. Paper<br />
presented at the CHI’95 workshop on formal specification of user interfaces, Denver,<br />
Colorado.<br />
Norman, D.A. (1990). The ‘problem‘ with automation: Inappropriate feedback and interaction,<br />
not ‘over-automation’. In: D.E. Broadbent, J. Reason & A.D. Baddeley<br />
(Hrsg.). Human factors in hazardous situations (S. 137-145). New York: Clarendon<br />
Press.<br />
68
Literaturverzeichnis<br />
______________________________________________________________________________<br />
Orasanu, J., & Fischer, U. (1997). Finding decisions in natural environments: The view<br />
from the cockpit. In C. Zsambok & G. Klein (Eds.). Naturalistic Decision Making<br />
(pp. 343-357). Hillsdale, NJ: Erlbaum.<br />
Ostermann, T. (2010). Das Streben nach Konsistenz im Entscheidungsprozess. Eine<br />
Untersuchung möglicher Enflussfaktoren. Dissertation an der Erziehungswissenschaftlichen<br />
Fakultät der Universität Erfurt.<br />
Oviatt, S.L. (1996). Multimodal Interfaces for Dynamic Interactive Maps. In Proceedings<br />
of CHI ’96: Conference of Human Factors in Computing Systems (New York,<br />
USA). ACM Press (S. 415-422).<br />
Oviatt, S.L. (1999). Ten myths of multimodal interaction. Communications of the ACM,<br />
42(11), 74-81.<br />
Perakakis, M. & Potamianos, A. (2008). Multimodal system evaluation using modality<br />
efficiency and synergy metrics. Proceedings of ICMI’08, ACM Press, 9-16.<br />
Previc, F. H. (1998). The neuropsychology of 3-D space. Psychological Bulletin, 124,<br />
123–164.<br />
Rasmussen, J., & Rouse, W. (1981). Human Detection and Diagnosis of System Failures.<br />
New York: Plenum Press.<br />
Reder, L. M. (1988). Strategic control of retrieval strategies. The Psychology of Learning<br />
and Motivation, 22, 227-259.<br />
Roetting, M. & Seifert, K. (2005). Multimodale Mensch-Maschine <strong>Interaktion</strong> (S. 283-<br />
300). In: K. Karrer, B. Gauss & C. Steffens (Hrsg.). Beiträge zur Mensch-Maschine-<br />
Systemtechnik. Düsseldorf: Symposion Verlag.<br />
Rohs, M. (2009). Mobile and Physical Interaction. Skriptum zur Vorlesung am Institut<br />
für Softwaretechnik und Theoretische Informatik der Technischen Universität Berlin.<br />
Rudnicky, A.I. (1993). Mode preference in a simple data-retrieval task. Proceedings of<br />
the workshop on Human Language Technology (SLT 2010,. Stroudsberg, PA, 364-<br />
369.<br />
Schaffer, S., Jöckel, B., Wechsung, I., Schleicher, R. & Möller, S. (2011a). Modality<br />
Selection and Perceived Mental Effort in a Mobile Application. Proc. 12th Ann.<br />
Conf. of the Int. Speech Communication Assoc. (Interspeech 2011). International<br />
Speech Communication Association (ISCA), 2253-2256.<br />
Schaffer, S. & Reitter, D. (2012). Modeling Efficiency-guided Modality Choice in<br />
Voice and Graphical User Interfaces. Proceedings of ICCM 2012, Berlin, 253-254.<br />
Schaffer, S., Schleicher, R. & Möller, S. (2011b). Measuring Cognitive Load for different<br />
Input Modalities. 9. Berliner Werkstatt Mensch-Maschine-Systeme. VDI Verlag,<br />
287-292.<br />
69
Literaturverzeichnis<br />
______________________________________________________________________________<br />
Schmid, U. & Kindsmüller, M.C. (1996). Kognitive Modellierung. Eine Einführung in<br />
die logischen und algorithmischen Grundlagen. Heidelberg: Spektrum Akademischer<br />
Verlag.<br />
Schomaker, L., Nijtmans, J., Camurri, A., Lavagetto, F., Morasso, P., Benoît, C.,<br />
Guiard-Marigny, T., le Goff, B., Robert-Ribes, J., Adjoudani, A., Defée, I., Münch,<br />
S., Hartung, K. & Blauert, J. (1995). A taxonomy of multimodal interaction in the<br />
human information processing system. Multimodal integration for advanced multimedia<br />
interfaces (Report of the Esprit Project 8579 MIAMI No. WP 1). Nijmegen,<br />
Netherlands: University of Nijmegen.<br />
Spence, C., Nicholls, M.E. & Driver, J. (2001). The cost of expecting events in the<br />
wrong sensory modality. Perception & Psychophysics, 63(2), 330-336.<br />
Streitz, N.A. (1990). Psychologische Aspekte der Mensch-Computer-<strong>Interaktion</strong> (S.<br />
240-284). In: C. Graf Hoyos (Hrsg.). Enzyklopädie der Psychologie. Ingenieurpsychologie,<br />
D/III/2. Göttingen: Verlag für Psychologie, Hogrefe.<br />
Suhm, B., Myers, B. & Waibel, A. (1999). Model-based and empirical evaluation of<br />
multimodal interactive error correction, Proceedings of CHI’99, ACM Press, 123-<br />
133.<br />
Technoplus GmbH (2012). Geruchssensor. Innovative Technologien. http://www. technoplus-gmbh.de/pdf/Produktblatt_tp_geruchssensor2_hg.pdf<br />
vom 09.08.2012.<br />
Thomas, C. & Curson, I. (1996). Performance measurement handbook, 3. Auflage. National<br />
Physical Laboratory. Teddington, UK.<br />
Timpe, K.-P. & Kolrep, H. (2000). Das Mensch-Maschine-System als interdisziplinärer<br />
Gegenstand (S. 9-40). In: K.-P. Timpe, T. Jürgensohn & H. Kolrep (Hrsg.). Mensch-<br />
Maschine-Systemtechnik, 2. Auflage. Düsseldorf: Symposion Verlag.<br />
Tinsley , H.E.A. & Brown, S.D. (2000). Handbook of Applied Multivariate Statistics<br />
and Mathematical Modelling. San Diego: Academic Press.<br />
Tversky, A. & Kahneman, D. (1973). Availability: A heuristic for judging frequency<br />
and probability. Cognitive Psychology, 42, 207-232.<br />
Tversky, A. & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and biases.<br />
Science, 185, 1124-1131.<br />
Tversky, A. & Kahneman, D. (1992). Advances in prospect theory: Cumulative representation<br />
of uncertainty. In: D. Kahneman & A. Tversky (Hrsg.). Choices, values,<br />
and frames (S. 44-66). Cambridge: Cambridge University Press.<br />
Vilimek, R. (2007). Gestaltungsaspekte <strong>multimodaler</strong> <strong>Interaktion</strong> im Fahrzeug. Ein Beitrag<br />
aus ingenieurpsychologischer Perspektive. Inaugural-Dissertation an der Universität<br />
Regensburg.<br />
70
Literaturverzeichnis<br />
______________________________________________________________________________<br />
Vo, M.T. & Waibel, A. (1993). Multimodal Human-Computer Interaction. In: Proceedings<br />
of ISSD’93: International Symposium on Spoken Dialogue: New Directions in<br />
Human and ManMachine Communication (Tokyo), 95-101.<br />
Walpow, J. & Winter Walpow, E. (2012). Brain-Computer Interfaces. Principles and<br />
Practices. Oxford: Oxford University Press.<br />
Wechsung, I., Engelbrecht, K.-P., Naumann, A., Möller, S., Schaffer, S. & Schleicher,<br />
R. (2010). Investigating Modality Selection Strategies. Workshop on Spoken Language<br />
Technology (SLT).<br />
Weidenmann, B. (1995). Multicodierung und Multimodalität im Lernprozess. In: L.J.<br />
Issing & P. Klimsa (Hrsg.). Informationen und Lernen mit Multimedia. Weinheim:<br />
Psychologische Verlagsunion.<br />
Wickens, C.D. (2002). Multiple ressources and performance prediction. Theoretical<br />
Issues in Ergonomics Science, 3(2), 159-177.<br />
Wickens, C.D. & Hollands, J.G. (2000). Engineering psychology and human performance<br />
(3rd edition). Upper Saddle River, NJ: Prentice Hall.<br />
Zajonc, R. (1968). Attitudinal Effects of Mere Exposure. Journal of Personality and<br />
Social Psychology, (9)2, 1–27.<br />
Zsambok, C.E. (1997). Naturalistic Decision Making: Where are we now? In: C.E.<br />
Zsmabok & G.A. Klein (Hrsg.). Naturalistic Decision Making (S. 3-16). Mahwah:<br />
Lawrence Erlbaum.<br />
71
Anhang<br />
______________________________________________________________________________<br />
Anhang<br />
A<br />
Einverständniserklärung<br />
Einverständniserklärung<br />
Hiermit erkläre ich mich einverstanden, an der Studie<br />
Restaurantbuchungssystem<br />
teilzunehmen. Für meine Teilnahme erhalte ich eine Vergütung von 10 €.<br />
Die in diesem Zusammenhang erhobenen Daten werden aufgezeichnet, in anonymisierter Form<br />
gespeichert und zu wissenschaftlichen Zwecken ausgewertet.<br />
Meine Daten werden streng vertraulich behandelt und können nur von entsprechend autorisierten<br />
Personen eingesehen werden.<br />
Meine Teilnahme an der Studie erfolgt freiwillig.<br />
Mir ist bewusst, dass ich die Studie zu jedem Zeitpunkt abbrechen kann. In diesem Fall verliere<br />
ich jedoch den Anspruch auf die oben genannte Vergütung.<br />
________________________<br />
Ort, Datum<br />
_________________________________<br />
Unterschrift<br />
72
Anhang<br />
______________________________________________________________________________<br />
B<br />
Instruktionen<br />
Herzlich Willkommen! Vielen Dank, dass Sie sich die Zeit für diese Untersuchung nehmen.<br />
Sie werden heute den mobilen Prototypen eines Restaurantbuchungssystems testen. Mit diesem<br />
Prototypen können Sie online einen Tisch in einem bestimmten Restaurant reservieren.<br />
Die Suche nach einem Restaurant erfolgt über folgende vier Kriterien:<br />
o<br />
o<br />
o<br />
o<br />
die Stadt, in der ein Restaurant liegen soll (z.B. Berlin)<br />
die Kategorie des Restaurants (z.B. italienisch)<br />
die Uhrzeit, zu der ein Tisch gewünscht wird (z.B. 18:00 Uhr) und<br />
die Anzahl der Personen, für die ein Tisch benötigt wird (z.B. zwei Personen).<br />
Für den Test geben wir Ihnen zwei Blöcke mit je 12 Bedienaufgaben vor, die Ihnen einzeln auf<br />
dem Bildschirm präsentiert werden. Jede Aufgabe nennt Ihnen die jeweiligen Eingaben, die Sie<br />
für eine Restaurantsuche vornehmen sollen, z.B. „ein Restaurant mit italienischer Küche in Berlin<br />
um 18:00 Uhr für zwei Personen“.<br />
Nach jeder Aufgabe werden Sie die <strong>Interaktion</strong> auf einem kurzen Fragebogen bewerten.<br />
Die Bedienung des Prototypen erfolgt wahlweise über Touchscreen oder über Sprache. Sie<br />
selbst entscheiden, wie sie das System bedienen möchten, und Sie können jederzeit – auch<br />
innerhalb einer Restaurantsuche – zwischen den Eingabeformen wechseln.<br />
Zur Eingabe über Touchscreen klicken Sie bitte mit dem Finger auf die entsprechenden Buttons<br />
im Display des Prototypen (siehe Startbildschirm in Abbildung 1).<br />
Die Bedienung über Spracherkennung erfolgt mittels Sprachkommandos, die im Wesentlichen<br />
den Displaybeschriftungen entsprechen, z.B. „Stadt auswählen“, „Berlin“ oder „Restaurant suchen“.<br />
Bitte beachten Sie <strong>bei</strong> der Spracherkennung, dass Sie auf dem Startbildschirm (Abbildung 1)<br />
zunächst das jeweilige Kriterium nennen müssen, das Sie auswählen möchten (also z.B. „Stadt<br />
auswählen“), bevor Sie die eigentliche Eingabe, z.B. „Mannheim“ direkt nennen können. Das<br />
gleiche gilt für die anderen drei Kriterien Kategorie, Uhrzeit und Personenanzahl.<br />
.<br />
Abbildung 1: Startbildschirm des Prototypen<br />
Haben Sie alle vier Kriterien erfolgreich eingegeben, schicken Sie bitte eine Reservierungsanfrage<br />
über „Restaurant suchen“ ab. Damit ist eine Testaufgabe erledigt.<br />
Sie werden die Bedienung des Prototypen nun zunächst an einigen Beispielaufgaben kennenlernen.<br />
Haben Sie vorab noch Fragen zum Versuch oder zur Bedienung?<br />
73
Anhang<br />
______________________________________________________________________________<br />
C<br />
Aufgaben und Aufgabenkonstruktion<br />
I. Trainingsaufgaben<br />
Aufgabe 1<br />
Aufgabe 2<br />
„Suchen Sie ein Fischrestaurant in Kiel ab 20:00 Uhr für 10 Personen.“<br />
Bear<strong>bei</strong>tung erfolgte unimodal nur über den Touchscreen.<br />
„Suchen Sie ein Sushi-Restaurant in Wiesbaden ab 21:00 Uhr für 2 Personen.“<br />
Bear<strong>bei</strong>tung erfolgte unimodal nur über die Spracherkennung.<br />
Aufgabe 3 „Suchen Sie ein orientalisches Restaurant in Dortmund ab 13:00 Uhr für 18<br />
Personen.“<br />
Bear<strong>bei</strong>tung erfolgte multimodal nach individueller Präferenz und jederzeitiger<br />
Wahlmöglichkeit zwischen Touchscreen und Spracherkennung<br />
II.<br />
Aufgaben des Hauptversuchs<br />
No. Aufgabe Listentiefe<br />
„Stadt“<br />
Listentiefe<br />
„Kategorie“<br />
Listentiefe<br />
„Uhrzeit“<br />
Listentiefe<br />
„Personen“<br />
1 „Suchen Sie ein Restaurant mit<br />
amerikanischer Küche in Freiburg 1 2 3 4<br />
ab 16:00 Uhr für 13 Personen.“<br />
2 „Suchen Sie ein Restaurant mit<br />
griechischer Küche in Erfurt<br />
3 3 3 3<br />
ab 20:00 Uhr für 9 Personen.“<br />
3 „Suchen Sie ein Restaurant mit<br />
mediterraner Küche in Bremen 5 1 6 2<br />
ab 10:00 Uhr für 6 Personen.“<br />
4 „Suchen Sie ein Restaurant mit<br />
chinesischer Küche in Dortmund 2 2 2 2<br />
ab 18:00 Uhr für 5 Personen.“<br />
5 „Suchen Sie ein Restaurant mit<br />
indischer Küche in München<br />
3 5 4 6<br />
ab 01:00 Uhr für 21 Personen.“<br />
6 „Suchen Sie ein Restaurant mit<br />
portugiesischer Küche in Stuttgart 6 6 6 6<br />
ab 11:00 Uhr für 22 Personen.“<br />
7 „Suchen Sie ein Restaurant japanischer<br />
Küche in Düsseldorf<br />
4 2 3 1<br />
ab 22:00 Uhr für 4 Personen.“<br />
8 „Suchen Sie ein Restaurant mit<br />
brasilianischer Küche in Augsburg 1 1 1 1<br />
ab 12:00 Uhr für 2 Personen.“<br />
9 „Suchen Sie ein Restaurant mit<br />
deutscher Küche in Rostock<br />
2 6 1 5<br />
ab 13:00 Uhr für 18 Personen.“<br />
10 „Suchen Sie ein Restaurant mit<br />
italienischer Küche in Köln<br />
4 4 4 4<br />
ab 00:00 Uhr für 14 Personen.“<br />
11 „Suchen Sie ein Restaurant mit<br />
russischer Küche in Hannover 6 5 4 3<br />
ab 06:00 Uhr für 10 Personen.“<br />
12 „Suchen Sie ein Restaurant mit<br />
mexikanischer Küche in Leipzig<br />
ab 07:00 Uhr für 17 Personen.“<br />
5 5 5 5<br />
Grau unterlegte Zeilen präsentieren die sechs „subaufgabenkonsistenten Hauptaufgaben“, in<br />
denen die Listentiefe also für alle vier Subaufgaben identisch ist.<br />
74
Anhang<br />
______________________________________________________________________________<br />
D<br />
Balancierung der Aufgabenreihenfolgen<br />
I. Aufgabenblock 1<br />
Versuchsbedingung:<br />
Touch einwandfrei (T+) / Sprache einwandfrei (S+)<br />
VP01 1 3 5 7 9 11 12 10 8 6 4 2<br />
VP02 3 5 7 9 11 12 10 8 6 4 2 1<br />
VP03 5 7 9 11 12 10 8 6 4 2 1 3<br />
VP04 7 9 11 12 10 8 6 4 2 1 3 5<br />
VP05 9 11 12 10 8 6 4 2 1 3 5 7<br />
VP06 11 12 10 8 6 4 2 1 3 5 7 9<br />
VP07 12 10 8 6 4 2 1 3 5 7 9 11<br />
VP08 10 8 6 4 2 1 3 5 7 9 11 12<br />
VP09 8 6 4 2 1 3 5 7 9 11 12 10<br />
VP10 6 4 2 1 3 5 7 9 11 12 10 8<br />
VP11 4 2 1 3 5 7 9 11 12 10 8 6<br />
VP12 2 1 3 5 7 9 11 12 10 8 6 4<br />
Versuchsbedingung:<br />
Touch fehlerbehaftet (T-) / Sprache einwandfrei (S+)<br />
VP13 1 3 5 7 9 11 12 10 8 6 4 2<br />
VP14 3 5 7 9 11 12 10 8 6 4 2 1<br />
VP15 5 7 9 11 12 10 8 6 4 2 1 3<br />
VP16 7 9 11 12 10 8 6 4 2 1 3 5<br />
VP17 9 11 12 10 8 6 4 2 1 3 5 7<br />
VP18 11 12 10 8 6 4 2 1 3 5 7 9<br />
VP19 12 10 8 6 4 2 1 3 5 7 9 11<br />
VP20 10 8 6 4 2 1 3 5 7 9 11 12<br />
VP21 8 6 4 2 1 3 5 7 9 11 12 10<br />
VP22 6 4 2 1 3 5 7 9 11 12 10 8<br />
VP23 4 2 1 3 5 7 9 11 12 10 8 6<br />
VP24 2 1 3 5 7 9 11 12 10 8 6 4<br />
75
Anhang<br />
______________________________________________________________________________<br />
Versuchsbedingung:<br />
Touch einwandfrei (T+) / Sprache fehlerbehaftet (S-)<br />
VP25 1 3 5 7 9 11 12 10 8 6 4 2<br />
VP26 3 5 7 9 11 12 10 8 6 4 2 1<br />
VP27 5 7 9 11 12 10 8 6 4 2 1 3<br />
VP28 7 9 11 12 10 8 6 4 2 1 3 5<br />
VP29 9 11 12 10 8 6 4 2 1 3 5 7<br />
VP30 11 12 10 8 6 4 2 1 3 5 7 9<br />
VP31 12 10 8 6 4 2 1 3 5 7 9 11<br />
VP32 10 8 6 4 2 1 3 5 7 9 11 12<br />
VP33 8 6 4 2 1 3 5 7 9 11 12 10<br />
VP34 6 4 2 1 3 5 7 9 11 12 10 8<br />
VP35 4 2 1 3 5 7 9 11 12 10 8 6<br />
VP36 2 1 3 5 7 9 11 12 10 8 6 4<br />
Versuchsbedingung:<br />
Touch fehlerbehaftet (T-) / Sprache fehlerbehaftet (S-)<br />
VP37 1 3 5 7 9 11 12 10 8 6 4 2<br />
VP38 3 5 7 9 11 12 10 8 6 4 2 1<br />
VP39 5 7 9 11 12 10 8 6 4 2 1 3<br />
VP40 7 9 11 12 10 8 6 4 2 1 3 5<br />
VP41 9 11 12 10 8 6 4 2 1 3 5 7<br />
VP42 11 12 10 8 6 4 2 1 3 5 7 9<br />
VP43 12 10 8 6 4 2 1 3 5 7 9 11<br />
VP44 10 8 6 4 2 1 3 5 7 9 11 12<br />
VP45 8 6 4 2 1 3 5 7 9 11 12 10<br />
VP46 6 4 2 1 3 5 7 9 11 12 10 8<br />
VP47 4 2 1 3 5 7 9 11 12 10 8 6<br />
VP48 2 1 3 5 7 9 11 12 10 8 6 4<br />
II. Aufgabenblock 2<br />
alle<br />
VPn<br />
11 9 7 5 3 1 12 2 4 6 8 10<br />
76
Anhang<br />
______________________________________________________________________________<br />
E<br />
Fragebögen<br />
I. Soziodemografie<br />
Geschlecht: O weiblich O männlich<br />
Alter: _________________________________________<br />
Beruf (wenn Student, mit Fachrichtung): __________________________________________<br />
Haben Sie in der Vergangenheit <strong>bei</strong> Versuchen mit Sprachsteuerungssystemen<br />
teilgenommen?<br />
O<br />
O<br />
ja<br />
nein<br />
Besitzen Sie ein Handy mit Touchscreen Funktionalität? O ja<br />
O nein<br />
Wie oft nutzen Sie Touchscreen Eingabesysteme (z.B.<br />
Smartphones, Fahrkartenautomaten, Bankautomaten, u.ä.)?<br />
O<br />
O<br />
O<br />
O<br />
täglich<br />
wöchentlich<br />
seltener<br />
nie<br />
Hat ihr Handy eine Sprachfunktion? O ja<br />
O nein<br />
Wenn ja, benutzen Sie diese? O immer<br />
O oft<br />
O selten<br />
O nie<br />
Sprechen Sie auf Anrufbeantworter/Mailboxes? O immer<br />
O oft<br />
O selten<br />
O nie<br />
Haben Sie Erfahrungen mit Sprachdialogsystemen/Spracheingabesystemen?<br />
(z.B. automatische Hotlines der Bahn, von Versicherungen,<br />
Telefonanbietern, Navi-Eingabe über Sprache u.ä.)<br />
O<br />
O<br />
ja<br />
nein<br />
Wie oft nutzen Sie Sprachdialogsysteme? O täglich<br />
O wöchentlich<br />
O seltener<br />
O nie<br />
77
Anhang<br />
______________________________________________________________________________<br />
II.<br />
Skala zur subjektiv erlebten Anstrengung (SEA)<br />
Beanspruchungshöhe<br />
Bitte kreuzen Sie auf der folgenden Skala Ihre Gesamtbewertung für die gerade absolvierte<br />
Aufgabe an.<br />
78
Anhang<br />
______________________________________________________________________________<br />
III.<br />
Bewertung der wahrgenommenen Produktqualitäten (AttrakDiff)<br />
Nachfolgend finden Sie einige Wortpaare, mit deren Hilfe Sie das System bewerten können. Die<br />
Wortpaare stellen jeweils extreme Gegensätze dar, zwischen denen eine Abstufung möglich ist.<br />
Zum Beispiel:<br />
unsympathisch<br />
<br />
sympathisch<br />
Diese Bewertung bedeutet, dass das System eher sympathisch, aber noch verbesserungsbedürftig<br />
ist.<br />
Denken Sie nicht lange über die Wortpaare nach, sondern geben Sie bitte die Einschätzung ab,<br />
die Ihnen spontan in den Sinn kommt. Vielleicht passen einige Wortpaare nicht so gut auf das<br />
System kreuzen Sie aber trotzdem bitte immer eine Antwort an. Denken Sie daran, dass es<br />
keine "richtigen" oder "falschen" Antworten gibt - nur Ihre persönliche Meinung zählt!<br />
menschlich<br />
isolierend<br />
angenehm<br />
originell<br />
einfach<br />
fachmännisch<br />
hässlich<br />
praktisch<br />
sympathisch<br />
umständlich<br />
stilvoll<br />
voraussagbar<br />
minderwertig<br />
ausgrenzend<br />
nicht vorzeigbar<br />
zurückweisend<br />
phantasielos<br />
gut<br />
verwirrend<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
technisch<br />
verbindend<br />
unangenehm<br />
konventionell<br />
kompliziert<br />
laienhaft<br />
schön<br />
unpraktisch<br />
unsympathisch<br />
direkt<br />
stillos<br />
unberechenbar<br />
wertvoll<br />
einbeziehend<br />
vorzeigbar<br />
einladend<br />
kreativ<br />
schlecht<br />
übersichtlich<br />
79
Anhang<br />
______________________________________________________________________________<br />
abstoßend<br />
mutig<br />
innovativ<br />
lahm<br />
bringt mich Leuten<br />
näher<br />
motivierend<br />
neuartig<br />
widerspenstig<br />
harmlos<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
anziehend<br />
vorsichtig<br />
konservativ<br />
fesselnd<br />
trennt mich von<br />
Leuten<br />
entmutigend<br />
herkömmlich<br />
handhabbar<br />
herausfordernd<br />
80
Anhang<br />
______________________________________________________________________________<br />
F<br />
Prüfung der statistischen Voraussetzungen<br />
I. Verteilungsform der abhängigen Variablen<br />
Kennwerte zur Prüfung der Verteilungsform der abhängigen Variablen. Angegeben sind die deskriptiven<br />
Kennwerte der Verteilungen sowie die Größen zur Prüfung der Normalverteilung anhand des<br />
Shapiro-Wilk-Tests; * p < .05.<br />
abhängige Variable M s Schiefe Kurtosis Shapiro-<br />
Sprache auf Startseite, Block 1 .55 0.32 -0.40 -0.89 .928 48 .006*<br />
Sprache Listentiefe 1, Block 1 .58 0.36 -0.18 -1.49 .878 48 < .000*<br />
Sprache Listentiefe 2, Block 1 .76 0.30 -1.30 0.61 .776 48 < .000*<br />
Sprache Listentiefe 3, Block 1 .81 0.27 -1.68 2.26 .764 48 < .000*<br />
Sprache Listentiefe 4, Block 1 .85 0.25 -2.17 4.37 .645 48 < .000*<br />
Sprache Listentiefe 5, Block 1 .84 0.27 -1.79 2.80 .728 48 < .000*<br />
Sprache Listentiefe 6, Block 1 .86 0.27 -2.02 3.52 .664 48 < .000*<br />
SEA Listentiefe 1, Block 1 23.65 26.25 2.58 9.64 .761 48 < .000*<br />
SEA Listentiefe 2, Block 1 27.33 27.42 1.34 1.39 .857 48 < .000*<br />
SEA Listentiefe 3, Block 1 25.50 25.92 1.49 1.82 .829 48 < .000*<br />
SEA Listentiefe 4, Block 1 23.62 28.62 2.78 9.41 .719 48 < .000*<br />
SEA Listentiefe 5, Block 1 26.56 24.99 1.17 0.65 .869 48 < .000*<br />
SEA Listentiefe 6, Block 1 22.85 22.40 1.34 1.34 .854 48 < .000*<br />
Pragmatik, Block 1 5.54 0.87 -1.27 2.79 .909 48 .001*<br />
Identifikation, Block 1 4.60 0.93 -0.65 0.47 .957 48 .077*<br />
Stimulation, Block 1 4.54 0.88 -0.35 -0.09 .983 48 .706*<br />
Attraktivität, Block 1 5.23 0.96 -1.04 1.19 .926 48 .005*<br />
Sprache auf Startseite, Block 2 .55 0.36 -0.36 -1.28 .891 48 < .000*<br />
Sprache Listentiefe 1, Block 2 .56 0.37 -0.19 -1.45 .879 48 < .000*<br />
Sprache Listentiefe 2, Block 2 .78 0.32 -1.30 0.29 .721 48 < .000*<br />
Sprache Listentiefe 3, Block 2 .88 0.25 -2.57 6.26 .563 48 < .000*<br />
Sprache Listentiefe 4, Block 2 .89 0.25 -2.45 6.01 .603 48 < .000*<br />
Sprache Listentiefe 5, Block 2 .90 0.23 -2.71 9.28 .641 48 < .000*<br />
Sprache Listentiefe 6, Block 2 .92 0.22 -2.84 9.83 .507 48 < .000*<br />
SEA Listentiefe 1, Block 2 22.38 26.15 2.16 5.39 .765 48 < .000*<br />
SEA Listentiefe 2, Block 2 20.71 20.55 1.48 2.32 .855 48 < .000*<br />
SEA Listentiefe 3, Block 2 14.98 15.87 1.25 0.96 .845 48 < .000*<br />
SEA Listentiefe 4, Block 2 19.60 18.05 1.69 4.58 .860 48 < .000*<br />
SEA Listentiefe 5, Block 2 18.04 22.46 2.92 9.55 .701 48 < .000*<br />
SEA Listentiefe 6, Block 2 20.58 22.42 1.76 4.14 .820 48 < .000*<br />
Pragmatik, Block 2 5.58 0.86 -1.09 0.96 .906 48 .001*<br />
Identifikation, Block 2 4.54 0.92 -0.53 0.15 .972 48 .315*<br />
Stimulation, Block 2 4.63 0.85 -0.33 -0.12 .979 48 .541*<br />
Attraktivität, Block 2 5.22 0.92 -.094 0.77 .932 48 .008*<br />
Wilk<br />
df<br />
p<br />
81
Anhang<br />
______________________________________________________________________________<br />
II.<br />
Homogenität der Fehlervarianzen (Levene-Test)<br />
Levene-Tests zur Prüfung der Varianzhomogenität; * p < .05.<br />
Quelle der Varianz F df1 df2 p<br />
Sprache auf Startseite, Block 1 2.352 3 44 .085<br />
Sprache auf Startseite, Block 2 3.425 3 44 .025*<br />
Sprache Listentiefe 1, Block 1 1.462 3 44 .238<br />
Sprache Listentiefe 2, Block 1 7.481 3 44 .000*<br />
Sprache Listentiefe 3, Block 1 5.879 3 44 .002*<br />
Sprache Listentiefe 4, Block 1 2.466 3 44 .075<br />
Sprache Listentiefe 5, Block 1 2.798 3 44 .051<br />
Sprache Listentiefe 6, Block 1 4.792 3 44 .006*<br />
Sprache Listentiefe 1, Block 2 5.709 3 44 .002*<br />
Sprache Listentiefe 2, Block 2 6.704 3 44 .001*<br />
Sprache Listentiefe 3, Block 2 6.782 3 44 .001*<br />
Sprache Listentiefe 4, Block 2 2.126 3 44 .111<br />
Sprache Listentiefe 5, Block 2 1.660 3 44 .189<br />
Sprache Listentiefe 6, Block 2 1.304 3 44 .285<br />
SEA Listentiefe 1, Block 1 2.561 3 44 .067<br />
SEA Listentiefe 2, Block 1 5.308 3 44 .003*<br />
SEA Listentiefe 3, Block 1 4.414 3 44 .008*<br />
SEA Listentiefe 4, Block 1 5.372 3 44 .003*<br />
SEA Listentiefe 5, Block 1 3.737 3 44 .018*<br />
SEA Listentiefe 6, Block 1 4.267 3 44 .010*<br />
SEA Listentiefe 1, Block 2 1.657 3 44 .190<br />
SEA Listentiefe 2, Block 2 3.210 3 44 .032*<br />
SEA Listentiefe 3, Block 2 2.523 3 44 .070<br />
SEA Listentiefe 4, Block 2 0.974 3 44 .413<br />
SEA Listentiefe 5, Block 2 1.896 3 44 .144<br />
SEA Listentiefe 6, Block 2 2.391 3 44 .081<br />
Pragmatik, Block 1 1.297 3 44 .287<br />
Identifikation, Block 1 2.814 3 44 .050<br />
Stimulation, Block 1 0.598 3 44 .620<br />
Attraktivität, Block 1 2.268 3 44 .094<br />
Pragmatik, Block 2 2.556 3 44 .067<br />
Identifikation, Block 2 3.674 3 44 .019*<br />
Stimulation, Block 2 3.290 3 44 .029*<br />
Attraktivität, Block 2 4.410 3 44 .009*<br />
82
Anhang<br />
______________________________________________________________________________<br />
G<br />
Deskriptive Ergebnisse<br />
I. Sprachnutzung auf der Startseite<br />
Mittelwerte und Standardabweichungen der relativen Häufigkeit von Sprachnutzung auf der<br />
Startseite.<br />
Spracherkennungsfehler (S-)<br />
keine Spracherkennungsfehler (S+)<br />
Touchfehler (T-) keine Touchfehler (T+) Touchfehler (T-) keine Touchfehler (T+)<br />
M s M s M s M s<br />
Block 1 .67 0.21 .75 0.25 .31 0.34 .48 0.29<br />
Block 2 .70 0.19 .77 0.26 .25 0.35 .49 0.37<br />
II.<br />
Sprachnutzung auf dem jeweils ersten Listenbildschirm<br />
Mittelwerte und Standardabweichungen der relativen Häufigkeit von Sprachnutzung auf dem jeweils<br />
ersten Listenbildschirm einer Subaufgabe im ersten Aufgabenblock.<br />
Spracherkennungsfehler (S-)<br />
Touchfehler (T-) keine Touchfehler (T+)<br />
keine Spracherkennungsfehler (S+)<br />
Touchfehler (T-) keine Touchfehler (T+)<br />
M s M s M s M s<br />
Listentiefe 1 .71 0.25 .84 0.24 .37 0.34 .39 0.37<br />
Listentiefe 2 .88 0.16 .90 0.19 .72 0.29 .55 0.40<br />
Listentiefe 3 .96 0.08 .89 0.22 .71 0.25 .68 0.37<br />
Listentiefe 4 .94 0.14 .93 0.16 .80 0.29 .74 0.33<br />
Listentiefe 5 .95 0.14 .87 0.25 .73 0.33 .79 0.32<br />
Listentiefe 6 .92 0.18 .97 0.11 .86 0.30 .69 0.35<br />
Mittelwerte und Standardabweichungen der relativen Häufigkeit von Sprachnutzung auf dem jeweils<br />
ersten Listenbildschirm einer Subaufgabe im zweiten Aufgabenblock.<br />
Spracherkennungsfehler (S-)<br />
Touchfehler (T-) keine Touchfehler (T+)<br />
keine Spracherkennungsfehler (S+)<br />
Touchfehler (T-) keine Touchfehler (T+)<br />
M s M s M s M s<br />
Listentiefe 1 .67 0.26 .80 0.29 .37 0.30 .42 0.46<br />
Listentiefe 2 .87 0.22 .90 0.18 .75 0.34 .59 0.42<br />
Listentiefe 3 .99 0.03 .94 0.12 .88 0.28 .71 0.34<br />
Listentiefe 4 .94 0.16 .97 0.15 .85 0.31 .81 0.31<br />
Listentiefe 5 .95 0.11 1.00 0.13 .86 0.29 .78 0.29<br />
Listentiefe 6 .96 0.06 .96 0.18 .90 0.29 .85 0.29<br />
83
Anhang<br />
______________________________________________________________________________<br />
III.<br />
SEA-Werte auf dem jeweils ersten Listenbildschirm<br />
Mittelwerte und Standardabweichungen der subjektiv erlebten Anstrengung (SEA) im ersten Aufgabenblock.<br />
Anmerkungen: Die Skala reicht von [0-220].<br />
Spracherkennungsfehler (S-)<br />
keine Spracherkennungsfehler (S+)<br />
Touchfehler (T-) keine Touchfehler (T+) Touchfehler (T-) keine Touchfehler (T+)<br />
M s M s M s M s<br />
Listentiefe 1 35.25 40.60 14.25 11.53 28.75 23.74 16.33 16.44<br />
Listentiefe 2 46.42 34.14 19.67 15.83 31.75 30.27 11.50 11.11<br />
Listentiefe 3 50.50 31.70 14.08 11.58 20.17 14.60 17.25 24.29<br />
Listentiefe 4 47.33 43.97 14.50 12.09 24.25 19.96 8.42 8.12<br />
Listentiefe 5 44.42 31.70 16.67 12.92 27.25 23.29 17.92 20.44<br />
Listentiefe 6 39.92 28.74 9.58 8.70 22.42 18.54 19.50 19.39<br />
Mittelwerte und Standardabweichungen der subjektiv erlebten Anstrengung (SEA) im zweiten<br />
Aufgabenblock. Anmerkungen: Die Skala reicht von [0-220].<br />
Spracherkennungsfehler (S-)<br />
keine Spracherkennungsfehler (S+)<br />
Touchfehler (T-) keine Touchfehler (T+) Touchfehler (T-) keine Touchfehler (T+)<br />
M s M s M s M s<br />
Listentiefe 1 37.83 31.51 12.33 11.53 29.25 28.96 10.08 19.26<br />
Listentiefe 2 41.33 24.90 13.17 11.15 17.67 16.29 10.67 12.20<br />
Listentiefe 3 30.83 17.94 12.75 11.15 9.75 13.73 6.58 7.45<br />
Listentiefe 4 34.25 22.57 15.33 11.70 18.25 14.21 10.58 14.12<br />
Listentiefe 5 35.33 32.43 10.42 9.85 18.25 19.41 8.17 11.61<br />
Listentiefe 6 43.50 27.56 13.08 11.63 18.83 16.29 6.92 12.07<br />
84
Anhang<br />
______________________________________________________________________________<br />
IV.<br />
Wahrgenommene Produktqualitäten (AttrakDiff)<br />
Mittelwerte und Standardabweichungen des AttrakDiff nach dem ersten Aufgabenblock. Anmerkungen:<br />
Das semantische Differential reicht von [-3] bis [3].<br />
Spracherkennungsfehler (S-)<br />
keine Spracherkennungsfehler (S+)<br />
Touchfehler (T-) keine Touchfehler (T+) Touchfehler (T-) keine Touchfehler (T+)<br />
M s M s M s M SD<br />
Pragmatik 0.90 0.71 2.13 0.44 1.39 1.12 1.75 .60<br />
Identifikation 0.19 0.95 1.01 0.55 0.37 1.20 0.84 .76<br />
Stimulation 0.79 0.78 0.31 0.73 0.24 1.08 0.83 .84<br />
Attraktivität 0.81 1.22 1.67 0.54 1.15 1.12 1.30 .71<br />
Mittelwerte und Standardabweichungen des AttrakDiff nach dem zweiten Aufgabenblock. Anmerkungen:<br />
Das semantische Differential reicht von [-3] bis [3].<br />
Spracherkennungsfehler (S-)<br />
keine Spracherkennungsfehler (S+)<br />
Touchfehler (T-) keine Touchfehler (T+) Touchfehler (T-) keine Touchfehler (T+)<br />
M SD M SD M SD M SD<br />
Pragmatik 4.90 .89 6.15 .43 5.50 .97 5.77 .57<br />
Identifikation 4.26 .94 4.88 .45 4.34 1.14 4.69 .96<br />
Stimulation 4.81 .82 4.45 .60 4.34 1.21 4.90 .62<br />
Attraktivität 4.77 1.10 5.67 .30 5.12 1.14 5.32 .76<br />
85
Anhang<br />
______________________________________________________________________________<br />
H Inferenzstatistische Ergebnisse<br />
I. Wahrgenommene Produktqualitäten (AttrakDiff)<br />
2x2x2 Varianzanalyse zur Pragmatischen Qualität; (*) p < .1; * p < .05; ** p < .01.<br />
Quelle der Varianz F df1 df2 p part. η 2<br />
Spracherkennung (S) - between 13.768 1 44 .001** .238<br />
Toucherkennung (T) - between 0.147 1 44 .703** .003<br />
Aufgabenblock (B) - within 0.400 1 44 .531** .009<br />
S x T 4.856 1 44 .033** .099<br />
S x B 0.059 1 44 .809** .001<br />
T x B 0.192 1 44 .664** .004<br />
S x T x B 0.192 1 44 .664** .004<br />
2x2x2 Varianzanalyse zur Hedonischen Qualität: Identifikation; (*) p < .1; * p < .05; ** p < .01.<br />
Quelle der Varianz F df1 df2 p part. η 2<br />
Spracherkennung (S) - between 4.955 1 44 .031** .101<br />
Toucherkennung (T) - between 0.009 1 44 .926** .000<br />
Aufgabenblock (B) - within 1.029 1 44 .316** .023<br />
S x T 0.371 1 44 .546** .008<br />
S x B 2.016 1 44 .163** .044<br />
T x B 0.257 1 44 .615** .006<br />
S x T x B 0.093 1 44 .762** .002<br />
2x2x2 Varianzanalyse zur Hedonischen Qualität: Stimulation; (*) p < .1; * p < .05; ** p < .01.<br />
Quelle der Varianz F df1 df2 p part. η 2<br />
Spracherkennung (S) - between 0.111 1 44 .740** .003<br />
Toucherkennung (T) - between 0.001 1 44 .971** .000<br />
Aufgabenblock (B) - within 2.197 1 44 .145** .048<br />
S x T 4.259 1 44 .045** .088<br />
S x B 0.128 1 44 .722** .003<br />
T x B 0.003 1 44 .959** .000<br />
S x T x B 0.441 1 44 .510** .010<br />
2x2x2 Varianzanalyse zur Attraktivität; (*) p < .1; * p < .05; ** p < .01.<br />
Quelle der Varianz F df1 df2 p part. η 2<br />
Spracherkennung (S) - between 4.093 1 44 .049* .085<br />
Toucherkennung (T) - between 0.001 1 44 .982* .000<br />
Aufgabenblock (B) - within 0.052 1 44 .820* .001<br />
S x T 1.840 1 44 .182* .040<br />
S x B 0.209 1 44 .649* .005<br />
T x B 0.013 1 44 .909* .000<br />
S x T x B 0.013 1 44 .909* .000<br />
86