01.06.2014 Aufrufe

Modalitätenwahl bei multimodaler Interaktion. - Graduiertenkolleg ...

Modalitätenwahl bei multimodaler Interaktion. - Graduiertenkolleg ...

Modalitätenwahl bei multimodaler Interaktion. - Graduiertenkolleg ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Modalitätenwahl</strong> <strong>bei</strong> <strong>multimodaler</strong> <strong>Interaktion</strong>.<br />

Eine experimentelle Untersuchung<br />

zum Einfluss fehlerbehafteter Eingabenerkennung<br />

auf Nutzungsverhalten und subjektive Bewertung.<br />

vorgelegt von<br />

Michael Minge<br />

Matrikelnummer: 310466<br />

Masterar<strong>bei</strong>t zur Erlangung des akademischen Grades<br />

Master of Science (M.Sc.)<br />

im Studiengang<br />

Human Factors<br />

an der Technischen Universität Berlin<br />

Fakultät V für Verkehrs- und Maschinensysteme<br />

Institut für Psychologie und Ar<strong>bei</strong>tswissenschaft<br />

Erstgutachter: Prof. Dr. Manfred Thüring<br />

Zweitgutachter: M.Sc. Stefan Schaffer<br />

Berlin, im August 2012


Erklärung<br />

Hiermit erkläre ich die selbstständige und eigenständige Anfertigung der vorliegenden<br />

Masterar<strong>bei</strong>t im Studiengang Human Factors an Eides statt.<br />

Berlin, den 24.08.2012<br />

…...….………………………………<br />

Michael Minge


Zusammenfassung<br />

______________________________________________________________________________<br />

Zusammenfassung<br />

Bei der Multimodalität handelt es sich um ein aktuell weit verbreitetes und viel<br />

umworbenes Bedienkonzept zur Gestaltung von Mensch-Maschine-<strong>Interaktion</strong>en, das<br />

vor allem darauf abzielt, eine verbesserte Anpassung der Systemsteuerung an die<br />

menschlichen Leistungsvoraussetzungen zu gewährleisten. Um dies zu erreichen, bieten<br />

multimodale Geräte verschiedene Wahrnehmungs- und Aktionsmodalitäten alternativ<br />

oder kombiniert an, damit Nutzer über unterschiedliche Kanäle Informationen von der<br />

Maschine registrieren bzw. Systemeingaben an die Maschine vornehmen können.<br />

Bietet das technische Gerät seinen Anwendern verschiedene Aktionsmodalitäten<br />

an, welche alternativ für eine Systemeingabe verwendet können, so ist der Nutzer gefordert,<br />

sich für eine der zur Verfügung stehenden Alternativen zu entscheiden und somit<br />

eine <strong>Modalitätenwahl</strong> zu treffen. Häufig kann die Wahl der Modalität jederzeit,<br />

auch innerhalb einer Aufgabe, angepasst bzw. revidiert werden, sodass in diesem Zusammenhang<br />

auch von einem Modalitätenwechsel gesprochen wird (vgl. Jöckel, 2010).<br />

Das Ziel der vorliegenden Ar<strong>bei</strong>t besteht darin, im Rahmen einer experimentellen<br />

Untersuchung ausgewählte Faktoren, die die <strong>Modalitätenwahl</strong> beeinflussen können,<br />

systematisch zu variieren und Auswirkungen auf das Nutzungsverhalten und subjektive<br />

Bewertungen zu studieren. Als Untersuchungsgegenstand dient in dieser Masterar<strong>bei</strong>t<br />

ein prototypisches Testprogramm in Form eines Listenauswahlsystems, das auf einem<br />

mobilen Endgerät (Smartphone) präsentiert wird. Dieses System kann sowohl über einen<br />

Touchscreen (manuell) als auch über Spracherkennung (auditiv) gesteuert werden.<br />

Der theoretische Teil dieser Ar<strong>bei</strong>t definiert die grundlegenden Begriffe und<br />

stellt ausgewählte ingenieurspsychologische Konzepte vor, welche aus kognitiver Sicht<br />

beleuchten, wie Menschen Entscheidungen treffen. Aus der Diskussion möglicher Einflussfaktoren<br />

für die <strong>Modalitätenwahl</strong> werden die Untersuchungsfrage und Forschungshypothesen<br />

abgeleitet, welche mit dem empirischen Teil dieser Ar<strong>bei</strong>t beantwortet werden.<br />

Zusammenfassend zeigen die Ergebnisse, dass sowohl die <strong>Modalitätenwahl</strong> als<br />

auch subjektive Bewertungen durch erlebte fehlerhafte Systemeingaben und durch unterschiedlich<br />

erwartete Effizienzvorteile beeinflusst werden.<br />

Schlagworte: Mensch-Technik-<strong>Interaktion</strong>, Multimodalität, <strong>Modalitätenwahl</strong>, Spracherkennung,<br />

Nutzungserleben, Usability.<br />

I


Vorwort<br />

______________________________________________________________________________<br />

Vorwort<br />

Mein Dank gilt allen, die den Entstehungsprozess dieser Ar<strong>bei</strong>t ermöglicht, motiviert<br />

und hinterfragt haben. Dazu gehören allen voran die Mitglieder des <strong>Graduiertenkolleg</strong>s<br />

prometei (Prospektive Mensch-Technik-<strong>Interaktion</strong>) sowie des Fachgebiets Kognitionspsychologie<br />

und Kognitive Ergonomie der Technischen Universität Berlin.<br />

Zudem danke ich der Deutschen Forschungsgemeinschaft (DFG), die die Realisierung<br />

der empirischen Datenerhebung finanziell förderte sowie allen Studienteilnehmerinnen<br />

und Studienteilnehmern für ihre Zuverlässigkeit, ihre Neugier und ihr Engagement <strong>bei</strong><br />

der Durchführung der Untersuchung.<br />

II


Inhaltsverzeichnis<br />

______________________________________________________________________________<br />

Inhaltsverzeichnis<br />

Zusammenfassung ……………………………………………………………..<br />

Vorwort ………………………………...……………………………………….<br />

Inhaltsverzeichnis ……………………………………………………………...<br />

Abbildungsverzeichnis …………………………………………………………<br />

Tabellenverzeichnis ……………………………………………………………<br />

I<br />

II<br />

III<br />

V<br />

VI<br />

1 Einführung …………………………………………………………….. 1<br />

1.1 Ausgangslage und Zielsetzung ………………………………….. 1<br />

1.2 Aufbau der Ar<strong>bei</strong>t ……………………………………………...... 3<br />

2 Theoretischer Hintergrund …………………………………………… 4<br />

2.1 Grundlegende Begriffe …………………………………………. 4<br />

2.1.1 Mensch-Technik-<strong>Interaktion</strong> …..………..…………….. 4<br />

2.1.2 Modalität ……………………………..………............... 6<br />

2.1.2.1 Wahrnehmungsmodalitäten …………………………… 7<br />

2.1.2.2 Aktionsmodalitäten …………………………………… 8<br />

2.1.3 Multimodale Mensch-Maschine-<strong>Interaktion</strong> ………….. 10<br />

2.2 <strong>Modalitätenwahl</strong> ……………………………………………….. 13<br />

2.2.1 Entscheidungen ……………………………………….. 13<br />

2.2.1.1 Merkmale von Entscheidungen ……………………….. 13<br />

2.2.1.2 Klassen der Entscheidungsforschung …………………. 14<br />

2.2.2 Informationsverar<strong>bei</strong>tungsmodell der Entscheidung ….. 15<br />

2.2.3 Modell der multiplen Ressourcen ……………………... 19<br />

2.2.4 Heuristiken …………………………………………….. 21<br />

2.2.4.1 Verankerungsheuristik …………………………………. 21<br />

2.2.4.2 Verfügbarkeitsheuristik ………………………………... 22<br />

2.2.4.3 Repräsentativitätsheuristik …………………………….. 22<br />

2.2.5 Zusammenfassung …………………………………....... 23<br />

2.3 Einflussfaktoren für die <strong>Modalitätenwahl</strong> ……………................. 23<br />

2.3.1 Effektivität …………………………………………….. 23<br />

2.3.2 Effizienz ……………………………………………….. 24<br />

2.3.3 Zeitdruck und mentale Beanspruchung ……………….. 25<br />

III


Inhaltsverzeichnis<br />

______________________________________________________________________________<br />

2.3.4 Hedonische Qualität …………………………………… 26<br />

2.3.5 Präferenzen und statische Benutzerattribute ..……..…... 26<br />

2.3.6 Umgebungsfaktoren ………………………………..…. 27<br />

2.4 Fragestellung und experimentelle Hypothesen …………………. 27<br />

2.4.1 Forschungsfrage ……………………………………….. 27<br />

2.4.2 Experimentelle Hypothesen …………………………… 28<br />

3 Methode …………………………………………………………….……. 30<br />

3.1 Untersuchungsdesign und unabhängige Variablen ……………… 30<br />

3.2 Untersuchungsmaterial …………….……………………………. 30<br />

3.2.1 Manipulation der fehlerbehafteten Erkennung von<br />

Eingaben ………………………………………………. 33<br />

3.2.1.1 Fehlerbehaftete Sprachinteraktion …………………….. 33<br />

3.2.1.2 Fehlerbehaftete Touchinteraktion ……………………... 34<br />

3.3 Versuchsaufbau …………………………………………………. 34<br />

3.4 Abhängige Variablen und Messinstrumente ……………………. 37<br />

3.5 Datenaufbereitung ……………………………………………… 37<br />

3.6 Untersuchungsablauf ………………..………………………….. 38<br />

3.7 Stichprobenbeschreibung ……………………………………….. 40<br />

4 Ergebnisse …………………………………………………………...…. 42<br />

4.1 Prüfung der statistischen Voraussetzungen ……..………………. 42<br />

4.2 Analyse der <strong>Modalitätenwahl</strong> …………………………………… 43<br />

4.2.1 <strong>Modalitätenwahl</strong> auf dem Startbildschirm ..…………….. 44<br />

4.2.2 <strong>Modalitätenwahl</strong> auf den Listenbildschirmen …………. 45<br />

4.3 Analyse der subjektiv erlebten Anstrengung (SEA) ……………. 48<br />

4.4 Wahrgenommene Produktqualitäten (AttrakDiff) ……………… 50<br />

4.5 Zusammenfassung ………………………………………………. 53<br />

5 Diskussion ……………………………………………………………… 55<br />

5.1 Hypothesen zur <strong>Modalitätenwahl</strong> ………………………………. 55<br />

5.2 Hypothesen zur subjektiv erlebten Anstrengung ……………….. 58<br />

5.3 Hypothesen zu wahrgenommenen Produktqualitäten …………... 59<br />

5.4 Kritische Würdigung und Limitation …………………………… 62<br />

6 Ausblick ………………………………………………………………… 64<br />

Literaturverzeichnis …………………………………………………………... 65<br />

Anhang …………………………………………………………………………. 72<br />

IV


Abbildungsverzeichnis<br />

______________________________________________________________________________<br />

Abbildungsverzeichnis<br />

1: Potentiale der Multimodalität …………………………………………... 1<br />

2: Strukturmodell eines Mensch-Maschine-Systems ……………………... 5<br />

3: Technische Komponenten einer multimodalen Schnittstelle …………… 9<br />

4: Informationsverar<strong>bei</strong>tungsmodell der Entscheidung …………………… 16<br />

5: Prozess der Informationsintegration …………………………………… 18<br />

6: Dimensionale Repräsentation der Struktur multipler Ressourcen ……… 20<br />

7: Startbildschirm der Anwendung …………………………………....…… 31<br />

8: Listenbildschirm für die Subaufgabe „Stadt auswählen“ ……….………. 32<br />

9: Startbildschirm <strong>bei</strong> fortschreitendem Bear<strong>bei</strong>tungsstand …………….…. 32<br />

10: Feedback in der Bedingung fehlerbehafteter Eingaben <strong>bei</strong> der<br />

Sprachinteraktion ………………………………………………………. 33<br />

11: Wizard-of-Oz Versuchsaufbau ………………………………………….. 35<br />

12: Systemansicht für den zweiten Versuchsleiter (Wizard) ………………... 36<br />

13: Schematischer Versuchsablauf ……………...…………………………… 40<br />

14: Mittelwerte und Standardabweichungen der Modalität Sprache auf dem<br />

Startbildschirm in Abhängigkeit zu den vier Versuchsbedingungen ……. 44<br />

15: Mittelwertverläufe der <strong>Modalitätenwahl</strong> Sprache auf dem jeweils ersten<br />

Listenbildschirm einer Subaufgabe ……………………………………… 47<br />

16: Mittelwertverläufe der subjektive erlebten Anstrengung (SEA) auf dem<br />

jeweils ersten Listenbildschirm einer Subaufgabe ……………………… 50<br />

17: Mittelwerte und Standardabweichungen der wahrgenommenen<br />

pragmatischen Qualität ………………………………………………….. 51<br />

18: Mittelwerte und Standardabweichungen der wahrgenommenen<br />

hedonischen Qualität (Stimulation) ……………………….…………….. 52<br />

19: Mittelwerte und Standardabweichungen der wahrgenommenen<br />

pragmatischen Qualität (Identifikation) ……………………...………….. 52<br />

20: Mittelwerte und Standardabweichungen der wahrgenommenen<br />

Attraktivität ………………………………..…………………………….. 53<br />

V


Tabellenverzeichnis<br />

______________________________________________________________________________<br />

Tabellenverzeichnis<br />

1: Sinnesmodalitäten des Menschen …………………………………..……. 7<br />

2: Übersicht über die cooperation types nach Martin (1998) …………….... 12<br />

3: Varianzanalyse zur Sprachnutzung auf der Startseite …………………… 44<br />

4: Varianzanalyse zur Sprachnutzung auf dem jeweils ersten Listenbildschirm<br />

einer Subaufgabe ………………………………………………… 45<br />

5: Varianzanalyse zur subjektiv erlebten Anstrengung (SEA) …………….. 48<br />

VI


Einführung<br />

______________________________________________________________________________<br />

1 Einführung<br />

1.1 Ausgangslage und Zielsetzung<br />

Multimodalität ist ein vielversprechendes Konzept, um die Bedienung technischer<br />

Systeme zu erleichtern und Nutzer nicht nur zufriedenzustellen, sondern auch zu<br />

begeistern. Insbesondere im Bereich mobiler Anwendungen werden viele Produkte<br />

heutzutage mit „<strong>multimodaler</strong> Bedienbarkeit“ beworben. So ist zum Beispiel in aktuellen<br />

Smartphones die Spracheingabe als alternative Möglichkeit zur Eingabe von Nutzerintentionen<br />

mittlerweile standardmäßig integriert. Im Bereich stationärer Systeme erfreuen<br />

sich vor allem Blickbewegungsmessungen einem sprunghaft ansteigendem Interesse,<br />

teils als vollständige Alternative zur taktilen Eingabe, um entsprechend körperlich<br />

eingeschränkten Personen die <strong>Interaktion</strong> mit Technik zu ermöglichen (z.B. Bates &<br />

Istance, 2005), teils als Kombination mit der taktilen Eingabe, um die jeweiligen Vorteile<br />

<strong>bei</strong>der <strong>Interaktion</strong>smodalitäten zusammenzuführen (z.B. Aula et al., 2005).<br />

Tatsächlich eröffnet das Konzept Multimodalität <strong>bei</strong> einem erhöhten technischen<br />

Aufwand und einer verlängerten Entwicklungszeit zahlreiche Potenziale, um die<br />

Mensch-Maschine-<strong>Interaktion</strong> effizienter, effektiver, robuster und natürlicher zu gestalten<br />

(vgl. Maybury & Stock, 1999; Oviatt 1999). Abbildung 1 fasst diese Potentiale<br />

überblicksartig zusammen. Sie konnten bereits mehrfach in Studien experimentell<br />

nachgewiesen werden (z.B. Hauptmann, 1989; Vo & Waibel, 1993; Oviatt, 1996; Althoff<br />

et al., 2001).<br />

möglichst schnelle<br />

Aufgabenbear<strong>bei</strong>tung<br />

<strong>bei</strong> geringem Aufwand<br />

Effizienz<br />

Effektivität<br />

Benutzer macht in der jeweiligen<br />

Dialogsituation<br />

das Richtige<br />

Potenziale<br />

Multimodalität<br />

Unempfindlichkeit<br />

gegenüber Bedienund<br />

Erkennungsfehlern<br />

Robustheit<br />

Natürlichkeit<br />

Nachahmung<br />

zwischenmenschlicher<br />

Kommunikationsformen<br />

Abb. 1: Potenziale der Multimodalität (nach Niedermaier, 2003).<br />

1


Einführung<br />

______________________________________________________________________________<br />

Ein weit verbreiteter Irrglaube ist es jedoch, Multimodalität als Selbstzweck zu<br />

betrachten. Die Konzeption <strong>multimodaler</strong> Benutzungsschnittstellen erfordert ein schlüssiges<br />

Gesamtbedienkonzept, sodass in der jeweiligen Dialogsituation die spezifischen<br />

Vorteile einer Modalität dem Nutzer optimal zur Verfügung gestellt werden können<br />

(Niedermeier, 2003). Ebenso sollte nicht die technologische Realisierbarkeit einer Modalität<br />

im Vordergrund stehen, sondern die Berücksichtigung wahrnehmungspsychologischer<br />

und kognitiver Grundlagen des Nutzers (Oviatt, 1999). Alternativ angebotene<br />

Modalitäten zur Eingabe von Nutzerintentionen sind nur dann zweckmäßig, wenn sie<br />

sich im längerfristigen Systemgebrauch durch eine hohe Akzeptanz und eine entsprechende<br />

Nutzung auszeichnen. So beschreibt <strong>bei</strong>spielsweise Buxton (2007) die Güte eines<br />

Systems nicht nur dadurch, dass dieses sowohl nützlich (useful) als auch benutzbar<br />

(usable) ist, sondern dass es auch tatsächlich benutzt wird (used).<br />

Die Wahl einer Modalität und ggf. der Wechsel zur alternativ angebotenen Modalität<br />

innerhalb der Bear<strong>bei</strong>tung einer Aufgabe ist von verschiedenen Faktoren abhängig,<br />

so zum Beispiel von persönlichen Präferenzen des Nutzers und seinem Grad an<br />

mentaler Beanspruchung, von der umgebenden Situation oder von den Vorteilen, die<br />

sich ein Anwender in einer bestimmten Dialogsituation von einer Modalität erhofft (vgl.<br />

Abschnitt 2.3). Aufbauend auf frühere Studien, in denen der auch in dieser Ar<strong>bei</strong>t verwendete<br />

Untersuchungsgegenstand bereits zum Einsatz kam, liegt der Fokus in der vorliegenden<br />

Ar<strong>bei</strong>t auf Effizienzüberlegungen aus Nutzersicht, die sich exemplarisch auf<br />

die nötigen <strong>Interaktion</strong>sschritte zur Erledigung von Bedienaufgaben sowie auf die Fehlerbehaftung<br />

der angebotenen Modalitäten einer mobilen Anwendung beziehen.<br />

Der innovative Aspekt dieser Ar<strong>bei</strong>t besteht darin, erstmalig die Fehlerbehaftung<br />

<strong>bei</strong>der Modalitäten, der Spracherkennung und der Eingabe per Touchscreen, experimentell<br />

zu manipulieren und Auswirkungen sowohl auf das Nutzungsverhalten als auch auf<br />

subjektive Bewertungen zu erheben. Damit wird einerseits das Ziel verfolgt, die Studienergebnisse<br />

der vorliegenden Ar<strong>bei</strong>t in die Resultate der bisher durchgeführten Untersuchungsreihe<br />

einzuordnen und vor diesem Hintergrund zu interpretieren. Auf der anderen<br />

Seite ist beabsichtigt, durch die fehlerbehaftete Manipulation <strong>bei</strong>der Eingabemodalitäten<br />

einen zusätzlichen unabhängigen Untersuchungsfaktor zu produzieren, um eine<br />

erhöhte Varianzaufklärung auf Seiten der abhängigen Variablen zu ermöglichen. Zudem<br />

stellt sich die generelle Frage, inwieweit die zusätzliche Manipulation bisherige Ergebnisse<br />

verstärkt oder sich aus den vorliegenden Resultaten etwaig ein differenzierteres<br />

Verständnis der <strong>Modalitätenwahl</strong> <strong>bei</strong> <strong>multimodaler</strong> <strong>Interaktion</strong> ableiten lässt.<br />

2


Einführung<br />

______________________________________________________________________________<br />

1.2 Aufbau der Ar<strong>bei</strong>t<br />

Die vorliegende Ar<strong>bei</strong>t ist wie folgt aufgebaut: Im folgenden Kapitel werden zunächst<br />

die grundlegenden Begriffe der in dieser Masterar<strong>bei</strong>t behandelten Konzepte<br />

erläutert. Hierzu zählt insbesondere die Definition der Mensch-Maschine-<strong>Interaktion</strong><br />

und eines Mensch-Maschine-Systems sowie der Begriffe Modalität und Multimodalität.<br />

In diesem Zusammenhang wird auch ein Überblick über den Stand der Technik zur<br />

Nutzung ausgewählter Modalitäten gegeben. Anschließend wird im zweiten Abschnitt<br />

des Kapitels die <strong>Modalitätenwahl</strong> als entscheidungstheoretisches Problem thematisiert.<br />

Als Schwerpunkt in der Argumentation wird das kognitive Informationsverar<strong>bei</strong>tungsmodell<br />

der Entscheidung nach Wickens und Hollands (2000) ausführlich vorgelegt.<br />

Zudem geht dieser Abschnitt auf Entscheidungsroutinen, sogenannte Heuristiken, und<br />

auf Faktoren, welche die <strong>Modalitätenwahl</strong> beeinflussen können, ein. Aus den hier diskutierten<br />

empirischen Befunden werden abschließend die Fragestellung und die experimentellen<br />

Hypothesen als Basis der durchgeführten Untersuchung abgeleitet.<br />

Im dritten Kapitel werden zunächst das Versuchsdesign und das Untersuchungsmaterial<br />

dargelegt. Einen wesentlichen Stellenwert nimmt in diesem Zusammenhang<br />

die Operationalisierung der Manipulation fehlerbehafteter Eingabenerkennungen<br />

in den zur Verfügung gestellten Modalitäten ein. Die Beschreibung des Versuchsaufbaus<br />

und -ablaufs, der abhängigen Variablen und der verwendeten Messinstrumente<br />

sowie der akquirierten Stichprobe schließen den Methodenteil ab.<br />

Die Ergebnisse der Hauptuntersuchung werden im vierten Kapitel vorgestellt.<br />

Da<strong>bei</strong> werden zuvorderst Voraussetzungen geprüft, deren Erfüllung für die statistischen<br />

Analysen von Bedeutung sind. Anschließend werden Berechnungen zu den Ausprägungsunterschieden<br />

der abhängigen Variablen zur <strong>Modalitätenwahl</strong>, zur subjektiv erlebten<br />

Anstrengung (SEA) sowie zu wahrgenommenen Produktqualitäten dargestellt.<br />

Die Beantwortung der Fragestellungen und Hypothesen, der Bezug zur aktuellen<br />

Literatur und zu vorliegenden Befunden sowie eine Kritik der Methoden und Anmerkungen<br />

zu Limitationen der durchgeführten Studie werden schließlich im fünften Kapitel<br />

diskutiert. Ein Ausblick zur multimodalen Mensch-Maschine-<strong>Interaktion</strong> schließt die<br />

vorliegende Masterar<strong>bei</strong>t ab.<br />

3


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

2 Theoretischer Hintergrund<br />

Im folgenden Kapitel werden die theoretischen Grundlagen für das Verständnis<br />

dieser Ar<strong>bei</strong>t vorgestellt. Dazu werden zunächst die zentralen Begriffe um das Thema<br />

<strong>multimodaler</strong> Mensch-Maschine-<strong>Interaktion</strong> erläutert. Anschließend werden ingenieurspsychologische<br />

Theorien und empirische Befunde zur <strong>Modalitätenwahl</strong> skizziert, auf<br />

deren Basis dann die Fragestellungen und die Forschungshypothesen der durchgeführten<br />

experimentellen Untersuchung abgeleitet werden.<br />

2.1 Grundlegende Begriffe<br />

Obwohl multimodale Mensch-Maschine-<strong>Interaktion</strong> heutzutage eine weite Verbreitung<br />

und Akzeptanz erfährt, mangelt es bislang sowohl an einer einheitlichen Definition<br />

als auch an einem integrativen Modell zur Gestaltung und Umsetzung von Systemen,<br />

die Multimodalität für einen erweiterten Austausch von Informationen zwischen<br />

einem technischen System und einem Nutzer anbieten (Neuss, 2000). Erschwerend<br />

kommt hinzu, dass die zahlreichen Disziplinen, die sich mit Multimodalität beschäftigen,<br />

zentrale Begriffe häufig mit unterschiedlichen Bedeutungshöfen versehen. Aus<br />

diesem Grund dient der folgende Abschnitt vorab einer sorgfältigen Klärung der verwendeten<br />

grundlegenden Begriffe dieser Ar<strong>bei</strong>t.<br />

2.1.1 Mensch-Maschine-<strong>Interaktion</strong><br />

Unter Mensch-Maschine-<strong>Interaktion</strong> wird der wechselseitige Austausch von Informationen<br />

zwischen einem menschlichen Nutzer und einem maschinellen Teilsystem<br />

verstanden (Charwat, 1994). Wirkt die Person bzw. die Personengruppe mit der Maschine<br />

zusammen, um zielgerichtet einen bestimmten Auftrag zu erledigen, welcher<br />

entweder selbst- oder fremdgestellt sein kann, wird von einem Mensch-Maschine-<br />

System gesprochen (Timpe & Kolrep, 2000). Mensch-Maschine-Systeme weisen stets<br />

eine rückgekoppelte Struktur auf, da steuernde bzw. regelnde Eingriffe des Menschen<br />

den Zustand und damit die Rückmeldungen der Maschine beeinflussen (siehe Abbildung<br />

2). Der wechselseitige Austausch von Informationen erfolgt in Mensch-Maschine-<br />

Systemen über eine sogenannte Benutzungsschnittstelle, die einerseits Informationen<br />

über den Zustand der Maschine für den Menschen wahrnehmbar vermitteln und ihm<br />

andererseits Möglichkeiten einräumen soll, Eingriffe in den technischen Prozess der<br />

4


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

Maschine vorzunehmen. Im Vergleich zur Maschine, die grundsätzlich auf eine klar<br />

definierte Benutzungsschnittstelle angewiesen ist, ist es dem Menschen aufgrund seines<br />

deutlich facettenreicheren Wahrnehmungsvermögens darüber hinaus auch möglich, direkte<br />

Informationen über den Zustand der Maschine jenseits der Benutzungsschnittstelle<br />

sensorisch zu registrieren. Als Beispiel nennen die Autoren einen Wasserkessel, an welchem<br />

der Zustand des kochenden Wassers sowohl durch ein Anzeigeelement auf der<br />

Benutzungsschnittstelle (indirekt) als auch durch den austretenden Wasserdampf bzw.<br />

die zunehmende Wärme an der Außenseite des Kessels (direkt) erkannt werden kann.<br />

Abbildung 2: Strukturmodell eines Mensch-Maschine-Systems (entnommen aus Timpe und Kolrep<br />

(2000, S 3).<br />

Die Benutzungsschnittstelle stellt heutzutage ein zentrales Element in der Vermittlung<br />

von Informationen in Mensch-Maschine-Systemen dar, sodass ihrer Gestaltung<br />

eine besondere Bedeutung zukommt (Streitz, 1990). Die Güte der Aufgabenerledigung<br />

wird maßgeblich durch die Gebrauchstauglichkeit (Usability) der Schnittstelle in Relation<br />

zu den Kenntnissen und Fertigkeiten der Nutzer sowie vor dem Hintergrund limitierender<br />

Faktoren aufgrund des Nutzungskontextes bestimmt. Als Kriterien für eine<br />

hohe Gebrauchstauglichkeit haben sich die Begriffe Effektivität, Effizienz und Zufriedenheit<br />

etabliert (ISO 9241-210, 2010, S. 7), wo<strong>bei</strong> unter Effektivität verstanden wird,<br />

dass ein Mensch-Maschine-System die intendierten Zielen genau und vollständig erreicht.<br />

Als effizient wird das System bezeichnet, wenn die intendierten Ziele im Verhältnis<br />

zu den Kosten, der Zeit und/ oder dem Aufwand einfach erreicht werden können<br />

und zufriedenstellend bedeutet, dass sich Nutzer durch die <strong>Interaktion</strong> subjektiv wenig<br />

5


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

beansprucht erleben und dem technischen System gegenüber eine positive Gesamteinstellung<br />

entwickeln (Bevan, 1995).<br />

Effektive Mensch-Maschine-Systeme erfordern vor diesem Hintergrund somit<br />

eine Benutzungsschnittstelle, die jederzeit einen reibungslosen wechselseitigen Austausch<br />

von Informationen gewährleistet. Da der Mensch, wie bereits erwähnt, über vielfältige<br />

spezialisierte <strong>Interaktion</strong>sformen verfügt, kann der Austausch von Informationen<br />

für ihn auf einer ebenso breiten Vielfalt unterschiedlicher Kanäle stattfinden. Die<br />

Grundidee <strong>multimodaler</strong> Systeme zielt darauf ab, eine möglichst große Bandbreite an<br />

menschlichen <strong>Interaktion</strong>sformen zur Ein- und Ausgabe von Informationen technisch zu<br />

realisieren und nutzbar zu machen. Die technische Umsetzung solch eines Kanals wird<br />

als „Modalität“ bezeichnet. Eine Definition des Begriffs und der Zusammenhang zwischen<br />

menschlicher Sinneswahrnehmung und technischer Realisierbarkeit <strong>bei</strong> der Gestaltung<br />

von Benutzungsschnittstellen werden im folgenden Abschnitt näher ausgeführt.<br />

2.1.2 Modalität<br />

Unter dem Begriff „Modalität“ kann im Allgemeinen die zu spezifizierende Art<br />

und Weise verstanden werden, wie bestimmte Informationen zwischen einem Sender<br />

und einem Empfänger vermittelt bzw. ausgetauscht werden. Eine von Beuter (2007)<br />

übernommene Definition des Begriffs Modalität lautet:<br />

„Eine Modalität bezeichnet ein kommunikatives System, das durch die Art und Weise, wie Informationen<br />

kodiert und interpretiert werden, gekennzeichnet ist“ (Beuter, 2007, S. 7).<br />

Während sich der Begriff Modalität im technischen Sinn am konkreten Zusammenschluss<br />

eines <strong>Interaktion</strong>sgerätes mit einer <strong>Interaktion</strong>ssprache orientiert (Engesser,<br />

1993), werden unter dem Begriff Modalität im physiologischen Sinn die Möglichkeiten<br />

der menschlichen Wahrnehmung (Sensorik) und des menschlichen Handelns (Motorik)<br />

verstanden. In diesem Zusammenhang unterscheidet Hedicke (2000) zwischen sogenannten<br />

Aktionsmodalitäten und Wahrnehmungsmodalitäten. Aktionsmodalitäten bezieht<br />

er da<strong>bei</strong> auf die verfügbaren Eingabeformen zur Vermittlung von Informationen<br />

des Menschen an die Maschine, wohingegen die Wahrnehmungsmodalitäten im Sinne<br />

von Systemausgaben die Informationsübertragung von der Maschine zum Menschen<br />

betreffen. Vereinfacht, jedoch unspezifischer, werden die Wahrnehmungsmodalitäten<br />

von einigen Autoren auch als Ausgabemodalitäten und die Aktionsmodalitäten als Eingabemodalitäten<br />

bezeichnet (Engesser, 1993). Das Konzept des User-Centered Design<br />

6


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

geht davon aus, dass der Mensch als Nutzer im Mittelpunkt der Gestaltung von Technik<br />

steht (ISO 9242-210, 2010). Demzufolge sollten <strong>bei</strong> der Konzeption <strong>multimodaler</strong> Benutzungsschnittstellen<br />

nicht technologische Fragen im Vordergrund stehen, wie es häufig<br />

der Fall ist, sondern wahrnehmungspsychologische und kognitive Grundlagen des<br />

Nutzers (Oviatt, 1999). Aus diesem Grund werden im folgenden Abschnitt die Möglichkeiten<br />

menschlicher Wahrnehmung und damit die für die Realisierung <strong>multimodaler</strong><br />

Schnittstellen potentiell nutzbaren Wahrnehmungsmodalitäten charakterisiert.<br />

2.1.2.1 Wahrnehmungsmodalitäten<br />

Als Wahrnehmungsmodalitäten bezeichnen Roetting und Seifert (2005) alle<br />

menschlichen Sinneskanäle, die über spezialisierte Wahrnehmungsorgane bestimmte<br />

physikalische Umgebungsreize registrieren können. Neben den klassischen Wahrnehmungsmodalitäten<br />

Sehen, Hören, Fühlen, Riechen und Schmecken, verfügt der Mensch<br />

nach heutigem Wissensstand jedoch noch über eine Reihe weiterer Sinne, wie z.B. dem<br />

Gleichgewichtssinn, dem Schmerzsinn und dem Temperatursinn, wo<strong>bei</strong> die genaue Anzahl<br />

und eine exakte Abgrenzung noch nicht endgültig geklärt zu sein scheint (vgl.<br />

Schmidt & Thews, 1997). Eine Übersicht über die Sinnesmodalitäten nach Luczak<br />

(1998) wurde mit Tabelle 1 aus Roetting und Seifert (2005) übernommen.<br />

Tabelle 1: Sinnesmodalitäten des Menschen (vgl. Luczak, 1998; entnommen aus Roetting & Seifert,<br />

2005, S. 284).<br />

Wahrnehmungssystem<br />

visuell<br />

elektromagnetische Strahlung<br />

Auge<br />

auditiv<br />

periodische<br />

Ohr<br />

Luftschwankungen<br />

vestibulär Flüssigkeitsverschiebung Vestibulärapparat<br />

und Statolithen<br />

im<br />

(Schwerkraft)<br />

Mittelohrbereich<br />

olfaktorisch Moleküle in Gasen Schleimhautstücke<br />

im oberen<br />

Nasenraum<br />

gustatorisch Moleküle in<br />

Zungenoberfläche<br />

Flüssigkeiten<br />

Reiz Organ Empfindung<br />

Farbe, Helligkeit<br />

Tonhöhe,<br />

Lautstärke<br />

Lineare und<br />

Winkelbeschleunigung<br />

Geruch<br />

Geschmack<br />

taktil Verformungen der Haut Haut Druck, Berührung,<br />

Vibration<br />

kinästhetisch Dehnung der Muskeln und<br />

Bänder,<br />

Gelenkbewegungen<br />

Muskelspindeln Stellung der<br />

Körperteile<br />

zueinander<br />

thermisch Temperatur Haut warm, kalt<br />

Schmerz<br />

Verletzung und<br />

alle freien<br />

Schmerz<br />

Belastung<br />

Nervenenden<br />

7


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

Betrachtet man, welche dieser vielfältigen Wahrnehmungskanäle <strong>bei</strong> der Gestaltung<br />

von Mensch-Maschine-<strong>Interaktion</strong> explizit berücksichtigt werden, um Informationen<br />

von der Maschine an den Menschen zu übermitteln, fällt auf, dass die menschliche<br />

Wahrnehmung meist auf eine kleine und begrenzte Auswahl an Sinneskanälen reduziert<br />

wird (Roetting & Seifert, 2005). Im Kontext der Informationsdarstellung definieren einige<br />

Autoren lediglich optische, akustische und haptische Anzeigeelemente (z.B. Geiser,<br />

1990). Verschiedene Autoren vermuten, dass erst die zunehmende Technologisierung<br />

unseres Alltags in Leben und Ar<strong>bei</strong>t zu einem Verlust des direkten Kontakts<br />

zum Gerät bzw. zur Maschine führte und dadurch eine schrittweise Verdrängung der<br />

Sinnesvielfalt somit sogar begünstigt worden ist (z.B. Norman, 1990).<br />

Tatsächlich findet der größte Anteil der spezifizierten Informationsübertragung<br />

bis dato unter Nutzung der visuellen Modalität statt (Norman, 1990). Hier<strong>bei</strong> werden<br />

meist über Monitore, Displays, Dioden, etc. elektromagnetische Strahlungen unterschiedlicher<br />

Wellenlänge versendet, welche Nutzer in Form von Licht wahrnehmen und<br />

zu den Charakteristika Helligkeit, Farbigkeit, Größe, Form, Orientierung, Entfernung,<br />

Bewegung und Richtung verar<strong>bei</strong>ten (Muthig, 1990). Zur Nutzung der auditiven Wahrnehmungsmodalität<br />

werden durch Lautsprecher Informationen an den Menschen über<br />

Luftschwingungen in Form von Schallwellen kodiert. Diese können von Nutzern sowohl<br />

als nonverbale Töne oder Tonfolgen, als bedeutungsbehaftete Geräusche oder als<br />

verbale Sprachinformation wahrgenommen und verar<strong>bei</strong>tet werden. Taktile Reize gewinnen<br />

vor allem im Bereich mobiler Anwendungen zunehmend an Einfluss. Hier<strong>bei</strong><br />

werden über Bewegungsmotoren bzw. Aktoren bestimmte Kräfte an den Nutzer in<br />

Form von Schwingungen (Vibrationen) oder Druck (Kraftrückkoppelungen) abgegeben.<br />

Die vestibuläre Wahrnehmung wird hauptsächlich in größeren technischen Systemen,<br />

z.B. Auto- oder Flugzeugsimulatoren gezielt für Ausgaben des Systems genutzt (Shoemaker<br />

et al., 1995). Gustatorische oder olfaktorische Simulatoren spielen ebenso wie<br />

thermische oder Schmerzsimulatoren bis auf wenige Ausnahmen (z.B. Iwata et al.,<br />

2004) bislang eine geringe Rolle <strong>bei</strong> der Gestaltung von Mensch-Maschine-Systemen.<br />

2.1.2.2 Aktionsmodalitäten<br />

Aktionsmodalitäten beschreiben maschinenseitig, wie ein technisches System<br />

Informationen registriert und auf welche Art und Weise Eingriffsmöglichkeiten durch<br />

den Nutzer vorgenommen werden können. Während sich die Anzahl und die Beschaffenheit<br />

der Wahrnehmungsmodalitäten trotz der sensorischen Vielfalt vergleichbar ein-<br />

8


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

fach kategorisieren lassen, fällt dies für die Aktionsmodalitäten deutlich schwerer. Einige<br />

Autoren betonen sogar, dass sich insbesondere die Aktionsmodalitäten an der technologischen<br />

Realisierbarkeit orientieren, den aktuellen Stand der Technik widerspiegeln<br />

und daher per se nicht a priori begrenzend kategorisieren lassen (Vilimek, 2007).<br />

Im einfachsten Fall können Aktionsmodalitäten analog zu den Wahrnehmungskanälen<br />

des Menschen klassifiziert werden. So unterscheidet Hedicke (2000) zwischen<br />

einer auditiven, einer visuellen und einer haptischen Benutzungsschnittstelle (siehe Abbildung<br />

3). Während die auditive Schnittstelle zur Eingabe von Informationen Klänge<br />

per Mikrofon aus der Umgebung registriert, welche sowohl verbaler (z.B. Spracheingabe)<br />

als auch non-verbaler (z.B. Händeklatschen) Natur sein können, erkennen visuelle<br />

Schnittstellen Informationen über Gestik und Mimik des Nutzers mittels Kamerasysteme.<br />

Hierunter fallen für den Autor <strong>bei</strong>spielsweise auch Kameras, deren elektromagnetische<br />

Strahlung im für den Menschen nicht-sichtbaren Bereich liegt (z.B. Infrarot-<br />

Bewegungssensoren). Haptische Schnittstellen beziehen Informationen aus der Registration<br />

der Lageveränderung von Teilen eines Gerätes (z.B. <strong>bei</strong>m Drücken von Tasten,<br />

<strong>bei</strong>m Betätigen von Stellteilen, <strong>bei</strong>m Bewegen von Geräten bzw. Geräteteilen oder <strong>bei</strong>m<br />

Verformen von Körpern).<br />

Wahrnehmungsmodalitäten<br />

Schnittstelle<br />

Aktionsmodalitäten<br />

Ausgabe von Sprache,<br />

Tönen, Klängen<br />

auditives<br />

Interface<br />

Registrierung von Sprache,<br />

Tönen, Klängen<br />

Ausgabe von Text,<br />

Grafik, Bildern, Videos<br />

visuelles<br />

Interface<br />

Registrierung von<br />

Gestik, Mimik, Blickbewegungen<br />

Ausgabe von Druck,<br />

Vibration, Kraftrückkoppelungen<br />

haptisches<br />

Interface<br />

Registrierung von<br />

Kraft, manueller<br />

Betätigung<br />

Abbildung 3: Technische Komponenten einer multimodalen Schnittstelle (entnommen aus Hedicke,<br />

2000, S. 210).<br />

Liegen in diesen drei Bereichen aus technologischer Sicht bereits zahlreiche<br />

<strong>Interaktion</strong>smöglichkeiten und Innovationspotentiale vor und stellen sie vermutlich<br />

auch den größten und wichtigsten Bereich einer gezielten und intendierten Übertragung<br />

9


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

von Informationen eines Menschen an ein System dar, bestehen darüber hinaus jedoch<br />

noch weitere Möglichkeiten, um sowohl explizite als auch implizite Informationen über<br />

den Nutzer für eine Systemeingabe verwertbar zu machen. So hat sich insbesondere die<br />

Nutzung neuro- oder peripherphysiologischer Signale mittlerweile zu einer bedeutenden<br />

Möglichkeit entwickelt, um Informationen über den Zustand des Nutzers oder seinen<br />

intendierten Systemeingaben abzuleiten. Wesentliche Forschungsthemen liegen hier<strong>bei</strong><br />

auf den Gebieten der Brain-Computer-Interfaces (vgl. Walpow & Winter Walpow,<br />

2012), der Emotionsdetektion (vgl. Mahlke & Minge, 2008) und der mentalen Beanspruchung<br />

(vgl. Nickel et al., 2002).<br />

Neben den klassischen Schnittstellen sind auch olfaktorische und gustatorische<br />

Schnittstellen denkbar. So sind Sensoren zur Registrierung von Geruch bereits in verschiedenen<br />

Anwendungen, <strong>bei</strong>spielsweise zur Überwachung von Biogasanlagen oder<br />

Lüftungssystemern im Einsatz (z.B. Technoplus, 2012). Ebenso gibt es prototypische<br />

Konzeptionen von mobilen Robotern, die Sensoren verwenden, um die Herkunft bestimmter<br />

Gerüche, wie z.B. Sprengstoff oder Drogen, zu lokalisieren (Lochmatter et al.,<br />

2007). Da die Verwertbarkeit der interpretierten Informationen jedoch für die Gestaltung<br />

der Mensch-Technik-<strong>Interaktion</strong> stark kontextbezogen ist, bleiben solche Realisierungen<br />

vermutlich auch in Zukunft für solch spezielle Anwendungszwecke beschränkt.<br />

Wie dieser Abschnitt aufgezeigt hat, existieren sowohl auf der Wahrnehmungsseite<br />

als auch auf der Aktionsseite vielfältige Möglichkeiten, um Informationen in der<br />

Mensch-Maschine-<strong>Interaktion</strong> auszutauschen. Nachdem die einzelnen Modaltäten benannt<br />

und beschrieben wurden, widmet sich der folgende Abschnitt der kombinierten<br />

Nutzung parallel angebotener Modalitäten und damit dem Begriff Multimodalität.<br />

2.1.3 Multimodale Mensch-Maschine-<strong>Interaktion</strong><br />

Ginge es <strong>bei</strong> Multimodalität lediglich darum, verschiedene <strong>Interaktion</strong>smodalitäten<br />

für Systemeingaben oder -ausgaben zu verwenden bzw. Informationen auf unterschiedlichen<br />

Kanälen auszutauschen, so führte dies zu einer eklatanten Unschärfe in der<br />

Definition des Begriffs, worauf bereits Schomaker et al. (1995) hingewiesen haben:<br />

“In this sense every human-computer-interaction has to be considered as multimodal, because<br />

the user looks at the monitor, types in some commands or moves the mouse and clicks at certain<br />

positions, hears the reaction (beeps, key clicks, etc.) and so on” (Schomaker et al., 1995, S. 6).<br />

10


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

Um diese triviale Form der Multimodalität einzuschränken, ging das European<br />

Telecommunications Standards Institute (ETSI) dazu über, von Multimodalität nur dann<br />

zu sprechen, wenn verschiedene <strong>Interaktion</strong>smodalitäten sowohl für Systemeingaben als<br />

auch für -ausgaben bzw. zumindest für eine Kommunikationsrichtung vorliegen:<br />

“[Multimodal is an] adjective that indicates that at least one of the directions of a two-way communication<br />

uses two sensory modalities (vision, touch, hearing, olfaction, speech, gestures, etc.).<br />

[That means, that]<br />

a) more than one sensory modality is available for the channel (e.g. output can be visual or auditory)<br />

or<br />

b) within a channel, a particular piece of information is represented in more than one sensory<br />

modality (e.g. the command to open can be visual or typed)” (ETSI EG 202 191, 2003, S. 7)<br />

In diesem Zusammenhang betont Vilimek (2007), dass nicht allein die Anzahl<br />

an Geräten bzw. Sensoren entscheidend ist, um von Multimodalität zu sprechen. So<br />

werden <strong>bei</strong>spielsweise auch bereits durch einen Lautsprecher sowohl akustische als<br />

auch vibrotaktile haptische Informationen gleichzeitig ausgesendet. Vielmehr sei es<br />

erforderlich, die explizite Gestaltungsintention der verwendeten Schnittstelle im Kontext<br />

einer effektiven und effizienten Mensch-Maschine-<strong>Interaktion</strong> zu berücksichtigen.<br />

Bezogen auf die Systemausgaben bedeutet dies, dass <strong>bei</strong> Multimodalität<br />

“[…] eine durch den Systemdesigner manipulierbare aktive, technisch vermittelte Rückmeldung<br />

einer Nutzerreaktion über mehrere Signale vorliegt [und nicht lediglich] eine passive, rein mechanische<br />

Auswirkung dieser Nutzerreaktion“ (Vilimek, 2007, S. 14)<br />

Aus Sicht der Medienpsychologie wird der Begriff Multimodalität häufig mit<br />

den Wahrnehmungsmodalitäten des Menschen in Verbindung gebracht, wo<strong>bei</strong> darunter<br />

verstanden wird, dass zur Informationsübertragung verschiedene Sinneskanäle gleichzeitig<br />

angesprochen werden (Weidenmann, 1995). Ingenieurspsychologische Bestrebungen<br />

im Bereich <strong>multimodaler</strong> Mensch-Maschine-Systeme zielen heutzutage jedoch<br />

vor allem darauf ab, ein breites Angebot an parallel zur Verfügung stehenden Aktionsmodalitäten<br />

zu realisieren, um Nutzern verschiedene Varianten zur Eingabe von Informationen<br />

zu ermöglichen. In Anlehnung an die aktuell mit am häufigsten vorzufindende<br />

Definition von Multimodalität nach Oviatt (2003) werden parallel angebotene Wahrnehmungskanäle<br />

in Abgrenzung zum Begriff multimodal als multimedial bezeichnet:<br />

11


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

”Multimodal system process combined natural input modes – such as speech, pen, touch, manual<br />

gestures, gaze, and head and body movements – in a coordinated manner with multimedia system<br />

ouptut“ (Oviatt, 2003, S. 286)<br />

In Anlehnung an diese Definition von Oviatt (2003) wird in der vorliegenden<br />

Ar<strong>bei</strong>t unter Multimodalität verstanden, dass ein Mensch-Maschine-System zum Austausch<br />

von Informationen mindestens zwei Aktionsmodalitäten und eine oder mehrere<br />

Wahrnehmungsmodalitäten kombiniert. Um die unter 2.1.1 geforderte hohe Gebrauchstauglichkeit<br />

der Benutzungsschnittstelle zu gewährleisten, muss das Zusammenspiel aus<br />

Aktions- und Wahrnehmungsmodalitäten so ausgelegt sein, dass das Mensch-Maschine-<br />

System seine fremd- bzw. selbstgestellten Ziele effektiv und effizient erreichen kann<br />

(Nigay, Jambon & Coutaz, 1995). Zahlreiche Autoren haben bereits detaillierte Vorschläge<br />

unterbreitet, wie verschiedene Modalitäten sinnvoll aufeinander abgestimmt<br />

werden können (Neuss, 2000; Nigay & Coutaz, 1993; Oviatt, 2003).<br />

Martin (1998) unterscheidet da<strong>bei</strong> zum Beispiel sechs verschiedene Formen, sogenannte<br />

cooperation types, die er als Äquivalenz, Spezialisierung, Redundanz, Komplementarität,<br />

Übertragung und Simultanität bezeichnet (siehe Tabelle 2).<br />

Tabelle 2: Übersicht über die cooperation types (nach Martin, 1998).<br />

cooperation type<br />

Äquivalenz<br />

(equivalence)<br />

Spezialisierung<br />

(specialization)<br />

Redundanz<br />

(redundancy)<br />

Komplementarirät<br />

(complementarity)<br />

Übertragung<br />

(transfer)<br />

Simultanität<br />

(concurrency)<br />

verschiedene Modalitäten sind zueinander gleichwertig und können alternativ<br />

für eine Information verwendet, z.B. Eingabe über Touchscreen<br />

oder Spracherkennung<br />

für eine bestimmte Eingabe wird exklusiv eine bestimmte Modalität<br />

verwendet, z.B. Ton als Warnsignal<br />

dieselbe Information wird über mehrere Modalitäten zeitgleich übermittelt,<br />

z.B. verbale Tonausgabe und Lippenbewegungen<br />

die Gesamtinteraktion ist auf mehrere Modalitäten verteilt, z.B. Blickbewegung,<br />

um ein bestimmtes Objekt auszuwählen und Spracheingabe,<br />

um eine bestimmte Aktion an diesem Objekt vorzunehmen<br />

Informationen, die in einer Modalität erzeugt wurden, werden in einer<br />

anderen Modalität genutzt<br />

unterschiedliche Arten von Informationen werden über mehrere Modalitäten<br />

gleichzeitig verar<strong>bei</strong>tet, z.B. taktile Steuerung eines Kraftfahrzeugs<br />

über Lenkrad, Pedal, Schaltknauf und Bedienung des Navigationssystems<br />

über Spracheingabe<br />

Die vorliegende Ar<strong>bei</strong>t widmet sich dem Thema der <strong>Modalitätenwahl</strong> und möglichen<br />

Faktoren, die diese Wahl des Nutzers <strong>bei</strong> verschiedenen alternativ angebotenen<br />

Aktionsmodalitäten beeinflussen können. Im Sinne Martins (1998) wird somit der<br />

cooperation type der Äquivalenz näher untersucht.<br />

12


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

2.2 <strong>Modalitätenwahl</strong><br />

Werden durch ein technisches System verschiedene Aktionsmodalitäten zur Verfügung<br />

gestellt, die ein Nutzer für seine beabsichtigten Eingaben alternativ verwenden<br />

kann, so ist er gefordert, sich für oder gegen eine bestimmte Modalität zu entscheiden.<br />

Diese <strong>Modalitätenwahl</strong> basiert auf der Wahrnehmung und Verar<strong>bei</strong>tung von Hinweisreizen,<br />

die durch eine bestimmte Aufgabe vorgegeben werden und den jeweils aktuellen<br />

Handlungszielen des Nutzers, nämlich der erfolgreichen Erledigung der Aufgabe unter<br />

Nutzung einer der alternativ zur Verfügung stehenden Modalitäten, gegenübergestellt<br />

werden (Jöckel, 2010). Somit kann die <strong>Modalitätenwahl</strong> als ein entscheidungstheoretisches<br />

Problem verstanden werden (Schmid & Kindsmüller, 1996). Im folgenden Abschnitt<br />

werden deshalb als theoretische Grundlage für die <strong>Modalitätenwahl</strong> entscheidungswissenschaftliche<br />

Modelle aus ingenieurspsychologischer Perspektive erläutert<br />

und anschließend mögliche Einflussfaktoren sowie empirische Befunde aus bereits vorliegenden<br />

Untersuchungen zur <strong>Modalitätenwahl</strong> skizziert.<br />

2.2.1 Entscheidungen<br />

Wie Menschen Entscheidungen treffen und welche Mechanismen da<strong>bei</strong> eine<br />

Rolle spielen, ist für viele Disziplinen von Interesse. Vor allem in den Wirtschafts-, Sozial-<br />

und Politikwissenschaften hat die Entwicklung und die empirische Validierung<br />

von Entscheidungstheorien bereits eine lange Tradition. Seitdem der Faktor Mensch an<br />

Beachtung gewonnen hat, werden jedoch auch in den Ingenieurwissenschaften Erkenntnisse<br />

aus der Entscheidungsforschung zunehmend für die Gestaltung von Mensch-<br />

Maschine-Systemen berücksichtigt (Wickens & Hollands, 2000).<br />

2.2.1.1 Merkmale von Entscheidungen<br />

Entscheidungen beschreiben die Wahl zwischen mindestens zwei Optionen bzw.<br />

Alternativen auf der Basis persönlicher Präferenzen. Diese Präferenzen können entweder<br />

bewusst-abwägend (deliberativ), bewusst-heuristisch (regelbehaftet) oder intuitiv<br />

(spontan) ermittelt werden (Ostermann, 2010). Einige charakteristische Merkmale von<br />

Entscheidungen sind unter anderem, ob ein Problem mit binären oder multiplen Handlungsalternativen<br />

vorliegt, ob es sich um einen einmaligen oder einen iterativen Entscheidungsprozess<br />

handelt oder ob Entscheidungen durch eine Einzelperson oder durch<br />

eine Gruppe getroffen werden (vgl. Duffy, 1993).<br />

13


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

Stets werden Entscheidungen auch in Hinblick auf die Konsequenzen einer Option<br />

getroffen (Tversky & Kahneman, 1992). Da der Zusammenhang zwischen Option<br />

und Konsequenz häufig probabilistischer Natur ist, stellt der Grad an Unsicherheit über<br />

die möglichen Konsequenzen ein weiteres wichtiges Merkmal von Entscheidungen dar.<br />

In der Entscheidungsforschung wird in diesem Zusammenhang auch von einer Entscheidung<br />

unter Risiko (wenn die Wahrscheinlichkeiten für die möglichen Konsequenzen<br />

bekannt sind) bzw. einer Entscheidung unter Ungewissheit (wenn die Wahrscheinlichkeiten<br />

nicht bekannt sind), gesprochen (Jungermann, Pfister & Fischer, 2006).<br />

Die Entscheidung <strong>bei</strong>m Kauf eines Autos, wenn zwei Typen zur Auswahl stehen,<br />

stellt nach genauer Vorinformation über Vor- und Nachteile <strong>bei</strong>der Fahrzeuge zum<br />

Beispiel eine vergleichbar sichere Entscheidungssituation dar: Im Sinne einer multiattributiven<br />

Kosten-Nutzen-Analyse können die einzelnen Eigenschaften für jedes Auto<br />

separat bewertet, nach etwaigen persönlichen Präferenzen gewichtet und anschließend<br />

für die zwei zur Verfügung stehenden Optionen aufsummiert werden. Das Endergebnis<br />

sind Summenwerte, auf deren Basis eine Entscheidung getroffen werden kann (Wickens<br />

& Hollands, 2000).<br />

In zahlreichen Entscheidungssituationen, insbesondere im Umgang mit komplexen,<br />

dynamischen technischen Systemen sind jedoch entweder die Konsequenzen oder<br />

die Wahrscheinlichkeiten ihres Auftretens unbekannt. Entscheidungen werden vor allem<br />

dann als „risikoreich“ bezeichnet, wenn einige der möglichen, aber unsicheren Ergebnisse<br />

besonders unangenehm oder mit hohen Kosten verbunden sind (Tversky &<br />

Kahneman, 1992). Als Beispiel für ein komplexes, unsicheres Entscheidungsproblem<br />

nennen Wickens und Hollands (2000) die Entscheidung eines Piloten, seinen Flug <strong>bei</strong><br />

unsicherem Wetter fortzusetzen oder sich zum Umkehren zu entscheiden. In diesem Fall<br />

sind die Konsequenzen ausschließlich probabilistisch, d.h. dass es schwer vorherzusehen<br />

ist, welchen Einfluss das Wetter auf die Sicherheit des Flugs tatsächlich haben wird.<br />

2.2.1.2 Klassen der Entscheidungsforschung<br />

Nach Wickens und Hollands (2000) können drei Klassen der Entscheidungsforschung<br />

unterschieden werden: das rationale, das kognitive und das naturalistische Entscheiden.<br />

Während sich die rationale bzw. normative Entscheidungsforschung dafür<br />

interessiert, wie Menschen Entscheidungen entsprechend eines optimalen Rahmens,<br />

eines „goldenen Standards“ und unter Maximierung von Gewinnen und Minimierung<br />

von Verlusten, treffen sollten, betrachtetet die kognitive bzw. informationsverar<strong>bei</strong>tende<br />

14


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

Entscheidungsforschung, inwieweit Fehler bzw. Verzerrungen im Entscheidungsprozess<br />

auf begrenzte menschliche Aufmerksamkeit, Ar<strong>bei</strong>tsgedächtnis oder Auswahlstrategien<br />

bzw. vertraute Entscheidungsroutinen (siehe „Heuristiken“ in Abschnitt 2.2.4) zurückzuführen<br />

sind. Die naturalistische Entscheidungsforschung schließlich interessiert sich<br />

für das Entscheiden in realen Anwendungsbereichen und berücksichtigt da<strong>bei</strong> bedeutsame<br />

Kontextfaktoren aus der wirklichen Welt, wie z.B. domänenspezifische Expertise,<br />

Zeitdruck, Umweltdynamiken, hohe Risiken und Zielkonflikte (Zsambok, 1997).<br />

Die normative Entscheidungsforschung bietet mit der hier kurz skizzierten multiattributiven<br />

Kosten-Nutzen-Analyse ein rational begründetes Entscheidungsinstrument,<br />

jedoch erweist sie sich gegenüber der naturalistischen Entscheidungsforschung<br />

häufig nur als begrenzt gültig. Beispielsweise streben Menschen nicht immer nach Gewinnmaximierung<br />

bzw. Verlustminimierung und es liegen Unterschiede zwischen objektiven<br />

und subjektiven Werten bzw. Wahrscheinlichkeitsschätzungen vor, die zu Urteilsverzerrungen<br />

führen, welche teilweise durch bestimmte kognitive Entscheidungsroutinen<br />

(Heuristiken) erklärt werden können (vgl. Abschnitt 2.2.4).<br />

Die Beantwortung der in dieser Ar<strong>bei</strong>t entwickelten Fragestellung erfolgt unter<br />

Berücksichtigung menschlicher Informationsverar<strong>bei</strong>tungsroutinen und orientiert sich<br />

damit am kognitiven Entscheidungsprozess. Dies hat einerseits zur Folge, dass nicht die<br />

objektiv beste Entscheidung <strong>bei</strong> der <strong>Modalitätenwahl</strong> von Interesse sein wird, sondern<br />

das tatsächliche Nutzungs- und Akzeptanzverhalten der Anwender. Andererseits wird<br />

nur eine begrenzte Auswahl an Einflussfaktoren für die <strong>Modalitätenwahl</strong> systematisch<br />

untersucht, welche im Rahmen einer kontrollierten Laborstudie einer experimentellen<br />

Manipulation zugeführt wird. Um die <strong>bei</strong> einer Entscheidung relevanten Informationsverar<strong>bei</strong>tungsprozesse<br />

zu erläutern, wird im folgenden Abschnitt das kognitive Informationsverar<strong>bei</strong>tungsmodell<br />

der Entscheidung nach Wickens und Hollands (2000) näher<br />

spezifiziert.<br />

2.2.2 Informationsverar<strong>bei</strong>tungsmodell der Entscheidung<br />

Bei diesem Modell handelt es sich um ein Perzeptions-Aktions-Schema, worin<br />

die Autoren Wickens und Hollands (2000) die zentralen Elemente menschlicher Informationsverar<strong>bei</strong>tung<br />

aus ihrem Informationsverar<strong>bei</strong>tungsmodell integriert haben<br />

(Wickens & Hollands, 2000, S. 11). Als die drei Hauptschritte einer Entscheidung werden<br />

in diesem Modell insbesondere die selektive Aufmerksamkeit, die Diagnose und die<br />

Auswahl einer Reaktion betrachtet (siehe Abbildung 4).<br />

15


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

Aufmerksamkeit,<br />

Ressourcen,<br />

Aufwand<br />

Umwelt<br />

Reize<br />

(cues)<br />

=<br />

Selektive<br />

Aufmerksamkeit<br />

clue filtering<br />

Bestätigung<br />

Wahrnehmung<br />

Situationsbewusstsein<br />

Sinnesempfindung<br />

Langzeitgedächtnis<br />

Langzeit-Ar<strong>bei</strong>ts-<br />

Gedächtnis<br />

Ar<strong>bei</strong>ts-<br />

Gedächtnis-<br />

Mustererkennung<br />

Diagnose:<br />

H1, H2, …<br />

Optionen<br />

Entscheidung<br />

Auswahl der<br />

Reaktion<br />

Meta-Kognition<br />

Risiken (Werte)<br />

Ausführung<br />

der Reaktion<br />

Abbildung 4: Informationsverar<strong>bei</strong>tungsmodell der Entscheidung (nach Wickens & Hollands, 2000).<br />

Als Grundlage einer jeden Entscheidung werden zunächst Hinweisreize (cues) in<br />

ihrer entsprechenden Modalität aus der Systemumgebung (Umwelt) aufgenommen und<br />

kurz zwischengespeichert. Anschließend werden die sensorisch aufgenommen Reize<br />

gefiltert. Hier<strong>bei</strong> führt ein Selektionsprozess (clue filtering) nur solche Reize einer bewussten<br />

Verar<strong>bei</strong>tung (Wahrnehmung) weiter, welche aufgrund der Expertise des Entscheiders<br />

als momentan für die Situation relevant eingeschätzt werden. Diese „selektive<br />

Aufmerksamkeit“ wird zentral gesteuert, bindet in Abhängigkeit zur Komplexität des<br />

Problems Aufmerksamkeitsressourcen und stellt für Wickens und Hollands (2000) einen<br />

ersten zentralen Schritt <strong>bei</strong>m Treffen von Entscheidungen dar. Da der Mensch kein<br />

passiver Empfänger von Reizen oder Informationen, sondern ein aktives dynamisches<br />

System ist, das Information mit Flexibilität aufsucht, aufnimmt, verar<strong>bei</strong>tet und umsetzt<br />

(Muthig, 1990), kann die Filterung sowohl Bottom-Up, also durch die Reize selbst,<br />

oder Top-Down, also durch Beiträge des Langzeitgedächtnisses, gesteuert werden. Die<br />

anschließende Wahrnehmung der selektiv aufgenommenen Reize dient ihrer Identifikation<br />

und Interpretation.<br />

Auf Basis der selektiv aufgenommenen und verar<strong>bei</strong>teten Informationen wird<br />

daraufhin ein Verständnis bzw. eine Einschätzung der Entscheidungssituation im Sinne<br />

einer Diagnose abgeleitet und entwickelt (Rasmussen & Rouse, 1981). In Anlehnung an<br />

das Ar<strong>bei</strong>tsgedächtnismodell von Baddeley (1986) fassen Wickens und Hollands (2000)<br />

zur Unterstützung der Planungs- und Diagnoseabläufe Kognition und Ar<strong>bei</strong>tsgedächtnis<br />

als eine zentrale Exekutive zusammen, welche darüber hinaus einen wechselseitigen<br />

Informationsaustausch zum Langzeitgedächtnis organisiert. Ein wesentliches Ziel in<br />

16


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

dieser Diagnosephase besteht in der Ableitung von Hypothesen über den Zustand der<br />

Welt bzw. des Entscheidungsraumes, auf deren Grundlage anschließend eine adäquate<br />

Handlungsauswahl erfolgen kann. Da viele Diagnosen iterativ sind, d.h. dass zum Bekräftigen<br />

oder Wiederlegen anfänglicher Hypothesen die Suche nach weiteren Information<br />

angestoßen werden muss, existiert ein Pfeil von der zentralen Exekutive zur selektiven<br />

Aufmerksamkeit (clue filtering), der als „Bestätigung“ bezeichnet ist.<br />

Zur Entwicklung einer Diagnose messen Wickens und Hollands (2000) dem<br />

Konzept des Situationsbewusstseins nach Endsley (1995) eine besondere Bedeutung zu,<br />

die hier<strong>bei</strong> drei Stufen unterscheidet. Zu Beginn steht zunächst die Wahrnehmung aller<br />

relevanten Informationen aus der Umgebung (Stufe 1). Die wahrgenommenen Informationen<br />

werden anschließend Top-Down oder Bottom-Up zu einem angemessenen Verständnis<br />

der gegenwärtigen Situation integriert (Stufe 2), sodass daraus die weitere dynamische<br />

Entwicklung der gegenwärtigen Situation korrekt vorhergesagt und eine Antizipation<br />

zukünftiger Informationen abgeleitet werden kann (Stufe 3). Über alle Stufen<br />

hinweg wird somit ein allgemeines Systemverständnis aufgebaut, woraus sich Hypothesen<br />

zum Systemverhalten und Diagnosen ableiten lassen.<br />

Auf der Grundlage der Diagnose wird anschließend in Relation zu den erwarteten<br />

Konsequenzen und den damit verbundenen Werten einer Entscheidung (Kosten-<br />

Nutzen-Abwägung) der Prozess der Handlungsauswahl eingeleitet, welcher wiederum<br />

die Handlungsausführung anstößt. Ein bedeutsamer Einflussfaktor für die Handlungsauswahl<br />

ist da<strong>bei</strong> auch das Bewusstsein über das eigene Wissen (Meta-Kognition nach<br />

Reder, 1988). So zeigten Orasanu und Fischer (1997), dass sich gute Entscheidungsträger<br />

einer Informationsunterversorgung bewusst sind und daher besonders aufmerksam<br />

suchen bzw. falls nötig, auf wesentliche Informationen warten, bevor sie eine Entscheidung<br />

treffen. Da die Situation, der man sich bewusst ist, den sich entwickelnden Entscheidungsprozess<br />

<strong>bei</strong>nhaltet, zeigt die Meta-Kognition auch eine deutliche Verbindung<br />

zum Situationsbewusstsein (Endsley, 1995). Die allgemeine Feedbackschleife ermöglicht<br />

Lernprozesse und erhöht damit die Qualität zukünftiger Entscheidungen. Wird<br />

Feedback ins Langzeitgedächtnis übertragen, können zum einen die selektive Aufmerksamkeit<br />

für Hinweisreize, aber auch Risikoeinschätzungen und interne Entscheidungsregeln<br />

modifiziert werden.<br />

Betrachtet man den Prozess der Informationsintegration über alle Instanzen des<br />

Modells hinweg (siehe Abbildung 5), können drei Eigenschaften von Hinweisreizen und<br />

wie diese potentiell auf eine getroffene Hypothese einwirken, identifiziert werden.<br />

17


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

Abbildung 5: Prozess der Informationsintegration (von unten nach oben), um sich für eine von zwei<br />

Hypothesen zu entscheiden (nach Wickens und Hollands, 2000).<br />

Die Diagnostizität (Eindeutigkeit) beschreibt, wie eindeutig der beobachtete<br />

Hinweisreiz ist bzw. wieviel Evidenz er für die vorliegende Hypothese liefert, so ist z.B.<br />

ein Regentropfen ein sicherer diagnostischer Hinweisreiz für die Hypothese „Es regnet“,<br />

jedoch nur ein probabilistischer für die die Hypothese „Ein schweres Unwetter<br />

naht“ (vgl. Wickens und Hollands, 2000). Die Reliabilität gibt unabhängig von der Eindeutigkeit<br />

die Wahrscheinlichkeit an, mit dem einem Reiz geglaubt werden kann. Liefert<br />

z.B. ein Alarmsystem in einer Leitwarte einen bestimmten Anteil an Fehlalarmen,<br />

so ist dieses System auch nur bis zu diesem Grad als reliabel zu betrachten. Als Informationswert<br />

eines Reizes bezeichnen Wickens und Hollands (2000) das Produkt aus<br />

Diagnostizität und Reliabilität. Eine dritte Charakteristik von Reizen sind physikalische<br />

Eigenschaften und die Frage, wie auffällig bzw. herausragend die Hinweisreize sind.<br />

Entscheidend nach dem Informationsverar<strong>bei</strong>tungsmodell der Entscheidung ist,<br />

dass die Verar<strong>bei</strong>tungsvorgänge in der zentralen Exekutive zur Diagnosebildung bewusst<br />

ablaufen, ressourcenlimitiert und hochanfällig für Interferenzen sind (Wickens &<br />

Hollands, 2000). Das bedeutet, dass zwischen der ressourcenfordernden selektiven<br />

Aufmerksamkeit und Wahrnehmung auf der einen Seite und der Schaffung des Situati-<br />

18


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

onsbewusstseins auf der anderen Seite eine Interferenz vorliegt, wenn <strong>bei</strong>de Vorgänge<br />

zur Speicherung und Manipulation von Informationen auf das Ar<strong>bei</strong>tsgedächtnis zugreifen.<br />

Tatsächlich konnten solche Interferenzen experimentell belegt werden (Wickens,<br />

2002). Da solche Interferenzen dazu führen können, dass der Informationsaustausch in<br />

Mensch-Maschine-Systemen nicht oder nicht effizient genug gewährleistet werden<br />

kann, setzt eine erfolgreiche Umsetzung <strong>multimodaler</strong> <strong>Interaktion</strong> voraus, dass Interferenzen<br />

möglichst ausgeschlossen bzw. minimiert werden.<br />

2.2.3 Modell der multiplen Ressourcen<br />

Um sowohl Interferenzen frühzeitig zu identifizieren als auch unterschiedliche<br />

Modalitäten in einem Mensch-Maschine-System sinnvoll aufeinander abzustimmen,<br />

kann das Modell der multiplen Ressourcen nach Wickens & Hollands (2000) als ein<br />

erster Ansatz dienen. Eine Grundidee da<strong>bei</strong> ist, dass der menschliche Systemnutzer<br />

prinzipiell über verschiedene Ressourcen zur simultanen Durchführung kognitiver Prozesse<br />

verfügt. Je unterschiedlicher die beanspruchten Ressourcenanteile <strong>bei</strong> der Bear<strong>bei</strong>tung<br />

einer Doppelaufgabe sind, desto besser können die entsprechenden Einzelaufgaben<br />

zeitgleich bear<strong>bei</strong>tet werden (Wickens, 2002). Die zur Verfügung stehenden Ressourcen<br />

werden entsprechend dem Modell nach drei dichotomen Dimensionen klassifiziert,<br />

nämlich den Verar<strong>bei</strong>tungsstufen (stages), den Modalitäten (modalities) und dem Verar<strong>bei</strong>tungstyp<br />

(codes bzw. responses; siehe Abbildung 6). Auf Seiten der Modalitäten<br />

unterscheiden die Autoren zwischen auditiven und visuellen Ressourcen, wo<strong>bei</strong> zur<br />

ausführlichen Darstellung und Diskussion der experimentellen Belege für diese Modellannahme<br />

auf Wickens und Hollands (2000) verwiesen wird. Beim Verar<strong>bei</strong>tungstyp<br />

werden verschiedene Ebenen sowohl auf der Eingabeseite des menschlichen Nutzers<br />

(räumliche oder sprachliche Wahrnehmung) als auch auf der Ausgabenseite (manuelle<br />

oder sprachliche Aktionen) unterschieden. Auch die Phasen der Informationsverar<strong>bei</strong>tung<br />

differenzieren lediglich zwischen zwei Dimensionen, da davon ausgegangen wird,<br />

dass die Ressourcen für perzeptive und kognitive Prozesse der zentralen Exekutive<br />

identisch sind. Aufgrund der Ergebnisse zahlreicher Studien wurde im Bereich der visuellen<br />

Wahrnehmung eine weitere Modellannahme hinzugefügt, welche das foveale Sehen<br />

(focal) zur aufmerksamkeitsgesteuerten und fokussierten Informationsaufnahme<br />

vom peripherem Sehen (ambient) angrenzt, welches Orientierungs- und Bewegungswahrnehmung<br />

und visuelle Reize aus dem Umfeld zu detektieren unterstützt (z.B.<br />

Previc, 1998).<br />

19


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

Abbildung 6: Dimensionale Repräsentation der Struktur multipler Ressourcen (entnommen aus<br />

Wickens und Hollands, 2000, S. 449).<br />

Das Informationsverar<strong>bei</strong>tungsmodell und das Modell der mutiplen Ressourcen<br />

beschreiben aus kognitionspsychologischer Sicht, wie Menschen multimodale Informationen<br />

im Rahmen eines Mensch-Maschine-Systems aufnehmen und auf Basis des vorliegenden<br />

Wissens Hypothesen über die Angemessenheit bestimmter Handlungsmöglichkeiten<br />

und damit Handlungsentscheidungen, z.B. für die Nutzung einer Modalität<br />

<strong>bei</strong> äquivalent angebotenen Modalitäten auf Basis selektiv wahrgenommener und interpretierter<br />

Hinweisreize, treffen. Wie bereits in 2.2.1.1 bereits erwähnt wurde, können<br />

jedoch viele Entscheidungssituationen dadurch charakterisiert werden, dass der aktuelle<br />

Zustand des Entscheidungsraumes unbekannt ist, da nicht alle relevanten Informationen<br />

genau und vollständig zur Verfügung stehen bzw. die beste Entscheidung nicht durch<br />

einen Abruf von Informationen aus dem Langzeitgedächtnis ermittelt werden können<br />

(Kahneman, Slovic & Tversky, 1982). Dennoch sind Menschen auch in solchen Situationen,<br />

in denen die Konsequenz einer Entscheidung mit Unsicherheit behaftet sind, in<br />

der Lage, mit begrenzten geistigen und zeitlichen Ressourcen gute und brauchbare Entscheidungen<br />

zu treffen (Gigerenzer & Brighton, 2009). Solche Strategien, einfache<br />

„Faustregeln“, die auf leicht zu erhaltende Informationen angewendet werden können,<br />

werden auch als Heuristiken bezeichnet. Die wichtigsten Heuristiken, auf die Menschen<br />

für ihre Entscheidungen und Urteile zugreifen, stellt der folgende Abschnitt vor.<br />

20


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

2.2.4 Heuristiken<br />

Heuristiken ermöglichen es dem Menschen, in Situationen nicht alle für eine<br />

Entscheidungsoption notwendigen Informationen aufzunehmen und zu verar<strong>bei</strong>ten,<br />

sondern lediglich einen hinreichend notwendigen Anteil, um mit diesen begrenzten Informationen<br />

trotzdem ein gutes Entscheidungsergebnis zu erzielen (Kahneman et al.,<br />

1982). Heuristiken wirken da<strong>bei</strong> als Annahmen, die sich in früheren Entscheidungssituationen<br />

als erfolgreich bewährt haben. Drei zentrale Heuristiken sind die Verankerungsheuristik,<br />

die Verfügbarkeitsheuristik und die Repräsentativitätsheuristik.<br />

2.2.4.1 Verankerungsheuristik<br />

Als Verankerungsheuristik wird die Tendenz beschrieben, <strong>bei</strong> einem Urteil oder<br />

im Rahmen einer Entscheidungssituation zunächst einen groben Ausgangspunkt in<br />

Form einer ersten Hypothese zu finden und diesen als Anker für den weiteren Verlauf<br />

zu verwenden (Tversky & Kahneman, 1974). Die Autoren gehen davon aus, dass eine<br />

Adjustierung des Ankers (adjustment) prinzipiell möglich ist, die endgültigen Urteile<br />

jedoch grundsätzlich in Richtung des Ausgangswertes (anchor) verzerrt sind. Charakteristisch<br />

ist zudem, dass zur Verar<strong>bei</strong>tung der Ankerinformation bevorzugt diejenigen<br />

Informationen gesucht und verar<strong>bei</strong>tet werden, welche die zuvor aufgestellte Hypothese<br />

bestätigen. In diesem Zusammenhang wird auch von einer positiven Teststrategie<br />

(Liberman & Trope, 1996) oder vom Confirmation Bias (Jones & Roelofsma, 2000)<br />

gesprochen. Ebenso konnte gezeigt werden, dass die Informationssuche zur Prüfung<br />

eines Urteils bzw. zur Verifikation einer Handlungsauswahl häufig vorzeitig eingestellt<br />

wird, da das subjektive Gefühl über die Richtigkeit der eigenen Hypothese größer ist als<br />

die Wahrscheinlichkeit für die adäquate Urteils- bzw. Handlungsoption (Kruger &<br />

Dunning, 1999). Dies wird auch als Overconfidence Bias bezeichnet. Für die Wahl einer<br />

<strong>Interaktion</strong>smodalität <strong>bei</strong> alternativ angebotenen Aktionsmodalitäten bedeutet die Verankerungsheuristik,<br />

dass Anwender schnell eine erste Hypothese über die Brauchbarkeit<br />

der zur Verfügung stehenden Modalitäten treffen und sich daraufhin für eine bestimmte<br />

Modalität zur Bear<strong>bei</strong>tung einer Aufgabe entscheiden. Der bewusste Wechsel zu einer<br />

anderen Modalität im Laufe der Aufgabenbear<strong>bei</strong>tung dürfte hingegen, insbesondere <strong>bei</strong><br />

geringer Erfahrung mit dem technischen System erschwert sein, da Personen an ihrer<br />

ersten Entscheidung festhalten und dadurch die Kosten für einen Modalitätenwechsel<br />

vermeiden, welcher mit einem kognitiven Aufwand verbunden wäre.<br />

21


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

2.2.4.2 Verfügbarkeitsheuristik<br />

Die Verfügbarkeitsheuristik beschreibt die Leichtigkeit mit der Informationen<br />

aus dem Langzeitgedächtnis abgerufen werden können: Je verfügbarer Informationen<br />

sind, d.h. je leichter sie einfallen oder je geringer der kognitive Aufwand ist, um sich ein<br />

bestimmtes Ereignis oder eine bestimmte Handlungsauswahl vorzustellen, desto höher<br />

wird die Häufigkeit des Auftretens dieses Ereignisses geschätzt bzw. desto eher wird die<br />

Auswahl des entsprechenden Handlungsmusters vorgenommen (Tversky & Kahneman,<br />

1973). Wie Greening, Dollinger und Pitz (1996) aufgezeigt haben, sind vor allem solche<br />

Ereignisse verfügbarer, welche Menschen aus persönlicher Erfahrung heraus kennen.<br />

Dies impliziert, dass Anwender zunächst Erfahrungen mit der Ausführung von Aktionsmodalitäten,<br />

insbesondere wenn diese für sie innovativ sind, erleben müssen, um<br />

sich die Nutzung dieser Modalitäten in zukünftigen Situationen leicht vorstellen zu<br />

können. Ebenso sollten die zur Verfügung stehenden Aktionsmodalitäten präsent gemacht<br />

werden, z.B. durch das Aufleuchten eines Mikrofon-Icons, wenn zu bestimmten<br />

<strong>Interaktion</strong>szeitpunkten die Spracheingabe eine sinnvolle Alternative darstellt. Entstehen<br />

<strong>bei</strong> der Nutzung einer bestimmten <strong>Interaktion</strong>smodalität nachteilige Erfahrungen,<br />

erlebt der Anwender <strong>bei</strong>spielsweise mehrere fehlerhafte Spracherkennungssituationen,<br />

so wird ihm der Verfügbarkeitsheuristik entsprechend jedoch auch die Handlungsauswahl<br />

zur Nutzung diese Modalität zukünftig weniger leicht verfügbar ins Bewusstsein<br />

gebracht werden können.<br />

2.2.4.3 Repräsentativitätsheuristik<br />

Die Repräsentativitätsheuristik bezieht sich darauf, wie typisch ein wahrgenommenes<br />

Element für eine Kategorie, eine Population oder eine Wirkung für eine Ursache<br />

ist: Je besser der konkrete Fall das im Langzeitgedächtnis gespeicherte abstrakte Modell<br />

repräsentiert, desto größer wird die Wahrscheinlichkeit eingeschätzt, dass der Fall dem<br />

Modell zugehörig ist (Kahneman & Tversky, 1972). Liegt demnach eine große Übereinstimmung<br />

zwischen Hinweismuster und gespeichertem Muster vor, wird die entsprechende<br />

Handlungsanweisung gewählt. Hat ein Anwender <strong>bei</strong>spielsweise die Erfahrung<br />

gemacht, dass bestimmte Systemeingaben unter Nutzung einer bestimmten <strong>Interaktion</strong>smodalität<br />

schneller und einfacher vorgenommen werden können, so werden ihm <strong>bei</strong><br />

alternativ angebotenen Aktionsmodalitäten genau diese Situationen zukünftig besonders<br />

repräsentativ für die Nutzung dieser Modalität erscheinen.<br />

22


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

2.2.5 Zusammenfassung<br />

Sowohl das kognitive Informationsverar<strong>bei</strong>tungsmodell (vgl. 2.2.3) als auch die<br />

im vorigen Abschnitt aufgezeigten Heuristiken (vgl. 2.2.4) beschreiben, wie die <strong>Modalitätenwahl</strong><br />

<strong>bei</strong> <strong>multimodaler</strong> <strong>Interaktion</strong> aus entscheidungstheoretischer Sicht nachvollzogen<br />

und verstanden werden kann: Anwender nutzen die Informationen aus einer Aufgabe<br />

als Hinweisreize und bilden auf dieser Basis Hypothesen darüber, welche der zur<br />

Verfügung stehenden Modalitäten am geeignetsten erscheint, um die Aufgabe vollständig<br />

und unter geringem Aufwand zu erfüllen. Bei der Bildung von Hypothesen werden<br />

die Informationen unter Einbezug von Kosten-Nutzen-Überlegungen, persönlichen Präferenzen<br />

und externen Parametern gewichtet (Jöckel, 2010). Mögliche Faktoren, die<br />

diese Gewichtung umsetzen, werden im folgenden Abschnitt 2.3 vorgestellt. Aus dem<br />

Ergebnis wird schließlich eine Handlungsauswahl getroffen, welche in wiederholten<br />

Nutzungssituationen evaluiert und ggf. korrigiert werden kann. Heuristiken vereinfachen<br />

und beschleunigen den Entscheidungsprozess sowohl zu frühen Nutzungszeitpunkten<br />

(z.B. Ankerheuristik) als auch deutlich spezialisierter <strong>bei</strong> erfahrener Benutzung<br />

(z.B. Repräsentativitätsheuristik).<br />

2.3 Einflussfaktoren für die <strong>Modalitätenwahl</strong><br />

In diesem Abschnitt werden zentrale Einflussfaktoren für die <strong>Modalitätenwahl</strong><br />

vorgestellt, auf deren Basis eine Gewichtung zur Integration der Hinweisreize vorgenommen<br />

wird. Neben der Effektivität und Effizienz, welche in der hier vorliegenden<br />

Ar<strong>bei</strong>t als Einflussfaktoren systematisch manipuliert und untersucht werden, werden<br />

auch Zeitdruck und mentale Beanspruchung, hedonische Qualitäten, Präferenzen und<br />

statische Benutzerattribute sowie Umgebungsfaktoren thematisiert.<br />

2.3.1 Effektivität<br />

Unter Effektivität wird die Vollständigkeit und Genauigkeit verstanden, mit der<br />

geplante Aufgabenziele erreicht werden können (ISO 9241-210, 2010). Thomas et al.<br />

(1996) sprechen in diesem Zusammenhang auch von Quantität und Qualität der Zielfindung.<br />

Im Bereich interaktiver Produkte wird die Effektivität vor allem durch die Fehleranfälligkeit<br />

einer Modalität sowie durch die Genauigkeit bestimmt, mit der Systemeingaben<br />

vorgenommen werden können (Card et al., 1990). In einem multimodalen Versuchsaufbau<br />

zeigten Bilici et al. (2000), dass eine eingeschränkte Effektivität, operatio-<br />

23


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

nalisiert über Fehler in der automatischen Spracherkennung, signifikant dazu <strong>bei</strong>trägt,<br />

dass Personen von der auditiven zur manuellen Systemeingabe wechseln. Ebenso stellten<br />

Suhm et al. (1999) fest, dass Nutzer <strong>bei</strong> mehrfacher Verwendung eines multimodalen<br />

Systems dazu tendieren, diejenige Modalitäten zu benutzen, welche weniger fehleranfällig<br />

sind. Als fehlerhafte Eingaben können <strong>bei</strong> der automatischen Spracherkennung<br />

Einfügungen (insertions), Ersetzungen (substitutions) und Auslassungen (deletions)<br />

unterschieden werden (Hunt, 1990). Während <strong>bei</strong> Einfügungen Wörter erkannt werden,<br />

obwohl keine intendierte Eingabe durch den Nutzer erfolgte, werden <strong>bei</strong> Ersetzungen<br />

Systemeingaben falsch wiedergegeben. Unter Auslassungen wird das reine Nichterkennen<br />

von Eingaben verstanden. Um in der vorliegenden Ar<strong>bei</strong>t eine ebenso praktikable<br />

wie plausibel vermittelbare Fehlermanipulation zu untersuchen, welche sich zudem zwischen<br />

der auditiven und der manuellen Systemeingabe vergleichbar operationalisieren<br />

lässt, wird der Fokus ausschließlich auf Auslassungen beschränkt sein (vgl. Abschnitt<br />

3.2.1.1). Ebenso wurden Fehler in früheren Studien mit dem Untersuchungsgegenstand<br />

über Auslassungen in der Spracherkennung operationalisiert. Dass sich die Spracherkennungsfehlerrate<br />

auf die <strong>Modalitätenwahl</strong> auswirkt, konnte bereits durchweg belegt<br />

werden. Verglichen wurden da<strong>bei</strong> meist sehr hohe (30 %) mit geringeren Fehlerraten<br />

(10 %, Schaffer et al., 2011a) bzw. sehr hohe Fehlerraten (30 %t) mit einer Kontrollbedingung<br />

(0 %). Bei einer dreifachgestuften Aufteilung der Fehlerrate (bis zu 10 %, 10-<br />

25 %, über 25 %) konnte eine bedeutsame Erhöhung der Wechselbereitschaft zur manuellen<br />

Eingabe nur zwischen den Extrembedingungen nachgewiesen werden (Joeckel,<br />

2010). Um mit der vorliegenden Untersuchung Daten zu Versuchsbedingungen zu erheben,<br />

die mit den bereits vorliegenden Ergebnissen zusammenhängend interpretiert werden<br />

können, soll in dieser Ar<strong>bei</strong>t neben der Kontrollbedingung mit einer Fehlerrate von<br />

0 Prozent eine nicht extreme, jedoch praxisrelevante Fehlerrate von durchschnittlich 20<br />

Prozent gegenübergestellt werden. Diese wird sowohl für die auditive (Spracherkennung)<br />

als auch für die manuelle Modalität (Touchscreen-Eingabe) umgesetzt (vgl. Abschnitt<br />

3.2.1).<br />

2.3.2 Effizienz<br />

Als Effizienz wird das Verhältnis aus Genauigkeit und Vollständigkeit der Zielerreichung<br />

zum eingesetzten Aufwand beschrieben, den ein Nutzer aufbringen muss,<br />

um eine bestimmte Aufgabe zu erfüllen (ISO 9241-210, 2010). Als Aufwand können<br />

verschiedene Maße herangezogen werden. So zum Beispiel die erforderliche Zeit zum<br />

24


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

Lösen einer Aufgabe (Task Completion Time), monetäre Kosten, die kognitive Beanspruchung<br />

des Nutzers oder die Anzahl an <strong>Interaktion</strong>sschritten, die zur Erledigung einer<br />

Aufgabe notwendig sind (Bevan, 1995). Bedienzeiten werden häufig miteinander<br />

verglichen, um Aussagen über die Effizienz eines multimodalen Systems zu treffen. So<br />

konnten Perakakis et al. (2008) aufzeigen, dass die Nutzung der Modalität Sprache<br />

sprunghaft ansteigt, wenn diese im Vergleich zu einer manuellen Eingabe effizienter im<br />

Sinne einer höheren Informationsdatenrate ausfällt. Demgegenüber zeigte Rudnicky<br />

(1993), das Nutzer diejenigen Modalitäten bevorzugen, mit denen zusätzliche oder umständliche<br />

<strong>Interaktion</strong>sschritte eingespart werden können, sogar wenn die Bedienzeiten<br />

dadurch länger ausfallen. Auf ähnliche Ergebnisse bezüglich der Effizienzmetrik weisen<br />

auch Wechsung et al. (2010) hin. Aus diesem Grund und vor dem Hintergrund der bisher<br />

mit dem Untersuchungsgegenstand durchgeführten Versuchsreihe wird Effizienz in<br />

der vorliegenden Studie über das Einsparen von Bedienschritten operationalisiert.<br />

Durch mehrere Experimente konnte bereits die Hypothese gestützt werden, dass<br />

sich Nutzer äußerst sensitiv an der erwarteten notwendigen Anzahl an <strong>Interaktion</strong>sschritten<br />

zur Erledigung einer Aufgabe orientieren und daraufhin diejenige Modalität<br />

für eine Eingabe auswählen, welche die erforderliche Anzahl an <strong>Interaktion</strong>sschritten<br />

minimal hält (Jöckel, 2010; Schaffer et al., 2011b).<br />

2.3.3 Zeitdruck und mentale Beanspruchung<br />

Mentale Beanspruchung beschreibt das Verhältnis aus Anforderungen aus der<br />

Umgebung und den Informationsverar<strong>bei</strong>tungskapazitäten des Anwenders (Kantowitz et<br />

al., 1996). Meist werden unter mentaler Beanspruchung Leistungseinbußen aufgrund<br />

von Monotonie, Stress, psychischer Sättigung oder Ermüdung untersucht (Wickens &<br />

Hollands, 2000). Mit dem Modell der multiplen Ressourcen nach Wickens & Hollands<br />

(2000) wurde in Abschnitt 2.3.3 ein Kapazitätsmodell der Informationsverar<strong>bei</strong>tung<br />

vorgestellt, anhand dessen mentale Beanspruchung operationalisiert werden kann. Entsprechend<br />

dieses Modells lassen sich auf der einen Seite Interferenzen zwischen Aufgabenanteilen,<br />

die auf identische Ressourcen zugreifen und somit eine hohe mentale Beanspruchung<br />

induzieren, und andererseits Möglichkeiten zur Beschleunigung von Prozessen,<br />

wenn Wahrnehmungsprozesse und Informationsverar<strong>bei</strong>tung zur Verringerung<br />

der mentalen Beanspruchung auf distinkte Ressourcen verteilt werden, identifizieren.<br />

Schaffer et al. (2011b) konnte zeigen, dass zunehmende Aufgabenkomplexität<br />

im Rahmen <strong>multimodaler</strong> Systeme mit einem Ansteigen der subjektiv erlebten Bean-<br />

25


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

spruchung verbunden ist. Demgegenüber entscheiden sich Probanden für die jeweils<br />

effizientere Modalität, wenn sie dadurch die Aufgabenkomplexität reduzieren können<br />

(Schaffer et al., 2011a). Durch solch einen spezifischen Modalitäteneinsatz im Laufe<br />

eines Versuchs bzw. einer Aufgabenbear<strong>bei</strong>tung ist es Probanden zusammenfassend<br />

möglich, ihr Niveau an subjektiv erlebter Anstrengung trotz steigender Aufgabenkomplexität<br />

konstant zu halten. Obwohl es Hinweise darauf gibt, dass der Wechsel zwischen<br />

Modalitäten mit Kosten auf Seiten der mentalen Beanspruchung verbunden sein können<br />

(Spence et al., 2001), konnte dies für den vorliegenden multimodalen Untersuchungsgegenstand<br />

bislang nicht aufgezeigt werden (Joeckel, 2010).<br />

2.3.4 Hedonische Qualität<br />

Mit der hedonischen Qualität wird beschrieben, dass ein interaktives Produkt<br />

Nutzer nicht nur zufriedenstellt, sondern Begeisterung <strong>bei</strong> ihnen auszulösen vermag<br />

(Jordan, 2000). Im Gegensatz zur sogenannten pragmatischen Qualität und dem Fokus<br />

auf den Aufgaben und darauf, wie gut man diese mit dem Gerät erledigen kann, geht es<br />

<strong>bei</strong> der hedonischen Qualität darum, was das Produkt symbolisiert bzw. an neuen Möglichkeiten<br />

für seine Anwender bereithält (Hassenzahl et al., 2008).<br />

„Erweitert ein interaktives Produkt durch neue Funktionen die Möglichkeiten des Benutzers,<br />

stellt neue Herausforderungen, stimuliert durch visuelle Gestaltung und neuartige <strong>Interaktion</strong>sformen<br />

oder kommuniziert eine gewünschte Identität, z.B. indem es professionell, cool, modern,<br />

anders wirkt, besitzt es hedonische Qualität.“ (Hassenzahl et al., 2003, S. 188).<br />

Hedonische Qualitäten beziehen sich direkt auf die psychologischen Bedürfnissen<br />

des Benutzers und spielen heutzutage vor allem <strong>bei</strong> Produkten eine Rolle, für die es<br />

ein gesättigtes Angebot auf dem Markt gibt, wie es für mobile Endgeräte bereits seit<br />

längerem der Fall ist (Kreuzbauer & Malter, 2005). Die Nachahmung zwischenmenschlicher<br />

Kommunikation stellt bereits einen wesentlichen Aspekt hedonischer Qualität<br />

von multimodalen Systemen dar. Doch auch die Wahl einer bestimmten Modalität kann<br />

dadurch beeinflusst werden, dass diese als innovativ und originell wahrgenommen wird<br />

bzw. Nutzer erwarten, dadurch neue Handlungsmöglichkeiten offeriert zu bekommen.<br />

2.3.5 Präferenzen und statische Benutzerattribute<br />

Bei Benutzertests zur <strong>Modalitätenwahl</strong> liegen häufig erhöhte Varianzen in der<br />

Wahl einer bestimmten Modalität vor (z.B. Schaffer & Reitter, 2012). Diese Varianzen<br />

lassen sich zu einem vermutlich großen Teil auf persönliche Präferenzen der Nutzer<br />

26


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

zurückführen. Als sogenannte statische Benutzerattribute zählen <strong>bei</strong>spielsweise auch<br />

körperliche Eigenarten, Einstellungen, Charakterzüge, Bildung, Expertise und Affinitäten<br />

(vgl. Jöckel, 2010).<br />

2.3.6 Umgebungsfaktoren<br />

Insbesondere <strong>bei</strong> Multimodalität in mobilen Endgeräten, deren Nutzung in sehr<br />

unterschiedlichen und teilweise nur schwer vorhersehbaren Situationen erfolgen kann,<br />

spielen Umgebungsfaktoren für die <strong>Modalitätenwahl</strong> eine entscheidende Rolle. Nach<br />

Rohs (2009) können in diesem Bereich physische, psychische und soziale Einflussfaktoren<br />

unterschieden werden. Darunter fallen Aspekte wie Lichtverhältnisse, Umgebungslautstärke,<br />

Temperatur, Verbote oder soziale (Un-)Erwünschtheit (vgl. Jöckel, 2010).<br />

2.4 Fragestellung und experimentelle Hypothesen<br />

In diesem Abschnitt werden die drei zentralen Forschungsfragen der vorliegenden<br />

Ar<strong>bei</strong>t und die darauf aufbauenden Hypothesen vorgestellt. Falls nötig, wird im<br />

Rahmen der Forschungsfragen auf entsprechende Abschnitt des Theorieteils verwiesen.<br />

2.4.1 Forschungsfragen<br />

Die leitende Forschungsfrage für die vorliegende Untersuchung lautet, welchen<br />

Einfluss die fehlerbehaftete Erkennung von Nutzereingaben <strong>bei</strong> einem multimodalen<br />

System (manuelle Eingabe und Spracherkennung) auf das Nutzungsverhalten und die<br />

<strong>Modalitätenwahl</strong>, auf die subjektiv erlebte Anstrengung und auf subjektive Bewertungen<br />

von Produktqualitäten hat. Wie bereits dargestellt wurde (vgl. Abschnitt 2.3.1), basieren<br />

bisherige Untersuchungen ausschließlich auf der Manipulation von Spracherkennungsfehlern,<br />

jedoch wurde die äquivalente manuelle Modalität bislang nicht mit manipulierten<br />

Erkennungsfehlern untersucht.<br />

Die zweite Fragestellung zielt darauf ab, zu untersuchen, inwieweit sich Effizienzvorteile<br />

einer Modalität im Sinne einer geringen Anzahl an <strong>Interaktion</strong>sschritten zur<br />

Bear<strong>bei</strong>tung einer Aufgabe auf die <strong>Modalitätenwahl</strong> auswirken. Auch in diesem Bereich<br />

konnte bereits gezeigt, dass eine Reduktion an <strong>Interaktion</strong>sschritten <strong>bei</strong> der Sprachmanipulation<br />

dazu führt, dass die Modalität Sprache häufiger verwendet wird (vgl. Abschnitt<br />

2.3.2). Der Fokus in der vorliegenden Untersuchung liegt in einer Replikation<br />

27


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

und einer möglichen Erweiterung dieser Befunde, da durch die Manipulation der<br />

Touchinteraktion erstmals ein zweifaktorielles Versuchsdesign umgesetzt wird.<br />

Abschließend interessiert sich die Studie dafür, ob zeitbezogene Veränderungen<br />

in der <strong>Modalitätenwahl</strong>, in der mentalen Beanspruchung und in Produktbewertungen<br />

auftreten, wenn Probanden Gelegenheit haben, zwei Aufgabenblöcke im Rahmen einer<br />

Untersuchungseinheit zu bear<strong>bei</strong>ten. Bezüglich der <strong>Modalitätenwahl</strong> wird eine höhere<br />

Nutzung der Sprache im zweiten Block erwartet, da Probanden diese eher innovative<br />

Aktionsmodalität als Alternative zunehmend verfügbarer wird (vgl. Abschnitt 2.2.4.2).<br />

Auf Seiten der pragmatischen Qualität wird ebenfalls <strong>bei</strong> sinkender mentaler Beanspruchung<br />

ein Ansteigen erwartet, da fortschreitende Nutzung <strong>bei</strong> diesem einfachen prototypischen<br />

Gerät Lerneffekte begünstigen sollte und eine zunehmend spezialisierte Verwendung<br />

der Sprachmodalität die <strong>Interaktion</strong> effizienter machen sollte (vgl. Abschnitt<br />

2.2.4.3, Hornbaek, 2006). Auf Seiten der Attraktivitätsdimension wird davon ausgegangen,<br />

dass aufgrund von Familiarität durch die fortschreitende Darbietung des Untersuchungsgegenstandes<br />

die Einstellung der Probanden zum interaktiven Gerät im Sinne<br />

eines mere exposure Effekts positiv beeinflusst werden sollte (Zajonc, 1968).<br />

2.4.2 Experimentelle Hypothesen<br />

Zur Beantwortung der Fragestellungen wurden vor der experimentellen Untersuchung<br />

die folgenden Hypothesen aufgestellt, die entsprechend der betrachteten abhängigen<br />

Variablen zu drei Blöcken zusammengefasst werden:<br />

Hypothesenblock 1: Einflüsse auf das Nutzungsverhalten und die <strong>Modalitätenwahl</strong><br />

Die Modalität Sprache wird <strong>bei</strong> <strong>Interaktion</strong> mit einem multimodalen System häufiger<br />

angewendet, wenn<br />

H1.1 die Spracherkennung einwandfrei funktioniert.<br />

H1.2 die Toucherkennung fehlerbehaftet ist.<br />

H1.3 die Anwender mit der Nutzung von Sprache vertrauter sind.<br />

H1.4 <strong>Interaktion</strong>sziele <strong>bei</strong> Nutzung der Modalität Sprache effizienter erreicht<br />

werden können als <strong>bei</strong> Nutzung der Modalität Touch.<br />

H1.5 Während die Modalität Sprache <strong>bei</strong> einwandfreier Erkennung von Spracheingaben<br />

bereits <strong>bei</strong> geringen Effizienzvorteilen zur Modalität Touch verstärkt genutzt<br />

28


Theoretischer Hintergrund<br />

______________________________________________________________________________<br />

wird, führt eine Fehlerbehaftung dazu, dass eine vermehrte Nutzung von Sprache<br />

erst <strong>bei</strong> hohen Effizienzvorteilen vorliegt.<br />

H1.6 Während die Modalität Sprache <strong>bei</strong> fehlerbehafteter Erkennung von Toucheingaben<br />

bereits <strong>bei</strong> geringen Effizienzvorteilen zur Modalität Touch häufiger<br />

genutzt wird, führt eine einwandfreie Touchfunktionalität dazu, dass eine vermehrte<br />

Nutzung von Sprache erst <strong>bei</strong> hohen Effizienzvorteilen auftritt.<br />

Hypothesenblock 2: Einflüsse auf die subjektiv erlebte Anstrengung<br />

Nutzer erleben <strong>bei</strong> <strong>Interaktion</strong> mit einem multimodalen System eine geringere Beanspruchung,<br />

wenn<br />

H2.1 die Spracherkennung einwandfrei funktioniert.<br />

H2.2 die Toucherkennung einwandfrei funktioniert.<br />

H2.3 die Systemnutzung ihnen vertrauter ist.<br />

H2.4 Zunehmende Aufgabenkomplexität, die durch eine Effizienzsteigerung in der<br />

Modalität Sprache kompensiert werden kann, führt zu keiner bedeutsamen Steigerung<br />

in der subjektiv erlebten Anstrengung.<br />

Hypothesenblock 3: Einflüsse auf die Wahrnehmung von Produktqualitäten<br />

Die pragmatische Qualität eines multimodalen Systems wird höher bewertet, wenn<br />

H3.1 die Spracherkennung einwandfrei funktioniert.<br />

H3.2 die Toucherkennung einwandfrei funktioniert.<br />

H3.3 die Systemnutzung Nutzern vertrauter ist.<br />

Die globale Produktgüte (Attraktivität) eines multimodalen Systems wird höher bewertet,<br />

wenn<br />

H3.4 die Spracherkennung einwandfrei funktioniert.<br />

H3.5 die Toucherkennung einwandfrei funktioniert.<br />

H3.6 die Systemnutzung Nutzern vertrauter ist.<br />

29


Methoden<br />

______________________________________________________________________________<br />

3 Methoden<br />

3.1 Untersuchungsdesign und unabhängige Variablen<br />

Im vorliegenden Experiment wurde im Rahmen eines multimodalen Systems untersucht,<br />

welchen Einfluss die fehlerbehaftete Erkennung von Eingaben sowohl auf die<br />

Wahl der Modalität als auch auf subjektive Bewertungen ausübt. Der Untersuchung<br />

liegt ein vierfaktorieller 2x2x6x2-Versuchsplan mit Messwiederholung zugrunde.<br />

Als jeweils zweifachgestufte Zwischensubjektfaktoren wurden die <strong>bei</strong>den unabhängigen<br />

Variablen ‚fehlerbehaftete Spracherkennung‘ (keine Fehler, 20% Fehlerrate)<br />

sowie ‚fehlerbehaftete Toucherkennung‘ (keine Fehler, 20% Fehlerrate) manipuliert.<br />

Darüber hinaus wurde die Effizienzsteigerung der Spracheingabe gegenüber der<br />

Toucheingabe systematisch variiert. Hierzu wurde es Probanden ermöglicht, unterschiedlich<br />

aufwändige Touchinteraktionen (0 bis 5 zusätzliche Klicks) durch eine<br />

Sprachinteraktion (Nennung eines ein- bis mehrsilbigen Wortes) zu ersetzen. Diese unabhängige<br />

Variable wurde als Innersubjektfaktor umgesetzt und zeigte sich aufgrund<br />

der Einsparung von 0 bis 5 zusätzlichen <strong>Interaktion</strong>sschritten <strong>bei</strong> Nutzung der Spracheingabe<br />

als sechsfach gestuft. Komplettiert wird das Versuchsdesign durch einen weiteren<br />

zweifachgestuften Innersubjektfaktor, welcher eine Messwiederholung aller abhängigen<br />

Variablen in einem ersten und einem zweiten Aufgabenblock repräsentiert.<br />

3.2 Untersuchungsmaterial<br />

Als Untersuchungsmaterial wurde eine von Schaffer et al. (2011a) vorgeschlagene<br />

Simulationsumgebung weiterentwickelt und verwendet, welche ein interaktives<br />

Restaurantbuchungssystem als mobile Anwendung (Smartphone App) im Zustand eines<br />

Prototypen darstellt. Die Simulation wurde in Java für Android-Systeme programmiert<br />

und erlaubt, freie Variationen u.a. in der Ausgestaltung des Systems und in der Fehlerrate<br />

von Eingaben vorzunehmen. Für den Probanden sichtbar wird das Restaurantbuchungssystem<br />

auf einem mobilen Endgerät mit Touchscreen Funktionalität präsentiert.<br />

Die Buchung eines Restaurants erfolgt über Subaufgaben, nämlich die Wahl der<br />

Stadt, in der ein Tisch gebucht werden soll (z.B. „Berlin“), der Kategorie des Restaurants<br />

(z.B. „indisch“), der Uhrzeit (z.B. „18:00 Uhr“) und der Anzahl der anwesenden<br />

Personen (z.B. „4 Personen“). Welche Angaben Probanden jeweils genau auszuwählen<br />

haben, wurde ihnen in Form von prototypischen Bedienaufgaben stets vorgegeben.<br />

30


Methoden<br />

______________________________________________________________________________<br />

Um Eingaben im Restaurantbuchungssystem vorzunehmen, ist auf der Startseite<br />

der Anwendung zunächst das Kriterium der entsprechenden Subaufgabe auszuwählen<br />

(siehe Abbildung 7). Hierfür kann ein Nutzer jederzeit frei wählen, ob er die Auswahl<br />

per Touchscreen, also durch Drücken eines der grau unterlegten Buttons, oder per<br />

Spracheingabe vornimmt. Als Kommandos für die Spracheingabe sind die unmittelbaren<br />

Beschriftungen an den Buttons zu verwenden (z.B. „Stadt“ oder „Stadt auswählen“).<br />

Abbildung 7: Startbildschirm der Anwendung. Bei jeder Aufgabe sind Eingaben für die vier Subaufgaben:<br />

(1) Suche nach Stadt (2) nach der Kategorie (3) der Uhrzeit und (4) der Personenanzahl zu tätigen.<br />

Nach der Wahl des Suchkriteriums auf der Startseite erscheint für jede Subaufgabe<br />

anschließend der erste von insgesamt sechs Listenbildschirmen mit Auswahlmöglichkeiten<br />

zur erfolgreichen Bear<strong>bei</strong>tung der jeweiligen Subaufgabe (siehe Abbildung<br />

2). Die Sortierung der Auswahlmöglichkeiten erfolgt über alle sechs Listenbildschirme<br />

in erwarteter alphanumerischer Reihenfolge. Um die konkrete Eingabe vorzunehmen,<br />

werden Probanden instruiert, dass sie jederzeit frei entscheiden können, ob sie den<br />

Touchscreen oder die Spracheingabe verwendet möchten. Während über die Spracheingabe<br />

bereits auf dem ersten Listenbildschirm alle verfügbaren Eingaben auch von weiter<br />

hinten liegenden Listenbildschirmen erkannt werden, können per Toucheingabe nur<br />

Eingaben ausgewählt werden, die unmittelbar sichtbar sind und direkt angeklickt werden<br />

können. Um <strong>bei</strong> der Touchinteraktion also Eingaben von weiter hinten liegenden<br />

Listenbildschirmen auszuwählen, ist ein Klick auf die Taste mit dem blauen Pfeil am<br />

rechten unteren Rand der Anwendung notwendig, um zum jeweils nächsten Listenbildschirm<br />

geführt zu werden – und zwar solange bis der entsprechende Eintrag als grau<br />

unterlegter Button auf dem Listenbildschirm erscheint. Dessen Auswahl ist dann durch<br />

einen Klick zu bestätigen.<br />

31


Methoden<br />

______________________________________________________________________________<br />

Aachen<br />

Augsburg<br />

Berlin<br />

a)<br />

Bremen<br />

Aachen<br />

Chemnitz<br />

Essen<br />

Hamburg<br />

Leipzig<br />

Osnabrück<br />

Augsburg<br />

Cottbus<br />

Erfurt<br />

Hannover<br />

Lübeck<br />

Rostock<br />

Berlin<br />

Dortmund<br />

Frankfurt<br />

Kiel<br />

Mannheim<br />

Stuttgart<br />

Bremen<br />

Düsseldorf<br />

Freiburg<br />

Köln<br />

München<br />

Wiesbaden<br />

b)<br />

Abbildung 2: Listenbildschirme für die Subaufgabe „Stadt auswählen“. Während per Spracheingabe<br />

alle verfügbaren Eingaben bereits auf dem ersten Listenbildschirm erkannt werden (a), erfordert es die<br />

Toucheingabe, durch alle Listenbildschirme bis zur entsprechenden Eingabe zu klicken (b).<br />

Hat der Nutzer einen Eintrag für die Subaufgabe per Spracheingabe oder per<br />

Touchscreen ausgewählt, gelangt er automatisch zur Startseite zurück, auf dem nun die<br />

entsprechende Auswahl als übernommen angezeigt wird (siehe Abbildung 3a). Sind alle<br />

vier Subaufgaben entsprechend der Vorgaben einer Aufgabe bear<strong>bei</strong>tet, kann die Suche<br />

per Spracheingabe oder per Klick auf den Button „Restaurant suchen“ auf der Startseite<br />

abschließend initiiert werden (siehe Abbildung 3b). Damit ist die Aufgabe erfolgreich<br />

erledigt, und es erscheint ein Abschlussbildschirm mit der Möglichkeit, die nächste Suche<br />

zu starten (siehe Abbildung 3c).<br />

Berlin<br />

Berlin<br />

indisch<br />

18:00 Uhr<br />

4 Personen<br />

a) b) c)<br />

Abbildung 3: Startbildschirm <strong>bei</strong> fortschreitendem Bear<strong>bei</strong>tungsstand: (a) eine bear<strong>bei</strong>tete Subaufgabe<br />

(Stadtauswahl), (b) alle Subaufgaben bear<strong>bei</strong>tet, anschließend erfolgt der Start zur Suche mit dem<br />

Button „Restaurant suchen“, (c) Abschluss der Aufgabe (Endbildschirm).<br />

32


Methoden<br />

______________________________________________________________________________<br />

3.2.1 Manipulation der fehlerbehafteten Erkennung von Eingaben<br />

Im vorliegenden Versuch wurde die Erkennung sowohl von Spracheingaben als<br />

auch von Toucheingaben durch fehlerbehaftete <strong>Interaktion</strong>en systematisch manipuliert.<br />

Wie bereits in Abschnitt 2.3.1 erwähnt, werden als Fehler sogenannte „Auslassungen“<br />

verstanden, d.h. dass das System getätigte Eingaben des Nutzers nicht verar<strong>bei</strong>tet und<br />

Probanden somit gefordert sind, die entsprechende Eingabe erneut vorzunehmen. Um an<br />

bisherige Versuche anzuknüpfen und sowohl für die auditive als auch für die manuelle<br />

Eingabe vergleichbare und plausible Situationen realisieren zu können, wurden in der<br />

vorliegenden Untersuchungen weder Ergänzungen noch Ersetzungen als mögliche Fehler<br />

einbezogen (vgl. Hunt, 1990). Sowohl <strong>bei</strong> der Spracheingabe als auch <strong>bei</strong> der<br />

Touchinteraktion lag die Rate fehlerhafter Auslassungen in den entsprechenden Versuchsbedingungen<br />

<strong>bei</strong> jeweils 20 Prozent, sodass durchschnittlich jeder fünfte Aktionsschritt<br />

des Nutzers zu einer fehlenden Reaktion des Systems führte.<br />

3.2.1.1 Fehlerbehaftete Sprachinteraktion<br />

Im Fall der Sprachinteraktion erlebten Probanden fehlerhafte Auslassungen dadurch,<br />

dass sie grundsätzlich auf den Startbildschirm zurückgelangten und im unteren<br />

Bereich der Anwendung die Rückmeldung „Die Spracheingabe wurde nicht verstanden“<br />

für ca. 700 ms wahrnehmen konnten (siehe Abbildung 4). Die Fehlerrate wurde automatisch<br />

durch einen Wahrscheinlichkeitsalgorithmus erzeugt, sodass fehlerhafte Auslassungen<br />

in keinen regelmäßigen Abständen im Lauf der <strong>Interaktion</strong> auftraten.<br />

Abbildung 4: Feedback in der Bedingung fehlerbehafteter Eingaben <strong>bei</strong> der Sprachinteraktion.<br />

33


Methoden<br />

______________________________________________________________________________<br />

3.2.1.2 Fehlerbehaftete Touchinteraktion<br />

Fehlerhafte Auslassungen <strong>bei</strong> der Touchinteraktion nahmen Probanden dadurch<br />

wahr, dass sie den Touchscreen zwar berührten, das Gerät jedoch keine Reaktion zeigte<br />

und für 1.4 Sekunden nicht bedient werden konnte. Im Gegensatz zur Sprachinteraktion<br />

wurde <strong>bei</strong> fehlerhaften Auslassungen in der Touchinteraktion auf eine verbalisierte<br />

Rückmeldung an die Probanden verzichtet, da es äußerst unwahrscheinlich erschien,<br />

dass ein reales System solche Rückmeldungen <strong>bei</strong>m Nicht-Erkennen einer<br />

Toucheingabe produzieren würde. Bereits im Rahmen unsystematisch durchgeführter<br />

Vorbefragungen und Experteneinschätzungen zeigte sich, dass ein verbalisiertes Feedback<br />

für die Fehlermanipulation der Touchinteraktion aus anwendungsorientierter Sicht<br />

nicht überzeugend vermittelbar gewesen wäre.<br />

Zudem wurde <strong>bei</strong> der Ermittlung der Fehlerrate kein statistischer Algorithmus<br />

verwendet, sondern es wurde exakt jede fünfte Touchinteraktion mit einer fehlerbehafteten<br />

Auslassung versehen. Dies wiederum hat zur Folge, dass das Zurückwerfen auf<br />

die Startseite analog zur fehlerbehafteten Spracheingabe nicht umgesetzt werden konnte.<br />

In diesem Fall wären nämlich Subaufgaben, <strong>bei</strong> denen Zieleingaben auf dem vierten,<br />

fünften oder sechsten Listenbildschirm zu finden sind, durch die reine Touchinteraktion<br />

allein nicht mehr lösbar gewesen. Um den entstehenden Zeitvorteil <strong>bei</strong> fehlerbehafteten<br />

Eingaben in der Touchvariante auszugleichen, wurde die bereits erwähnte zeitliche Verzögerung<br />

von 1.4 Sekunden im Anschluss an den fehlerhaften Klick eingesetzt, in welcher<br />

das Gerät nicht bedient werden konnte. Diese Zeitspanne wurde empirisch ermittelt<br />

und entsprach der durchschnittlichen Zeit, die ein Nutzer benötigt, um vom Startbildschirm<br />

per Sprachinteraktion auf den ersten Listenbildschirm zu wechseln, von wo aus<br />

er per Sprachinteraktion alle verfügbaren Eingabeelemente auswählen kann. Durch diese<br />

Verzögerung zeigen sich <strong>bei</strong>de fehlerbehafteten Modalitäten bezüglich des zeitlichen<br />

Aufwandes der Aufgabenlösung wiederum miteinander vergleichbar.<br />

3.3 Versuchsaufbau<br />

Das vorliegende Experiment wurde als Wizard-of-Oz Versuch mit zwei Versuchsleitern<br />

umgesetzt. Hier<strong>bei</strong> betreut ein Versuchsleiter jeweils die Probanden und<br />

organisiert den Versuchsablauf, wohingegen der zweite Versuchsleiter für die Probanden<br />

nicht erkennbar im Hintergrund agiert und Systemreaktionen einleitet. Solche Ver-<br />

34


Methoden<br />

______________________________________________________________________________<br />

suchsaufbauten werden im Bereich der Mensch-Maschine-<strong>Interaktion</strong> immer dann verwendet,<br />

wenn nicht die technische Realisierung einer Systemkomponente im Vordergrund<br />

steht, sondern vielmehr das Nutzerverhalten und die Akzeptanz für bestimmte<br />

Gestaltungslösungen. Da Wizard-of-Oz Versuche bereits mit vereinfachten Prototypen<br />

durchgeführt werden können, stellen sie eine effektive Möglichkeit dar, um die Erfüllung<br />

von Nutzerbedürfnissen bereits in frühen Phasen der Produktentwicklung evaluieren<br />

und absichern zu können. Im vorliegenden Fall wurde die Spracherkennung durch<br />

einen zweiten Versuchsleiter simuliert. Die Entscheidung wurde zugunsten eines Wizard-of-Oz<br />

Versuchsaufbaus getroffen, da die gängige Spracherkennungstechnik keine<br />

absolut zuverlässige Versuchsbedingung (0% Fehlerrate) hätte garantieren können. Für<br />

den berichteten Versuch ist der Aufbau in Abbildung 5 dargestellt. Der Proband saß zur<br />

Bear<strong>bei</strong>tung der Aufgaben in einer schallisolierten Akustikkabine, welche mit einer<br />

Mikrofonverbindung zum zweiten Versuchsleiter (Wizard) präpariert war. Der Wizard<br />

befand sich während des gesamten Versuchs außerhalb der Kabine und war für den<br />

Probanden auch <strong>bei</strong>m Betreten des Versuchsraumes durch eine abgetrennte Wandverkleidung<br />

nicht sichtbar. Über einen Kopfhörer vernahm der Wizard die Sprachbefehle<br />

des Probanden, die er an das System stellte. Als mobiles Endgerät wurde ein Google G1<br />

Mobiltelefon von HTC mit Android 1.6 als Betriebssystem verwendet. Dieses wiederum<br />

war mittels einer TCP/IP-Verbindung über ein separates W-Lan-Netz und einer<br />

Übertragungsrate von 54 Mbit/s mit einem Rechner verbunden, an welchem der Wizard<br />

die gewünschten Eingaben des Probanden durch einen Klick direkt vornehmen konnte.<br />

Abbildung 5: Wizard-of-Oz Versuchsaufbau. Während der Proband in der Akustikkabine am Gerät<br />

ar<strong>bei</strong>tet, wurden Spracheingaben vom zweiten Versuchsleiter (Wizzard) außerhalb der Kabine simuliert.<br />

35


Methoden<br />

______________________________________________________________________________<br />

Da <strong>bei</strong> der Spracheingabe der Proband bereits auf dem ersten Listenbildschirm<br />

alle verfügbaren Elemente einer Subaufgabe nennen konnte, verfügte der Wizard über<br />

eine erweiterte Benutzerschnittstelle, die auf seinem Monitor sämtliche Eingabemöglichkeiten<br />

auf einen Blick darstellte. Da Nutzer auch jederzeit selbstständig per<br />

Toucheingabe mit dem Gerät interagieren konnten, zeigte eine rote Markierung jeweils,<br />

in welcher Subaufgabe sich ein Nutzer gerade befindet (siehe Abbildung 6). Zu bemerken<br />

ist an der Stelle, dass Fehler <strong>bei</strong> der Spracherkennung wie bereits im Abschnitt<br />

4.2.1 beschrieben, durch einen statistischen Wahrscheinlichkeitsalgorithmus automatisiert<br />

in die <strong>Interaktion</strong> eingebracht wurden. Somit reagierte der Wizard ausschließlich<br />

auf die Sprachkommandos des Probanden, wohingegen ihm die Manipulation der Fehler<br />

nicht zugänglich war.<br />

Abbildung 6: Systemansicht für den zweiten Versuchsleiter (Wizard). Rot markiert ist zur besseren<br />

Übersichtlichkeit die aktuell dem Probanden zur Verfügung stehende Auswahl an möglichen Eingaben.<br />

Insgesamt haben am Versuch vier verschiedene Versuchsleiter teilgenommen,<br />

wo<strong>bei</strong> ein Versuchsleiter durchweg als erster Versuchsleiter fungierte und drei Versuchsleiter<br />

sich als Wizard unsystematisch abwechselten. Die drei Wizards wurden in<br />

einem vorherigen Versuchsleitertraining auf ihren Einsatz vorbereitet und übten in verschiedenen<br />

Testläufen die Normalbedienung als auch ein konsistentes Reagieren auf<br />

kritische Bedienvorgänge, wie <strong>bei</strong>spielsweise unverständliche oder unvollständige<br />

Sprachkommandos.<br />

36


Methoden<br />

______________________________________________________________________________<br />

3.4 Abhängige Variablen und Messinstrumente<br />

Als abhängige Variablen wurden Verhaltensdaten und subjektive Bewertungen<br />

erhoben. Im Bereich des Nutzerverhaltens diente die relative Nutzungshäufigkeit von<br />

Sprache als Kennwert für die Wahl der Eingabemodalität. Als subjektive Bewertung<br />

wurde die erlebte Beanspruchung und die wahrgenommene Produktqualität als Gesamturteil<br />

über die <strong>Interaktion</strong> erhoben. Zur Messung der Beanspruchungshöhe diente im<br />

Anschluss an jede Aufgabe die eindimensionale Skala zur Erfassung der subjektiv erlebten<br />

Anstrengung (SEA) nach Eilers, Nachreiner & Hänecke (1986). Die Produktqualität<br />

wurde im Anschluss an jeden Aufgabenblock mit Hilfe des AttrakDiff nach<br />

Hassenzahl, Burmester & Koller (2003) erhoben. Dieser Fragebogen besteht aus insgesamt<br />

28 Items in Form eines semantischen Differentials, welche zu den vier Dimensionen<br />

(1) pragmatische Qualität, (2) hedonische Qualität – Identifikation, (3) hedonische<br />

Qualität – Stimulation und (4) Attraktivität aggregiert werden. Während die pragmatische<br />

Qualität vor allem Aspekte der Zielerreichung (Einfachheit, Übersichtlichkeit und<br />

Erwartungskonformität) betreffen, beschreiben die Dimensionen zur hedonischen Qualität<br />

vor allem nicht-aufgabenbezogene Systemeigenschaften, wie soziale Verbundenheit,<br />

Integration, Prestige (Identifikation) oder Originalität, Neuartigkeit und Motivation<br />

(Stimulation). Mit der Dimension Attraktivität wird ein globales Gesamturteil zum Produkt<br />

(Sympathie, Schönheit) erfasst.<br />

3.5 Datenaufbereitung<br />

Um die unmittelbare <strong>Interaktion</strong> mit dem mobilen Endgerät zu erheben, wurde<br />

für jede Versuchsperson ein Logfile in Form eines Excel-Dokumentes erstellt, in welches<br />

folgende Angaben automatisch abgespeichert wurden: (1) die Aufgabe, die die<br />

Person bear<strong>bei</strong>tete, (2) den Ausgangszustand des Systems vor der <strong>Interaktion</strong>, (3) die<br />

Modalität, mit der die <strong>Interaktion</strong> stattfand, (4) die Eingabe, die gemacht wurde und ob<br />

diese gegebenfalls mit einer fehlerbehaften Auslassung versehen wurde, (5) die Anzahl<br />

getätigter <strong>Interaktion</strong>sschritte seit Beginn einer Subaufgabe, (6) ein Systemzeitstempel<br />

und (7) der Druck in g/mm², mit dem eine Eingabe im Fall einer Touchinteraktion vorgenommen<br />

wurde. Im Rahmen der vorliegenden Ar<strong>bei</strong>t wurden ausschließlich aus der<br />

aufgezeichneten <strong>Modalitätenwahl</strong> relative Prozentangaben der Nutzung von Sprache für<br />

die <strong>bei</strong>den Bildschirmansichten Startseite und erster Listenbildschirm einer Subaufgabe<br />

ermittelt. Um die Angaben aus den aufgezeichneten Logfiles zu erhalten, wurde ein<br />

37


Methoden<br />

______________________________________________________________________________<br />

mathematischer Algorithmus in MatLAB ® verwendet, der die Werte für alle Subaufgaben<br />

sortierte und aggregierte. In Folge, lagen für jeden Probanden pro Aufgabenblock<br />

genau sechs Kennwerte vor, welche der jeweiligen Listenbildschirmtiefe der Subaufgabe<br />

entsprechen. Somit geben diese Werte die prozentuale Nutzung von Sprache an unter<br />

Berücksichtigung, auf welchem Listenbildschirm die konkreten Auswahlmöglichkeiten<br />

zu finden waren. Zur Analyse wurden die Kennwerte in die Statistiksoftware SPSS ®<br />

exportiert.<br />

Die Angaben zum subjektiven Erleben (Beanspruchung und Systembewertungen)<br />

wurden manuell in die Datenmaske übertragen. Hier<strong>bei</strong> wurden die SEA-Werte als<br />

Rohwerte ausgewertet, wohingegen die Items des AttrakDiff zu den unter 4.5 erwähnten<br />

Dimensionen aggregiert wurden.<br />

3.6 Untersuchungsablauf<br />

Nach dem Betreten des Untersuchungslabors führte der erste Versuchsleiter die<br />

Probanden unmittelbar in die Akustikkabine, wo sie auf einem bequemen Bürosessel<br />

Platz nehmen konnten. Die Akustikkabine wurde den Probanden als optimale Umgebung<br />

für die Untersuchung der Spracheingabemodalität eingeführt. Wie bereits in Abschnitt<br />

4.3 erläutert, lag der Ar<strong>bei</strong>tsplatz des zweiten Versuchsleiters, des Wizard, außerhalb<br />

der Akustikkabine durch mehrere Sichtschutzwände abgetrennt.<br />

Zu Beginn des Versuchs erklärten die Probanden ihr Einverständnis zur Teilnahme<br />

an der Untersuchung, und sie füllten einen kurzen Fragebogen zur Erhebung<br />

soziodemografischer Daten sowie ihrer Vorerfahrung mit Touchdisplays bzw. Sprachdialogsystemen<br />

aus. Anschließend wurden die Teilnehmer schriftlich über den Verlauf<br />

der Untersuchung sowie über die Bedienmöglichkeiten des Prototypen informiert. Hier<strong>bei</strong><br />

wurde ihnen erklärt, dass sie im Laufe der Untersuchung eine Reihe prototypischer<br />

Bedienaufgaben bear<strong>bei</strong>ten werden und dass der Prototyp sowohl per Toucheingabe als<br />

auch per Spracheingabe bedient werden kann. Die Probanden wurden instruiert, dass sie<br />

sich selbst für eine Eingabemodalität entscheiden können und ein Modalitätenwechsel<br />

jederzeit, auch innerhalb einer Aufgabe, möglich ist. Es wurde darauf hingewiesen,<br />

dass, egal welche Modalität genutzt wird, auf der Startseite zunächst das Kriterium<br />

(Stadt, Kategorie, Uhrzeit, Personen) auszuwählen ist, bevor die eigentliche Eingabe<br />

vorgenommen werden kann. Ebenso wurde erwähnt, dass per Spracheingabe bereits auf<br />

dem ersten Listenbildschirm alle verfügbaren Auswahlelemente aufgerufen werden<br />

können, während per Toucheingabe nur die unmittelbar angezeigten Elemente auf den<br />

38


Methoden<br />

______________________________________________________________________________<br />

Listenbildschirmen angeklickt werden können. Für die genauen Instruktionen sei an<br />

dieser Stelle auf den Anhang dieser Ar<strong>bei</strong>t (Abschnitt B) verwiesen.<br />

Daraufhin startete der Versuchsleiter eine der vier Anwendungsversionen auf<br />

dem Smartphone, zu der die Probanden zuvor randomisiert zugeordnet wurden (Sprache<br />

einwandfrei/ Touch einwandfrei, Sprache einwandfrei/ Touch fehlerbehaftet, Sprache<br />

fehlerbehaftet/ Touch einwandfrei, Sprache fehlerbehaftet/ Touch fehlerbehaftet). Um<br />

die Probanden mit dem Versuchsablauf vertraut zu machen und weitere standardisierte<br />

Instruktionen zu vermitteln, wurden zunächst drei Übungsdurchgänge unter Anwesenheit<br />

des Versuchsleiters durchgeführt. Hierzu bekamen die Probanden das Smartphone<br />

in die Hand unter Beachtung, dass sie das Gerät während des Versuchs stets in der linken<br />

Hand halten mögen, um Eingaben per Touch jederzeit mit der rechten Hand vornehmen<br />

zu können; keinesfalls sollte das Gerät während der Aufgabenbear<strong>bei</strong>tung unberührt<br />

auf dem Tisch liegen. Die Übungsdurchgänge bestanden aus drei Aufgaben, die<br />

den Probanden in Papierform vorgelegt wurden. Um <strong>bei</strong>de Eingabemodalitäten mit ihren<br />

Vor- und Nachteilen (Effizienzsteigerung durch Spracheingabe, manipulierte Fehlerbedingungen)<br />

kennenzulernen, war die erste Aufgabe ausschließlich per Touch zu<br />

erledigen und die zweite ausschließlich per Sprache. Die dritte Aufgabe konnte, wie<br />

instruiert, mit der präferierten Modalität bzw. unter einer jederzeit vorliegenden Wechselmöglichkeit<br />

bear<strong>bei</strong>tet werden. Nach jeder Aufgabe bewerteten die Probanden ihre<br />

subjektiv erlebte Anstrengung auf der SEA-Skala, die ihnen als Stift-Papier-Version<br />

vorgelegt wurde. Für einen geregelten Ablauf wurden Teilnehmer instruiert, den bereitgelegten<br />

Stift nur zum Ankreuzen in die Hand zu nehmen und diesen während der Aufgabenbear<strong>bei</strong>tung<br />

frei auf dem Tisch liegen zu lassen. Nach dem Training bestand die<br />

Möglichkeit, noch offene Fragen zum Versuch zu klären.<br />

Anschließend wurde die Akustikkabine geschlossen und die Probanden konnten<br />

die zwölf Aufgaben des ersten Blockes alleine und in ihrem eigenen Ar<strong>bei</strong>tstempo erledigen.<br />

Die Aufgaben wurden den Teilnehmern einzeln und nacheinander auf einem 14‘‘<br />

Monitor präsentiert und waren während der Bear<strong>bei</strong>tung für die Probanden jederzeit<br />

sichtbar. Bei der Aufgabenkonstruktion wurde im Vorfeld darauf geachtet, dass sechs<br />

der zwölf Aufgaben subaufgabenkonsistent waren, d.h. dass die Auswahlelemente für<br />

alle vier Subaufgaben einer Gesamtaufgabe auf einer bestimmten Listentiefe liegen (also<br />

alle vier Elemente auf dem jeweils ersten, zweiten, dritten, vierten, fünften oder<br />

sechsten Listenbildschirm). Für die übrigen sechs Aufgaben des Blockes wurde die Listentiefe<br />

<strong>bei</strong> den Subaufgaben systematisch variiert (siehe Abschnitt C.II im Anhang).<br />

39


Methoden<br />

______________________________________________________________________________<br />

Zudem wurde die Präsentationsreihenfolge der zwölf Aufgaben für alle Probanden innerhalb<br />

einer Versuchsbedingung systematisch ausbalanciert, um mögliche Reihenfolgeeffekte<br />

zu vermeiden (siehe Abschnitt D im Anhang). Nach jeder Aufgabe bewerteten<br />

die Probanden selbstständig die subjektiv erlebte Anstrengung, worauf sie zusätzlich<br />

über den Präsentationsbildschirm hingewiesen wurden. Nach Bear<strong>bei</strong>tung des ersten<br />

Blockes betrat der Versuchsleiter die Akustikkabine und überreichte den Probanden den<br />

Fragebogen AttrakDiff mit der Bitte, damit das Gesamtsystem zu bewerten. Währenddessen<br />

startete der Versuchsleiter die Anwendung erneut, wo<strong>bei</strong> jeder Proband im zweiten<br />

Aufgabenblock dieselbe Versuchsbedingung zugewiesen bekam wie im ersten<br />

Block. Ebenso waren Instruktionen und Ablauf für den zweiten Block identisch. Teilnehmer<br />

bear<strong>bei</strong>teten auch dieselben zwölf Aufgaben, jedoch wurden diese in einer anderen<br />

Reihenfolge präsentiert. Entgegen des ersten Aufgabenblockes erhielten alle Probanden<br />

im zweiten Aufgabenblock jedoch keine ausbalancierten Reihenfolgen, sondern<br />

es gab nur eine für alle Probanden zugewiesene Reihenfolge. Nach Erledigung des<br />

zweiten Blocks wurde auch der Fragebogen AttrakDiff ein zweites Mal vorgelegt.<br />

Begrüßung<br />

Einverständnis<br />

Instruktionen<br />

Trainingsaufgaben<br />

SEA-Skala<br />

Aufgaben im<br />

1.Block<br />

SEA-Skala<br />

AttrakDiff<br />

Aufgaben im<br />

2. Block<br />

SEA-Skala<br />

AttrakDiff<br />

Aufklärung<br />

Verabschiedung<br />

drei Aufgaben:<br />

(1) nur Touch<br />

(2) nur Sprache<br />

(3) multimodal<br />

12 Aufgaben<br />

ausbalancierte<br />

Reihenfolgen<br />

12 Aufgaben<br />

unbalancierte<br />

Reihenfolgen<br />

Abbildung 7: Schematischer Versuchsablauf.<br />

Zum Abschluss wurde die Teilnahmevergütung von 10 Euro ausbezahlt, und die<br />

Probanden wurden vor der Verabschiedung ausführlich über den Wizard-of-Oz Versuchsaufbau<br />

aufgeklärt. Je nach Versuchsbedingung dauerte eine Untersuchungseinheit<br />

zwischen 30 und 45 Minuten. Der schematische Versuchsablauf ist in Abbildung 7 grafisch<br />

zusammengefasst.<br />

3.7 Stichprobenbeschreibung<br />

An der Untersuchung haben insgesamt 48 Probanden teilgenommen, darunter 24<br />

Frauen und 24 Männer, welche gleichmäßig auf die vier Untersuchungsbedingungen<br />

40


Methoden<br />

______________________________________________________________________________<br />

verteilt wurden. Das Alter der Personen lag zwischen 19 und 40 Jahren mit einem<br />

Durchschnittsalter von M = 25.2 Jahren (s = 3.73). Die Akquise der Teilnehmer erfolgte<br />

über die Probandenserver der Humboldt-Universität (PESA) und des Zentrums Mensch-<br />

Maschine-Systeme sowie über die eMail-Verteiler der Studenten im Fach Human<br />

Factors an der Technischen Universität Berlin und der Studenten in Psychologie an der<br />

Freien Universität Berlin. Die Stichprobe bestand aus 44 Studenten unterschiedlicher<br />

Fachrichtungen, zwei Selbstständigen, einer Berufstätigen sowie einer Abiturientin.<br />

Bei der Rekrutierung wurden Personen ausgeschlossen, die an früheren Versuchen<br />

mit dem Restaurantbuchungssystem teilgenommen haben. Dennoch wiesen acht<br />

Probanden (17 Prozent) darauf hin, dass sie bereits aus anderen Untersuchungen Erfahrungen<br />

zum Einsatz von Sprachsteuerungssystemen mitbrachten.<br />

Die Hälfte aller Teilnehmer (n = 24) gab an, ein Mobiltelefon mit Touchscreen<br />

Display zu besitzen, welches in drei von vier Fällen (n = 18) zusätzlich auch über eine<br />

Funktion zur Spracheingabe verfügt. Bemerkenswert ist, dass nur ein Proband einschätzte,<br />

diese Funktion „oft“ zu verwenden, wohingegen fünf Probanden sie lediglich<br />

„selten“ und zwölf Probanden „nie“ benutzen. Darüber hinaus gab ein großer Teil der<br />

Stichprobe (n = 40 bzw. 83 Prozent) an, zumindest über gelegentliche Erfahrungen mit<br />

Sprachdialogsystemen (z.B. Hotline, Callcenter, etc.) zu verfügen. Ebenso werden interaktive<br />

Geräte mit Touchscreen Funktionalität von den meisten Teilnehmern (n = 39<br />

bzw. 81 Prozent) mindestens ein Mal pro Woche verwendet.<br />

Zusammenfassend kann somit festgehalten werden, dass die Teilnehmer des vorliegenden<br />

Experimentes hauptsächlich junge Studenten aus unterschiedlichen Fachdisziplinen<br />

sind, deren Verteilung im Bereich selbst eingeschätzter Nutzungserfahrung für<br />

ein insgesamt technikaffin ausgeprägtes Nutzungsverhalten sprechen.<br />

41


Ergebnisse<br />

______________________________________________________________________________<br />

4 Ergebnisse<br />

Im folgenden Kapitel werden die Ergebnisse der experimentellen Untersuchung<br />

berichtet. Begonnen wird mit der Prüfung der statistischen Voraussetzungen in den Verteilungen<br />

der abhängigen Variablen. Im zweiten Abschnitt werden anschließend die<br />

Ergebnisse zur <strong>Modalitätenwahl</strong> vorgestellt. Die Prüfung der statistischen Bedeutsamkeit<br />

von Unterschieden in der subjektiv erlebten Anstrengung fasst der dritte Abschnitt<br />

zusammen, diejenigen zur wahrgenommenen Produktqualität sodann der vierte Abschnitt.<br />

4.1 Prüfung der statistischen Voraussetzungen<br />

Bevor die durchgeführten Analysen dargelegt werden, sind zunächst die statistischen<br />

Voraussetzungen in den Verteilungen der abhängigen Variablen zu betrachten.<br />

Als wichtigste Merkmale <strong>bei</strong> der Durchführung von (multivariaten) Varianzanalysen<br />

mit Messwiederholung sind die Annahmen zur Normalverteilung, zur Varianzhomogenität<br />

und ggf. zur Sphärizität zu überprüfen (Backhaus et al., 2011).<br />

Der Test auf Normalverteilung der Variablen wurde aufgrund der vorliegenden<br />

Stichprobengröße (n = 48) mit dem Shapiro-Wilk-Test durchgeführt, der sich für Stichproben<br />

bis zu n < 50 eignet. Ist der Shapiro-Wilk-Test signifikant (p < .05), weicht die<br />

untersuchte Variable von der Normalverteilung ab. Es zeigte sich, dass für den überwiegenden<br />

Teil der abhängigen Variablen signifikante Werte im Shapiro-Wilk-Test vorliegen,<br />

sodass in diesen Fällen nicht von einer Normalverteilung ausgegangen werden<br />

kann (siehe Tabelle im Anhang). Bei dem Shapiro-Wilk-Test handelt es sich um ein<br />

sehr sensitives Maß für die Nicht-Normalverteilung (Hopkins & Weeks, 1990). Einige<br />

Autoren betrachten Abweichungen von der Normalverteilung als unproblematisch,<br />

wenn die Schiefe der Verteilung einen Betrag von unter drei und eine Kurtosis von<br />

nicht größer als zehn aufweist (z.B. Kline, 1998). Die Betrachtung der entsprechenden<br />

Kennwerte zeigt, dass diese Kriterien durchweg für sämtliche kritische Verteilungen<br />

erfüllt sind (siehe Abschnitt F.I im Anhang). Aus diesem Grund wurde von einer Transformation<br />

der berichteten Variablen abgesehen.<br />

Die Homogenität der Varianz für jede abhängige Variable über alle Stufenkombinationen<br />

der Zwischensubjektfaktoren wurde mit dem Levene-Test auf Gleichheit der<br />

Kovarianzen überprüft. Ist der Levene-Test signifikant (p < .05), muss davon ausgegan-<br />

42


Ergebnisse<br />

______________________________________________________________________________<br />

gen werden, dass die Varianzhomogenität verletzt ist. Die Ergebnisse zeigen, dass der<br />

Levene-Test in mehreren Fällen (<strong>bei</strong> 47 Prozent aller Überprüfungen) zu signifikanten<br />

Resultaten führt (siehe Abschnitt F.II Anhang). Da im vorliegenden Versuchsdesign<br />

jedoch alle Zellen vollständig und gleichmäßig besetzt sind und inhomogene Varianzen<br />

die Interpretation der Varianzanalyse nur dann ernsthaft in Frage stellen, wenn die<br />

Gruppengröße der verglichenen Zellen ungleich groß bzw. das Verhältnis zwischen<br />

größter und kleinster Zellenbesetzung größer als 1.5 ist (Tinsley & Brown, 2000), wurde<br />

auch in diesem Fall von einer Transformation der Werte abgesehen.<br />

Die Voraussetzung der Sphärizität wurde mit dem Mauchly-Test geprüft. Dieser<br />

Test analysiert, ob die Varianzen der Differenzen zwischen Messwertpaaren in Messwiederholungsdesigns<br />

gleich groß sind. Da die Überprüfung der Sphärizität erst für Innersubjektfaktoren<br />

relevant wird, die mindestens dreifach gestuft sind, wurde der<br />

Mauchly-Test nur für den Faktor Listentiefe und nicht für den Faktor Aufgabenblock<br />

angewendet. In einer durchgeführten Varianzanalyse lieferte der Mauchly-Test für den<br />

Faktor Listentiefe ein signifikantes Ergebnis (p < .05), sodass angenommen werden<br />

muss, dass die Voraussetzung der Sphärizität verletzt ist (siehe Abschnitt 5.3). In einer<br />

weiteren Varianzanalyse erwies sich die Annahme der Sphärizität für den <strong>Interaktion</strong>sterm<br />

Listentiefe x Aufgabenblock als nicht erfüllt (siehe Abschnitt 5.4). In <strong>bei</strong>den Fällen<br />

wurde für die Bestimmung der Signifikanz eine Adjustierung der Zähler- und<br />

Nennerfreiheitsgrade mit Hilfe der Greenhouse-Geisser Korrektur vorgenommen. Bei<br />

der Vorstellung der Analyseverfahren in der Einleitung dieser Abschnitte wird auf diese<br />

Anpassung erneut hingewiesen.<br />

4.2 Analyse der <strong>Modalitätenwahl</strong><br />

Um zu überprüfen, inwieweit fehlerhafte Auslassungen in den Eingabemodalitäten<br />

einerseits und der manipulierte Effizienzvorteil von Sprache gegenüber Toucheingaben<br />

andererseits zu systematischen Veränderungen in der <strong>Modalitätenwahl</strong> führten,<br />

wurden die relativen Häufigkeiten der Sprachnutzung auf dem Startbildschirm sowie<br />

die nach Subaufgaben aggregierten relativen Häufigkeiten der Nutzung von Sprache<br />

auf dem jeweils ersten Listenbildschirm einer Subaufgabe ausgewertet. Beide Analysen<br />

werden in den folgenden Abschnitten berichtet.<br />

43


Ergebnisse<br />

______________________________________________________________________________<br />

4.2.1 <strong>Modalitätenwahl</strong> auf dem Startbildschirm<br />

Zur Analyse der <strong>Modalitätenwahl</strong> auf dem Startbildschirm der Anwendung wurde<br />

eine 2x2x2 Varianzanalyse mit einfacher Messwiederholung und den <strong>bei</strong>den unabhängigen<br />

Variablen Spracherkennung (einwandfrei: S+/ fehlerhaft: S-) sowie Toucherkennung<br />

(einwandfrei: T+/ fehlerhaft: T-) gerechnet. Die inferenzstatistischen Ergebnisse<br />

der Analyse sind in Tabelle 3 zusammengefasst.<br />

Tabelle 3: Varianzanalyse zur Sprachnutzung auf der Startseite. Anmerkung: (*) p < .1; ** p < .01.<br />

Quelle der Varianz F df1 df2 p part. η 2<br />

Spracherkennung (S) - between 2.967 1 44 .092 (*) 0.063<br />

Toucherkennung (T) - between 18.049 1 44 < .001 ** 0.291<br />

Aufgabenblock (B) - within 0.009 1 44 .923 < 0.001<br />

S x T 0.579 1 44 .451 0.013<br />

B x T 1.444 1 44 .236 0.032<br />

B x S 0.723 1 44 .400 0.016<br />

B x S x T 0.858 1 44 .359 0.019<br />

Für <strong>Interaktion</strong>en auf dem Startbildschirm zeigt sich, dass die Präferenz für die<br />

Verwendung der Modalität Sprache bedeutsam von Fehlern in der Toucherkennung,<br />

jedoch nur tendenziell von Fehlern in der Spracherkennung beeinflusst wird (siehe Tabelle<br />

3). Entsprechend der Mittelwerte in Abbildung 8 ist ersichtlich, dass fehlerhafte<br />

Auslassungen in der Modalität Touch (T-) erwartungsgemäß dazu führen, dass Sprache<br />

signifikant häufiger gewählt wird. Ebenfalls erwartungskonform ist die Tendenz zur<br />

geringeren Sprachnutzung, wenn das System Spracherkennungsfehler (S-) produziert.<br />

Zwischen den zwei Aufgabenblöcken liegen keine relevanten Unterschiede vor.<br />

Sprachnutzung auf dem Startbildschirm<br />

1<br />

0,8<br />

0,6<br />

0,4<br />

0,2<br />

0<br />

keine Touchfehler (T+)<br />

Touchfehler (T-)<br />

Spracherkennungsfehler (S-)<br />

keine Spracherkennungsfehler (S+)<br />

Abbildung 8: Mittelwerte und Standardabweichungen der <strong>Modalitätenwahl</strong> Sprache (relative Häufigkeiten)<br />

auf dem Startbildschirm in Abhängigkeit zu den vier Versuchsbedingungen.<br />

44


Ergebnisse<br />

______________________________________________________________________________<br />

4.2.2 <strong>Modalitätenwahl</strong> auf den Listenbildschirmen<br />

Um zu überprüfen, inwieweit die Modalität Sprache auf dem jeweils ersten Listenbildschirm<br />

einer Subaufgabe unterschiedlich häufig in Abhängigkeit zu den fehlerbehafteten<br />

Eingabemodalitäten und zur manipulierten Listentiefe der auszuwählenden<br />

Einträge verwendet wird, wurde eine 2x2x6x2 Varianzanalyse mit einfacher Messwiederholung<br />

sowie der fehlerbehafteten Spracherkennung (einwandfrei: S+/ fehlerhaft: S-)<br />

und der fehlerbehafteten Toucherkennung (einwandfrei: T+/ fehlerhaft: T-) gerechnet.<br />

Als sechsfachgestufter Innersubjektfaktor gingen in die Analyse die nach Listentiefe<br />

sortierten und aggregierten Werte der Sprachnutzung für alle 48 Subaufgaben eines<br />

Aufgabenblockes ein. Jede Faktorstufe wird somit durch einen Mittelwert aus acht Einzelmessungen<br />

präsentiert. Die Resultate der Varianzanalyse zeigt Tabelle 4. Zu beachten<br />

ist hier<strong>bei</strong>, dass sich für den Innersubjektfaktor Listentiefe (L) die<br />

Sphärizitätsannahme als Voraussetzung für die Interpretation der Ergebnisse einer Varianzanalyse<br />

mit Messwiederholung als verletzt zeigt (p < .01), sodass die<br />

Signifikanzprüfung in diesen Fällen nach einer Adjustierung der Zähler- und Nennerfreiheitsgrade<br />

mit Hilfe der Greenhouse-Geisser Korrektur vorgenommen wurde.<br />

Tabelle 4: Varianzanalyse zur Sprachnutzung auf dem jeweils ersten Listenbildschirm einer Subaufgabe.<br />

Anmerkung: 1 = Greenhouse-Geisser korrigierte Freiheitsgrade; (*) p < .1; * p < .05; ** p < .01.<br />

Quelle der Varianz F df1 df2 p part. η 2<br />

Spracherkennung (S) - between 0.149 1 44 .701 0.003<br />

Toucherkennung (T) - between 11.994 1 44 .001 ** 0.214<br />

Listentiefe (L) – within 30.837 2.38 1 104.58 1 < .001 ** 0.412<br />

Aufgabenblock (B) - within 9.977 1 44 < .003 ** 0.185<br />

S x T 0.534 1 44 .469 0.012<br />

S x L 1.793 2.38 1 104.58 1 .165 0.039<br />

S x B 0.035 1 44 .853 0.001<br />

T x L 4.100 2.38 1 104.58 1 .014 * 0.085<br />

T x B 3.674 1 44 .062 (*) 0.019<br />

L x B 1.288 3.45 1 151.95 1 .280 0.028<br />

S x T x B 0.907 1 44 .346 0.020<br />

S x L x B 0.366 3.45 1 151.95 1 .805 0.008<br />

T x L x B 0.258 3.45 1 151.95 1 .881 0.006<br />

S x T x L 0.625 2.38 1 104.58 1 .564 0.014<br />

S x T x L x B 1.739 3.45 1 151.95 1 .153 0.038<br />

45


Ergebnisse<br />

______________________________________________________________________________<br />

Analog zum <strong>Interaktion</strong>sverhalten auf dem Startbildschirm beeinflusste das Vorliegen<br />

von Fehlern in der Modalität Touch die Präferenz für die Nutzung von Sprache<br />

signifikant, wohingegen Spracherkennungsfehler keinen bedeutsamen Einfluss auf die<br />

Nutzung der Sprachmodalität ausübten. Die vorliegenden Unterschiede in der Häufigkeit<br />

der Sprachnutzung visualisiert Abbildung 9 grafisch. Bereits deskriptiv ist zur erkennen,<br />

dass die Systemvarianten mit Touchfehlern (blaue und violette Kurven: T-) in<br />

<strong>bei</strong>den Aufgabenblöcken mit einer deutlich erhöhten Sprachnutzung einhergehen.<br />

Zudem konnte beobachtet werden, dass die <strong>Modalitätenwahl</strong> auf den jeweils ersten<br />

Listenbildschirmen bedeutsam davon abhängt, auf welchem Listenbildschirm das<br />

entsprechende Auswahlelement zu finden war: Je höher die Listentiefe ist und je mehr<br />

Klickinteraktionen per Toucheingabe erforderlich wären, um die Aufgabe erfolgreich zu<br />

bear<strong>bei</strong>ten, desto wahrscheinlicher wird es, dass Nutzer den <strong>Interaktion</strong>svorteil der direkten<br />

Spracheingabe auf dem ersten Listenbildschirm akzeptieren (siehe Abbildung 9).<br />

Bonferroni korrigierte post Hoc Einzelpaarvergleiche 1 zeigen auf, dass die relative Häufigkeit<br />

der Sprachnutzung zwischen den <strong>bei</strong>den Bedingungen der Touchfunktionalität<br />

(einwandfrei: T+ und fehlerhaft: T-) im ersten Aufgabenblock signifikant unterschiedlich<br />

ausfällt, wenn die Eingaben auf dem ersten, zweiten oder dritten Listenbildbildschirm<br />

zu finden sind. Demnach verwenden Nutzer die Modalität Touch häufiger, wenn<br />

der Vorteil gegenüber Sprache eine Einsparung von bis zu zwei <strong>Interaktion</strong>sschritten<br />

<strong>bei</strong>nhaltet, allerdings nur, wenn die Modalität Touch nicht fehlerbehaftet ist. Im zweiten<br />

Aufgabenblock zeigen die Bonferroni post Hoc Einzelpaarvergleiche 1 , dass die fehlerfrei<br />

funktionierende Modalität Touch lediglich <strong>bei</strong> Eingaben auf dem ersten Listenbildschirm<br />

verwendet wird, also nur dann, wenn kein direkter Effizienzvorteil der Modalität<br />

Sprache im Sinne eingesparter <strong>Interaktion</strong>sschritte vorliegt.<br />

1 Zur Bonferroni-Korrektur wurden die relevanten Mittelwerte auf der Basis von t-Tests verglichen und<br />

die Grenze zur Signifikanzprüfung auf das lokale Alpha-Niveau von α lok = α global / k herabgesetzt, wo<strong>bei</strong><br />

α global dem in den t-Tests ermittelten Signifikanzniveau entspricht und k die Anzahl an durchgeführten<br />

Einzelpaarvergleichen präsentiert.<br />

46


Ergebnisse<br />

______________________________________________________________________________<br />

.<br />

1. Aufgabenblock<br />

relative Häufigkeit der Sprachnutzung<br />

2. Aufgabenblock<br />

Listentiefe<br />

Listentiefe<br />

Abbildung 9: Mittelwertverläufe der <strong>Modalitätenwahl</strong> Sprache (relative Häufigkeiten) auf dem<br />

jeweils ersten Listenbildschirm einer Subaufgabe für die vier verschiedenen Versuchsbedingungen im<br />

ersten (oben) bzw. zweiten Aufgabenblock (unten). Auf der Abszisse ist die Listentiefe der Auswahlelemente<br />

abgetragen, der Wert „5“ bedeutet demnach, dass das Element auf dem fünften Listenbildschirm zu<br />

finden ist.<br />

Die signifikante <strong>Interaktion</strong> zwischen der Listentiefe und der Versuchsbedingung<br />

Touch zeigt darüber hinaus, dass die Zunahme der Sprachnutzung über die Listentiefe<br />

hinweg für die Bedingungen mit fehlerbehafteter Toucheingabe (blaue und violette<br />

Kurven in Abbildung 9) auf bereits hohem Niveau eher flach ausfällt, wohingegen der<br />

<strong>Interaktion</strong>svorteil <strong>bei</strong> einwandfreier Toucherkennung (orange und grün) bedeutsam<br />

steiler verläuft. Inhaltlich bedeutet dies, dass Probanden für die Auswahl von Elementen,<br />

welche bereits direkt auf dem ersten bzw. noch auf dem zweiten Listenbildschirm<br />

zu finden waren, eher die Modalität Touch verwendet haben und zwar insbesondere<br />

dann, wenn diese Modalität nicht mit fehlerhaften Auslassungen versehen war.<br />

Wie Tabelle 3 zudem darstellt, entschieden sich die Probanden im zweiten Aufgabenblock<br />

signifikant öfter für die Modalität Sprache als im ersten Block (M = .82,<br />

s = 0.22 versus M = .78 s = 0.24).<br />

47


Ergebnisse<br />

______________________________________________________________________________<br />

4.3 Analyse der subjektiv erlebten Anstrengung (SEA)<br />

Die Werte zur wahrgenommenen Beanspruchung wurden ebenfalls in einer<br />

2x2x6x2 Varianzanalyse mit Messwiederholung ausgewertet. Da die Bewertungen retrospektiv,<br />

also nach Abschluss jeder Aufgabe, erhoben worden sind, konnten nur diejenigen<br />

sechs Beanspruchungsurteile pro Aufgabenblock in die Analyse aufgenommen<br />

werden, für die die Aufgaben aus konsistenten Subaufgaben bestanden. Konsistent bedeutet<br />

an dieser Stelle, dass alle vier Subaufgaben, auf die sich das eine Abschlussurteil<br />

bezieht, eine identische Listentiefe aufweisen. Im Gegensatz zur <strong>Modalitätenwahl</strong>, <strong>bei</strong><br />

der alle Subaufgaben berücksichtigt werden konnten, werden die Faktorstufen der Listentiefe<br />

in der Messung der subjektiv erlebten Anstrengung somit jeweils durch genau<br />

eine Einzelmessung präsentiert. Während die Sphärizitätsannahme für den Faktor Listentiefe<br />

nicht mit ausreichender Sicherheit verworfen kann, erzielte der Mauchly-Test<br />

für die <strong>Interaktion</strong> der Innersubjektfaktoren Aufgabenblock x Listentiefe (B x L) ein<br />

signifikantes Ergebnis (p < .01), sodass die Freiheitsgrade für diesen Fall korrigiert<br />

worden sind (vgl. Abschnitt 5.1). Die Resultate der Varianzanalyse fasst Tabelle 5 zusammen,<br />

die deskriptiven Daten werden in Abbildung 10 grafisch dargestellt.<br />

Tabelle 5: Varianzanalyse zur subjektiv erlebten Anstrengung. Anmerkung: 1 = Greenhouse-Geisser<br />

korrigierte Freiheitsgrade; (*) p < .1; * p < .05; ** p < .01.<br />

Quelle der Varianz F df1 df2 p part. η 2<br />

Spracherkennung (S) - between 16.898 1 44 < .001 ** 0.277<br />

Toucherkennung (T) - between 5.036 1 44 .030 * 0.103<br />

Listentiefe (L) – within 1.170 5 220 .325 0.026<br />

Aufgabenblock (B) - within 6.214 1 44 .017 * 0.124<br />

S x T 3.378 1 44 .073 (*) 0.071<br />

S x L 0.591 5 220 .707 0.013<br />

S x B 0.401 1 44 .530 0.090<br />

T x L 2.232 5 220 .052 (*) 0.048<br />

T x B 0.277 1 44 .601 0.006<br />

L x B 1.490 3.11 1 137.03 1 .219 0.033<br />

S x T x B 0.210 1 44 .649 0.005<br />

S x L x B 1.378 3.11 1 137.03 1 .251 0.030<br />

T x L x B 0.766 3.11 1 137.03 1 .519 0.017<br />

S x T x L 1.706 5 220 .134 0.037<br />

S x T x L x B 0.833 3.11 1 137.03 1 .481 0.019<br />

48


Ergebnisse<br />

______________________________________________________________________________<br />

Wie aus Abbildung 10 deutlich wird, liegen die SEA-Bewertungen insgesamt in<br />

einem Bereich geringer Beanspruchung; zur besseren Übersichtlichkeit ist die Ordinate<br />

daher verkürzt dargestellt. Die Varianzanalyse zeigt signifikante Effekte aufgrund der<br />

Manipulation von Fehlern sowohl in der Spracherkennung als auch in der<br />

Touchbedienung (siehe Tabelle 4). Erwartungsgemäß nahmen Probanden höhere Beanspruchung<br />

wahr, wenn fehlerhafte Auslassungen in der Modalität Sprache (M = 31.39,<br />

s = 20.71 versus M = 12.91, s = 11.37 <strong>bei</strong> einwandfreier Funktionalität) oder in der<br />

Modalität Touch (M = 27.20, s = 22.49 versus M = 17.10, s = 13.62 <strong>bei</strong> einwandfreier<br />

Funktionalität) vorlagen. Besonders hohe Werte in der Beanspruchung liegen in der<br />

Versuchsbedingung vor, welche fehlerhafte Auslassungen sowohl in der Modalität<br />

Sprache als auch in der Modalität Touch aufweist (siehe violette Kurve in Abbildung<br />

10). Bonferroni post hoc Paarvergleiche 2 zwischen den vier Systemvarianten zeigen auf,<br />

dass die subjektiv erlebte Anstrengung in dieser Bedingung über den Faktor Listentiefe<br />

hinweg signifikant von allen anderen drei Systemen abweicht (p < .05).<br />

Neben den Zwischensubjektfaktoren weist auch der Innersubjektfaktor Aufgabenblock<br />

einen signifikanten Einfluss auf die Beanspruchungswerte auf, dahingehend,<br />

dass im zweiten Aufgabenblock durchschnittlich geringere Werte in der subjektiv erlebten<br />

Anstrengung angegeben werden (M = 24.92, s = 22.36 im ersten Block versus<br />

M = 19.38, s = 19.25 im zweiten Block).<br />

2 Zur Bonferroni-Korrektur wurden die relevanten Mittelwerte auf der Basis von t-Tests verglichen und<br />

die Grenze zur Signifikanzprüfung auf das lokale Alpha-Niveau von α lok = α global / k herabgesetzt, wo<strong>bei</strong><br />

α global dem in den t-Tests ermittelten Signifikanzniveau entspricht und k die Anzahl an durchgeführten<br />

Einzelpaarvergleichen präsentiert.<br />

49


Ergebnisse<br />

______________________________________________________________________________<br />

1. Aufgabenblock<br />

SEA-Bewertungen [0-220]<br />

2. Aufgabenblock<br />

Listentiefe<br />

Listentiefe<br />

Abbildung 10: Mittelwertverläufe der subjektiv erlebten Anstrengung auf dem jeweils ersten Listenbildschirm<br />

einer Subaufgabe für die vier verschiedenen Versuchsbedingungen im ersten (oben) bzw.<br />

zweiten Aufgabenblock (unten). Auf der Abszisse ist die Listentiefe der Auswahlelemente abgetragen,<br />

der Wert „5“ bedeutet demnach, dass das Element auf dem fünften Listenbildschirm zu finden ist.<br />

4.4 Wahrgenommene Produktqualitäten (AttrakDiff)<br />

Für die Analyse des Fragebogens zu wahrgenommenen Produktqualitäten<br />

(AttrakDiff) wurde eine 2x2x2 multivariate Varianzanalyse mit einfacher Messwiederholung<br />

auf den unabhängigen Variablen Spracherkennung (einwandfrei: S+/ fehlerhaft:<br />

S-) und Toucherkennung (einwandfrei: T+/ fehlerhaft: T-) gerechnet. Als abhängige<br />

Messwerte wurden die vier Dimensionen des Fragebogens (pragmatische Qualität, Identifikation,<br />

Stimulation und Attraktivität) in die Analyse einbezogen. Aus Gründen der<br />

Übersichtlichkeit werden in diesem Abschnitt nur die signifikanten Ergebnisse nach den<br />

vier Dimensionen sortiert, vorgestellt. Für eine Gesamtübersicht der Varianzanalyse<br />

wird auf die entsprechende Tabelle im Anhang verwiesen.<br />

Bei den Bewertungen zur pragmatischen Qualität stellte sich heraus, dass die<br />

Systemvarianten mit fehlerhaften Auslassungen in der Modalität Sprache (S-) durchweg<br />

50


Ergebnisse<br />

______________________________________________________________________________<br />

geringer bewertet werden (F(1,44) = 13.768, p < .01, η p 2 = 0.238), wie aus den Mittelwertunterschieden<br />

in Abbildung 11 grafisch deutlich wird. In Abhängigkeit zu den<br />

Faktorstufen der manipulierten Touchfunktionalität fällt dieser Unterschied <strong>bei</strong>m Vorliegen<br />

von fehlerhaften Auslassung in der Touchbedienung (T-) signifikant stärker auf,<br />

als <strong>bei</strong> der einwandfrei funktionierenden Modalität Touch (T+), was am <strong>Interaktion</strong>seffekt<br />

zwischen den <strong>bei</strong>den unabhängigen Faktoren deutlich wird (F(1,44) = 4.856, p <<br />

.05, η p 2 = 0.099). Im Sinne eines generellen Haupteffekts beeinflussen die Fehler in der<br />

Touchbedienung die abschließenden Gesamturteile jedoch nicht bedeutsam, ebenso<br />

zeigten sich die Unterschiede zwischen den Aufgabenblöcken als nicht signifikant.<br />

Pragmatische Qualität<br />

3<br />

2<br />

1<br />

0<br />

-1<br />

Touchfehler<br />

(T-)<br />

keine Touchfehler<br />

(T+)<br />

Touchfehler<br />

(T-)<br />

keine Touchfehler<br />

(T+)<br />

-2<br />

-3<br />

1. Aufgabenblock 2. Aufgabenblock<br />

Spracherkennungsfehler (S-)<br />

keine Spracherkennungsfehler (S+)<br />

Abbildung 11: Mittelwerte und Standardabweichung der wahrgenommenen pragmatischen Qualität<br />

in Abhängigkeit zu den drei jeweils zweifachgestuften unabhängigen Variablen.<br />

Bezüglich der hedonischen Qualität Identifikation zeigte sich analog zur pragmatischen<br />

Qualität, dass die fehlerbehaftete Modalität Sprache (S-) zu geringeren Bewertungen<br />

führte (F(1,44) = 4.955, p < .05, η 2 p = 0.101). Darüber hinaus liegen keine<br />

weiteren bedeutsamen Haupteffekte bzw. <strong>Interaktion</strong>seffekte auf diese abhängige Variable<br />

vor. Die Mittelwertunterschiede sind der Abbildung 12 zu entnehmen.<br />

51


Ergebnisse<br />

______________________________________________________________________________<br />

Hedonische Qualität: Identifikation<br />

3<br />

2<br />

1<br />

0<br />

-1<br />

Touchfehler<br />

(T-)<br />

keine Touchfehler<br />

(T+)<br />

Touchfehler<br />

(T-)<br />

keine Touchfehler<br />

(T+)<br />

-2<br />

-3<br />

1. Aufgabenblock 2. Aufgabenblock<br />

Spracherkennungsfehler (S-)<br />

keine Spracherkennungsfehler (S+)<br />

Abbildung 12: Mittelwerte und Standardabweichung der wahrgenommenen hedonischen Qualität<br />

Identifikation in Abhängigkeit zu den drei jeweils zweifachgestuften unabhängigen Variablen.<br />

Während für die hedonische Qualität Stimulation keine bedeutsamen Haupteffekte<br />

beobachtet werden konnten, zeigt der signifikante <strong>Interaktion</strong>seffekt zwischen den<br />

unabhängigen Variablen auf, dass hohe Werte vor allem dann vorliegen, wenn entweder<br />

<strong>bei</strong>de Eingabemodalitäten fehlerbehaftet sind oder <strong>bei</strong>de Modalitäten einwandfrei funktionieren.<br />

Geringe Werte in der Stimulation liegen hingegen vor, wenn lediglich eine<br />

Modalität fehlerbehaftet ist und diese durch die jeweils andere kompensiert werden<br />

kann (F(1,44) = 4.259, p < .05, η 2 p = 0.088, siehe Abbildung 13).<br />

Hedonische Qualität: Stimulation<br />

3<br />

2<br />

1<br />

0<br />

-1<br />

Touchfehler<br />

(T-)<br />

keine Touchfehler<br />

(T+)<br />

Touchfehler<br />

(T-)<br />

keine Touchfehler<br />

(T+)<br />

-2<br />

-3<br />

1. Aufgabenblock 2. Aufgabenblock<br />

Spracherkennungsfehler (S-)<br />

keine Spracherkennungsfehler (S+)<br />

Abbildung 13: Mittelwerte und Standardabweichung der wahrgenommenen hedonischen Qualität<br />

Stimulation in Abhängigkeit zu den drei jeweils zweifachgestuften unabhängigen Variablen.<br />

Die Bewertungen zur allgemeinen Produktattraktivität fallen für die Varianten<br />

mit einwandfreier Sprachinteraktion (S+) besser aus, als für die Varianten, in denen die<br />

Sprachinteraktion fehlerbehaftet ist (S-); (F(1,44) = 4.093, p < .05, η 2 p = 0.085, siehe<br />

52


Ergebnisse<br />

______________________________________________________________________________<br />

Abbildung 14). Unterschiede aufgrund der experimentellen Manipulation der<br />

Touchmodalität oder aufgrund des Aufgabenblockes sind ebenso wie vorliegende <strong>Interaktion</strong>en<br />

für die Varianzaufklärung der abschließenden Attraktivitätsurteile statistisch<br />

nicht relevant.<br />

Attraktivität<br />

3<br />

2<br />

1<br />

0<br />

-1<br />

Touchfehler<br />

(T-)<br />

keine Touchfehler<br />

(T+)<br />

Touchfehler<br />

(T-)<br />

keine Touchfehler<br />

(T+)<br />

-2<br />

-3<br />

1. Aufgabenblock 2. Aufgabenblock<br />

Spracherkennungsfehler (S-)<br />

keine Spracherkennungsfehler (S+)<br />

Abbildung 14: Mittelwerte und Standardabweichung der wahrgenommenen Attraktivität in Abhängigkeit<br />

zu den drei jeweils zweifachgestuften unabhängigen Variablen.<br />

4.5 Zusammenfassung<br />

Die Ergebnisse der experimentellen Untersuchung zeigen zusammenfassend auf,<br />

dass die Qualitätsmanipulation in der Erkennung von Toucheingaben die <strong>Modalitätenwahl</strong><br />

und damit das Nutzungsverhalten direkt beeinflusst, und dass Probanden <strong>bei</strong> fehlerhaften<br />

Auslassungen in der Modalität Touch signifikant häufiger die Modalität Sprache<br />

verwenden, um Systemeingaben vorzunehmen. Zudem wird diese Bedingung als<br />

subjektiv beanspruchender wahrgenommen. Die abschließenden Urteile zu den Produktqualitäten<br />

zeigen sich von der Manipulation der Toucheingabe nicht beeinflusst.<br />

Für fehlerhafte Auslassungen in der Modalität Sprache kann kein Einfluss auf<br />

die <strong>Modalitätenwahl</strong> nachgewiesen werden. Hingegen nehmen Probanden <strong>bei</strong> vorliegender<br />

fehlerbehafteter Spracherkennung eine erhöhte subjektive Anstrengung wahr<br />

und bewerten sowohl die pragmatische Qualität, die Identifikation und die Attraktivität<br />

<strong>bei</strong> <strong>Interaktion</strong> mit dem System als geringer.<br />

Für den manipulierten Effizienzvorteil der Modalität Sprache in Form von Einsparungen<br />

an <strong>Interaktion</strong>sschritten gegenüber der Modalität Touch kann gezeigt werden,<br />

dass Sprache signifikant häufiger verwendet wird, wenn die Listentiefe einer Eingabe<br />

hoch ist und damit der <strong>Interaktion</strong>svorteil besonders groß ist. In Abhängigkeit zur Funk-<br />

53


Ergebnisse<br />

______________________________________________________________________________<br />

tionalität der Modalität Touch wird dieser <strong>Interaktion</strong>svorteil von Probanden sogar differenziert<br />

umgesetzt: Ist der Vorteil gering, wird eher die Modalität Touch genutzt, allerdings<br />

auch nur dann, wenn diese Modalität nicht fehlerbehaftet ist. Für die zunehmende<br />

Listentiefe können in der vorliegenden Untersuchung keine erhöhten Beanspruchungswerte<br />

beobachtet werden.<br />

Zwischen den <strong>bei</strong>den Aufgabenblöcken zeigen sich Unterschiede in der <strong>Modalitätenwahl</strong>.<br />

Während auf der Startseite zur Auswahl der Subaufgaben die Modalität<br />

Sprache ähnlich oft verwendet wird, benutzen Probanden Sprache im zweiten Aufgabenblock<br />

auf dem jeweils ersten Listenbildschirm einer Subaufgabe zur Auswahl einer<br />

konkreten Eingabe signifikant häufiger. Darüber hinaus liegen für die subjektiv erlebte<br />

Anstrengung im zweiten Block durchgängig geringere Urteile vor. Die Produktqualitäten<br />

werden nach Abschluss der <strong>bei</strong>den Aufgabenblöcke nicht systematisch unterschiedlich<br />

bewertet.<br />

54


Diskussion<br />

______________________________________________________________________________<br />

5 Diskussion<br />

Entsprechend der drei aufgestellten Hypothesenblöcke (vgl. Abschnitt 2.4.2)<br />

werden die im vorigen Kapitel dargestellten und zusammengefassten Ergebnisse in drei<br />

Abschnitten diskutiert. Zunächst werden die Untersuchungsannahmen zur <strong>Modalitätenwahl</strong><br />

behandelt. Daraufhin werden die Hypothesen zur subjektiv erlebten Anstrengung<br />

und abschließend diejenigen zu den wahrgenommenen Produktqualitäten betrachtet. Die<br />

Diskussion endet mit einer kritischen Würdigung der Ergebnisse und etwaiger Limitationen<br />

<strong>bei</strong> der Generalisierung der Befunde aufgrund des verwendeten methodischen<br />

Vorgehens.<br />

5.1 Hypothesen zur <strong>Modalitätenwahl</strong><br />

Mit den ersten Hypothesen in diesem Bereich wurde angenommen, dass die <strong>Modalitätenwahl</strong><br />

zugunsten der Sprache sowohl durch eine einwandfreie Spracherkennung<br />

(H1.1) als auch durch eine fehlerbehaftete Toucherkennung (H1.2) beeinflusst wird.<br />

Aus den vorliegenden Ergebnissen geht hervor, dass hier<strong>bei</strong> nur die Hypothese H1.2<br />

empirisch gestützt werden kann: Das Vorliegen von Touchfehlern führte sowohl <strong>bei</strong> der<br />

Auswahl der Subaufgaben auf dem Startbildschirm als auch zur Eingabe von Elementen<br />

innerhalb einer Subaufgabe auf dem jeweils ersten Listenbildschirm zu einer signifikant<br />

häufigeren Nutzung der Spracherkennung und somit zu einem erhöhten Wechsel von<br />

der Modalität Touch zur Modalität Sprache. Auf Seiten der Sprachnutzung ließ sich ein<br />

entsprechender Effekt jedoch nicht nachweisen, gleichwohl für <strong>Interaktion</strong>en auf der<br />

Startseite zumindest tendenziell gezeigt werden konnte, dass Nutzer <strong>bei</strong> Spracherkennungsfehlern<br />

vermehrt auf die Modalität Touch auswichen. Dieser Befund steht in Kontrast<br />

zu bisherigen Studien, in denen das Vorliegen von Spracherkennungsfehlern<br />

nachweislich zu einem erhöhten Ausweichen auf die alternative manuelle Modalität<br />

führte (Schaffer et al., 2011a). Jedoch wurden in der eben genannten Studie extremere<br />

Fehlerraten von durchschnittlich 10 Prozent mit durchschnittlich 30 Prozent miteinander<br />

verglichen. Ebenso ließen sich unter Bezugnahme auf Joeckel (2010) in post Hoc Vergleichen<br />

Unterschiede in der Häufigkeit der Nutzung der manuellen Modalität nur zwischen<br />

den Bedingungen geringer Fehler (0-10%) und extrem erhöhter Fehlerraten<br />

(>25%) nachweisen. Somit lässt sich nicht ausschließen, dass die in der vorliegenden<br />

Untersuchung vorgenommenen Manipulationsunterschiede nicht hinreichend waren, um<br />

einen signifikanten Effekt für den Bereich von Spracherkennungsfehlern zu produzie-<br />

55


Diskussion<br />

______________________________________________________________________________<br />

ren. Jedoch muss nach den Erfahrungen aus den Benutzertests und den geschilderten<br />

Berichten der Probanden durchaus zugestanden werden, dass es sich <strong>bei</strong> einer Fehlerrate<br />

von 20 Prozent um eine anwendungsorientiert relevante und überzeugend vermittelbare<br />

Faktorstufe handelte. Als überraschend erweist sich in diesem Zusammenhang zudem,<br />

dass sich, verglichen mit früheren Versuchen, Probanden im Fall einwandfrei funktionierender<br />

Modalitäten deskriptiv deutlich seltener für die Modalität Sprache entschieden<br />

als für die Modalität Touch. Auf der anderen Seite lässt sich die Kurve mit fehlerbehafteter<br />

Spracherkennung und funktionierender Touchbedienung weitestgehend in die bisherige<br />

Versuchsreihe einordnen. Da sowohl der Untersuchungsgegenstand als auch die<br />

Instruktionen und die Aufgaben von ihrem Wesen her nicht unterschiedlich waren, ist<br />

die Abweichung für den ersten Fall entweder zufallsbedingt zu erklären oder dem Einsatz<br />

der Akustikkabine geschuldet. Während in früheren Versuchen der erste Versuchsleiter<br />

mit dem Probanden in einem Raum anwesend war und ihm die Aufgaben sukzessiv<br />

präsentierte, musste für die vorliegende Untersuchung die Akustikkabine aus organisatorischen<br />

Gründen gewählt werden, in der die Probanden die Aufgabenbear<strong>bei</strong>tung<br />

allein durchführten und sich entsprechend unbeobachtet fühlen konnten. Das perfekt<br />

funktionierende System mag unter diesen Umständen entweder dazu geführt haben,<br />

dass Probanden aus einer motivierten Testbereitschaft heraus die Grenzen des Systems<br />

durch häufigere Modalitätenwechsel stärker herausfordern wollten oder die Entwicklung<br />

von Heuristiken durch die Nichtanwesenheit weiterer Personen verbessert werden<br />

konnte, sodass sich Probanden in bestimmten Dialogsituationen verstärkt für die manuelle<br />

Bedienung entschieden haben, da sie hierdurch Effizienzvorteile erwartet haben.<br />

Mit der Hypothese H1.3 wurde angenommen, dass Aktionsmodalitäten mit einem<br />

höheren Innovationsgrad, wie die Spracherkennung, zunächst eine gewisse Gewöhnungszeit<br />

benötigen, um für den Nutzer im Sinne einer Entscheidungsheuristik<br />

kognitiv verfügbarer zu werden. Zur Beantwortung dieser Annahme zeigte sich ein interessanter<br />

Befund. Während die Spracherkennung auf dem Startbildschirm nicht bedeutsam<br />

unterschiedlich verwendet wird, kann die Hypothese durch die Daten aus der Bear<strong>bei</strong>tung<br />

der ersten Listenbildschirmen bekräftigt werden. Dieser Befund ist insofern<br />

erstaunlich, als dass zwischen diesen <strong>bei</strong>den Dialogsituationen tatsächlich ein elementarer<br />

Unterschied vorliegt. Während die Startseite eine Auswahlsituation bereithält, die<br />

mit der Erledigung eines <strong>Interaktion</strong>sschrittes auditiv oder manuell erledigt werden<br />

kann, treten die in der Studie manipulierten Effizienzvorteile durch verkürzte <strong>Interaktion</strong>sschritte<br />

durch die Sprachinteraktion erst auf dem jeweils ersten Listenbildschirm<br />

56


Diskussion<br />

______________________________________________________________________________<br />

einer Subaufgabe zu Tage. In diesem Zusammenhang geht das von McCrasken und<br />

Aldrich (1984) entwickelte Kapazitätenmodell davon aus, dass Spracherkennung zur<br />

Erledigung eines <strong>Interaktion</strong>sschrittes kognitiv beanspruchender sein kann, als eine manuelle<br />

<strong>Interaktion</strong>sform. Wie Bierbaum et al. (1987) aufgezeigt haben, ist der kognitive<br />

Vorbereitungsprozess für die sprachliche Produktion eines Satzes in der Regel aufwendiger<br />

als der entsprechende Prozess für eine manuelle Produktion zur Auswahl einer<br />

Bedienung per Touchscreen. Die Probanden des vorliegenden Experiments verhielten<br />

sich vor diesem Hintergrund äußerst effizient: Für die mit einem <strong>Interaktion</strong>sschritt zu<br />

erledigende Aufgabe auf dem Startbildschirm nutzten sie auch nach längerer Gewöhnung<br />

mit dem System die manuelle <strong>Interaktion</strong>, da diese weniger beanspruchend war<br />

und vermutlich auch in Form von Bedienzeiten schneller als die Spracherkennung zum<br />

Ergebnis geführt hat. Auf den Listenbildschirmen hingegen setzten sie die Spracherkennung<br />

zunehmend häufig ein, sparten damit vor allem <strong>bei</strong> Auswahlelementen mit einer<br />

hohen Listentiefe unnötige manuelle <strong>Interaktion</strong>sschritte und festigten die kognitive<br />

Verfügbarkeit der sprachlichen Eingabe als Entscheidungsheuristik für die <strong>Modalitätenwahl</strong>.<br />

Dass das Lernen bezüglich der <strong>Modalitätenwahl</strong> ausschließlich auf den Listenbildschirmen<br />

nachgewiesen werden kann, spricht dafür, dass sich Probanden über die<br />

jeweiligen Vor- und Nachteile <strong>bei</strong>der Aktionsmodalitäten bewusst zeigten.<br />

Wie bereits in früheren Studien mit dem hier verwendeten Untersuchungsgegenstand<br />

gezeigt werden konnte, stützen auch die Daten aus der vorliegenden Untersuchung<br />

die Hypothese, dass Aufgabeneffizienz, im Sinne einer geringen Anzahl an <strong>Interaktion</strong>sschritten,<br />

ein entscheidender Einflussfaktor für die <strong>Modalitätenwahl</strong> darstellt (vgl.<br />

Schaffer et al., 2011a). Nutzer verwendeten die Modalität Sprache auf den Listenbildschirmen<br />

verstärkt dann, wenn die Eingabe der Elemente über die alternative Modalität<br />

Touch besonders viele zusätzliche <strong>Interaktion</strong>sschritte erfordert hätte, was das Zutreffen<br />

der Hypothese H1.4 bekräftigt.<br />

Die letzten <strong>bei</strong>den zu prüfenden Hypothesen in diesem Block nahmen <strong>Interaktion</strong>seffekte<br />

an, welche davon ausgingen, dass die Effizienzvorteile der Sprache in Abhängigkeit<br />

zur Fehlerbehaftung der Sprachererkennung (H1.5) bzw. der Modalität<br />

Touch (1.6) differenziert zu Tage treten. Auf der Datenbasis der vorliegenden Untersuchung<br />

kann die Hypothese H1.6 als gestützt betrachtet werden: Während <strong>bei</strong> dem Vorliegen<br />

von Touchfehlern bereits für Eingaben mit einer geringen Listentiefe die Spracherkennung<br />

bevorzugt genutzt wird, verhalten sich Nutzer <strong>bei</strong> einwandfreier Touchbedienung<br />

und einer geringen Listentiefe so, als sei die Touchinteraktion für diese Zwe-<br />

57


Diskussion<br />

______________________________________________________________________________<br />

cke effizienter bzw. ebenso effizient wie die Spracherkennung. Diese Ergebnisse unterstützen<br />

die bereits diskutierten Annahmen zu möglichen Vertrautheitseffekten, welche<br />

zu einer verstärkten Nutzung der Sprachmodalität führen sollten. Auch da<strong>bei</strong> zeigte sich<br />

für die <strong>Interaktion</strong> auf den Startbildschirmen, dass keine wesentliche Veränderung in<br />

der <strong>Modalitätenwahl</strong> auftrat. Auch hier ließ sich das Ziel durch einen <strong>Interaktion</strong>sschritt<br />

in der auditiven oder der manuellen Modalität erreichen und Personen entschieden sich<br />

aus dem vermuteten Grund, dass die Touchinteraktion weniger aufwendiger sei als die<br />

Sprachinteraktion (vgl. McCrasken et al., 1984) für die Wahl der manuellen Modalität.<br />

Äquivalent scheint dies auch für den ersten Listenbildschirm zuzutreffen, wenn das entsprechende<br />

Auswahlelement bereits darauf angezeigt wird. Jedoch kann an dieser Stelle<br />

auch gezeigt werden, dass Probanden auch mögliche Effektivitätseinbußen in ihre Entscheidung<br />

einbeziehen und sich auch in dieser Dialogsituation für die Sprachinteraktion<br />

entscheiden, wenn die Touchinteraktion mit fehlerbehafteten Auslassung versehen ist.<br />

Diese Erklärung wird auch dadurch bekräftig, dass Nutzer entgegen der Hypothese H1.5<br />

<strong>bei</strong> einwandfreier Spracherkennung nicht bedeutsam öfter die Modalität Sprache verwendeten,<br />

um Eingaben mit einer geringen Listentiefe vorzunehmen, z.B. um bereits<br />

sichtbare Elemente auf dem ersten Listenbildschirm auszuwählen. An dieser Stelle erscheint<br />

ihnen der einfache Klick, vorausgesetzt die Touchinteraktion funktioniert einwandfrei,<br />

kognitiv oder motorisch weniger aufwändig.<br />

5.2 Hypothesen zur subjektiv erlebten Anstrengung<br />

Die ersten <strong>bei</strong>den Hypothesen in diesem Bereich nahmen an, dass eine geringe<br />

Effektivität in einer der zur Verfügung stehenden Modalitäten zu erhöhten Werten in<br />

der subjektiv erlebten Anstrengung führen. Mit den vorliegenden Ergebnissen können<br />

entsprechende Auswirkungen auf die Beanspruchung sowohl für das Vorliegen von<br />

Spracherkennungsfehlern als auch für das Vorliegen von Touchfehlern gezeigt werden<br />

und somit die Hypothesen H2.1 und H2.2 als gestützt betrachtet werden. Dies zeigt,<br />

dass Probanden <strong>bei</strong> den unmittelbar nach jeder Aufgabe abzugebenen Beanspruchungsurteilen<br />

sensitiv auf das Vorliegen von Effektivitätseinschränkungen reagieren, auch<br />

falls sie aufgrund von Fehlern diese Modalität tatsächlich nur selten benutzt haben sollten.<br />

Im Sinne der zunehmenden Etablierung einer Verfügbarkeitsheuristik zur Auswahl<br />

der eher innovativen Sprachmodalität ging die Hypothese H2.3 davon aus, dass<br />

Probanden im zweiten Durchgang eine geringere Beanspruchung erleben sollten als im<br />

58


Diskussion<br />

______________________________________________________________________________<br />

ersten Durchgang. Auch diese Hypothese kann durch die vorliegenden Ergebnisse bekräftigt<br />

werden. Etwaig mag dieser Effekt jedoch auch dadurch verstärkt worden sein,<br />

dass das Bear<strong>bei</strong>ten der standardisierten Aufgaben von einer hohen Routine geprägt<br />

war. Die Aufgaben waren insgesamt von äußerst geringer Komplexität, wofür das generell<br />

geringe Werteniveau spricht, und hielten keine sonderlich unerwarteten Überraschungen<br />

für die Probanden parat. Auch die Systembedienung und die Effizienz- und<br />

Effektivitätscharakteristika änderten sich nicht im Laufe einer Untersuchungseinheit.<br />

Inwieweit dieser Effekt somit tatsächlich auf die Etablierung einer Entscheidungsheuristik<br />

zur vereinfachten <strong>Modalitätenwahl</strong> oder auf die Gewöhnung an den ohnehin sehr<br />

einfach gehaltenen Nutzungskontext zurückzuführen ist, bleibt somit teilweise offen.<br />

Mit der diesen Bereich abschließenden Hypothese H2.4 wurde davon ausgegangen,<br />

dass es <strong>bei</strong> ansteigender Listentiefe auf Seiten der Auswahlelemente nicht zu einer<br />

erhöhten subjektiv erlebten Anstrengung <strong>bei</strong> den Probanden kommen sollte, da diese<br />

zunehmende Aufgabenkomplexität sich lediglich auf die Touchinteraktion bezieht und<br />

durch die effizientere Spracherkennung unmittelbar kompensiert werden kann (vgl.<br />

Schaffer et al., 2011a). Die vorliegenden Daten stützen diese Nullhypothese, auch <strong>bei</strong><br />

einem entsprechend heraufgesetzten Alpha-Niveau. An dieser Stelle sei auf eine weitere<br />

von Schaffer et al. (2011b) durchgeführte Studie verwiesen, in welcher die erforderlichen<br />

<strong>Interaktion</strong>sschritte zur Erledigung der Subaufgaben zwischen der Touch- und der<br />

Sprachinteraktion gleich gehalten wurden. Aufgaben mit einer erhöhten Listentiefe erforderten<br />

somit auch unter Nutzung der Spracherkennung zunächst ein sukzessives<br />

Blättern in den Listbildschirmen, bevor die Auswahl des Elementes getroffen werden<br />

konnte. Die Ergebnisse dieser Studie bestätigen, dass sich die dadurch ansteigende Aufgabenschwierigkeit<br />

in entsprechend erhöhten Werten subjektiv erlebter Anstrengung<br />

widerspiegeln.<br />

5.3 Hypothesen zu wahrgenommenen Produktqualitäten<br />

Im Bereich der wahrgenommenen Produktqualitäten wurden Hypothesen zur<br />

pragmatischen Qualität und zur globalen Produktgüte (Attraktivität) aufgestellt, dahingehend,<br />

dass erlebte fehlerbehaftete Eingabenerkennungen zu geringeren Pragmatikurteilen<br />

(H3.1 und H3.2) sowie zu geringeren Werten in der Produktgüte führen (H3.4<br />

und H3.5). Durch die Daten bekräftigt wird, dass Spracherkennungsfehler zu geringeren<br />

Bewertungen der pragmatischen Qualität (H3.1) und der abschließenden Systemattraktivität<br />

führen (H3.4). Nicht bekräftigen lassen sich jedoch diejenigen Hypothesen, die<br />

59


Diskussion<br />

______________________________________________________________________________<br />

Einflüsse aufgrund der fehlerbehafteten Touchinteraktion angenommen haben. Da sich<br />

demgegenüber die <strong>Modalitätenwahl</strong> deutlich durch Touchfehler, jedoch nicht nachweislich<br />

durch Spracherkennungsfehler beeinflusst zeigte, dissoziieren die subjektiven Bewertungen<br />

auf den ersten Blick vom tatsächlich gezeigten Verhalten der Nutzer, was für<br />

den Bereich von Fragebogendaten in aktueller Literatur häufiger thematisiert wird (z.B.<br />

Konerding, 2006). Die vorliegenden Verzerrungen lassen sich jedoch insoweit erklären,<br />

als dass die Sprachnutzung in dieser Untersuchung deutlich überdurchschnittlich verwendet<br />

worden ist und Probanden sich somit <strong>bei</strong> der abschließenden Produktbewertung<br />

mehr <strong>Interaktion</strong>ssituationen in Zusammenhang mit der Spracherkennung ins Bewusstsein<br />

rufen konnten. Unter diesen Umständen erscheint es nicht verwunderlich, dass Unterschiede<br />

zwischen der einwandfreien und der fehlerbehafteten Spracherkennung stärker<br />

ins Gewicht fallen als die Unterschiede aufgrund der Touchmanipulation. Aus theoretischer<br />

Sicht erklären lässt sich dies wiederum mit der Verfügbarkeitsheuristik (vgl.<br />

Abschnitt 2.2.4.2), anhand derer Personen Urteile auf Basis der Leichtigkeit ihres Erinnerns<br />

bzw. Vorstellens treffen. Da die Wahrscheinlichkeit für das Erleben von<br />

Touchfehlern aufgrund der erhöhten Wahl für die Modalität Sprache reduziert ist, beeinflussen<br />

entsprechende Situationen zwar das unmittelbare Nutzungsverhalten, jedoch<br />

zeigen sich die entsprechend wenigen, jedoch ausschlaggebenden Situationen mit<br />

Touchfehlern <strong>bei</strong>m abschließenden Urteil weniger präsent.<br />

Diese Erklärung kann dadurch bekräftigen werden, dass sich die unterschiedlichen<br />

pragmatischen Bewertungen in <strong>Interaktion</strong> mit der Effektiviät der Spracherkennung<br />

<strong>bei</strong>m Vorliegen von Touchfehlern deutlicher niederschlagen als wenn die<br />

Touchinteraktion einwandfrei funktioniert. Bei den Ergebnissen zur <strong>Modalitätenwahl</strong><br />

wurde diskutiert, dass sich Probanden ausschließlich auf Basis der Effektivitätsmanipulation<br />

der manuellen <strong>Interaktion</strong> für die Aktionsmodalität Sprache entscheiden. Vor<br />

diesem Hintergrund erscheint es einleuchtend, dass Unterschiede in den pragmatischen<br />

Bewertungen aufgrund von Spracherkennungsfehlern vor allem <strong>bei</strong>m Vorliegen von<br />

Touchfehlern auftreten, da diese ein Ausweichen auf die Spracherkennung begünstigen.<br />

Auf der anderen Seite wird die funktionierende Touchinteraktion für diejenigen Dialogsituationen<br />

eingesetzt, in denen ihr Probanden eine höhere Effizienz zusprechen (z.B.<br />

Auswahl auf dem Startbildschirm, Auswahl auf Listenbildschirmen, wenn Elemente<br />

eine geringe Listentiefe haben), sodass Fehler in der Spracherkennung für das abschließende<br />

Gesamturteil weniger stark ins Gewicht fallen.<br />

60


Diskussion<br />

______________________________________________________________________________<br />

Mit den Hypothesen H3.3 und H3.6 wurden zeitbezogene Veränderungen in den<br />

Urteilen zur pragmatischen Qualität sowie zur globalen Produktgüte vorhergesagt, welche<br />

durch die vorliegenden Daten nicht gestützt werden können. Da die Probanden bereits<br />

im ersten Aufgabenblock das nicht sonderlich komplexe System, welches zudem<br />

als reduzierter Prototyp konzipiert war, sehr gut selbstständig bedienen konnten und die<br />

prototypischen Bedienaufgaben standardmäßig ohne unerwartete Überraschungen für<br />

die Probanden konzipiert waren, erscheint nachvollziehbar, dass eine subjektiv erlebte<br />

Performanzsteigerung im Sinne eines Lerneffektes auf Seiten der Benutzbarkeit zum<br />

zweiten Aufgabenblock nur sehr unwahrscheinlich zu erzielen gewesen ist (vgl.<br />

Hornbaek, 2006). Ebenso liefern die Daten keine Stütze für das Vorliegen einer Attraktivitätssteigerung<br />

aufgrund zunehmender Nutzungszeit. Jedoch erwiesen sich bereits in<br />

früheren Studien Ergebnisse zum mere exposure Effekt (Zajonc, 1968) vor dem Hintergrund<br />

interaktiver Untersuchungsgegenstände als durchaus divergent (Minge, 2011).<br />

Die Dimensionen des AttrakDiff zu den hedonischen Produktqualitäten Identifikation<br />

und Stimulation wurden explorativ in die Auswertung aufgenommen. Hinsichtlich<br />

der Identifikation zeigte sich analog zur pragmatischen Qualität ein bedeutsamer<br />

Haupteffekt aufgrund der Fehlermanipulation in der Sprachererkennung. Da dieser Faktor<br />

aufgrund der zugrundeliegenden Items vor allem erfasst, ob Technik als wertvoll,<br />

vorzeigbar und menschenverbindend betrachtet wird, erscheinen die Ergebnisse nachvollziehbar,<br />

jedoch deutlicher von pragmatischen Qualitäten beeinflusst, als es für diese<br />

von der pragmatischen Qualität unabhängigen hedonischen Qualität vorab zu erwarten<br />

gewesen wäre. Eine Erklärung für dieses Ergebnis kann somit in der Überstrahlung der<br />

aufgabenbezogenen Urteile auf nicht-aufgabenbezogene Bewertungen der Identifikation<br />

im Sinne eines pragmatischen Halo-Effektes gefunden werden (Minge, 2011).<br />

Die Ergebnisse zur Stimulation liefert mit ihren Items zur Originalität, Neuheit<br />

und Motivation zunächst das Bild einer unabhängigen Dimension zur pragmatischen<br />

Qualität, da sich erhöhte Ausprägungen in den <strong>bei</strong>den Extremvarianten zeigten, d.h.<br />

wenn <strong>bei</strong>de Modalitäten entweder einwandfrei funktionierten oder <strong>bei</strong>de Modalitäten<br />

fehlerbehaftet waren. Dieses Ergebnis könnte dem Rahmen der Untersuchungssituation<br />

geschuldet sein, welches das Restaurantbuchungssystem als einen Prototypen vorstellte.<br />

Probanden könnten dazu tendiert haben, nicht nur das perfekt funktionierende System<br />

als besonders stimulierend erlebt zu haben, sondern auch das hoch fehleranfällige, da<br />

sich dieses mit einer deutlich früheren Phase der Produktentwicklung assoziiert zeigt<br />

und eine entsprechende Forschungsar<strong>bei</strong>t notwendig macht.<br />

61


Diskussion<br />

______________________________________________________________________________<br />

5.4 Kritische Würdigung und Limitation<br />

Die Ergebnisse dieses Experimentes zeigen auf, dass sowohl die <strong>Modalitätenwahl</strong><br />

als auch subjektive Bewertungen in Form von erlebter Beanspruchung und wahrgenommener<br />

Produktqualitäten durch die Manipulation der Effektivität und Effizienz<br />

alternativ angebotener Aktionsmodalitäten beeinflusst werden. Während eine fehlerhafte<br />

manuelle Aktionsmodalität den Wechsel zur automatischen Spracherkennung förderte<br />

und die subjektiv erlebte Anstrengung erhöhte, wirkten sich die erlebten Touchfehler,<br />

vermutlich aufgrund der verringerten Nutzung dieser Modalität, nicht bedeutsam auf<br />

abschließenden Gesamturteile aus. Spracherkennungsfehler führten zwar nicht zu einer<br />

reduzierten Nutzung der Sprachmodalität, wurden jedoch mit erhöhter Beanspruchung<br />

und schlechteren Abschlussurteilen bewertet.<br />

Die Resultate dieser Ar<strong>bei</strong>t sind vor einer Verallgemeinerung aus mehrfacher<br />

Sicht kritisch zu betrachten. Zunächst orientieren sich die Befunde am verwendeten<br />

Untersuchungsmaterial, welches ausschließlich aus einer Kombination von Listenbildschirmen<br />

bestand und speziell für die zu bear<strong>bei</strong>tenden Aufgaben konstruiert war. Als<br />

Folge handelte es sich in der Untersuchungssituation um ein deutlich komplexitätsreduzierendes<br />

Szenario, sodass mögliche Unterschiede in der manipulierten Effektivität und<br />

Effizienz für die Probanden offensichtlicher zu Tage traten, als dies in realen Anwendungen<br />

der Fall gewesen wäre.<br />

Methodisch ist zudem kritisch im Auge zu behalten, dass sich die eingesetzte<br />

Stichprobe hauptsächlich aus Studenten unterschiedlicher Fachrichtungen zusammensetzte<br />

und sich <strong>bei</strong> den Probanden ein deutlich technikaffin ausgeprägtes Interesse zeigte.<br />

Die Stichprobe kann daher ausdrücklich nicht als repräsentativ bezeichnet werden<br />

und trifft insbesondere keine Aussagen für spezielle Personengruppen, die von <strong>multimodaler</strong><br />

<strong>Interaktion</strong> unter Umständen besonders profitieren würden, wie z.B. Nutzer<br />

sehr geringen oder sehr hohen Alters, körperlich eingeschränkte Anwender, etc.<br />

Die in diesem Experiment verwendeten Aktionsmodalitäten, die sprachliche und<br />

die manuelle <strong>Interaktion</strong>sform, stellen insbesondere für den mobilen Anwendungsbereich<br />

eine zur Zeit besonders häufig eingesetzte multimodale Kombination dar. Darüber<br />

hinaus sind selbstverständlich zahlreiche weitere Aktionsmodalitäten denkbar (z.B.<br />

Gesteninteraktion, Tastenbedienung, etc.). Die Ergebnisse beziehen sich explizit auf die<br />

in dieser Untersuchung verwendeten Aktionsmodalitäten und halten einer direkten<br />

Übertragbarkeit auf eine andere Klassifikation (z.B. innovativer versus konservative<br />

62


Diskussion<br />

______________________________________________________________________________<br />

Modalität) nicht stand. Wie bereits Vilimek (2007) feststellte, präsentieren multimodale<br />

Geräte immer den Einzelfall einer technischen Systemrealisierung und müssen daher<br />

auch separat evaluiert und auf Verwendbarkeit getestet werden.<br />

Bezüglich der abhängigen Variablen wäre es zum einen wünschenswert, subjektive<br />

Beanspruchungswerte durch objektivere Verfahren, wie z.B. Maße zur Herzfrequenzvariabilität,<br />

zu validieren (vgl. Nickel et al., 2002). Diese wären insbesondere für<br />

die Verwendung in zeitlich kurzen Untersuchungseinheiten von vielversprechendem<br />

Wert. Zum anderen erscheint es zukünftig zweckmäßig, den Bereich der Performanzmessung<br />

durch weitere objektive Maße des Nutzerverhaltens abzudecken. Die vorliegende<br />

Masterar<strong>bei</strong>t fokussierte aus Kapazitätsgründen ausschließlich auf die <strong>Modalitätenwahl</strong><br />

und die prozentuale Nutzungshäufigkeit der Modalität Sprache. Darüber hinaus<br />

sind Maße, wie z.B. Bear<strong>bei</strong>tungszeiten (Task Completion Time), Reaktionszeitmessungen<br />

in spezifischen Dialogsituationen oder der Werte zum Tastendruck, mit dem eine<br />

manuelle Eingabe getätigt wird, von zusätzlichem Interesse.<br />

Abschließend sei kritisch auf das Versuchsdesign hingewiesen, in welchem eine<br />

vollständige Balancierung der Aufgabenreihenfolgen lediglich im ersten, jedoch nicht<br />

im zweiten Aufgabenblock umsetzte. Während für den ersten Block gewährleistet wurde,<br />

dass jede Aufgabe an jeder Stelle innerhalb des Versuchsablaufs gleich häufig vertreten<br />

war, erhielten Probanden im zweiten Aufgabenblock eine grundsätzlich andere,<br />

jedoch für alle Personen identische Reihenfolge (vgl. Anhang D.I). Zudem waren die<br />

Aufgaben im ersten und im zweiten Aufgabenblock identischen Inhalts. Vermutlich<br />

sind die mit der fehlenden Balancierung im zweiten Block verbundenden Auswirkungen<br />

auf die <strong>Modalitätenwahl</strong> und die Bewertungen eher gering, jedoch können sie an dieser<br />

Stelle nicht zweifelsfrei quantifiziert bzw. ausgeschlossen werden. Eine Alternative für<br />

die Optimierung des Versuchsaufbaus wäre es, zum einen auch für den zweiten Block<br />

eine Balancierung der Aufgaben vorzunehmen und zum anderen äquivalente Aufgaben<br />

zu konstruieren, deren Schwierigkeit und Komplexität nicht signifikant von den im ersten<br />

Block verwendeten Aufgaben abweicht. Dies würde maßgeblich dazu <strong>bei</strong>tragen,<br />

Übertragungseffekte <strong>bei</strong> identisch verwendeten Aufgaben zukünftig zu reduzieren.<br />

63


Ausblick<br />

______________________________________________________________________________<br />

8 Ausblick<br />

Es gibt nicht viele Konzepte im Bereich der Mensch-Technik-<strong>Interaktion</strong>, die<br />

wie die Multimodalität eine solch rasante Entwicklung durchlaufen haben und als Hoffnungsträger<br />

gehandelt werden, um Technik einfacher und natürlicher zu machen. Die<br />

vielen unterschiedlichen Innovationsmöglichkeiten, Systemausgaben auf der einen Seite<br />

wahrzunehmen und Systemeingaben auf der anderen Seite vorzunehmen, sind eine<br />

durchaus vielversprechende Begleiterscheinung, die es zukünftig einem noch breiteren<br />

Anwenderkreis möglich machen wird, mit Technik zu interagieren. Multimodalität erreicht<br />

diese Ziele allerdings nur, wenn sie unter dem Fokus einer menschzentrierten<br />

bzw. interaktionszentrierten Entwicklung von Technik beachtet und umgesetzt wird.<br />

Nur dann werden nicht nur Wettbewerbsvorteil am Markt gesichert, sondern auch positive<br />

Effekte langfristig für den Anwender nutzbar gemacht<br />

Mit der vorliegenden Ar<strong>bei</strong>t wurde die <strong>Modalitätenwahl</strong> <strong>bei</strong> <strong>multimodaler</strong> <strong>Interaktion</strong><br />

untersucht. Das Ziel lag darin, für eine spezielle Anwendungssituation Aussagen<br />

über den Einfluss verschiedener Faktoren auf das Nutzungsverhalten und subjektive<br />

Bewertungen zu treffen. Ein größerer Hintergrund der Ar<strong>bei</strong>t liegt jedoch darin, die<br />

Untersuchungsergebnisse in die Resultate der bisherigen Versuchsreihe einzuordnen<br />

und somit Aussagen zur <strong>Modalitätenwahl</strong> zu verallgemeinern. Aus den gewonnen Daten<br />

soll unter Nutzung einer kognitiven Architektur ein Modell der <strong>Modalitätenwahl</strong> generiert<br />

und anschließend durch weitere Nutzertests validiert werden. Die Vorteile solcher<br />

Modellierungsansätze liegen klar auf der Hand: Zum einen erlauben sie ein tieferes Verständnis<br />

über die kognitiv ablaufenden Informationsverar<strong>bei</strong>tungsprozesse, die <strong>bei</strong> der<br />

<strong>Modalitätenwahl</strong> stattfinden, zum anderen lässt sich der Aufwand <strong>bei</strong> der erforderlichen<br />

Evaluation <strong>multimodaler</strong> Systeme zukünftig drastisch reduzieren, vorausgesetzt das<br />

Modell würde auch in neuen Situationen brauchbare Vorhersagen liefern. Gezielt untersucht<br />

werden könnten somit auch kleinere Veränderungen in der Systemgestaltung oder<br />

in der Abstimmung der verschiedenen Modalitäten.<br />

Der Ansatz der kognitiven Modellierung würde somit dem generellen Ziel von<br />

Multimodalität, Mensch-Technik-<strong>Interaktion</strong> ein Stück weit menschlicher und dadurch<br />

einfacher zu machen, gerecht werden.<br />

64


Literaturverzeichnis<br />

______________________________________________________________________________<br />

Literaturverzeichnis<br />

Althoff, F., McGlaun, G. & Lang, M. (2001). Combining Multiple Input Modalities for<br />

Virtual Reality Navigation – A user study. In Proceedings of HCII 2001: 9 th International<br />

Conference on Human Computer Interaction. New Orleans, USA.<br />

Aula, A., Majaranta, P. and Räihä, K.-J. (2005). Eye-tracking Reveals the Personal<br />

Styles for Search Result Evaluation. Human-Computer Interaction - INTERACT<br />

2005, Lecture Notes in Computer Science. Heidelberg: Springer. (S. 1058-1061).<br />

Backhaus, K., Erichson, B., Plinke, W. & Weiber, R. (2011). Multivariate Analysemethoden.<br />

11. Auflage. Berlin: Springer Verlag.<br />

Baddeley, A.D. (1986). Working memory. Oxford, UK: Oxford University Press.<br />

Bates, R. & Istance, H.O. (2005). Towards eye based virtual environment interaction for<br />

users with high-level motor disabilities. International Journal of Disability & Human<br />

Development: The International Conference Series on Disability, Virtual Reality<br />

and Associated Technologies, 4(3), 161-169.<br />

Beuter, N. (2007). Gestenbasierte Positionsreferenzierung für die multimodale <strong>Interaktion</strong><br />

mit einem anthropomorphen Robotersystem. Diplomar<strong>bei</strong>t im Fach Angewandte<br />

Informatik an der Technischen Universität Bielefeld.<br />

Bevan, N. (1995). Usability is Quality of Use. In Proceedings of the 6 th International<br />

Conference on Human Computer Interaction, Yokohama. Amsterdam: Elsevier.<br />

Bierbaum, C.R., Szabo, S.M. & Aldrich, T.B. (1987). A comprehensive task analysis oft<br />

he UH-60 mission with crew workload estimates and preliminary decision rules for<br />

developing a UH-60 workload prediction model (Technical Report ASI690-302-<br />

87[B], Vol. I., II, III, IV). Fort Rucker, AL.<br />

Bilici, V., Krahmer, E., te Riele, S. & Veldhuis, R. (2000). Preferred Modalities in Dialogue<br />

Systems, Proceedings of ICSLP2000, 727-730.<br />

Buxton, B. (2007). Sketching User Experience – Getting the Design Right and the Right<br />

Design. Toronto: Morgan Kaufmann Publishers.<br />

Card, S.K., Mackinlay, J.D. & Robertson, G.G. (1990). The design space of input devices,<br />

Proceedings of SIGCHI’90, ACM Press, 117-124.<br />

Charwat, H.J. (1994). Lexikon der Mensch-Maschine-Kommunikation (2. Auflage).<br />

München: Oldenbourg Verlag.<br />

Duffy, L. (1993). Team decision making biases: An information processing perspective.<br />

In: G.A. Klein, J. Orasanu, R. Calderwodd & C.E. Zsmabok (Hrsg.). Decision Making<br />

in Action: Models and Methods (S. 346-359). Norwood, NJ, Ablex.<br />

65


Literaturverzeichnis<br />

______________________________________________________________________________<br />

Eilers, K., Nachreiner, F. & Hänecke, K. (1986). Entwicklung und Überprüfung einer<br />

Skala zur Erfassung subjektiv erlebter Anstrengung. Zeitschrift für Ar<strong>bei</strong>tswissenschaft,<br />

40 (4), 215-224.<br />

Endsley, M.R. (1995). Toward a theory of situation awareness in dynamic systems.<br />

Human Factors, 37(1), 32-64.<br />

Engesser, H. (1993). Duden “Informatik” (2. Auflage). Mannheim: Duden Verlag.<br />

ETSI EG 202 191 (2003). Human Factors (HF); Multimodal interaction, communication<br />

and navigation guidelines. Sophia-Antipolis Cedex, France: ETSI.<br />

http://docbox.etsi.org/EC_Files/EC_Files/eg_202191v010101p.pdf vom 09.08.2012.<br />

Geiser, G. (1990) Mensch-Maschine-Kommunikation. München: Oldenbourg Verlag.<br />

Greening, L., Dollinger, S.J. & Pitz, G. (1996). Adolescents’ perceived risk and personal<br />

experience with natural disasters: An evaluation of cognitive heuristics. Acta<br />

Psychologica, 91, 27-38.<br />

Hassenzahl, M., Burmester, M. & Koller, F. (2003). AttrakDiff: Ein Fragebogen zur<br />

Messung wahrgenommener hedonischer und pragmatischer Qualität. In G. Szwillus<br />

& J. Ziegler (Hrsg.), Mensch & Computer 2003: <strong>Interaktion</strong> in Bewegung (S. 187-<br />

196). Stuttgart: B.G. Teubner.<br />

Hauptmann, A.G. (1989). Speech and gestures for graphic image manipulation. In: M.<br />

Helander (Hrsg.). Proceedings of ACM CHI ’89 Conference of Human Factors in<br />

Computing Systems. ACM Press (S. 241-245).<br />

Hedicke, V. (2000). Multimodalität in Mensch-Maschine-Schnittstellen (S. 203-232).<br />

In. K.P. Timpe, T. Jürgensohn & H. Kolrep (Hrsg.). Mensch-Maschine-<br />

Systemtechnik, 2. Auflage. Düsseldorf: Symposion Verlag.<br />

Hopkins, K.D. & Weeks, D.L. (1990). Tests for normality and measures of skewness<br />

and kurtosis: Their place in research reporting. Educational and Psychological<br />

Measurement, 50, 717-729.<br />

Hornbaek, K. (2006). Current practice in measuring usability: Challenges to usability<br />

studies and research. Journal of Human-Computer Studies, 64, 79-102.<br />

Hunt, M.J. (1990). Figures of Merit for Assessing Connected Word Recognisers.<br />

Speech Communication, 9, 239-336.<br />

ISO 9241-210 (2010). Ergonomics of human-computer interaction – Part 210: Humancentered<br />

design process for interactive systems. Geneva: International<br />

Standardiziation Organization (ISO).<br />

Iwata, H., Yano, I., Uemura, T. & Moriya, T. (2004). Food Simulator. A Haptic Interface<br />

for Biting. VR 2004: 51-58.<br />

66


Literaturverzeichnis<br />

______________________________________________________________________________<br />

Jöckel, B. (2010). Ermittlung von Schwellenwerten für Modalitätenwechsel in <strong>multimodaler</strong><br />

Mensch-Maschine-<strong>Interaktion</strong>. Masterar<strong>bei</strong>t im Studiengang Human Factors<br />

an der Technischen Universität Berlin.<br />

Jones, P.E. & Roelofsma, P.H.M.P. (2000). The potential for social contextual and<br />

group biases in team decision-making: biases, conditions and psychological<br />

mechanisms. Ergonomics, 43(8), 1129-1152.<br />

Jordan, P.W. (2000). Designing pleasurable products. London: Taylor & Francis.<br />

Jungermann, H., Pfister, H.R. & Fischer, K. (2005). Die Psychologie der Entscheidung<br />

(2. Auflage). Heidelberg: Spektrum Akademischer Verlag.<br />

Kahneman, D., Slovic, P. & Tversky, A. (1982). Jugdment under uncertainty: Heuristics<br />

and biases. Cambridge, New York. Cambridge University Press.<br />

Kahneman, D. & Tversky, A. (1972). Subjective probability: A judgment of representativeness.<br />

Cognitive Psychology, 3, 430-454.<br />

Kantowitz, B.H. & Campbell, J.L. (1996). Pilot workload and flight-deck automation.<br />

In: R. Parasuraman & M. Mouloua (Hrsg.). Automation and human performance:<br />

Theory and applications (S. 117-136). Lawrence Erlbaum: NJ.<br />

Kline, R.B. (1998). Structure equation modeling. New York: Guilford.<br />

Konerding, U. (2006). Theorie und Methoden zur Vorhersage und Erklärung von Verhalten<br />

aufgrund von Fragebogendaten. Habilitationsschrift an der Technischen<br />

Universität Berlin.<br />

Kreuzbauer, R. & Malter, A.J. (2005). Embodied cognition and new product design:<br />

Changing product form to influence brand categorization. In: Journal of Product Innovation<br />

Management, 22(5), 165-176.<br />

Kruger, J. & Dunning, D. (1999). Unskilled and unaware of it. How difficulties in recognizing<br />

one’s own incompetence lead to inflated self-assessments. Journal of Personality<br />

and Social Psychology, 77(6), 1121-1134.<br />

Liberman, A. & Trope, Y. (1996). Social hypothesis testing: Cognitive and motivational<br />

mechanisms. In E.T. Higgins & A.W. Kruglanski (Hrsg.). Social psychology:<br />

Handbook of basic principles (S. 239-270). New York: Guilford.<br />

Lochmatter, T., Raemy, X. & Martinoli, A. (2007). Geruchslokalisation mit mobilen<br />

Robotern. IT Business, 1/2007, 40-41.<br />

Luczak, H. (1998). Ar<strong>bei</strong>tswissenschaft. 2. Auflage. Berlin: Springer Verlag.<br />

Mahlke, S. & Minge, M. (2008). Consideration of Multiple Components of Emotions in<br />

Human-Technology Interaction. In C. Peter & R. Beale (Hrsg.), Affect and Emotion<br />

in HCI, LNCS 4868. Berlin: Springer.<br />

67


Literaturverzeichnis<br />

______________________________________________________________________________<br />

Martin, J.-C. (1998). Types of cooperation and referenceable objects: Implications on<br />

annotation schemas for multimodal language resources. Paper presented at the<br />

LREC 1000 pre-conference workshop, Athen, Griechenland.<br />

Maybury, M.T. & Stock, O. (1999). Multimedia Communication, including Text. In: E.<br />

Hovy, N. Ide, R. Frederking, J. Mariani & A. Zampolli (Hrsg.). Multilingual Information<br />

Management: Current Levels and Future Abilities. A study commissioned<br />

by the US National Science Foundation and also delivered to European Commission<br />

Language Engineering Office and the US Defense Advanced Research Projects<br />

Agency.<br />

McCrasken, J.H. & Aldrich, T.B. (1984). Analysis of selected LHX mission functions:<br />

workload. Proceedings of 34th conference on Winter simulation: exploring new<br />

frontiers, 157-162.<br />

Minge, M. (2011). Dynamische Aspekte des Nutzungserlebens der <strong>Interaktion</strong> mit technischen<br />

Systemen. Dissertation an der Fakultät V der Technischen Universität Berlin.<br />

Muthig, K.-P. (1990). Informationsaufnahme und Informationsverar<strong>bei</strong>tung. In: C.G.<br />

Hoyos & B. Zimolong (Hrsg.). Ingenieurpsychologie (S. 92-114). Göttingen:<br />

Hogrefe.<br />

Neuss, R. (2000). Usability Engineering als Ansatz zum Multimodalen Mensch-<br />

Maschine-Dialog. Dissertationsschrift an der Technischen Universität München.<br />

Nickel, P., Eilers, K., Seehase, L. & Nachreiner, F. (2002). Zur Reliabilität, Validität,<br />

Sensitivität und Diagnostizität von Herzfrequenz- und Herzfrequenzvariabilitätsmaßen<br />

als Indikatoren psychischer Beanspruchung. Zeitschrift für Ar<strong>bei</strong>tswissenschaft,<br />

56(1), 22-36.<br />

Niedermeier,F.B. (2003). Entwicklung und Bewertung eines Rapid-Prototyping Ansatzes<br />

zur multimodalen Mensch-Maschine-<strong>Interaktion</strong> im Kraftfahrzeug. Genehmigte<br />

Dissertation der Fakultät für Elektrotechnik und Informationstechnik der Technischen<br />

Universität München.<br />

Nigay, L. & Courtaz, J. (1993). A design space for multimodal systems – concurrent<br />

processing and data fusion (S. 172-178). In: INTERCHI ’93, Proceedings of the<br />

Conference on Human Factors and Computing Systems. New York: ACM Press.<br />

Nigay, L., Jambon, F. & Coutaz, J. (1995). Formal specification of multimodality. Paper<br />

presented at the CHI’95 workshop on formal specification of user interfaces, Denver,<br />

Colorado.<br />

Norman, D.A. (1990). The ‘problem‘ with automation: Inappropriate feedback and interaction,<br />

not ‘over-automation’. In: D.E. Broadbent, J. Reason & A.D. Baddeley<br />

(Hrsg.). Human factors in hazardous situations (S. 137-145). New York: Clarendon<br />

Press.<br />

68


Literaturverzeichnis<br />

______________________________________________________________________________<br />

Orasanu, J., & Fischer, U. (1997). Finding decisions in natural environments: The view<br />

from the cockpit. In C. Zsambok & G. Klein (Eds.). Naturalistic Decision Making<br />

(pp. 343-357). Hillsdale, NJ: Erlbaum.<br />

Ostermann, T. (2010). Das Streben nach Konsistenz im Entscheidungsprozess. Eine<br />

Untersuchung möglicher Enflussfaktoren. Dissertation an der Erziehungswissenschaftlichen<br />

Fakultät der Universität Erfurt.<br />

Oviatt, S.L. (1996). Multimodal Interfaces for Dynamic Interactive Maps. In Proceedings<br />

of CHI ’96: Conference of Human Factors in Computing Systems (New York,<br />

USA). ACM Press (S. 415-422).<br />

Oviatt, S.L. (1999). Ten myths of multimodal interaction. Communications of the ACM,<br />

42(11), 74-81.<br />

Perakakis, M. & Potamianos, A. (2008). Multimodal system evaluation using modality<br />

efficiency and synergy metrics. Proceedings of ICMI’08, ACM Press, 9-16.<br />

Previc, F. H. (1998). The neuropsychology of 3-D space. Psychological Bulletin, 124,<br />

123–164.<br />

Rasmussen, J., & Rouse, W. (1981). Human Detection and Diagnosis of System Failures.<br />

New York: Plenum Press.<br />

Reder, L. M. (1988). Strategic control of retrieval strategies. The Psychology of Learning<br />

and Motivation, 22, 227-259.<br />

Roetting, M. & Seifert, K. (2005). Multimodale Mensch-Maschine <strong>Interaktion</strong> (S. 283-<br />

300). In: K. Karrer, B. Gauss & C. Steffens (Hrsg.). Beiträge zur Mensch-Maschine-<br />

Systemtechnik. Düsseldorf: Symposion Verlag.<br />

Rohs, M. (2009). Mobile and Physical Interaction. Skriptum zur Vorlesung am Institut<br />

für Softwaretechnik und Theoretische Informatik der Technischen Universität Berlin.<br />

Rudnicky, A.I. (1993). Mode preference in a simple data-retrieval task. Proceedings of<br />

the workshop on Human Language Technology (SLT 2010,. Stroudsberg, PA, 364-<br />

369.<br />

Schaffer, S., Jöckel, B., Wechsung, I., Schleicher, R. & Möller, S. (2011a). Modality<br />

Selection and Perceived Mental Effort in a Mobile Application. Proc. 12th Ann.<br />

Conf. of the Int. Speech Communication Assoc. (Interspeech 2011). International<br />

Speech Communication Association (ISCA), 2253-2256.<br />

Schaffer, S. & Reitter, D. (2012). Modeling Efficiency-guided Modality Choice in<br />

Voice and Graphical User Interfaces. Proceedings of ICCM 2012, Berlin, 253-254.<br />

Schaffer, S., Schleicher, R. & Möller, S. (2011b). Measuring Cognitive Load for different<br />

Input Modalities. 9. Berliner Werkstatt Mensch-Maschine-Systeme. VDI Verlag,<br />

287-292.<br />

69


Literaturverzeichnis<br />

______________________________________________________________________________<br />

Schmid, U. & Kindsmüller, M.C. (1996). Kognitive Modellierung. Eine Einführung in<br />

die logischen und algorithmischen Grundlagen. Heidelberg: Spektrum Akademischer<br />

Verlag.<br />

Schomaker, L., Nijtmans, J., Camurri, A., Lavagetto, F., Morasso, P., Benoît, C.,<br />

Guiard-Marigny, T., le Goff, B., Robert-Ribes, J., Adjoudani, A., Defée, I., Münch,<br />

S., Hartung, K. & Blauert, J. (1995). A taxonomy of multimodal interaction in the<br />

human information processing system. Multimodal integration for advanced multimedia<br />

interfaces (Report of the Esprit Project 8579 MIAMI No. WP 1). Nijmegen,<br />

Netherlands: University of Nijmegen.<br />

Spence, C., Nicholls, M.E. & Driver, J. (2001). The cost of expecting events in the<br />

wrong sensory modality. Perception & Psychophysics, 63(2), 330-336.<br />

Streitz, N.A. (1990). Psychologische Aspekte der Mensch-Computer-<strong>Interaktion</strong> (S.<br />

240-284). In: C. Graf Hoyos (Hrsg.). Enzyklopädie der Psychologie. Ingenieurpsychologie,<br />

D/III/2. Göttingen: Verlag für Psychologie, Hogrefe.<br />

Suhm, B., Myers, B. & Waibel, A. (1999). Model-based and empirical evaluation of<br />

multimodal interactive error correction, Proceedings of CHI’99, ACM Press, 123-<br />

133.<br />

Technoplus GmbH (2012). Geruchssensor. Innovative Technologien. http://www. technoplus-gmbh.de/pdf/Produktblatt_tp_geruchssensor2_hg.pdf<br />

vom 09.08.2012.<br />

Thomas, C. & Curson, I. (1996). Performance measurement handbook, 3. Auflage. National<br />

Physical Laboratory. Teddington, UK.<br />

Timpe, K.-P. & Kolrep, H. (2000). Das Mensch-Maschine-System als interdisziplinärer<br />

Gegenstand (S. 9-40). In: K.-P. Timpe, T. Jürgensohn & H. Kolrep (Hrsg.). Mensch-<br />

Maschine-Systemtechnik, 2. Auflage. Düsseldorf: Symposion Verlag.<br />

Tinsley , H.E.A. & Brown, S.D. (2000). Handbook of Applied Multivariate Statistics<br />

and Mathematical Modelling. San Diego: Academic Press.<br />

Tversky, A. & Kahneman, D. (1973). Availability: A heuristic for judging frequency<br />

and probability. Cognitive Psychology, 42, 207-232.<br />

Tversky, A. & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and biases.<br />

Science, 185, 1124-1131.<br />

Tversky, A. & Kahneman, D. (1992). Advances in prospect theory: Cumulative representation<br />

of uncertainty. In: D. Kahneman & A. Tversky (Hrsg.). Choices, values,<br />

and frames (S. 44-66). Cambridge: Cambridge University Press.<br />

Vilimek, R. (2007). Gestaltungsaspekte <strong>multimodaler</strong> <strong>Interaktion</strong> im Fahrzeug. Ein Beitrag<br />

aus ingenieurpsychologischer Perspektive. Inaugural-Dissertation an der Universität<br />

Regensburg.<br />

70


Literaturverzeichnis<br />

______________________________________________________________________________<br />

Vo, M.T. & Waibel, A. (1993). Multimodal Human-Computer Interaction. In: Proceedings<br />

of ISSD’93: International Symposium on Spoken Dialogue: New Directions in<br />

Human and ManMachine Communication (Tokyo), 95-101.<br />

Walpow, J. & Winter Walpow, E. (2012). Brain-Computer Interfaces. Principles and<br />

Practices. Oxford: Oxford University Press.<br />

Wechsung, I., Engelbrecht, K.-P., Naumann, A., Möller, S., Schaffer, S. & Schleicher,<br />

R. (2010). Investigating Modality Selection Strategies. Workshop on Spoken Language<br />

Technology (SLT).<br />

Weidenmann, B. (1995). Multicodierung und Multimodalität im Lernprozess. In: L.J.<br />

Issing & P. Klimsa (Hrsg.). Informationen und Lernen mit Multimedia. Weinheim:<br />

Psychologische Verlagsunion.<br />

Wickens, C.D. (2002). Multiple ressources and performance prediction. Theoretical<br />

Issues in Ergonomics Science, 3(2), 159-177.<br />

Wickens, C.D. & Hollands, J.G. (2000). Engineering psychology and human performance<br />

(3rd edition). Upper Saddle River, NJ: Prentice Hall.<br />

Zajonc, R. (1968). Attitudinal Effects of Mere Exposure. Journal of Personality and<br />

Social Psychology, (9)2, 1–27.<br />

Zsambok, C.E. (1997). Naturalistic Decision Making: Where are we now? In: C.E.<br />

Zsmabok & G.A. Klein (Hrsg.). Naturalistic Decision Making (S. 3-16). Mahwah:<br />

Lawrence Erlbaum.<br />

71


Anhang<br />

______________________________________________________________________________<br />

Anhang<br />

A<br />

Einverständniserklärung<br />

Einverständniserklärung<br />

Hiermit erkläre ich mich einverstanden, an der Studie<br />

Restaurantbuchungssystem<br />

teilzunehmen. Für meine Teilnahme erhalte ich eine Vergütung von 10 €.<br />

Die in diesem Zusammenhang erhobenen Daten werden aufgezeichnet, in anonymisierter Form<br />

gespeichert und zu wissenschaftlichen Zwecken ausgewertet.<br />

Meine Daten werden streng vertraulich behandelt und können nur von entsprechend autorisierten<br />

Personen eingesehen werden.<br />

Meine Teilnahme an der Studie erfolgt freiwillig.<br />

Mir ist bewusst, dass ich die Studie zu jedem Zeitpunkt abbrechen kann. In diesem Fall verliere<br />

ich jedoch den Anspruch auf die oben genannte Vergütung.<br />

________________________<br />

Ort, Datum<br />

_________________________________<br />

Unterschrift<br />

72


Anhang<br />

______________________________________________________________________________<br />

B<br />

Instruktionen<br />

Herzlich Willkommen! Vielen Dank, dass Sie sich die Zeit für diese Untersuchung nehmen.<br />

Sie werden heute den mobilen Prototypen eines Restaurantbuchungssystems testen. Mit diesem<br />

Prototypen können Sie online einen Tisch in einem bestimmten Restaurant reservieren.<br />

Die Suche nach einem Restaurant erfolgt über folgende vier Kriterien:<br />

o<br />

o<br />

o<br />

o<br />

die Stadt, in der ein Restaurant liegen soll (z.B. Berlin)<br />

die Kategorie des Restaurants (z.B. italienisch)<br />

die Uhrzeit, zu der ein Tisch gewünscht wird (z.B. 18:00 Uhr) und<br />

die Anzahl der Personen, für die ein Tisch benötigt wird (z.B. zwei Personen).<br />

Für den Test geben wir Ihnen zwei Blöcke mit je 12 Bedienaufgaben vor, die Ihnen einzeln auf<br />

dem Bildschirm präsentiert werden. Jede Aufgabe nennt Ihnen die jeweiligen Eingaben, die Sie<br />

für eine Restaurantsuche vornehmen sollen, z.B. „ein Restaurant mit italienischer Küche in Berlin<br />

um 18:00 Uhr für zwei Personen“.<br />

Nach jeder Aufgabe werden Sie die <strong>Interaktion</strong> auf einem kurzen Fragebogen bewerten.<br />

Die Bedienung des Prototypen erfolgt wahlweise über Touchscreen oder über Sprache. Sie<br />

selbst entscheiden, wie sie das System bedienen möchten, und Sie können jederzeit – auch<br />

innerhalb einer Restaurantsuche – zwischen den Eingabeformen wechseln.<br />

Zur Eingabe über Touchscreen klicken Sie bitte mit dem Finger auf die entsprechenden Buttons<br />

im Display des Prototypen (siehe Startbildschirm in Abbildung 1).<br />

Die Bedienung über Spracherkennung erfolgt mittels Sprachkommandos, die im Wesentlichen<br />

den Displaybeschriftungen entsprechen, z.B. „Stadt auswählen“, „Berlin“ oder „Restaurant suchen“.<br />

Bitte beachten Sie <strong>bei</strong> der Spracherkennung, dass Sie auf dem Startbildschirm (Abbildung 1)<br />

zunächst das jeweilige Kriterium nennen müssen, das Sie auswählen möchten (also z.B. „Stadt<br />

auswählen“), bevor Sie die eigentliche Eingabe, z.B. „Mannheim“ direkt nennen können. Das<br />

gleiche gilt für die anderen drei Kriterien Kategorie, Uhrzeit und Personenanzahl.<br />

.<br />

Abbildung 1: Startbildschirm des Prototypen<br />

Haben Sie alle vier Kriterien erfolgreich eingegeben, schicken Sie bitte eine Reservierungsanfrage<br />

über „Restaurant suchen“ ab. Damit ist eine Testaufgabe erledigt.<br />

Sie werden die Bedienung des Prototypen nun zunächst an einigen Beispielaufgaben kennenlernen.<br />

Haben Sie vorab noch Fragen zum Versuch oder zur Bedienung?<br />

73


Anhang<br />

______________________________________________________________________________<br />

C<br />

Aufgaben und Aufgabenkonstruktion<br />

I. Trainingsaufgaben<br />

Aufgabe 1<br />

Aufgabe 2<br />

„Suchen Sie ein Fischrestaurant in Kiel ab 20:00 Uhr für 10 Personen.“<br />

Bear<strong>bei</strong>tung erfolgte unimodal nur über den Touchscreen.<br />

„Suchen Sie ein Sushi-Restaurant in Wiesbaden ab 21:00 Uhr für 2 Personen.“<br />

Bear<strong>bei</strong>tung erfolgte unimodal nur über die Spracherkennung.<br />

Aufgabe 3 „Suchen Sie ein orientalisches Restaurant in Dortmund ab 13:00 Uhr für 18<br />

Personen.“<br />

Bear<strong>bei</strong>tung erfolgte multimodal nach individueller Präferenz und jederzeitiger<br />

Wahlmöglichkeit zwischen Touchscreen und Spracherkennung<br />

II.<br />

Aufgaben des Hauptversuchs<br />

No. Aufgabe Listentiefe<br />

„Stadt“<br />

Listentiefe<br />

„Kategorie“<br />

Listentiefe<br />

„Uhrzeit“<br />

Listentiefe<br />

„Personen“<br />

1 „Suchen Sie ein Restaurant mit<br />

amerikanischer Küche in Freiburg 1 2 3 4<br />

ab 16:00 Uhr für 13 Personen.“<br />

2 „Suchen Sie ein Restaurant mit<br />

griechischer Küche in Erfurt<br />

3 3 3 3<br />

ab 20:00 Uhr für 9 Personen.“<br />

3 „Suchen Sie ein Restaurant mit<br />

mediterraner Küche in Bremen 5 1 6 2<br />

ab 10:00 Uhr für 6 Personen.“<br />

4 „Suchen Sie ein Restaurant mit<br />

chinesischer Küche in Dortmund 2 2 2 2<br />

ab 18:00 Uhr für 5 Personen.“<br />

5 „Suchen Sie ein Restaurant mit<br />

indischer Küche in München<br />

3 5 4 6<br />

ab 01:00 Uhr für 21 Personen.“<br />

6 „Suchen Sie ein Restaurant mit<br />

portugiesischer Küche in Stuttgart 6 6 6 6<br />

ab 11:00 Uhr für 22 Personen.“<br />

7 „Suchen Sie ein Restaurant japanischer<br />

Küche in Düsseldorf<br />

4 2 3 1<br />

ab 22:00 Uhr für 4 Personen.“<br />

8 „Suchen Sie ein Restaurant mit<br />

brasilianischer Küche in Augsburg 1 1 1 1<br />

ab 12:00 Uhr für 2 Personen.“<br />

9 „Suchen Sie ein Restaurant mit<br />

deutscher Küche in Rostock<br />

2 6 1 5<br />

ab 13:00 Uhr für 18 Personen.“<br />

10 „Suchen Sie ein Restaurant mit<br />

italienischer Küche in Köln<br />

4 4 4 4<br />

ab 00:00 Uhr für 14 Personen.“<br />

11 „Suchen Sie ein Restaurant mit<br />

russischer Küche in Hannover 6 5 4 3<br />

ab 06:00 Uhr für 10 Personen.“<br />

12 „Suchen Sie ein Restaurant mit<br />

mexikanischer Küche in Leipzig<br />

ab 07:00 Uhr für 17 Personen.“<br />

5 5 5 5<br />

Grau unterlegte Zeilen präsentieren die sechs „subaufgabenkonsistenten Hauptaufgaben“, in<br />

denen die Listentiefe also für alle vier Subaufgaben identisch ist.<br />

74


Anhang<br />

______________________________________________________________________________<br />

D<br />

Balancierung der Aufgabenreihenfolgen<br />

I. Aufgabenblock 1<br />

Versuchsbedingung:<br />

Touch einwandfrei (T+) / Sprache einwandfrei (S+)<br />

VP01 1 3 5 7 9 11 12 10 8 6 4 2<br />

VP02 3 5 7 9 11 12 10 8 6 4 2 1<br />

VP03 5 7 9 11 12 10 8 6 4 2 1 3<br />

VP04 7 9 11 12 10 8 6 4 2 1 3 5<br />

VP05 9 11 12 10 8 6 4 2 1 3 5 7<br />

VP06 11 12 10 8 6 4 2 1 3 5 7 9<br />

VP07 12 10 8 6 4 2 1 3 5 7 9 11<br />

VP08 10 8 6 4 2 1 3 5 7 9 11 12<br />

VP09 8 6 4 2 1 3 5 7 9 11 12 10<br />

VP10 6 4 2 1 3 5 7 9 11 12 10 8<br />

VP11 4 2 1 3 5 7 9 11 12 10 8 6<br />

VP12 2 1 3 5 7 9 11 12 10 8 6 4<br />

Versuchsbedingung:<br />

Touch fehlerbehaftet (T-) / Sprache einwandfrei (S+)<br />

VP13 1 3 5 7 9 11 12 10 8 6 4 2<br />

VP14 3 5 7 9 11 12 10 8 6 4 2 1<br />

VP15 5 7 9 11 12 10 8 6 4 2 1 3<br />

VP16 7 9 11 12 10 8 6 4 2 1 3 5<br />

VP17 9 11 12 10 8 6 4 2 1 3 5 7<br />

VP18 11 12 10 8 6 4 2 1 3 5 7 9<br />

VP19 12 10 8 6 4 2 1 3 5 7 9 11<br />

VP20 10 8 6 4 2 1 3 5 7 9 11 12<br />

VP21 8 6 4 2 1 3 5 7 9 11 12 10<br />

VP22 6 4 2 1 3 5 7 9 11 12 10 8<br />

VP23 4 2 1 3 5 7 9 11 12 10 8 6<br />

VP24 2 1 3 5 7 9 11 12 10 8 6 4<br />

75


Anhang<br />

______________________________________________________________________________<br />

Versuchsbedingung:<br />

Touch einwandfrei (T+) / Sprache fehlerbehaftet (S-)<br />

VP25 1 3 5 7 9 11 12 10 8 6 4 2<br />

VP26 3 5 7 9 11 12 10 8 6 4 2 1<br />

VP27 5 7 9 11 12 10 8 6 4 2 1 3<br />

VP28 7 9 11 12 10 8 6 4 2 1 3 5<br />

VP29 9 11 12 10 8 6 4 2 1 3 5 7<br />

VP30 11 12 10 8 6 4 2 1 3 5 7 9<br />

VP31 12 10 8 6 4 2 1 3 5 7 9 11<br />

VP32 10 8 6 4 2 1 3 5 7 9 11 12<br />

VP33 8 6 4 2 1 3 5 7 9 11 12 10<br />

VP34 6 4 2 1 3 5 7 9 11 12 10 8<br />

VP35 4 2 1 3 5 7 9 11 12 10 8 6<br />

VP36 2 1 3 5 7 9 11 12 10 8 6 4<br />

Versuchsbedingung:<br />

Touch fehlerbehaftet (T-) / Sprache fehlerbehaftet (S-)<br />

VP37 1 3 5 7 9 11 12 10 8 6 4 2<br />

VP38 3 5 7 9 11 12 10 8 6 4 2 1<br />

VP39 5 7 9 11 12 10 8 6 4 2 1 3<br />

VP40 7 9 11 12 10 8 6 4 2 1 3 5<br />

VP41 9 11 12 10 8 6 4 2 1 3 5 7<br />

VP42 11 12 10 8 6 4 2 1 3 5 7 9<br />

VP43 12 10 8 6 4 2 1 3 5 7 9 11<br />

VP44 10 8 6 4 2 1 3 5 7 9 11 12<br />

VP45 8 6 4 2 1 3 5 7 9 11 12 10<br />

VP46 6 4 2 1 3 5 7 9 11 12 10 8<br />

VP47 4 2 1 3 5 7 9 11 12 10 8 6<br />

VP48 2 1 3 5 7 9 11 12 10 8 6 4<br />

II. Aufgabenblock 2<br />

alle<br />

VPn<br />

11 9 7 5 3 1 12 2 4 6 8 10<br />

76


Anhang<br />

______________________________________________________________________________<br />

E<br />

Fragebögen<br />

I. Soziodemografie<br />

Geschlecht: O weiblich O männlich<br />

Alter: _________________________________________<br />

Beruf (wenn Student, mit Fachrichtung): __________________________________________<br />

Haben Sie in der Vergangenheit <strong>bei</strong> Versuchen mit Sprachsteuerungssystemen<br />

teilgenommen?<br />

O<br />

O<br />

ja<br />

nein<br />

Besitzen Sie ein Handy mit Touchscreen Funktionalität? O ja<br />

O nein<br />

Wie oft nutzen Sie Touchscreen Eingabesysteme (z.B.<br />

Smartphones, Fahrkartenautomaten, Bankautomaten, u.ä.)?<br />

O<br />

O<br />

O<br />

O<br />

täglich<br />

wöchentlich<br />

seltener<br />

nie<br />

Hat ihr Handy eine Sprachfunktion? O ja<br />

O nein<br />

Wenn ja, benutzen Sie diese? O immer<br />

O oft<br />

O selten<br />

O nie<br />

Sprechen Sie auf Anrufbeantworter/Mailboxes? O immer<br />

O oft<br />

O selten<br />

O nie<br />

Haben Sie Erfahrungen mit Sprachdialogsystemen/Spracheingabesystemen?<br />

(z.B. automatische Hotlines der Bahn, von Versicherungen,<br />

Telefonanbietern, Navi-Eingabe über Sprache u.ä.)<br />

O<br />

O<br />

ja<br />

nein<br />

Wie oft nutzen Sie Sprachdialogsysteme? O täglich<br />

O wöchentlich<br />

O seltener<br />

O nie<br />

77


Anhang<br />

______________________________________________________________________________<br />

II.<br />

Skala zur subjektiv erlebten Anstrengung (SEA)<br />

Beanspruchungshöhe<br />

Bitte kreuzen Sie auf der folgenden Skala Ihre Gesamtbewertung für die gerade absolvierte<br />

Aufgabe an.<br />

78


Anhang<br />

______________________________________________________________________________<br />

III.<br />

Bewertung der wahrgenommenen Produktqualitäten (AttrakDiff)<br />

Nachfolgend finden Sie einige Wortpaare, mit deren Hilfe Sie das System bewerten können. Die<br />

Wortpaare stellen jeweils extreme Gegensätze dar, zwischen denen eine Abstufung möglich ist.<br />

Zum Beispiel:<br />

unsympathisch<br />

<br />

sympathisch<br />

Diese Bewertung bedeutet, dass das System eher sympathisch, aber noch verbesserungsbedürftig<br />

ist.<br />

Denken Sie nicht lange über die Wortpaare nach, sondern geben Sie bitte die Einschätzung ab,<br />

die Ihnen spontan in den Sinn kommt. Vielleicht passen einige Wortpaare nicht so gut auf das<br />

System kreuzen Sie aber trotzdem bitte immer eine Antwort an. Denken Sie daran, dass es<br />

keine "richtigen" oder "falschen" Antworten gibt - nur Ihre persönliche Meinung zählt!<br />

menschlich<br />

isolierend<br />

angenehm<br />

originell<br />

einfach<br />

fachmännisch<br />

hässlich<br />

praktisch<br />

sympathisch<br />

umständlich<br />

stilvoll<br />

voraussagbar<br />

minderwertig<br />

ausgrenzend<br />

nicht vorzeigbar<br />

zurückweisend<br />

phantasielos<br />

gut<br />

verwirrend<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

technisch<br />

verbindend<br />

unangenehm<br />

konventionell<br />

kompliziert<br />

laienhaft<br />

schön<br />

unpraktisch<br />

unsympathisch<br />

direkt<br />

stillos<br />

unberechenbar<br />

wertvoll<br />

einbeziehend<br />

vorzeigbar<br />

einladend<br />

kreativ<br />

schlecht<br />

übersichtlich<br />

79


Anhang<br />

______________________________________________________________________________<br />

abstoßend<br />

mutig<br />

innovativ<br />

lahm<br />

bringt mich Leuten<br />

näher<br />

motivierend<br />

neuartig<br />

widerspenstig<br />

harmlos<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

anziehend<br />

vorsichtig<br />

konservativ<br />

fesselnd<br />

trennt mich von<br />

Leuten<br />

entmutigend<br />

herkömmlich<br />

handhabbar<br />

herausfordernd<br />

80


Anhang<br />

______________________________________________________________________________<br />

F<br />

Prüfung der statistischen Voraussetzungen<br />

I. Verteilungsform der abhängigen Variablen<br />

Kennwerte zur Prüfung der Verteilungsform der abhängigen Variablen. Angegeben sind die deskriptiven<br />

Kennwerte der Verteilungen sowie die Größen zur Prüfung der Normalverteilung anhand des<br />

Shapiro-Wilk-Tests; * p < .05.<br />

abhängige Variable M s Schiefe Kurtosis Shapiro-<br />

Sprache auf Startseite, Block 1 .55 0.32 -0.40 -0.89 .928 48 .006*<br />

Sprache Listentiefe 1, Block 1 .58 0.36 -0.18 -1.49 .878 48 < .000*<br />

Sprache Listentiefe 2, Block 1 .76 0.30 -1.30 0.61 .776 48 < .000*<br />

Sprache Listentiefe 3, Block 1 .81 0.27 -1.68 2.26 .764 48 < .000*<br />

Sprache Listentiefe 4, Block 1 .85 0.25 -2.17 4.37 .645 48 < .000*<br />

Sprache Listentiefe 5, Block 1 .84 0.27 -1.79 2.80 .728 48 < .000*<br />

Sprache Listentiefe 6, Block 1 .86 0.27 -2.02 3.52 .664 48 < .000*<br />

SEA Listentiefe 1, Block 1 23.65 26.25 2.58 9.64 .761 48 < .000*<br />

SEA Listentiefe 2, Block 1 27.33 27.42 1.34 1.39 .857 48 < .000*<br />

SEA Listentiefe 3, Block 1 25.50 25.92 1.49 1.82 .829 48 < .000*<br />

SEA Listentiefe 4, Block 1 23.62 28.62 2.78 9.41 .719 48 < .000*<br />

SEA Listentiefe 5, Block 1 26.56 24.99 1.17 0.65 .869 48 < .000*<br />

SEA Listentiefe 6, Block 1 22.85 22.40 1.34 1.34 .854 48 < .000*<br />

Pragmatik, Block 1 5.54 0.87 -1.27 2.79 .909 48 .001*<br />

Identifikation, Block 1 4.60 0.93 -0.65 0.47 .957 48 .077*<br />

Stimulation, Block 1 4.54 0.88 -0.35 -0.09 .983 48 .706*<br />

Attraktivität, Block 1 5.23 0.96 -1.04 1.19 .926 48 .005*<br />

Sprache auf Startseite, Block 2 .55 0.36 -0.36 -1.28 .891 48 < .000*<br />

Sprache Listentiefe 1, Block 2 .56 0.37 -0.19 -1.45 .879 48 < .000*<br />

Sprache Listentiefe 2, Block 2 .78 0.32 -1.30 0.29 .721 48 < .000*<br />

Sprache Listentiefe 3, Block 2 .88 0.25 -2.57 6.26 .563 48 < .000*<br />

Sprache Listentiefe 4, Block 2 .89 0.25 -2.45 6.01 .603 48 < .000*<br />

Sprache Listentiefe 5, Block 2 .90 0.23 -2.71 9.28 .641 48 < .000*<br />

Sprache Listentiefe 6, Block 2 .92 0.22 -2.84 9.83 .507 48 < .000*<br />

SEA Listentiefe 1, Block 2 22.38 26.15 2.16 5.39 .765 48 < .000*<br />

SEA Listentiefe 2, Block 2 20.71 20.55 1.48 2.32 .855 48 < .000*<br />

SEA Listentiefe 3, Block 2 14.98 15.87 1.25 0.96 .845 48 < .000*<br />

SEA Listentiefe 4, Block 2 19.60 18.05 1.69 4.58 .860 48 < .000*<br />

SEA Listentiefe 5, Block 2 18.04 22.46 2.92 9.55 .701 48 < .000*<br />

SEA Listentiefe 6, Block 2 20.58 22.42 1.76 4.14 .820 48 < .000*<br />

Pragmatik, Block 2 5.58 0.86 -1.09 0.96 .906 48 .001*<br />

Identifikation, Block 2 4.54 0.92 -0.53 0.15 .972 48 .315*<br />

Stimulation, Block 2 4.63 0.85 -0.33 -0.12 .979 48 .541*<br />

Attraktivität, Block 2 5.22 0.92 -.094 0.77 .932 48 .008*<br />

Wilk<br />

df<br />

p<br />

81


Anhang<br />

______________________________________________________________________________<br />

II.<br />

Homogenität der Fehlervarianzen (Levene-Test)<br />

Levene-Tests zur Prüfung der Varianzhomogenität; * p < .05.<br />

Quelle der Varianz F df1 df2 p<br />

Sprache auf Startseite, Block 1 2.352 3 44 .085<br />

Sprache auf Startseite, Block 2 3.425 3 44 .025*<br />

Sprache Listentiefe 1, Block 1 1.462 3 44 .238<br />

Sprache Listentiefe 2, Block 1 7.481 3 44 .000*<br />

Sprache Listentiefe 3, Block 1 5.879 3 44 .002*<br />

Sprache Listentiefe 4, Block 1 2.466 3 44 .075<br />

Sprache Listentiefe 5, Block 1 2.798 3 44 .051<br />

Sprache Listentiefe 6, Block 1 4.792 3 44 .006*<br />

Sprache Listentiefe 1, Block 2 5.709 3 44 .002*<br />

Sprache Listentiefe 2, Block 2 6.704 3 44 .001*<br />

Sprache Listentiefe 3, Block 2 6.782 3 44 .001*<br />

Sprache Listentiefe 4, Block 2 2.126 3 44 .111<br />

Sprache Listentiefe 5, Block 2 1.660 3 44 .189<br />

Sprache Listentiefe 6, Block 2 1.304 3 44 .285<br />

SEA Listentiefe 1, Block 1 2.561 3 44 .067<br />

SEA Listentiefe 2, Block 1 5.308 3 44 .003*<br />

SEA Listentiefe 3, Block 1 4.414 3 44 .008*<br />

SEA Listentiefe 4, Block 1 5.372 3 44 .003*<br />

SEA Listentiefe 5, Block 1 3.737 3 44 .018*<br />

SEA Listentiefe 6, Block 1 4.267 3 44 .010*<br />

SEA Listentiefe 1, Block 2 1.657 3 44 .190<br />

SEA Listentiefe 2, Block 2 3.210 3 44 .032*<br />

SEA Listentiefe 3, Block 2 2.523 3 44 .070<br />

SEA Listentiefe 4, Block 2 0.974 3 44 .413<br />

SEA Listentiefe 5, Block 2 1.896 3 44 .144<br />

SEA Listentiefe 6, Block 2 2.391 3 44 .081<br />

Pragmatik, Block 1 1.297 3 44 .287<br />

Identifikation, Block 1 2.814 3 44 .050<br />

Stimulation, Block 1 0.598 3 44 .620<br />

Attraktivität, Block 1 2.268 3 44 .094<br />

Pragmatik, Block 2 2.556 3 44 .067<br />

Identifikation, Block 2 3.674 3 44 .019*<br />

Stimulation, Block 2 3.290 3 44 .029*<br />

Attraktivität, Block 2 4.410 3 44 .009*<br />

82


Anhang<br />

______________________________________________________________________________<br />

G<br />

Deskriptive Ergebnisse<br />

I. Sprachnutzung auf der Startseite<br />

Mittelwerte und Standardabweichungen der relativen Häufigkeit von Sprachnutzung auf der<br />

Startseite.<br />

Spracherkennungsfehler (S-)<br />

keine Spracherkennungsfehler (S+)<br />

Touchfehler (T-) keine Touchfehler (T+) Touchfehler (T-) keine Touchfehler (T+)<br />

M s M s M s M s<br />

Block 1 .67 0.21 .75 0.25 .31 0.34 .48 0.29<br />

Block 2 .70 0.19 .77 0.26 .25 0.35 .49 0.37<br />

II.<br />

Sprachnutzung auf dem jeweils ersten Listenbildschirm<br />

Mittelwerte und Standardabweichungen der relativen Häufigkeit von Sprachnutzung auf dem jeweils<br />

ersten Listenbildschirm einer Subaufgabe im ersten Aufgabenblock.<br />

Spracherkennungsfehler (S-)<br />

Touchfehler (T-) keine Touchfehler (T+)<br />

keine Spracherkennungsfehler (S+)<br />

Touchfehler (T-) keine Touchfehler (T+)<br />

M s M s M s M s<br />

Listentiefe 1 .71 0.25 .84 0.24 .37 0.34 .39 0.37<br />

Listentiefe 2 .88 0.16 .90 0.19 .72 0.29 .55 0.40<br />

Listentiefe 3 .96 0.08 .89 0.22 .71 0.25 .68 0.37<br />

Listentiefe 4 .94 0.14 .93 0.16 .80 0.29 .74 0.33<br />

Listentiefe 5 .95 0.14 .87 0.25 .73 0.33 .79 0.32<br />

Listentiefe 6 .92 0.18 .97 0.11 .86 0.30 .69 0.35<br />

Mittelwerte und Standardabweichungen der relativen Häufigkeit von Sprachnutzung auf dem jeweils<br />

ersten Listenbildschirm einer Subaufgabe im zweiten Aufgabenblock.<br />

Spracherkennungsfehler (S-)<br />

Touchfehler (T-) keine Touchfehler (T+)<br />

keine Spracherkennungsfehler (S+)<br />

Touchfehler (T-) keine Touchfehler (T+)<br />

M s M s M s M s<br />

Listentiefe 1 .67 0.26 .80 0.29 .37 0.30 .42 0.46<br />

Listentiefe 2 .87 0.22 .90 0.18 .75 0.34 .59 0.42<br />

Listentiefe 3 .99 0.03 .94 0.12 .88 0.28 .71 0.34<br />

Listentiefe 4 .94 0.16 .97 0.15 .85 0.31 .81 0.31<br />

Listentiefe 5 .95 0.11 1.00 0.13 .86 0.29 .78 0.29<br />

Listentiefe 6 .96 0.06 .96 0.18 .90 0.29 .85 0.29<br />

83


Anhang<br />

______________________________________________________________________________<br />

III.<br />

SEA-Werte auf dem jeweils ersten Listenbildschirm<br />

Mittelwerte und Standardabweichungen der subjektiv erlebten Anstrengung (SEA) im ersten Aufgabenblock.<br />

Anmerkungen: Die Skala reicht von [0-220].<br />

Spracherkennungsfehler (S-)<br />

keine Spracherkennungsfehler (S+)<br />

Touchfehler (T-) keine Touchfehler (T+) Touchfehler (T-) keine Touchfehler (T+)<br />

M s M s M s M s<br />

Listentiefe 1 35.25 40.60 14.25 11.53 28.75 23.74 16.33 16.44<br />

Listentiefe 2 46.42 34.14 19.67 15.83 31.75 30.27 11.50 11.11<br />

Listentiefe 3 50.50 31.70 14.08 11.58 20.17 14.60 17.25 24.29<br />

Listentiefe 4 47.33 43.97 14.50 12.09 24.25 19.96 8.42 8.12<br />

Listentiefe 5 44.42 31.70 16.67 12.92 27.25 23.29 17.92 20.44<br />

Listentiefe 6 39.92 28.74 9.58 8.70 22.42 18.54 19.50 19.39<br />

Mittelwerte und Standardabweichungen der subjektiv erlebten Anstrengung (SEA) im zweiten<br />

Aufgabenblock. Anmerkungen: Die Skala reicht von [0-220].<br />

Spracherkennungsfehler (S-)<br />

keine Spracherkennungsfehler (S+)<br />

Touchfehler (T-) keine Touchfehler (T+) Touchfehler (T-) keine Touchfehler (T+)<br />

M s M s M s M s<br />

Listentiefe 1 37.83 31.51 12.33 11.53 29.25 28.96 10.08 19.26<br />

Listentiefe 2 41.33 24.90 13.17 11.15 17.67 16.29 10.67 12.20<br />

Listentiefe 3 30.83 17.94 12.75 11.15 9.75 13.73 6.58 7.45<br />

Listentiefe 4 34.25 22.57 15.33 11.70 18.25 14.21 10.58 14.12<br />

Listentiefe 5 35.33 32.43 10.42 9.85 18.25 19.41 8.17 11.61<br />

Listentiefe 6 43.50 27.56 13.08 11.63 18.83 16.29 6.92 12.07<br />

84


Anhang<br />

______________________________________________________________________________<br />

IV.<br />

Wahrgenommene Produktqualitäten (AttrakDiff)<br />

Mittelwerte und Standardabweichungen des AttrakDiff nach dem ersten Aufgabenblock. Anmerkungen:<br />

Das semantische Differential reicht von [-3] bis [3].<br />

Spracherkennungsfehler (S-)<br />

keine Spracherkennungsfehler (S+)<br />

Touchfehler (T-) keine Touchfehler (T+) Touchfehler (T-) keine Touchfehler (T+)<br />

M s M s M s M SD<br />

Pragmatik 0.90 0.71 2.13 0.44 1.39 1.12 1.75 .60<br />

Identifikation 0.19 0.95 1.01 0.55 0.37 1.20 0.84 .76<br />

Stimulation 0.79 0.78 0.31 0.73 0.24 1.08 0.83 .84<br />

Attraktivität 0.81 1.22 1.67 0.54 1.15 1.12 1.30 .71<br />

Mittelwerte und Standardabweichungen des AttrakDiff nach dem zweiten Aufgabenblock. Anmerkungen:<br />

Das semantische Differential reicht von [-3] bis [3].<br />

Spracherkennungsfehler (S-)<br />

keine Spracherkennungsfehler (S+)<br />

Touchfehler (T-) keine Touchfehler (T+) Touchfehler (T-) keine Touchfehler (T+)<br />

M SD M SD M SD M SD<br />

Pragmatik 4.90 .89 6.15 .43 5.50 .97 5.77 .57<br />

Identifikation 4.26 .94 4.88 .45 4.34 1.14 4.69 .96<br />

Stimulation 4.81 .82 4.45 .60 4.34 1.21 4.90 .62<br />

Attraktivität 4.77 1.10 5.67 .30 5.12 1.14 5.32 .76<br />

85


Anhang<br />

______________________________________________________________________________<br />

H Inferenzstatistische Ergebnisse<br />

I. Wahrgenommene Produktqualitäten (AttrakDiff)<br />

2x2x2 Varianzanalyse zur Pragmatischen Qualität; (*) p < .1; * p < .05; ** p < .01.<br />

Quelle der Varianz F df1 df2 p part. η 2<br />

Spracherkennung (S) - between 13.768 1 44 .001** .238<br />

Toucherkennung (T) - between 0.147 1 44 .703** .003<br />

Aufgabenblock (B) - within 0.400 1 44 .531** .009<br />

S x T 4.856 1 44 .033** .099<br />

S x B 0.059 1 44 .809** .001<br />

T x B 0.192 1 44 .664** .004<br />

S x T x B 0.192 1 44 .664** .004<br />

2x2x2 Varianzanalyse zur Hedonischen Qualität: Identifikation; (*) p < .1; * p < .05; ** p < .01.<br />

Quelle der Varianz F df1 df2 p part. η 2<br />

Spracherkennung (S) - between 4.955 1 44 .031** .101<br />

Toucherkennung (T) - between 0.009 1 44 .926** .000<br />

Aufgabenblock (B) - within 1.029 1 44 .316** .023<br />

S x T 0.371 1 44 .546** .008<br />

S x B 2.016 1 44 .163** .044<br />

T x B 0.257 1 44 .615** .006<br />

S x T x B 0.093 1 44 .762** .002<br />

2x2x2 Varianzanalyse zur Hedonischen Qualität: Stimulation; (*) p < .1; * p < .05; ** p < .01.<br />

Quelle der Varianz F df1 df2 p part. η 2<br />

Spracherkennung (S) - between 0.111 1 44 .740** .003<br />

Toucherkennung (T) - between 0.001 1 44 .971** .000<br />

Aufgabenblock (B) - within 2.197 1 44 .145** .048<br />

S x T 4.259 1 44 .045** .088<br />

S x B 0.128 1 44 .722** .003<br />

T x B 0.003 1 44 .959** .000<br />

S x T x B 0.441 1 44 .510** .010<br />

2x2x2 Varianzanalyse zur Attraktivität; (*) p < .1; * p < .05; ** p < .01.<br />

Quelle der Varianz F df1 df2 p part. η 2<br />

Spracherkennung (S) - between 4.093 1 44 .049* .085<br />

Toucherkennung (T) - between 0.001 1 44 .982* .000<br />

Aufgabenblock (B) - within 0.052 1 44 .820* .001<br />

S x T 1.840 1 44 .182* .040<br />

S x B 0.209 1 44 .649* .005<br />

T x B 0.013 1 44 .909* .000<br />

S x T x B 0.013 1 44 .909* .000<br />

86

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!