Modalitätenwahl bei multimodaler Interaktion. - Graduiertenkolleg ...

Modalitätenwahl bei multimodaler Interaktion. 

Eine experimentelle Untersuchung 

zum Einfluss fehlerbehafteter Eingabenerkennung 

auf Nutzungsverhalten und subjektive Bewertung. 

vorgelegt von 

Michael Minge 

Matrikelnummer: 310466 

Masterarbeit zur Erlangung des akademischen Grades 

Master of Science (M.Sc.) 

im Studiengang 

Human Factors 

an der Technischen Universität Berlin 

Fakultät V für Verkehrs- und Maschinensysteme 

Institut für Psychologie und Arbeitswissenschaft 

Erstgutachter: Prof. Dr. Manfred Thüring 

Zweitgutachter: M.Sc. Stefan Schaffer 

Berlin, im August 2012

Erklärung 

Hiermit erkläre ich die selbstständige und eigenständige Anfertigung der vorliegenden 

Masterarbeit im Studiengang Human Factors an Eides statt. 

Berlin, den 24.08.2012 

…...….……………………………… 

Michael Minge

Zusammenfassung 

______________________________________________________________________________ 

Zusammenfassung 

Bei der Multimodalität handelt es sich um ein aktuell weit verbreitetes und viel 

umworbenes Bedienkonzept zur Gestaltung von Mensch-Maschine-Interaktionen, das 

vor allem darauf abzielt, eine verbesserte Anpassung der Systemsteuerung an die 

menschlichen Leistungsvoraussetzungen zu gewährleisten. Um dies zu erreichen, bieten 

multimodale Geräte verschiedene Wahrnehmungs- und Aktionsmodalitäten alternativ 

oder kombiniert an, damit Nutzer über unterschiedliche Kanäle Informationen von der 

Maschine registrieren bzw. Systemeingaben an die Maschine vornehmen können. 

Bietet das technische Gerät seinen Anwendern verschiedene Aktionsmodalitäten 

an, welche alternativ für eine Systemeingabe verwendet können, so ist der Nutzer gefordert, 

sich für eine der zur Verfügung stehenden Alternativen zu entscheiden und somit 

eine Modalitätenwahl zu treffen. Häufig kann die Wahl der Modalität jederzeit, 

auch innerhalb einer Aufgabe, angepasst bzw. revidiert werden, sodass in diesem Zusammenhang 

auch von einem Modalitätenwechsel gesprochen wird (vgl. Jöckel, 2010). 

Das Ziel der vorliegenden Arbeit besteht darin, im Rahmen einer experimentellen 

Untersuchung ausgewählte Faktoren, die die Modalitätenwahl beeinflussen können, 

systematisch zu variieren und Auswirkungen auf das Nutzungsverhalten und subjektive 

Bewertungen zu studieren. Als Untersuchungsgegenstand dient in dieser Masterarbeit 

ein prototypisches Testprogramm in Form eines Listenauswahlsystems, das auf einem 

mobilen Endgerät (Smartphone) präsentiert wird. Dieses System kann sowohl über einen 

Touchscreen (manuell) als auch über Spracherkennung (auditiv) gesteuert werden. 

Der theoretische Teil dieser Arbeit definiert die grundlegenden Begriffe und 

stellt ausgewählte ingenieurspsychologische Konzepte vor, welche aus kognitiver Sicht 

beleuchten, wie Menschen Entscheidungen treffen. Aus der Diskussion möglicher Einflussfaktoren 

für die Modalitätenwahl werden die Untersuchungsfrage und Forschungshypothesen 

abgeleitet, welche mit dem empirischen Teil dieser Arbeit beantwortet werden. 

Zusammenfassend zeigen die Ergebnisse, dass sowohl die Modalitätenwahl als 

auch subjektive Bewertungen durch erlebte fehlerhafte Systemeingaben und durch unterschiedlich 

erwartete Effizienzvorteile beeinflusst werden. 

Schlagworte: Mensch-Technik-Interaktion, Multimodalität, Modalitätenwahl, Spracherkennung, 

Nutzungserleben, Usability. 

I

Vorwort 

______________________________________________________________________________ 

Vorwort 

Mein Dank gilt allen, die den Entstehungsprozess dieser Arbeit ermöglicht, motiviert 

und hinterfragt haben. Dazu gehören allen voran die Mitglieder des Graduiertenkollegs 

prometei (Prospektive Mensch-Technik-Interaktion) sowie des Fachgebiets Kognitionspsychologie 

und Kognitive Ergonomie der Technischen Universität Berlin. 

Zudem danke ich der Deutschen Forschungsgemeinschaft (DFG), die die Realisierung 

der empirischen Datenerhebung finanziell förderte sowie allen Studienteilnehmerinnen 

und Studienteilnehmern für ihre Zuverlässigkeit, ihre Neugier und ihr Engagement bei 

der Durchführung der Untersuchung. 

II

Inhaltsverzeichnis 

______________________________________________________________________________ 


Zusammenfassung …………………………………………………………….. 

Vorwort ………………………………...………………………………………. 

Inhaltsverzeichnis ……………………………………………………………... 

Abbildungsverzeichnis ………………………………………………………… 

Tabellenverzeichnis …………………………………………………………… 

I 

II 

III 

V 

VI 

1 Einführung …………………………………………………………….. 1 

1.1 Ausgangslage und Zielsetzung ………………………………….. 1 

1.2 Aufbau der Arbeit ……………………………………………...... 3 

2 Theoretischer Hintergrund …………………………………………… 4 

2.1 Grundlegende Begriffe …………………………………………. 4 

2.1.1 Mensch-Technik-Interaktion …..………..…………….. 4 

2.1.2 Modalität ……………………………..………............... 6 

2.1.2.1 Wahrnehmungsmodalitäten …………………………… 7 

2.1.2.2 Aktionsmodalitäten …………………………………… 8 

2.1.3 Multimodale Mensch-Maschine-Interaktion ………….. 10 

2.2 Modalitätenwahl ……………………………………………….. 13 

2.2.1 Entscheidungen ……………………………………….. 13 

2.2.1.1 Merkmale von Entscheidungen ……………………….. 13 

2.2.1.2 Klassen der Entscheidungsforschung …………………. 14 

2.2.2 Informationsverarbeitungsmodell der Entscheidung ….. 15 

2.2.3 Modell der multiplen Ressourcen ……………………... 19 

2.2.4 Heuristiken …………………………………………….. 21 

2.2.4.1 Verankerungsheuristik …………………………………. 21 

2.2.4.2 Verfügbarkeitsheuristik ………………………………... 22 

2.2.4.3 Repräsentativitätsheuristik …………………………….. 22 

2.2.5 Zusammenfassung …………………………………....... 23 

2.3 Einflussfaktoren für die Modalitätenwahl ……………................. 23 

2.3.1 Effektivität …………………………………………….. 23 

2.3.2 Effizienz ……………………………………………….. 24 

2.3.3 Zeitdruck und mentale Beanspruchung ……………….. 25 

III


______________________________________________________________________________ 

2.3.4 Hedonische Qualität …………………………………… 26 

2.3.5 Präferenzen und statische Benutzerattribute ..……..…... 26 

2.3.6 Umgebungsfaktoren ………………………………..…. 27 

2.4 Fragestellung und experimentelle Hypothesen …………………. 27 

2.4.1 Forschungsfrage ……………………………………….. 27 

2.4.2 Experimentelle Hypothesen …………………………… 28 

3 Methode …………………………………………………………….……. 30 

3.1 Untersuchungsdesign und unabhängige Variablen ……………… 30 

3.2 Untersuchungsmaterial …………….……………………………. 30 

3.2.1 Manipulation der fehlerbehafteten Erkennung von 

Eingaben ………………………………………………. 33 

3.2.1.1 Fehlerbehaftete Sprachinteraktion …………………….. 33 

3.2.1.2 Fehlerbehaftete Touchinteraktion ……………………... 34 

3.3 Versuchsaufbau …………………………………………………. 34 

3.4 Abhängige Variablen und Messinstrumente ……………………. 37 

3.5 Datenaufbereitung ……………………………………………… 37 

3.6 Untersuchungsablauf ………………..………………………….. 38 

3.7 Stichprobenbeschreibung ……………………………………….. 40 

4 Ergebnisse …………………………………………………………...…. 42 

4.1 Prüfung der statistischen Voraussetzungen ……..………………. 42 

4.2 Analyse der Modalitätenwahl …………………………………… 43 

4.2.1 Modalitätenwahl auf dem Startbildschirm ..…………….. 44 

4.2.2 Modalitätenwahl auf den Listenbildschirmen …………. 45 

4.3 Analyse der subjektiv erlebten Anstrengung (SEA) ……………. 48 

4.4 Wahrgenommene Produktqualitäten (AttrakDiff) ……………… 50 

4.5 Zusammenfassung ………………………………………………. 53 

5 Diskussion ……………………………………………………………… 55 

5.1 Hypothesen zur Modalitätenwahl ………………………………. 55 

5.2 Hypothesen zur subjektiv erlebten Anstrengung ……………….. 58 

5.3 Hypothesen zu wahrgenommenen Produktqualitäten …………... 59 

5.4 Kritische Würdigung und Limitation …………………………… 62 

6 Ausblick ………………………………………………………………… 64 

Literaturverzeichnis …………………………………………………………... 65 

Anhang …………………………………………………………………………. 72 

IV

Abbildungsverzeichnis 

______________________________________________________________________________ 

Abbildungsverzeichnis 

1: Potentiale der Multimodalität …………………………………………... 1 

2: Strukturmodell eines Mensch-Maschine-Systems ……………………... 5 

3: Technische Komponenten einer multimodalen Schnittstelle …………… 9 

4: Informationsverarbeitungsmodell der Entscheidung …………………… 16 

5: Prozess der Informationsintegration …………………………………… 18 

6: Dimensionale Repräsentation der Struktur multipler Ressourcen ……… 20 

7: Startbildschirm der Anwendung …………………………………....…… 31 

8: Listenbildschirm für die Subaufgabe „Stadt auswählen“ ……….………. 32 

9: Startbildschirm bei fortschreitendem Bearbeitungsstand …………….…. 32 

10: Feedback in der Bedingung fehlerbehafteter Eingaben bei der 

Sprachinteraktion ………………………………………………………. 33 

11: Wizard-of-Oz Versuchsaufbau ………………………………………….. 35 

12: Systemansicht für den zweiten Versuchsleiter (Wizard) ………………... 36 

13: Schematischer Versuchsablauf ……………...…………………………… 40 

14: Mittelwerte und Standardabweichungen der Modalität Sprache auf dem 

Startbildschirm in Abhängigkeit zu den vier Versuchsbedingungen ……. 44 

15: Mittelwertverläufe der Modalitätenwahl Sprache auf dem jeweils ersten 

Listenbildschirm einer Subaufgabe ……………………………………… 47 

16: Mittelwertverläufe der subjektive erlebten Anstrengung (SEA) auf dem 

jeweils ersten Listenbildschirm einer Subaufgabe ……………………… 50 

17: Mittelwerte und Standardabweichungen der wahrgenommenen 

pragmatischen Qualität ………………………………………………….. 51 


hedonischen Qualität (Stimulation) ……………………….…………….. 52 


pragmatischen Qualität (Identifikation) ……………………...………….. 52 


Attraktivität ………………………………..…………………………….. 53 

V

Tabellenverzeichnis 

______________________________________________________________________________ 

Tabellenverzeichnis 

1: Sinnesmodalitäten des Menschen …………………………………..……. 7 

2: Übersicht über die cooperation types nach Martin (1998) …………….... 12 

3: Varianzanalyse zur Sprachnutzung auf der Startseite …………………… 44 

4: Varianzanalyse zur Sprachnutzung auf dem jeweils ersten Listenbildschirm 

einer Subaufgabe ………………………………………………… 45 

5: Varianzanalyse zur subjektiv erlebten Anstrengung (SEA) …………….. 48 

VI

Einführung 

______________________________________________________________________________ 

1 Einführung 

1.1 Ausgangslage und Zielsetzung 

Multimodalität ist ein vielversprechendes Konzept, um die Bedienung technischer 

Systeme zu erleichtern und Nutzer nicht nur zufriedenzustellen, sondern auch zu 

begeistern. Insbesondere im Bereich mobiler Anwendungen werden viele Produkte 

heutzutage mit „multimodaler Bedienbarkeit“ beworben. So ist zum Beispiel in aktuellen 

Smartphones die Spracheingabe als alternative Möglichkeit zur Eingabe von Nutzerintentionen 

mittlerweile standardmäßig integriert. Im Bereich stationärer Systeme erfreuen 

sich vor allem Blickbewegungsmessungen einem sprunghaft ansteigendem Interesse, 

teils als vollständige Alternative zur taktilen Eingabe, um entsprechend körperlich 

eingeschränkten Personen die Interaktion mit Technik zu ermöglichen (z.B. Bates & 

Istance, 2005), teils als Kombination mit der taktilen Eingabe, um die jeweiligen Vorteile 

beider Interaktionsmodalitäten zusammenzuführen (z.B. Aula et al., 2005). 

Tatsächlich eröffnet das Konzept Multimodalität bei einem erhöhten technischen 

Aufwand und einer verlängerten Entwicklungszeit zahlreiche Potenziale, um die 

Mensch-Maschine-Interaktion effizienter, effektiver, robuster und natürlicher zu gestalten 

(vgl. Maybury & Stock, 1999; Oviatt 1999). Abbildung 1 fasst diese Potentiale 

überblicksartig zusammen. Sie konnten bereits mehrfach in Studien experimentell 

nachgewiesen werden (z.B. Hauptmann, 1989; Vo & Waibel, 1993; Oviatt, 1996; Althoff 

et al., 2001). 

möglichst schnelle 

Aufgabenbearbeitung 

bei geringem Aufwand 

Effizienz 

Effektivität 

Benutzer macht in der jeweiligen 

Dialogsituation 

das Richtige 

Potenziale 

Multimodalität 

Unempfindlichkeit 

gegenüber Bedienund 

Erkennungsfehlern 

Robustheit 

Natürlichkeit 

Nachahmung 

zwischenmenschlicher 

Kommunikationsformen 

Abb. 1: Potenziale der Multimodalität (nach Niedermaier, 2003). 

1

Einführung 

______________________________________________________________________________ 

Ein weit verbreiteter Irrglaube ist es jedoch, Multimodalität als Selbstzweck zu 

betrachten. Die Konzeption multimodaler Benutzungsschnittstellen erfordert ein schlüssiges 

Gesamtbedienkonzept, sodass in der jeweiligen Dialogsituation die spezifischen 

Vorteile einer Modalität dem Nutzer optimal zur Verfügung gestellt werden können 

(Niedermeier, 2003). Ebenso sollte nicht die technologische Realisierbarkeit einer Modalität 

im Vordergrund stehen, sondern die Berücksichtigung wahrnehmungspsychologischer 

und kognitiver Grundlagen des Nutzers (Oviatt, 1999). Alternativ angebotene 

Modalitäten zur Eingabe von Nutzerintentionen sind nur dann zweckmäßig, wenn sie 

sich im längerfristigen Systemgebrauch durch eine hohe Akzeptanz und eine entsprechende 

Nutzung auszeichnen. So beschreibt beispielsweise Buxton (2007) die Güte eines 

Systems nicht nur dadurch, dass dieses sowohl nützlich (useful) als auch benutzbar 

(usable) ist, sondern dass es auch tatsächlich benutzt wird (used). 

Die Wahl einer Modalität und ggf. der Wechsel zur alternativ angebotenen Modalität 

innerhalb der Bearbeitung einer Aufgabe ist von verschiedenen Faktoren abhängig, 

so zum Beispiel von persönlichen Präferenzen des Nutzers und seinem Grad an 

mentaler Beanspruchung, von der umgebenden Situation oder von den Vorteilen, die 

sich ein Anwender in einer bestimmten Dialogsituation von einer Modalität erhofft (vgl. 

Abschnitt 2.3). Aufbauend auf frühere Studien, in denen der auch in dieser Arbeit verwendete 

Untersuchungsgegenstand bereits zum Einsatz kam, liegt der Fokus in der vorliegenden 

Arbeit auf Effizienzüberlegungen aus Nutzersicht, die sich exemplarisch auf 

die nötigen Interaktionsschritte zur Erledigung von Bedienaufgaben sowie auf die Fehlerbehaftung 

der angebotenen Modalitäten einer mobilen Anwendung beziehen. 

Der innovative Aspekt dieser Arbeit besteht darin, erstmalig die Fehlerbehaftung 

beider Modalitäten, der Spracherkennung und der Eingabe per Touchscreen, experimentell 

zu manipulieren und Auswirkungen sowohl auf das Nutzungsverhalten als auch auf 

subjektive Bewertungen zu erheben. Damit wird einerseits das Ziel verfolgt, die Studienergebnisse 

der vorliegenden Arbeit in die Resultate der bisher durchgeführten Untersuchungsreihe 

einzuordnen und vor diesem Hintergrund zu interpretieren. Auf der anderen 

Seite ist beabsichtigt, durch die fehlerbehaftete Manipulation beider Eingabemodalitäten 

einen zusätzlichen unabhängigen Untersuchungsfaktor zu produzieren, um eine 

erhöhte Varianzaufklärung auf Seiten der abhängigen Variablen zu ermöglichen. Zudem 

stellt sich die generelle Frage, inwieweit die zusätzliche Manipulation bisherige Ergebnisse 

verstärkt oder sich aus den vorliegenden Resultaten etwaig ein differenzierteres 

Verständnis der Modalitätenwahl bei multimodaler Interaktion ableiten lässt. 

2

Einführung 

______________________________________________________________________________ 

1.2 Aufbau der Arbeit 

Die vorliegende Arbeit ist wie folgt aufgebaut: Im folgenden Kapitel werden zunächst 

die grundlegenden Begriffe der in dieser Masterarbeit behandelten Konzepte 

erläutert. Hierzu zählt insbesondere die Definition der Mensch-Maschine-Interaktion 

und eines Mensch-Maschine-Systems sowie der Begriffe Modalität und Multimodalität. 

In diesem Zusammenhang wird auch ein Überblick über den Stand der Technik zur 

Nutzung ausgewählter Modalitäten gegeben. Anschließend wird im zweiten Abschnitt 

des Kapitels die Modalitätenwahl als entscheidungstheoretisches Problem thematisiert. 

Als Schwerpunkt in der Argumentation wird das kognitive Informationsverarbeitungsmodell 

der Entscheidung nach Wickens und Hollands (2000) ausführlich vorgelegt. 

Zudem geht dieser Abschnitt auf Entscheidungsroutinen, sogenannte Heuristiken, und 

auf Faktoren, welche die Modalitätenwahl beeinflussen können, ein. Aus den hier diskutierten 

empirischen Befunden werden abschließend die Fragestellung und die experimentellen 

Hypothesen als Basis der durchgeführten Untersuchung abgeleitet. 

Im dritten Kapitel werden zunächst das Versuchsdesign und das Untersuchungsmaterial 

dargelegt. Einen wesentlichen Stellenwert nimmt in diesem Zusammenhang 

die Operationalisierung der Manipulation fehlerbehafteter Eingabenerkennungen 

in den zur Verfügung gestellten Modalitäten ein. Die Beschreibung des Versuchsaufbaus 

und -ablaufs, der abhängigen Variablen und der verwendeten Messinstrumente 

sowie der akquirierten Stichprobe schließen den Methodenteil ab. 

Die Ergebnisse der Hauptuntersuchung werden im vierten Kapitel vorgestellt. 

Dabei werden zuvorderst Voraussetzungen geprüft, deren Erfüllung für die statistischen 

Analysen von Bedeutung sind. Anschließend werden Berechnungen zu den Ausprägungsunterschieden 

der abhängigen Variablen zur Modalitätenwahl, zur subjektiv erlebten 

Anstrengung (SEA) sowie zu wahrgenommenen Produktqualitäten dargestellt. 

Die Beantwortung der Fragestellungen und Hypothesen, der Bezug zur aktuellen 

Literatur und zu vorliegenden Befunden sowie eine Kritik der Methoden und Anmerkungen 

zu Limitationen der durchgeführten Studie werden schließlich im fünften Kapitel 

diskutiert. Ein Ausblick zur multimodalen Mensch-Maschine-Interaktion schließt die 

vorliegende Masterarbeit ab. 

3

Theoretischer Hintergrund 

______________________________________________________________________________ 

2 Theoretischer Hintergrund 

Im folgenden Kapitel werden die theoretischen Grundlagen für das Verständnis 

dieser Arbeit vorgestellt. Dazu werden zunächst die zentralen Begriffe um das Thema 

multimodaler Mensch-Maschine-Interaktion erläutert. Anschließend werden ingenieurspsychologische 

Theorien und empirische Befunde zur Modalitätenwahl skizziert, auf 

deren Basis dann die Fragestellungen und die Forschungshypothesen der durchgeführten 

experimentellen Untersuchung abgeleitet werden. 

2.1 Grundlegende Begriffe 

Obwohl multimodale Mensch-Maschine-Interaktion heutzutage eine weite Verbreitung 

und Akzeptanz erfährt, mangelt es bislang sowohl an einer einheitlichen Definition 

als auch an einem integrativen Modell zur Gestaltung und Umsetzung von Systemen, 

die Multimodalität für einen erweiterten Austausch von Informationen zwischen 

einem technischen System und einem Nutzer anbieten (Neuss, 2000). Erschwerend 

kommt hinzu, dass die zahlreichen Disziplinen, die sich mit Multimodalität beschäftigen, 

zentrale Begriffe häufig mit unterschiedlichen Bedeutungshöfen versehen. Aus 

diesem Grund dient der folgende Abschnitt vorab einer sorgfältigen Klärung der verwendeten 

grundlegenden Begriffe dieser Arbeit. 

2.1.1 Mensch-Maschine-Interaktion 

Unter Mensch-Maschine-Interaktion wird der wechselseitige Austausch von Informationen 

zwischen einem menschlichen Nutzer und einem maschinellen Teilsystem 

verstanden (Charwat, 1994). Wirkt die Person bzw. die Personengruppe mit der Maschine 

zusammen, um zielgerichtet einen bestimmten Auftrag zu erledigen, welcher 

entweder selbst- oder fremdgestellt sein kann, wird von einem Mensch-Maschine- 

System gesprochen (Timpe & Kolrep, 2000). Mensch-Maschine-Systeme weisen stets 

eine rückgekoppelte Struktur auf, da steuernde bzw. regelnde Eingriffe des Menschen 

den Zustand und damit die Rückmeldungen der Maschine beeinflussen (siehe Abbildung 

2). Der wechselseitige Austausch von Informationen erfolgt in Mensch-Maschine- 

Systemen über eine sogenannte Benutzungsschnittstelle, die einerseits Informationen 

über den Zustand der Maschine für den Menschen wahrnehmbar vermitteln und ihm 

andererseits Möglichkeiten einräumen soll, Eingriffe in den technischen Prozess der 

4


______________________________________________________________________________ 

Maschine vorzunehmen. Im Vergleich zur Maschine, die grundsätzlich auf eine klar 

definierte Benutzungsschnittstelle angewiesen ist, ist es dem Menschen aufgrund seines 

deutlich facettenreicheren Wahrnehmungsvermögens darüber hinaus auch möglich, direkte 

Informationen über den Zustand der Maschine jenseits der Benutzungsschnittstelle 

sensorisch zu registrieren. Als Beispiel nennen die Autoren einen Wasserkessel, an welchem 

der Zustand des kochenden Wassers sowohl durch ein Anzeigeelement auf der 

Benutzungsschnittstelle (indirekt) als auch durch den austretenden Wasserdampf bzw. 

die zunehmende Wärme an der Außenseite des Kessels (direkt) erkannt werden kann. 

Abbildung 2: Strukturmodell eines Mensch-Maschine-Systems (entnommen aus Timpe und Kolrep 

(2000, S 3). 

Die Benutzungsschnittstelle stellt heutzutage ein zentrales Element in der Vermittlung 

von Informationen in Mensch-Maschine-Systemen dar, sodass ihrer Gestaltung 

eine besondere Bedeutung zukommt (Streitz, 1990). Die Güte der Aufgabenerledigung 

wird maßgeblich durch die Gebrauchstauglichkeit (Usability) der Schnittstelle in Relation 

zu den Kenntnissen und Fertigkeiten der Nutzer sowie vor dem Hintergrund limitierender 

Faktoren aufgrund des Nutzungskontextes bestimmt. Als Kriterien für eine 

hohe Gebrauchstauglichkeit haben sich die Begriffe Effektivität, Effizienz und Zufriedenheit 

etabliert (ISO 9241-210, 2010, S. 7), wobei unter Effektivität verstanden wird, 

dass ein Mensch-Maschine-System die intendierten Zielen genau und vollständig erreicht. 

Als effizient wird das System bezeichnet, wenn die intendierten Ziele im Verhältnis 

zu den Kosten, der Zeit und/ oder dem Aufwand einfach erreicht werden können 

und zufriedenstellend bedeutet, dass sich Nutzer durch die Interaktion subjektiv wenig 

5


______________________________________________________________________________ 

beansprucht erleben und dem technischen System gegenüber eine positive Gesamteinstellung 

entwickeln (Bevan, 1995). 

Effektive Mensch-Maschine-Systeme erfordern vor diesem Hintergrund somit 

eine Benutzungsschnittstelle, die jederzeit einen reibungslosen wechselseitigen Austausch 

von Informationen gewährleistet. Da der Mensch, wie bereits erwähnt, über vielfältige 

spezialisierte Interaktionsformen verfügt, kann der Austausch von Informationen 

für ihn auf einer ebenso breiten Vielfalt unterschiedlicher Kanäle stattfinden. Die 

Grundidee multimodaler Systeme zielt darauf ab, eine möglichst große Bandbreite an 

menschlichen Interaktionsformen zur Ein- und Ausgabe von Informationen technisch zu 

realisieren und nutzbar zu machen. Die technische Umsetzung solch eines Kanals wird 

als „Modalität“ bezeichnet. Eine Definition des Begriffs und der Zusammenhang zwischen 

menschlicher Sinneswahrnehmung und technischer Realisierbarkeit bei der Gestaltung 

von Benutzungsschnittstellen werden im folgenden Abschnitt näher ausgeführt. 

2.1.2 Modalität 

Unter dem Begriff „Modalität“ kann im Allgemeinen die zu spezifizierende Art 

und Weise verstanden werden, wie bestimmte Informationen zwischen einem Sender 

und einem Empfänger vermittelt bzw. ausgetauscht werden. Eine von Beuter (2007) 

übernommene Definition des Begriffs Modalität lautet: 

„Eine Modalität bezeichnet ein kommunikatives System, das durch die Art und Weise, wie Informationen 

kodiert und interpretiert werden, gekennzeichnet ist“ (Beuter, 2007, S. 7). 

Während sich der Begriff Modalität im technischen Sinn am konkreten Zusammenschluss 

eines Interaktionsgerätes mit einer Interaktionssprache orientiert (Engesser, 

1993), werden unter dem Begriff Modalität im physiologischen Sinn die Möglichkeiten 

der menschlichen Wahrnehmung (Sensorik) und des menschlichen Handelns (Motorik) 

verstanden. In diesem Zusammenhang unterscheidet Hedicke (2000) zwischen sogenannten 

Aktionsmodalitäten und Wahrnehmungsmodalitäten. Aktionsmodalitäten bezieht 

er dabei auf die verfügbaren Eingabeformen zur Vermittlung von Informationen 

des Menschen an die Maschine, wohingegen die Wahrnehmungsmodalitäten im Sinne 

von Systemausgaben die Informationsübertragung von der Maschine zum Menschen 

betreffen. Vereinfacht, jedoch unspezifischer, werden die Wahrnehmungsmodalitäten 

von einigen Autoren auch als Ausgabemodalitäten und die Aktionsmodalitäten als Eingabemodalitäten 

bezeichnet (Engesser, 1993). Das Konzept des User-Centered Design 

6


______________________________________________________________________________ 

geht davon aus, dass der Mensch als Nutzer im Mittelpunkt der Gestaltung von Technik 

steht (ISO 9242-210, 2010). Demzufolge sollten bei der Konzeption multimodaler Benutzungsschnittstellen 

nicht technologische Fragen im Vordergrund stehen, wie es häufig 

der Fall ist, sondern wahrnehmungspsychologische und kognitive Grundlagen des 

Nutzers (Oviatt, 1999). Aus diesem Grund werden im folgenden Abschnitt die Möglichkeiten 

menschlicher Wahrnehmung und damit die für die Realisierung multimodaler 

Schnittstellen potentiell nutzbaren Wahrnehmungsmodalitäten charakterisiert. 

2.1.2.1 Wahrnehmungsmodalitäten 

Als Wahrnehmungsmodalitäten bezeichnen Roetting und Seifert (2005) alle 

menschlichen Sinneskanäle, die über spezialisierte Wahrnehmungsorgane bestimmte 

physikalische Umgebungsreize registrieren können. Neben den klassischen Wahrnehmungsmodalitäten 

Sehen, Hören, Fühlen, Riechen und Schmecken, verfügt der Mensch 

nach heutigem Wissensstand jedoch noch über eine Reihe weiterer Sinne, wie z.B. dem 

Gleichgewichtssinn, dem Schmerzsinn und dem Temperatursinn, wobei die genaue Anzahl 

und eine exakte Abgrenzung noch nicht endgültig geklärt zu sein scheint (vgl. 

Schmidt & Thews, 1997). Eine Übersicht über die Sinnesmodalitäten nach Luczak 

(1998) wurde mit Tabelle 1 aus Roetting und Seifert (2005) übernommen. 

Tabelle 1: Sinnesmodalitäten des Menschen (vgl. Luczak, 1998; entnommen aus Roetting & Seifert, 

2005, S. 284). 

Wahrnehmungssystem 

visuell 

elektromagnetische Strahlung 

Auge 

auditiv 

periodische 

Ohr 

Luftschwankungen 

vestibulär Flüssigkeitsverschiebung Vestibulärapparat 

und Statolithen 

im 

(Schwerkraft) 

Mittelohrbereich 

olfaktorisch Moleküle in Gasen Schleimhautstücke 

im oberen 

Nasenraum 

gustatorisch Moleküle in 

Zungenoberfläche 

Flüssigkeiten 

Reiz Organ Empfindung 

Farbe, Helligkeit 

Tonhöhe, 

Lautstärke 

Lineare und 

Winkelbeschleunigung 

Geruch 

Geschmack 

taktil Verformungen der Haut Haut Druck, Berührung, 

Vibration 

kinästhetisch Dehnung der Muskeln und 

Bänder, 

Gelenkbewegungen 

Muskelspindeln Stellung der 

Körperteile 

zueinander 

thermisch Temperatur Haut warm, kalt 

Schmerz 

Verletzung und 

alle freien 

Schmerz 

Belastung 

Nervenenden 

7


______________________________________________________________________________ 

Betrachtet man, welche dieser vielfältigen Wahrnehmungskanäle bei der Gestaltung 

von Mensch-Maschine-Interaktion explizit berücksichtigt werden, um Informationen 

von der Maschine an den Menschen zu übermitteln, fällt auf, dass die menschliche 

Wahrnehmung meist auf eine kleine und begrenzte Auswahl an Sinneskanälen reduziert 

wird (Roetting & Seifert, 2005). Im Kontext der Informationsdarstellung definieren einige 

Autoren lediglich optische, akustische und haptische Anzeigeelemente (z.B. Geiser, 

1990). Verschiedene Autoren vermuten, dass erst die zunehmende Technologisierung 

unseres Alltags in Leben und Arbeit zu einem Verlust des direkten Kontakts 

zum Gerät bzw. zur Maschine führte und dadurch eine schrittweise Verdrängung der 

Sinnesvielfalt somit sogar begünstigt worden ist (z.B. Norman, 1990). 

Tatsächlich findet der größte Anteil der spezifizierten Informationsübertragung 

bis dato unter Nutzung der visuellen Modalität statt (Norman, 1990). Hierbei werden 

meist über Monitore, Displays, Dioden, etc. elektromagnetische Strahlungen unterschiedlicher 

Wellenlänge versendet, welche Nutzer in Form von Licht wahrnehmen und 

zu den Charakteristika Helligkeit, Farbigkeit, Größe, Form, Orientierung, Entfernung, 

Bewegung und Richtung verarbeiten (Muthig, 1990). Zur Nutzung der auditiven Wahrnehmungsmodalität 

werden durch Lautsprecher Informationen an den Menschen über 

Luftschwingungen in Form von Schallwellen kodiert. Diese können von Nutzern sowohl 

als nonverbale Töne oder Tonfolgen, als bedeutungsbehaftete Geräusche oder als 

verbale Sprachinformation wahrgenommen und verarbeitet werden. Taktile Reize gewinnen 

vor allem im Bereich mobiler Anwendungen zunehmend an Einfluss. Hierbei 

werden über Bewegungsmotoren bzw. Aktoren bestimmte Kräfte an den Nutzer in 

Form von Schwingungen (Vibrationen) oder Druck (Kraftrückkoppelungen) abgegeben. 

Die vestibuläre Wahrnehmung wird hauptsächlich in größeren technischen Systemen, 

z.B. Auto- oder Flugzeugsimulatoren gezielt für Ausgaben des Systems genutzt (Shoemaker 

et al., 1995). Gustatorische oder olfaktorische Simulatoren spielen ebenso wie 

thermische oder Schmerzsimulatoren bis auf wenige Ausnahmen (z.B. Iwata et al., 

2004) bislang eine geringe Rolle bei der Gestaltung von Mensch-Maschine-Systemen. 

2.1.2.2 Aktionsmodalitäten 

Aktionsmodalitäten beschreiben maschinenseitig, wie ein technisches System 

Informationen registriert und auf welche Art und Weise Eingriffsmöglichkeiten durch 

den Nutzer vorgenommen werden können. Während sich die Anzahl und die Beschaffenheit 

der Wahrnehmungsmodalitäten trotz der sensorischen Vielfalt vergleichbar ein- 

8


______________________________________________________________________________ 

fach kategorisieren lassen, fällt dies für die Aktionsmodalitäten deutlich schwerer. Einige 

Autoren betonen sogar, dass sich insbesondere die Aktionsmodalitäten an der technologischen 

Realisierbarkeit orientieren, den aktuellen Stand der Technik widerspiegeln 

und daher per se nicht a priori begrenzend kategorisieren lassen (Vilimek, 2007). 

Im einfachsten Fall können Aktionsmodalitäten analog zu den Wahrnehmungskanälen 

des Menschen klassifiziert werden. So unterscheidet Hedicke (2000) zwischen 

einer auditiven, einer visuellen und einer haptischen Benutzungsschnittstelle (siehe Abbildung 

3). Während die auditive Schnittstelle zur Eingabe von Informationen Klänge 

per Mikrofon aus der Umgebung registriert, welche sowohl verbaler (z.B. Spracheingabe) 

als auch non-verbaler (z.B. Händeklatschen) Natur sein können, erkennen visuelle 

Schnittstellen Informationen über Gestik und Mimik des Nutzers mittels Kamerasysteme. 

Hierunter fallen für den Autor beispielsweise auch Kameras, deren elektromagnetische 

Strahlung im für den Menschen nicht-sichtbaren Bereich liegt (z.B. Infrarot- 

Bewegungssensoren). Haptische Schnittstellen beziehen Informationen aus der Registration 

der Lageveränderung von Teilen eines Gerätes (z.B. beim Drücken von Tasten, 

beim Betätigen von Stellteilen, beim Bewegen von Geräten bzw. Geräteteilen oder beim 

Verformen von Körpern). 

Wahrnehmungsmodalitäten 

Schnittstelle 

Aktionsmodalitäten 

Ausgabe von Sprache, 

Tönen, Klängen 

auditives 

Interface 

Registrierung von Sprache, 

Tönen, Klängen 

Ausgabe von Text, 

Grafik, Bildern, Videos 

visuelles 

Interface 

Registrierung von 

Gestik, Mimik, Blickbewegungen 

Ausgabe von Druck, 

Vibration, Kraftrückkoppelungen 

haptisches 

Interface 

Registrierung von 

Kraft, manueller 

Betätigung 

Abbildung 3: Technische Komponenten einer multimodalen Schnittstelle (entnommen aus Hedicke, 

2000, S. 210). 

Liegen in diesen drei Bereichen aus technologischer Sicht bereits zahlreiche 

Interaktionsmöglichkeiten und Innovationspotentiale vor und stellen sie vermutlich 

auch den größten und wichtigsten Bereich einer gezielten und intendierten Übertragung 

9


______________________________________________________________________________ 

von Informationen eines Menschen an ein System dar, bestehen darüber hinaus jedoch 

noch weitere Möglichkeiten, um sowohl explizite als auch implizite Informationen über 

den Nutzer für eine Systemeingabe verwertbar zu machen. So hat sich insbesondere die 

Nutzung neuro- oder peripherphysiologischer Signale mittlerweile zu einer bedeutenden 

Möglichkeit entwickelt, um Informationen über den Zustand des Nutzers oder seinen 

intendierten Systemeingaben abzuleiten. Wesentliche Forschungsthemen liegen hierbei 

auf den Gebieten der Brain-Computer-Interfaces (vgl. Walpow & Winter Walpow, 

2012), der Emotionsdetektion (vgl. Mahlke & Minge, 2008) und der mentalen Beanspruchung 

(vgl. Nickel et al., 2002). 

Neben den klassischen Schnittstellen sind auch olfaktorische und gustatorische 

Schnittstellen denkbar. So sind Sensoren zur Registrierung von Geruch bereits in verschiedenen 

Anwendungen, beispielsweise zur Überwachung von Biogasanlagen oder 

Lüftungssystemern im Einsatz (z.B. Technoplus, 2012). Ebenso gibt es prototypische 

Konzeptionen von mobilen Robotern, die Sensoren verwenden, um die Herkunft bestimmter 

Gerüche, wie z.B. Sprengstoff oder Drogen, zu lokalisieren (Lochmatter et al., 

2007). Da die Verwertbarkeit der interpretierten Informationen jedoch für die Gestaltung 

der Mensch-Technik-Interaktion stark kontextbezogen ist, bleiben solche Realisierungen 

vermutlich auch in Zukunft für solch spezielle Anwendungszwecke beschränkt. 

Wie dieser Abschnitt aufgezeigt hat, existieren sowohl auf der Wahrnehmungsseite 

als auch auf der Aktionsseite vielfältige Möglichkeiten, um Informationen in der 

Mensch-Maschine-Interaktion auszutauschen. Nachdem die einzelnen Modaltäten benannt 

und beschrieben wurden, widmet sich der folgende Abschnitt der kombinierten 

Nutzung parallel angebotener Modalitäten und damit dem Begriff Multimodalität. 

2.1.3 Multimodale Mensch-Maschine-Interaktion 

Ginge es bei Multimodalität lediglich darum, verschiedene Interaktionsmodalitäten 

für Systemeingaben oder -ausgaben zu verwenden bzw. Informationen auf unterschiedlichen 

Kanälen auszutauschen, so führte dies zu einer eklatanten Unschärfe in der 

Definition des Begriffs, worauf bereits Schomaker et al. (1995) hingewiesen haben: 

“In this sense every human-computer-interaction has to be considered as multimodal, because 

the user looks at the monitor, types in some commands or moves the mouse and clicks at certain 

positions, hears the reaction (beeps, key clicks, etc.) and so on” (Schomaker et al., 1995, S. 6). 

10


______________________________________________________________________________ 

Um diese triviale Form der Multimodalität einzuschränken, ging das European 

Telecommunications Standards Institute (ETSI) dazu über, von Multimodalität nur dann 

zu sprechen, wenn verschiedene Interaktionsmodalitäten sowohl für Systemeingaben als 

auch für -ausgaben bzw. zumindest für eine Kommunikationsrichtung vorliegen: 

“[Multimodal is an] adjective that indicates that at least one of the directions of a two-way communication 

uses two sensory modalities (vision, touch, hearing, olfaction, speech, gestures, etc.). 

[That means, that] 

a) more than one sensory modality is available for the channel (e.g. output can be visual or auditory) 

or 

b) within a channel, a particular piece of information is represented in more than one sensory 

modality (e.g. the command to open can be visual or typed)” (ETSI EG 202 191, 2003, S. 7) 

In diesem Zusammenhang betont Vilimek (2007), dass nicht allein die Anzahl 

an Geräten bzw. Sensoren entscheidend ist, um von Multimodalität zu sprechen. So 

werden beispielsweise auch bereits durch einen Lautsprecher sowohl akustische als 

auch vibrotaktile haptische Informationen gleichzeitig ausgesendet. Vielmehr sei es 

erforderlich, die explizite Gestaltungsintention der verwendeten Schnittstelle im Kontext 

einer effektiven und effizienten Mensch-Maschine-Interaktion zu berücksichtigen. 

Bezogen auf die Systemausgaben bedeutet dies, dass bei Multimodalität 

“[…] eine durch den Systemdesigner manipulierbare aktive, technisch vermittelte Rückmeldung 

einer Nutzerreaktion über mehrere Signale vorliegt [und nicht lediglich] eine passive, rein mechanische 

Auswirkung dieser Nutzerreaktion“ (Vilimek, 2007, S. 14) 

Aus Sicht der Medienpsychologie wird der Begriff Multimodalität häufig mit 

den Wahrnehmungsmodalitäten des Menschen in Verbindung gebracht, wobei darunter 

verstanden wird, dass zur Informationsübertragung verschiedene Sinneskanäle gleichzeitig 

angesprochen werden (Weidenmann, 1995). Ingenieurspsychologische Bestrebungen 

im Bereich multimodaler Mensch-Maschine-Systeme zielen heutzutage jedoch 

vor allem darauf ab, ein breites Angebot an parallel zur Verfügung stehenden Aktionsmodalitäten 

zu realisieren, um Nutzern verschiedene Varianten zur Eingabe von Informationen 

zu ermöglichen. In Anlehnung an die aktuell mit am häufigsten vorzufindende 

Definition von Multimodalität nach Oviatt (2003) werden parallel angebotene Wahrnehmungskanäle 

in Abgrenzung zum Begriff multimodal als multimedial bezeichnet: 

11


______________________________________________________________________________ 

”Multimodal system process combined natural input modes – such as speech, pen, touch, manual 

gestures, gaze, and head and body movements – in a coordinated manner with multimedia system 

ouptut“ (Oviatt, 2003, S. 286) 

In Anlehnung an diese Definition von Oviatt (2003) wird in der vorliegenden 

Arbeit unter Multimodalität verstanden, dass ein Mensch-Maschine-System zum Austausch 

von Informationen mindestens zwei Aktionsmodalitäten und eine oder mehrere 

Wahrnehmungsmodalitäten kombiniert. Um die unter 2.1.1 geforderte hohe Gebrauchstauglichkeit 

der Benutzungsschnittstelle zu gewährleisten, muss das Zusammenspiel aus 

Aktions- und Wahrnehmungsmodalitäten so ausgelegt sein, dass das Mensch-Maschine- 

System seine fremd- bzw. selbstgestellten Ziele effektiv und effizient erreichen kann 

(Nigay, Jambon & Coutaz, 1995). Zahlreiche Autoren haben bereits detaillierte Vorschläge 

unterbreitet, wie verschiedene Modalitäten sinnvoll aufeinander abgestimmt 

werden können (Neuss, 2000; Nigay & Coutaz, 1993; Oviatt, 2003). 

Martin (1998) unterscheidet dabei zum Beispiel sechs verschiedene Formen, sogenannte 

cooperation types, die er als Äquivalenz, Spezialisierung, Redundanz, Komplementarität, 

Übertragung und Simultanität bezeichnet (siehe Tabelle 2). 

Tabelle 2: Übersicht über die cooperation types (nach Martin, 1998). 

cooperation type 

Äquivalenz 

(equivalence) 

Spezialisierung 

(specialization) 

Redundanz 

(redundancy) 

Komplementarirät 

(complementarity) 

Übertragung 

(transfer) 

Simultanität 

(concurrency) 

verschiedene Modalitäten sind zueinander gleichwertig und können alternativ 

für eine Information verwendet, z.B. Eingabe über Touchscreen 

oder Spracherkennung 

für eine bestimmte Eingabe wird exklusiv eine bestimmte Modalität 

verwendet, z.B. Ton als Warnsignal 

dieselbe Information wird über mehrere Modalitäten zeitgleich übermittelt, 

z.B. verbale Tonausgabe und Lippenbewegungen 

die Gesamtinteraktion ist auf mehrere Modalitäten verteilt, z.B. Blickbewegung, 

um ein bestimmtes Objekt auszuwählen und Spracheingabe, 

um eine bestimmte Aktion an diesem Objekt vorzunehmen 

Informationen, die in einer Modalität erzeugt wurden, werden in einer 

anderen Modalität genutzt 

unterschiedliche Arten von Informationen werden über mehrere Modalitäten 

gleichzeitig verarbeitet, z.B. taktile Steuerung eines Kraftfahrzeugs 

über Lenkrad, Pedal, Schaltknauf und Bedienung des Navigationssystems 

über Spracheingabe 

Die vorliegende Arbeit widmet sich dem Thema der Modalitätenwahl und möglichen 

Faktoren, die diese Wahl des Nutzers bei verschiedenen alternativ angebotenen 

Aktionsmodalitäten beeinflussen können. Im Sinne Martins (1998) wird somit der 

cooperation type der Äquivalenz näher untersucht. 

12


______________________________________________________________________________ 

2.2 Modalitätenwahl 

Werden durch ein technisches System verschiedene Aktionsmodalitäten zur Verfügung 

gestellt, die ein Nutzer für seine beabsichtigten Eingaben alternativ verwenden 

kann, so ist er gefordert, sich für oder gegen eine bestimmte Modalität zu entscheiden. 

Diese Modalitätenwahl basiert auf der Wahrnehmung und Verarbeitung von Hinweisreizen, 

die durch eine bestimmte Aufgabe vorgegeben werden und den jeweils aktuellen 

Handlungszielen des Nutzers, nämlich der erfolgreichen Erledigung der Aufgabe unter 

Nutzung einer der alternativ zur Verfügung stehenden Modalitäten, gegenübergestellt 

werden (Jöckel, 2010). Somit kann die Modalitätenwahl als ein entscheidungstheoretisches 

Problem verstanden werden (Schmid & Kindsmüller, 1996). Im folgenden Abschnitt 

werden deshalb als theoretische Grundlage für die Modalitätenwahl entscheidungswissenschaftliche 

Modelle aus ingenieurspsychologischer Perspektive erläutert 

und anschließend mögliche Einflussfaktoren sowie empirische Befunde aus bereits vorliegenden 

Untersuchungen zur Modalitätenwahl skizziert. 

2.2.1 Entscheidungen 

Wie Menschen Entscheidungen treffen und welche Mechanismen dabei eine 

Rolle spielen, ist für viele Disziplinen von Interesse. Vor allem in den Wirtschafts-, Sozial- 

und Politikwissenschaften hat die Entwicklung und die empirische Validierung 

von Entscheidungstheorien bereits eine lange Tradition. Seitdem der Faktor Mensch an 

Beachtung gewonnen hat, werden jedoch auch in den Ingenieurwissenschaften Erkenntnisse 

aus der Entscheidungsforschung zunehmend für die Gestaltung von Mensch- 

Maschine-Systemen berücksichtigt (Wickens & Hollands, 2000). 

2.2.1.1 Merkmale von Entscheidungen 

Entscheidungen beschreiben die Wahl zwischen mindestens zwei Optionen bzw. 

Alternativen auf der Basis persönlicher Präferenzen. Diese Präferenzen können entweder 

bewusst-abwägend (deliberativ), bewusst-heuristisch (regelbehaftet) oder intuitiv 

(spontan) ermittelt werden (Ostermann, 2010). Einige charakteristische Merkmale von 

Entscheidungen sind unter anderem, ob ein Problem mit binären oder multiplen Handlungsalternativen 

vorliegt, ob es sich um einen einmaligen oder einen iterativen Entscheidungsprozess 

handelt oder ob Entscheidungen durch eine Einzelperson oder durch 

eine Gruppe getroffen werden (vgl. Duffy, 1993). 

13


______________________________________________________________________________ 

Stets werden Entscheidungen auch in Hinblick auf die Konsequenzen einer Option 

getroffen (Tversky & Kahneman, 1992). Da der Zusammenhang zwischen Option 

und Konsequenz häufig probabilistischer Natur ist, stellt der Grad an Unsicherheit über 

die möglichen Konsequenzen ein weiteres wichtiges Merkmal von Entscheidungen dar. 

In der Entscheidungsforschung wird in diesem Zusammenhang auch von einer Entscheidung 

unter Risiko (wenn die Wahrscheinlichkeiten für die möglichen Konsequenzen 

bekannt sind) bzw. einer Entscheidung unter Ungewissheit (wenn die Wahrscheinlichkeiten 

nicht bekannt sind), gesprochen (Jungermann, Pfister & Fischer, 2006). 

Die Entscheidung beim Kauf eines Autos, wenn zwei Typen zur Auswahl stehen, 

stellt nach genauer Vorinformation über Vor- und Nachteile beider Fahrzeuge zum 

Beispiel eine vergleichbar sichere Entscheidungssituation dar: Im Sinne einer multiattributiven 

Kosten-Nutzen-Analyse können die einzelnen Eigenschaften für jedes Auto 

separat bewertet, nach etwaigen persönlichen Präferenzen gewichtet und anschließend 

für die zwei zur Verfügung stehenden Optionen aufsummiert werden. Das Endergebnis 

sind Summenwerte, auf deren Basis eine Entscheidung getroffen werden kann (Wickens 

& Hollands, 2000). 

In zahlreichen Entscheidungssituationen, insbesondere im Umgang mit komplexen, 

dynamischen technischen Systemen sind jedoch entweder die Konsequenzen oder 

die Wahrscheinlichkeiten ihres Auftretens unbekannt. Entscheidungen werden vor allem 

dann als „risikoreich“ bezeichnet, wenn einige der möglichen, aber unsicheren Ergebnisse 

besonders unangenehm oder mit hohen Kosten verbunden sind (Tversky & 

Kahneman, 1992). Als Beispiel für ein komplexes, unsicheres Entscheidungsproblem 

nennen Wickens und Hollands (2000) die Entscheidung eines Piloten, seinen Flug bei 

unsicherem Wetter fortzusetzen oder sich zum Umkehren zu entscheiden. In diesem Fall 

sind die Konsequenzen ausschließlich probabilistisch, d.h. dass es schwer vorherzusehen 

ist, welchen Einfluss das Wetter auf die Sicherheit des Flugs tatsächlich haben wird. 

2.2.1.2 Klassen der Entscheidungsforschung 

Nach Wickens und Hollands (2000) können drei Klassen der Entscheidungsforschung 

unterschieden werden: das rationale, das kognitive und das naturalistische Entscheiden. 

Während sich die rationale bzw. normative Entscheidungsforschung dafür 

interessiert, wie Menschen Entscheidungen entsprechend eines optimalen Rahmens, 

eines „goldenen Standards“ und unter Maximierung von Gewinnen und Minimierung 

von Verlusten, treffen sollten, betrachtetet die kognitive bzw. informationsverarbeitende 

14


______________________________________________________________________________ 

Entscheidungsforschung, inwieweit Fehler bzw. Verzerrungen im Entscheidungsprozess 

auf begrenzte menschliche Aufmerksamkeit, Arbeitsgedächtnis oder Auswahlstrategien 

bzw. vertraute Entscheidungsroutinen (siehe „Heuristiken“ in Abschnitt 2.2.4) zurückzuführen 

sind. Die naturalistische Entscheidungsforschung schließlich interessiert sich 

für das Entscheiden in realen Anwendungsbereichen und berücksichtigt dabei bedeutsame 

Kontextfaktoren aus der wirklichen Welt, wie z.B. domänenspezifische Expertise, 

Zeitdruck, Umweltdynamiken, hohe Risiken und Zielkonflikte (Zsambok, 1997). 

Die normative Entscheidungsforschung bietet mit der hier kurz skizzierten multiattributiven 

Kosten-Nutzen-Analyse ein rational begründetes Entscheidungsinstrument, 

jedoch erweist sie sich gegenüber der naturalistischen Entscheidungsforschung 

häufig nur als begrenzt gültig. Beispielsweise streben Menschen nicht immer nach Gewinnmaximierung 

bzw. Verlustminimierung und es liegen Unterschiede zwischen objektiven 

und subjektiven Werten bzw. Wahrscheinlichkeitsschätzungen vor, die zu Urteilsverzerrungen 

führen, welche teilweise durch bestimmte kognitive Entscheidungsroutinen 

(Heuristiken) erklärt werden können (vgl. Abschnitt 2.2.4). 

Die Beantwortung der in dieser Arbeit entwickelten Fragestellung erfolgt unter 

Berücksichtigung menschlicher Informationsverarbeitungsroutinen und orientiert sich 

damit am kognitiven Entscheidungsprozess. Dies hat einerseits zur Folge, dass nicht die 

objektiv beste Entscheidung bei der Modalitätenwahl von Interesse sein wird, sondern 

das tatsächliche Nutzungs- und Akzeptanzverhalten der Anwender. Andererseits wird 

nur eine begrenzte Auswahl an Einflussfaktoren für die Modalitätenwahl systematisch 

untersucht, welche im Rahmen einer kontrollierten Laborstudie einer experimentellen 

Manipulation zugeführt wird. Um die bei einer Entscheidung relevanten Informationsverarbeitungsprozesse 

zu erläutern, wird im folgenden Abschnitt das kognitive Informationsverarbeitungsmodell 

der Entscheidung nach Wickens und Hollands (2000) näher 

spezifiziert. 

2.2.2 Informationsverarbeitungsmodell der Entscheidung 

Bei diesem Modell handelt es sich um ein Perzeptions-Aktions-Schema, worin 

die Autoren Wickens und Hollands (2000) die zentralen Elemente menschlicher Informationsverarbeitung 

aus ihrem Informationsverarbeitungsmodell integriert haben 

(Wickens & Hollands, 2000, S. 11). Als die drei Hauptschritte einer Entscheidung werden 

in diesem Modell insbesondere die selektive Aufmerksamkeit, die Diagnose und die 

Auswahl einer Reaktion betrachtet (siehe Abbildung 4). 

15


______________________________________________________________________________ 

Aufmerksamkeit, 

Ressourcen, 

Aufwand 

Umwelt 

Reize 

(cues) 

= 

Selektive 

Aufmerksamkeit 

clue filtering 

Bestätigung 

Wahrnehmung 

Situationsbewusstsein 

Sinnesempfindung 

Langzeitgedächtnis 

Langzeit-Arbeits- 

Gedächtnis 

Arbeits- 

Gedächtnis- 

Mustererkennung 

Diagnose: 

H1, H2, … 

Optionen 

Entscheidung 

Auswahl der 

Reaktion 

Meta-Kognition 

Risiken (Werte) 

Ausführung 

der Reaktion 

Abbildung 4: Informationsverarbeitungsmodell der Entscheidung (nach Wickens & Hollands, 2000). 

Als Grundlage einer jeden Entscheidung werden zunächst Hinweisreize (cues) in 

ihrer entsprechenden Modalität aus der Systemumgebung (Umwelt) aufgenommen und 

kurz zwischengespeichert. Anschließend werden die sensorisch aufgenommen Reize 

gefiltert. Hierbei führt ein Selektionsprozess (clue filtering) nur solche Reize einer bewussten 

Verarbeitung (Wahrnehmung) weiter, welche aufgrund der Expertise des Entscheiders 

als momentan für die Situation relevant eingeschätzt werden. Diese „selektive 

Aufmerksamkeit“ wird zentral gesteuert, bindet in Abhängigkeit zur Komplexität des 

Problems Aufmerksamkeitsressourcen und stellt für Wickens und Hollands (2000) einen 

ersten zentralen Schritt beim Treffen von Entscheidungen dar. Da der Mensch kein 

passiver Empfänger von Reizen oder Informationen, sondern ein aktives dynamisches 

System ist, das Information mit Flexibilität aufsucht, aufnimmt, verarbeitet und umsetzt 

(Muthig, 1990), kann die Filterung sowohl Bottom-Up, also durch die Reize selbst, 

oder Top-Down, also durch Beiträge des Langzeitgedächtnisses, gesteuert werden. Die 

anschließende Wahrnehmung der selektiv aufgenommenen Reize dient ihrer Identifikation 

und Interpretation. 

Auf Basis der selektiv aufgenommenen und verarbeiteten Informationen wird 

daraufhin ein Verständnis bzw. eine Einschätzung der Entscheidungssituation im Sinne 

einer Diagnose abgeleitet und entwickelt (Rasmussen & Rouse, 1981). In Anlehnung an 

das Arbeitsgedächtnismodell von Baddeley (1986) fassen Wickens und Hollands (2000) 

zur Unterstützung der Planungs- und Diagnoseabläufe Kognition und Arbeitsgedächtnis 

als eine zentrale Exekutive zusammen, welche darüber hinaus einen wechselseitigen 

Informationsaustausch zum Langzeitgedächtnis organisiert. Ein wesentliches Ziel in 

16


______________________________________________________________________________ 

dieser Diagnosephase besteht in der Ableitung von Hypothesen über den Zustand der 

Welt bzw. des Entscheidungsraumes, auf deren Grundlage anschließend eine adäquate 

Handlungsauswahl erfolgen kann. Da viele Diagnosen iterativ sind, d.h. dass zum Bekräftigen 

oder Wiederlegen anfänglicher Hypothesen die Suche nach weiteren Information 

angestoßen werden muss, existiert ein Pfeil von der zentralen Exekutive zur selektiven 

Aufmerksamkeit (clue filtering), der als „Bestätigung“ bezeichnet ist. 

Zur Entwicklung einer Diagnose messen Wickens und Hollands (2000) dem 

Konzept des Situationsbewusstseins nach Endsley (1995) eine besondere Bedeutung zu, 

die hierbei drei Stufen unterscheidet. Zu Beginn steht zunächst die Wahrnehmung aller 

relevanten Informationen aus der Umgebung (Stufe 1). Die wahrgenommenen Informationen 

werden anschließend Top-Down oder Bottom-Up zu einem angemessenen Verständnis 

der gegenwärtigen Situation integriert (Stufe 2), sodass daraus die weitere dynamische 

Entwicklung der gegenwärtigen Situation korrekt vorhergesagt und eine Antizipation 

zukünftiger Informationen abgeleitet werden kann (Stufe 3). Über alle Stufen 

hinweg wird somit ein allgemeines Systemverständnis aufgebaut, woraus sich Hypothesen 

zum Systemverhalten und Diagnosen ableiten lassen. 

Auf der Grundlage der Diagnose wird anschließend in Relation zu den erwarteten 

Konsequenzen und den damit verbundenen Werten einer Entscheidung (Kosten- 

Nutzen-Abwägung) der Prozess der Handlungsauswahl eingeleitet, welcher wiederum 

die Handlungsausführung anstößt. Ein bedeutsamer Einflussfaktor für die Handlungsauswahl 

ist dabei auch das Bewusstsein über das eigene Wissen (Meta-Kognition nach 

Reder, 1988). So zeigten Orasanu und Fischer (1997), dass sich gute Entscheidungsträger 

einer Informationsunterversorgung bewusst sind und daher besonders aufmerksam 

suchen bzw. falls nötig, auf wesentliche Informationen warten, bevor sie eine Entscheidung 

treffen. Da die Situation, der man sich bewusst ist, den sich entwickelnden Entscheidungsprozess 

beinhaltet, zeigt die Meta-Kognition auch eine deutliche Verbindung 

zum Situationsbewusstsein (Endsley, 1995). Die allgemeine Feedbackschleife ermöglicht 

Lernprozesse und erhöht damit die Qualität zukünftiger Entscheidungen. Wird 

Feedback ins Langzeitgedächtnis übertragen, können zum einen die selektive Aufmerksamkeit 

für Hinweisreize, aber auch Risikoeinschätzungen und interne Entscheidungsregeln 

modifiziert werden. 

Betrachtet man den Prozess der Informationsintegration über alle Instanzen des 

Modells hinweg (siehe Abbildung 5), können drei Eigenschaften von Hinweisreizen und 

wie diese potentiell auf eine getroffene Hypothese einwirken, identifiziert werden. 

17


______________________________________________________________________________ 

Abbildung 5: Prozess der Informationsintegration (von unten nach oben), um sich für eine von zwei 

Hypothesen zu entscheiden (nach Wickens und Hollands, 2000). 

Die Diagnostizität (Eindeutigkeit) beschreibt, wie eindeutig der beobachtete 

Hinweisreiz ist bzw. wieviel Evidenz er für die vorliegende Hypothese liefert, so ist z.B. 

ein Regentropfen ein sicherer diagnostischer Hinweisreiz für die Hypothese „Es regnet“, 

jedoch nur ein probabilistischer für die die Hypothese „Ein schweres Unwetter 

naht“ (vgl. Wickens und Hollands, 2000). Die Reliabilität gibt unabhängig von der Eindeutigkeit 

die Wahrscheinlichkeit an, mit dem einem Reiz geglaubt werden kann. Liefert 

z.B. ein Alarmsystem in einer Leitwarte einen bestimmten Anteil an Fehlalarmen, 

so ist dieses System auch nur bis zu diesem Grad als reliabel zu betrachten. Als Informationswert 

eines Reizes bezeichnen Wickens und Hollands (2000) das Produkt aus 

Diagnostizität und Reliabilität. Eine dritte Charakteristik von Reizen sind physikalische 

Eigenschaften und die Frage, wie auffällig bzw. herausragend die Hinweisreize sind. 

Entscheidend nach dem Informationsverarbeitungsmodell der Entscheidung ist, 

dass die Verarbeitungsvorgänge in der zentralen Exekutive zur Diagnosebildung bewusst 

ablaufen, ressourcenlimitiert und hochanfällig für Interferenzen sind (Wickens & 

Hollands, 2000). Das bedeutet, dass zwischen der ressourcenfordernden selektiven 

Aufmerksamkeit und Wahrnehmung auf der einen Seite und der Schaffung des Situati- 

18


______________________________________________________________________________ 

onsbewusstseins auf der anderen Seite eine Interferenz vorliegt, wenn beide Vorgänge 

zur Speicherung und Manipulation von Informationen auf das Arbeitsgedächtnis zugreifen. 

Tatsächlich konnten solche Interferenzen experimentell belegt werden (Wickens, 

2002). Da solche Interferenzen dazu führen können, dass der Informationsaustausch in 

Mensch-Maschine-Systemen nicht oder nicht effizient genug gewährleistet werden 

kann, setzt eine erfolgreiche Umsetzung multimodaler Interaktion voraus, dass Interferenzen 

möglichst ausgeschlossen bzw. minimiert werden. 

2.2.3 Modell der multiplen Ressourcen 

Um sowohl Interferenzen frühzeitig zu identifizieren als auch unterschiedliche 

Modalitäten in einem Mensch-Maschine-System sinnvoll aufeinander abzustimmen, 

kann das Modell der multiplen Ressourcen nach Wickens & Hollands (2000) als ein 

erster Ansatz dienen. Eine Grundidee dabei ist, dass der menschliche Systemnutzer 

prinzipiell über verschiedene Ressourcen zur simultanen Durchführung kognitiver Prozesse 

verfügt. Je unterschiedlicher die beanspruchten Ressourcenanteile bei der Bearbeitung 

einer Doppelaufgabe sind, desto besser können die entsprechenden Einzelaufgaben 

zeitgleich bearbeitet werden (Wickens, 2002). Die zur Verfügung stehenden Ressourcen 

werden entsprechend dem Modell nach drei dichotomen Dimensionen klassifiziert, 

nämlich den Verarbeitungsstufen (stages), den Modalitäten (modalities) und dem Verarbeitungstyp 

(codes bzw. responses; siehe Abbildung 6). Auf Seiten der Modalitäten 

unterscheiden die Autoren zwischen auditiven und visuellen Ressourcen, wobei zur 

ausführlichen Darstellung und Diskussion der experimentellen Belege für diese Modellannahme 

auf Wickens und Hollands (2000) verwiesen wird. Beim Verarbeitungstyp 

werden verschiedene Ebenen sowohl auf der Eingabeseite des menschlichen Nutzers 

(räumliche oder sprachliche Wahrnehmung) als auch auf der Ausgabenseite (manuelle 

oder sprachliche Aktionen) unterschieden. Auch die Phasen der Informationsverarbeitung 

differenzieren lediglich zwischen zwei Dimensionen, da davon ausgegangen wird, 

dass die Ressourcen für perzeptive und kognitive Prozesse der zentralen Exekutive 

identisch sind. Aufgrund der Ergebnisse zahlreicher Studien wurde im Bereich der visuellen 

Wahrnehmung eine weitere Modellannahme hinzugefügt, welche das foveale Sehen 

(focal) zur aufmerksamkeitsgesteuerten und fokussierten Informationsaufnahme 

vom peripherem Sehen (ambient) angrenzt, welches Orientierungs- und Bewegungswahrnehmung 

und visuelle Reize aus dem Umfeld zu detektieren unterstützt (z.B. 

Previc, 1998). 

19


______________________________________________________________________________ 

Abbildung 6: Dimensionale Repräsentation der Struktur multipler Ressourcen (entnommen aus 

Wickens und Hollands, 2000, S. 449). 

Das Informationsverarbeitungsmodell und das Modell der mutiplen Ressourcen 

beschreiben aus kognitionspsychologischer Sicht, wie Menschen multimodale Informationen 

im Rahmen eines Mensch-Maschine-Systems aufnehmen und auf Basis des vorliegenden 

Wissens Hypothesen über die Angemessenheit bestimmter Handlungsmöglichkeiten 

und damit Handlungsentscheidungen, z.B. für die Nutzung einer Modalität 

bei äquivalent angebotenen Modalitäten auf Basis selektiv wahrgenommener und interpretierter 

Hinweisreize, treffen. Wie bereits in 2.2.1.1 bereits erwähnt wurde, können 

jedoch viele Entscheidungssituationen dadurch charakterisiert werden, dass der aktuelle 

Zustand des Entscheidungsraumes unbekannt ist, da nicht alle relevanten Informationen 

genau und vollständig zur Verfügung stehen bzw. die beste Entscheidung nicht durch 

einen Abruf von Informationen aus dem Langzeitgedächtnis ermittelt werden können 

(Kahneman, Slovic & Tversky, 1982). Dennoch sind Menschen auch in solchen Situationen, 

in denen die Konsequenz einer Entscheidung mit Unsicherheit behaftet sind, in 

der Lage, mit begrenzten geistigen und zeitlichen Ressourcen gute und brauchbare Entscheidungen 

zu treffen (Gigerenzer & Brighton, 2009). Solche Strategien, einfache 

„Faustregeln“, die auf leicht zu erhaltende Informationen angewendet werden können, 

werden auch als Heuristiken bezeichnet. Die wichtigsten Heuristiken, auf die Menschen 

für ihre Entscheidungen und Urteile zugreifen, stellt der folgende Abschnitt vor. 

20


______________________________________________________________________________ 

2.2.4 Heuristiken 

Heuristiken ermöglichen es dem Menschen, in Situationen nicht alle für eine 

Entscheidungsoption notwendigen Informationen aufzunehmen und zu verarbeiten, 

sondern lediglich einen hinreichend notwendigen Anteil, um mit diesen begrenzten Informationen 

trotzdem ein gutes Entscheidungsergebnis zu erzielen (Kahneman et al., 

1982). Heuristiken wirken dabei als Annahmen, die sich in früheren Entscheidungssituationen 

als erfolgreich bewährt haben. Drei zentrale Heuristiken sind die Verankerungsheuristik, 

die Verfügbarkeitsheuristik und die Repräsentativitätsheuristik. 

2.2.4.1 Verankerungsheuristik 

Als Verankerungsheuristik wird die Tendenz beschrieben, bei einem Urteil oder 

im Rahmen einer Entscheidungssituation zunächst einen groben Ausgangspunkt in 

Form einer ersten Hypothese zu finden und diesen als Anker für den weiteren Verlauf 

zu verwenden (Tversky & Kahneman, 1974). Die Autoren gehen davon aus, dass eine 

Adjustierung des Ankers (adjustment) prinzipiell möglich ist, die endgültigen Urteile 

jedoch grundsätzlich in Richtung des Ausgangswertes (anchor) verzerrt sind. Charakteristisch 

ist zudem, dass zur Verarbeitung der Ankerinformation bevorzugt diejenigen 

Informationen gesucht und verarbeitet werden, welche die zuvor aufgestellte Hypothese 

bestätigen. In diesem Zusammenhang wird auch von einer positiven Teststrategie 

(Liberman & Trope, 1996) oder vom Confirmation Bias (Jones & Roelofsma, 2000) 

gesprochen. Ebenso konnte gezeigt werden, dass die Informationssuche zur Prüfung 

eines Urteils bzw. zur Verifikation einer Handlungsauswahl häufig vorzeitig eingestellt 

wird, da das subjektive Gefühl über die Richtigkeit der eigenen Hypothese größer ist als 

die Wahrscheinlichkeit für die adäquate Urteils- bzw. Handlungsoption (Kruger & 

Dunning, 1999). Dies wird auch als Overconfidence Bias bezeichnet. Für die Wahl einer 

Interaktionsmodalität bei alternativ angebotenen Aktionsmodalitäten bedeutet die Verankerungsheuristik, 

dass Anwender schnell eine erste Hypothese über die Brauchbarkeit 

der zur Verfügung stehenden Modalitäten treffen und sich daraufhin für eine bestimmte 

Modalität zur Bearbeitung einer Aufgabe entscheiden. Der bewusste Wechsel zu einer 

anderen Modalität im Laufe der Aufgabenbearbeitung dürfte hingegen, insbesondere bei 

geringer Erfahrung mit dem technischen System erschwert sein, da Personen an ihrer 

ersten Entscheidung festhalten und dadurch die Kosten für einen Modalitätenwechsel 

vermeiden, welcher mit einem kognitiven Aufwand verbunden wäre. 

21


______________________________________________________________________________ 

2.2.4.2 Verfügbarkeitsheuristik 

Die Verfügbarkeitsheuristik beschreibt die Leichtigkeit mit der Informationen 

aus dem Langzeitgedächtnis abgerufen werden können: Je verfügbarer Informationen 

sind, d.h. je leichter sie einfallen oder je geringer der kognitive Aufwand ist, um sich ein 

bestimmtes Ereignis oder eine bestimmte Handlungsauswahl vorzustellen, desto höher 

wird die Häufigkeit des Auftretens dieses Ereignisses geschätzt bzw. desto eher wird die 

Auswahl des entsprechenden Handlungsmusters vorgenommen (Tversky & Kahneman, 

1973). Wie Greening, Dollinger und Pitz (1996) aufgezeigt haben, sind vor allem solche 

Ereignisse verfügbarer, welche Menschen aus persönlicher Erfahrung heraus kennen. 

Dies impliziert, dass Anwender zunächst Erfahrungen mit der Ausführung von Aktionsmodalitäten, 

insbesondere wenn diese für sie innovativ sind, erleben müssen, um 

sich die Nutzung dieser Modalitäten in zukünftigen Situationen leicht vorstellen zu 

können. Ebenso sollten die zur Verfügung stehenden Aktionsmodalitäten präsent gemacht 

werden, z.B. durch das Aufleuchten eines Mikrofon-Icons, wenn zu bestimmten 

Interaktionszeitpunkten die Spracheingabe eine sinnvolle Alternative darstellt. Entstehen 

bei der Nutzung einer bestimmten Interaktionsmodalität nachteilige Erfahrungen, 

erlebt der Anwender beispielsweise mehrere fehlerhafte Spracherkennungssituationen, 

so wird ihm der Verfügbarkeitsheuristik entsprechend jedoch auch die Handlungsauswahl 

zur Nutzung diese Modalität zukünftig weniger leicht verfügbar ins Bewusstsein 

gebracht werden können. 

2.2.4.3 Repräsentativitätsheuristik 

Die Repräsentativitätsheuristik bezieht sich darauf, wie typisch ein wahrgenommenes 

Element für eine Kategorie, eine Population oder eine Wirkung für eine Ursache 

ist: Je besser der konkrete Fall das im Langzeitgedächtnis gespeicherte abstrakte Modell 

repräsentiert, desto größer wird die Wahrscheinlichkeit eingeschätzt, dass der Fall dem 

Modell zugehörig ist (Kahneman & Tversky, 1972). Liegt demnach eine große Übereinstimmung 

zwischen Hinweismuster und gespeichertem Muster vor, wird die entsprechende 

Handlungsanweisung gewählt. Hat ein Anwender beispielsweise die Erfahrung 

gemacht, dass bestimmte Systemeingaben unter Nutzung einer bestimmten Interaktionsmodalität 

schneller und einfacher vorgenommen werden können, so werden ihm bei 

alternativ angebotenen Aktionsmodalitäten genau diese Situationen zukünftig besonders 

repräsentativ für die Nutzung dieser Modalität erscheinen. 

22


______________________________________________________________________________ 

2.2.5 Zusammenfassung 

Sowohl das kognitive Informationsverarbeitungsmodell (vgl. 2.2.3) als auch die 

im vorigen Abschnitt aufgezeigten Heuristiken (vgl. 2.2.4) beschreiben, wie die Modalitätenwahl 

bei multimodaler Interaktion aus entscheidungstheoretischer Sicht nachvollzogen 

und verstanden werden kann: Anwender nutzen die Informationen aus einer Aufgabe 

als Hinweisreize und bilden auf dieser Basis Hypothesen darüber, welche der zur 

Verfügung stehenden Modalitäten am geeignetsten erscheint, um die Aufgabe vollständig 

und unter geringem Aufwand zu erfüllen. Bei der Bildung von Hypothesen werden 

die Informationen unter Einbezug von Kosten-Nutzen-Überlegungen, persönlichen Präferenzen 

und externen Parametern gewichtet (Jöckel, 2010). Mögliche Faktoren, die 

diese Gewichtung umsetzen, werden im folgenden Abschnitt 2.3 vorgestellt. Aus dem 

Ergebnis wird schließlich eine Handlungsauswahl getroffen, welche in wiederholten 

Nutzungssituationen evaluiert und ggf. korrigiert werden kann. Heuristiken vereinfachen 

und beschleunigen den Entscheidungsprozess sowohl zu frühen Nutzungszeitpunkten 

(z.B. Ankerheuristik) als auch deutlich spezialisierter bei erfahrener Benutzung 

(z.B. Repräsentativitätsheuristik). 

2.3 Einflussfaktoren für die Modalitätenwahl 

In diesem Abschnitt werden zentrale Einflussfaktoren für die Modalitätenwahl 

vorgestellt, auf deren Basis eine Gewichtung zur Integration der Hinweisreize vorgenommen 

wird. Neben der Effektivität und Effizienz, welche in der hier vorliegenden 

Arbeit als Einflussfaktoren systematisch manipuliert und untersucht werden, werden 

auch Zeitdruck und mentale Beanspruchung, hedonische Qualitäten, Präferenzen und 

statische Benutzerattribute sowie Umgebungsfaktoren thematisiert. 

2.3.1 Effektivität 

Unter Effektivität wird die Vollständigkeit und Genauigkeit verstanden, mit der 

geplante Aufgabenziele erreicht werden können (ISO 9241-210, 2010). Thomas et al. 

(1996) sprechen in diesem Zusammenhang auch von Quantität und Qualität der Zielfindung. 

Im Bereich interaktiver Produkte wird die Effektivität vor allem durch die Fehleranfälligkeit 

einer Modalität sowie durch die Genauigkeit bestimmt, mit der Systemeingaben 

vorgenommen werden können (Card et al., 1990). In einem multimodalen Versuchsaufbau 

zeigten Bilici et al. (2000), dass eine eingeschränkte Effektivität, operatio- 

23


______________________________________________________________________________ 

nalisiert über Fehler in der automatischen Spracherkennung, signifikant dazu beiträgt, 

dass Personen von der auditiven zur manuellen Systemeingabe wechseln. Ebenso stellten 

Suhm et al. (1999) fest, dass Nutzer bei mehrfacher Verwendung eines multimodalen 

Systems dazu tendieren, diejenige Modalitäten zu benutzen, welche weniger fehleranfällig 

sind. Als fehlerhafte Eingaben können bei der automatischen Spracherkennung 

Einfügungen (insertions), Ersetzungen (substitutions) und Auslassungen (deletions) 

unterschieden werden (Hunt, 1990). Während bei Einfügungen Wörter erkannt werden, 

obwohl keine intendierte Eingabe durch den Nutzer erfolgte, werden bei Ersetzungen 

Systemeingaben falsch wiedergegeben. Unter Auslassungen wird das reine Nichterkennen 

von Eingaben verstanden. Um in der vorliegenden Arbeit eine ebenso praktikable 

wie plausibel vermittelbare Fehlermanipulation zu untersuchen, welche sich zudem zwischen 

der auditiven und der manuellen Systemeingabe vergleichbar operationalisieren 

lässt, wird der Fokus ausschließlich auf Auslassungen beschränkt sein (vgl. Abschnitt 

3.2.1.1). Ebenso wurden Fehler in früheren Studien mit dem Untersuchungsgegenstand 

über Auslassungen in der Spracherkennung operationalisiert. Dass sich die Spracherkennungsfehlerrate 

auf die Modalitätenwahl auswirkt, konnte bereits durchweg belegt 

werden. Verglichen wurden dabei meist sehr hohe (30 %) mit geringeren Fehlerraten 

(10 %, Schaffer et al., 2011a) bzw. sehr hohe Fehlerraten (30 %t) mit einer Kontrollbedingung 

(0 %). Bei einer dreifachgestuften Aufteilung der Fehlerrate (bis zu 10 %, 10- 

25 %, über 25 %) konnte eine bedeutsame Erhöhung der Wechselbereitschaft zur manuellen 

Eingabe nur zwischen den Extrembedingungen nachgewiesen werden (Joeckel, 

2010). Um mit der vorliegenden Untersuchung Daten zu Versuchsbedingungen zu erheben, 

die mit den bereits vorliegenden Ergebnissen zusammenhängend interpretiert werden 

können, soll in dieser Arbeit neben der Kontrollbedingung mit einer Fehlerrate von 

0 Prozent eine nicht extreme, jedoch praxisrelevante Fehlerrate von durchschnittlich 20 

Prozent gegenübergestellt werden. Diese wird sowohl für die auditive (Spracherkennung) 

als auch für die manuelle Modalität (Touchscreen-Eingabe) umgesetzt (vgl. Abschnitt 

3.2.1). 

2.3.2 Effizienz 

Als Effizienz wird das Verhältnis aus Genauigkeit und Vollständigkeit der Zielerreichung 

zum eingesetzten Aufwand beschrieben, den ein Nutzer aufbringen muss, 

um eine bestimmte Aufgabe zu erfüllen (ISO 9241-210, 2010). Als Aufwand können 

verschiedene Maße herangezogen werden. So zum Beispiel die erforderliche Zeit zum 

24


______________________________________________________________________________ 

Lösen einer Aufgabe (Task Completion Time), monetäre Kosten, die kognitive Beanspruchung 

des Nutzers oder die Anzahl an Interaktionsschritten, die zur Erledigung einer 

Aufgabe notwendig sind (Bevan, 1995). Bedienzeiten werden häufig miteinander 

verglichen, um Aussagen über die Effizienz eines multimodalen Systems zu treffen. So 

konnten Perakakis et al. (2008) aufzeigen, dass die Nutzung der Modalität Sprache 

sprunghaft ansteigt, wenn diese im Vergleich zu einer manuellen Eingabe effizienter im 

Sinne einer höheren Informationsdatenrate ausfällt. Demgegenüber zeigte Rudnicky 

(1993), das Nutzer diejenigen Modalitäten bevorzugen, mit denen zusätzliche oder umständliche 

Interaktionsschritte eingespart werden können, sogar wenn die Bedienzeiten 

dadurch länger ausfallen. Auf ähnliche Ergebnisse bezüglich der Effizienzmetrik weisen 

auch Wechsung et al. (2010) hin. Aus diesem Grund und vor dem Hintergrund der bisher 

mit dem Untersuchungsgegenstand durchgeführten Versuchsreihe wird Effizienz in 

der vorliegenden Studie über das Einsparen von Bedienschritten operationalisiert. 

Durch mehrere Experimente konnte bereits die Hypothese gestützt werden, dass 

sich Nutzer äußerst sensitiv an der erwarteten notwendigen Anzahl an Interaktionsschritten 

zur Erledigung einer Aufgabe orientieren und daraufhin diejenige Modalität 

für eine Eingabe auswählen, welche die erforderliche Anzahl an Interaktionsschritten 

minimal hält (Jöckel, 2010; Schaffer et al., 2011b). 

2.3.3 Zeitdruck und mentale Beanspruchung 

Mentale Beanspruchung beschreibt das Verhältnis aus Anforderungen aus der 

Umgebung und den Informationsverarbeitungskapazitäten des Anwenders (Kantowitz et 

al., 1996). Meist werden unter mentaler Beanspruchung Leistungseinbußen aufgrund 

von Monotonie, Stress, psychischer Sättigung oder Ermüdung untersucht (Wickens & 

Hollands, 2000). Mit dem Modell der multiplen Ressourcen nach Wickens & Hollands 

(2000) wurde in Abschnitt 2.3.3 ein Kapazitätsmodell der Informationsverarbeitung 

vorgestellt, anhand dessen mentale Beanspruchung operationalisiert werden kann. Entsprechend 

dieses Modells lassen sich auf der einen Seite Interferenzen zwischen Aufgabenanteilen, 

die auf identische Ressourcen zugreifen und somit eine hohe mentale Beanspruchung 

induzieren, und andererseits Möglichkeiten zur Beschleunigung von Prozessen, 

wenn Wahrnehmungsprozesse und Informationsverarbeitung zur Verringerung 

der mentalen Beanspruchung auf distinkte Ressourcen verteilt werden, identifizieren. 

Schaffer et al. (2011b) konnte zeigen, dass zunehmende Aufgabenkomplexität 

im Rahmen multimodaler Systeme mit einem Ansteigen der subjektiv erlebten Bean- 

25


______________________________________________________________________________ 

spruchung verbunden ist. Demgegenüber entscheiden sich Probanden für die jeweils 

effizientere Modalität, wenn sie dadurch die Aufgabenkomplexität reduzieren können 

(Schaffer et al., 2011a). Durch solch einen spezifischen Modalitäteneinsatz im Laufe 

eines Versuchs bzw. einer Aufgabenbearbeitung ist es Probanden zusammenfassend 

möglich, ihr Niveau an subjektiv erlebter Anstrengung trotz steigender Aufgabenkomplexität 

konstant zu halten. Obwohl es Hinweise darauf gibt, dass der Wechsel zwischen 

Modalitäten mit Kosten auf Seiten der mentalen Beanspruchung verbunden sein können 

(Spence et al., 2001), konnte dies für den vorliegenden multimodalen Untersuchungsgegenstand 

bislang nicht aufgezeigt werden (Joeckel, 2010). 

2.3.4 Hedonische Qualität 

Mit der hedonischen Qualität wird beschrieben, dass ein interaktives Produkt 

Nutzer nicht nur zufriedenstellt, sondern Begeisterung bei ihnen auszulösen vermag 

(Jordan, 2000). Im Gegensatz zur sogenannten pragmatischen Qualität und dem Fokus 

auf den Aufgaben und darauf, wie gut man diese mit dem Gerät erledigen kann, geht es 

bei der hedonischen Qualität darum, was das Produkt symbolisiert bzw. an neuen Möglichkeiten 

für seine Anwender bereithält (Hassenzahl et al., 2008). 

„Erweitert ein interaktives Produkt durch neue Funktionen die Möglichkeiten des Benutzers, 

stellt neue Herausforderungen, stimuliert durch visuelle Gestaltung und neuartige Interaktionsformen 

oder kommuniziert eine gewünschte Identität, z.B. indem es professionell, cool, modern, 

anders wirkt, besitzt es hedonische Qualität.“ (Hassenzahl et al., 2003, S. 188). 

Hedonische Qualitäten beziehen sich direkt auf die psychologischen Bedürfnissen 

des Benutzers und spielen heutzutage vor allem bei Produkten eine Rolle, für die es 

ein gesättigtes Angebot auf dem Markt gibt, wie es für mobile Endgeräte bereits seit 

längerem der Fall ist (Kreuzbauer & Malter, 2005). Die Nachahmung zwischenmenschlicher 

Kommunikation stellt bereits einen wesentlichen Aspekt hedonischer Qualität 

von multimodalen Systemen dar. Doch auch die Wahl einer bestimmten Modalität kann 

dadurch beeinflusst werden, dass diese als innovativ und originell wahrgenommen wird 

bzw. Nutzer erwarten, dadurch neue Handlungsmöglichkeiten offeriert zu bekommen. 

2.3.5 Präferenzen und statische Benutzerattribute 

Bei Benutzertests zur Modalitätenwahl liegen häufig erhöhte Varianzen in der 

Wahl einer bestimmten Modalität vor (z.B. Schaffer & Reitter, 2012). Diese Varianzen 

lassen sich zu einem vermutlich großen Teil auf persönliche Präferenzen der Nutzer 

26


______________________________________________________________________________ 

zurückführen. Als sogenannte statische Benutzerattribute zählen beispielsweise auch 

körperliche Eigenarten, Einstellungen, Charakterzüge, Bildung, Expertise und Affinitäten 

(vgl. Jöckel, 2010). 

2.3.6 Umgebungsfaktoren 

Insbesondere bei Multimodalität in mobilen Endgeräten, deren Nutzung in sehr 

unterschiedlichen und teilweise nur schwer vorhersehbaren Situationen erfolgen kann, 

spielen Umgebungsfaktoren für die Modalitätenwahl eine entscheidende Rolle. Nach 

Rohs (2009) können in diesem Bereich physische, psychische und soziale Einflussfaktoren 

unterschieden werden. Darunter fallen Aspekte wie Lichtverhältnisse, Umgebungslautstärke, 

Temperatur, Verbote oder soziale (Un-)Erwünschtheit (vgl. Jöckel, 2010). 

2.4 Fragestellung und experimentelle Hypothesen 

In diesem Abschnitt werden die drei zentralen Forschungsfragen der vorliegenden 

Arbeit und die darauf aufbauenden Hypothesen vorgestellt. Falls nötig, wird im 

Rahmen der Forschungsfragen auf entsprechende Abschnitt des Theorieteils verwiesen. 

2.4.1 Forschungsfragen 

Die leitende Forschungsfrage für die vorliegende Untersuchung lautet, welchen 

Einfluss die fehlerbehaftete Erkennung von Nutzereingaben bei einem multimodalen 

System (manuelle Eingabe und Spracherkennung) auf das Nutzungsverhalten und die 

Modalitätenwahl, auf die subjektiv erlebte Anstrengung und auf subjektive Bewertungen 

von Produktqualitäten hat. Wie bereits dargestellt wurde (vgl. Abschnitt 2.3.1), basieren 

bisherige Untersuchungen ausschließlich auf der Manipulation von Spracherkennungsfehlern, 

jedoch wurde die äquivalente manuelle Modalität bislang nicht mit manipulierten 

Erkennungsfehlern untersucht. 

Die zweite Fragestellung zielt darauf ab, zu untersuchen, inwieweit sich Effizienzvorteile 

einer Modalität im Sinne einer geringen Anzahl an Interaktionsschritten zur 

Bearbeitung einer Aufgabe auf die Modalitätenwahl auswirken. Auch in diesem Bereich 

konnte bereits gezeigt, dass eine Reduktion an Interaktionsschritten bei der Sprachmanipulation 

dazu führt, dass die Modalität Sprache häufiger verwendet wird (vgl. Abschnitt 

2.3.2). Der Fokus in der vorliegenden Untersuchung liegt in einer Replikation 

27


______________________________________________________________________________ 

und einer möglichen Erweiterung dieser Befunde, da durch die Manipulation der 

Touchinteraktion erstmals ein zweifaktorielles Versuchsdesign umgesetzt wird. 

Abschließend interessiert sich die Studie dafür, ob zeitbezogene Veränderungen 

in der Modalitätenwahl, in der mentalen Beanspruchung und in Produktbewertungen 

auftreten, wenn Probanden Gelegenheit haben, zwei Aufgabenblöcke im Rahmen einer 

Untersuchungseinheit zu bearbeiten. Bezüglich der Modalitätenwahl wird eine höhere 

Nutzung der Sprache im zweiten Block erwartet, da Probanden diese eher innovative 

Aktionsmodalität als Alternative zunehmend verfügbarer wird (vgl. Abschnitt 2.2.4.2). 

Auf Seiten der pragmatischen Qualität wird ebenfalls bei sinkender mentaler Beanspruchung 

ein Ansteigen erwartet, da fortschreitende Nutzung bei diesem einfachen prototypischen 

Gerät Lerneffekte begünstigen sollte und eine zunehmend spezialisierte Verwendung 

der Sprachmodalität die Interaktion effizienter machen sollte (vgl. Abschnitt 

2.2.4.3, Hornbaek, 2006). Auf Seiten der Attraktivitätsdimension wird davon ausgegangen, 

dass aufgrund von Familiarität durch die fortschreitende Darbietung des Untersuchungsgegenstandes 

die Einstellung der Probanden zum interaktiven Gerät im Sinne 

eines mere exposure Effekts positiv beeinflusst werden sollte (Zajonc, 1968). 

2.4.2 Experimentelle Hypothesen 

Zur Beantwortung der Fragestellungen wurden vor der experimentellen Untersuchung 

die folgenden Hypothesen aufgestellt, die entsprechend der betrachteten abhängigen 

Variablen zu drei Blöcken zusammengefasst werden: 

Hypothesenblock 1: Einflüsse auf das Nutzungsverhalten und die Modalitätenwahl 

Die Modalität Sprache wird bei Interaktion mit einem multimodalen System häufiger 

angewendet, wenn 

H1.1 die Spracherkennung einwandfrei funktioniert. 

H1.2 die Toucherkennung fehlerbehaftet ist. 

H1.3 die Anwender mit der Nutzung von Sprache vertrauter sind. 

H1.4 Interaktionsziele bei Nutzung der Modalität Sprache effizienter erreicht 

werden können als bei Nutzung der Modalität Touch. 

H1.5 Während die Modalität Sprache bei einwandfreier Erkennung von Spracheingaben 

bereits bei geringen Effizienzvorteilen zur Modalität Touch verstärkt genutzt 

28


______________________________________________________________________________ 

wird, führt eine Fehlerbehaftung dazu, dass eine vermehrte Nutzung von Sprache 

erst bei hohen Effizienzvorteilen vorliegt. 

H1.6 Während die Modalität Sprache bei fehlerbehafteter Erkennung von Toucheingaben 

bereits bei geringen Effizienzvorteilen zur Modalität Touch häufiger 

genutzt wird, führt eine einwandfreie Touchfunktionalität dazu, dass eine vermehrte 

Nutzung von Sprache erst bei hohen Effizienzvorteilen auftritt. 

Hypothesenblock 2: Einflüsse auf die subjektiv erlebte Anstrengung 

Nutzer erleben bei Interaktion mit einem multimodalen System eine geringere Beanspruchung, 

wenn 


H2.2 die Toucherkennung einwandfrei funktioniert. 

H2.3 die Systemnutzung ihnen vertrauter ist. 

H2.4 Zunehmende Aufgabenkomplexität, die durch eine Effizienzsteigerung in der 

Modalität Sprache kompensiert werden kann, führt zu keiner bedeutsamen Steigerung 

in der subjektiv erlebten Anstrengung. 

Hypothesenblock 3: Einflüsse auf die Wahrnehmung von Produktqualitäten 

Die pragmatische Qualität eines multimodalen Systems wird höher bewertet, wenn 



H3.3 die Systemnutzung Nutzern vertrauter ist. 

Die globale Produktgüte (Attraktivität) eines multimodalen Systems wird höher bewertet, 

wenn 



H3.6 die Systemnutzung Nutzern vertrauter ist. 

29

Methoden 

______________________________________________________________________________ 

3 Methoden 

3.1 Untersuchungsdesign und unabhängige Variablen 

Im vorliegenden Experiment wurde im Rahmen eines multimodalen Systems untersucht, 

welchen Einfluss die fehlerbehaftete Erkennung von Eingaben sowohl auf die 

Wahl der Modalität als auch auf subjektive Bewertungen ausübt. Der Untersuchung 

liegt ein vierfaktorieller 2x2x6x2-Versuchsplan mit Messwiederholung zugrunde. 

Als jeweils zweifachgestufte Zwischensubjektfaktoren wurden die beiden unabhängigen 

Variablen ‚fehlerbehaftete Spracherkennung‘ (keine Fehler, 20% Fehlerrate) 

sowie ‚fehlerbehaftete Toucherkennung‘ (keine Fehler, 20% Fehlerrate) manipuliert. 

Darüber hinaus wurde die Effizienzsteigerung der Spracheingabe gegenüber der 

Toucheingabe systematisch variiert. Hierzu wurde es Probanden ermöglicht, unterschiedlich 

aufwändige Touchinteraktionen (0 bis 5 zusätzliche Klicks) durch eine 

Sprachinteraktion (Nennung eines ein- bis mehrsilbigen Wortes) zu ersetzen. Diese unabhängige 

Variable wurde als Innersubjektfaktor umgesetzt und zeigte sich aufgrund 

der Einsparung von 0 bis 5 zusätzlichen Interaktionsschritten bei Nutzung der Spracheingabe 

als sechsfach gestuft. Komplettiert wird das Versuchsdesign durch einen weiteren 

zweifachgestuften Innersubjektfaktor, welcher eine Messwiederholung aller abhängigen 

Variablen in einem ersten und einem zweiten Aufgabenblock repräsentiert. 

3.2 Untersuchungsmaterial 

Als Untersuchungsmaterial wurde eine von Schaffer et al. (2011a) vorgeschlagene 

Simulationsumgebung weiterentwickelt und verwendet, welche ein interaktives 

Restaurantbuchungssystem als mobile Anwendung (Smartphone App) im Zustand eines 

Prototypen darstellt. Die Simulation wurde in Java für Android-Systeme programmiert 

und erlaubt, freie Variationen u.a. in der Ausgestaltung des Systems und in der Fehlerrate 

von Eingaben vorzunehmen. Für den Probanden sichtbar wird das Restaurantbuchungssystem 

auf einem mobilen Endgerät mit Touchscreen Funktionalität präsentiert. 

Die Buchung eines Restaurants erfolgt über Subaufgaben, nämlich die Wahl der 

Stadt, in der ein Tisch gebucht werden soll (z.B. „Berlin“), der Kategorie des Restaurants 

(z.B. „indisch“), der Uhrzeit (z.B. „18:00 Uhr“) und der Anzahl der anwesenden 

Personen (z.B. „4 Personen“). Welche Angaben Probanden jeweils genau auszuwählen 

haben, wurde ihnen in Form von prototypischen Bedienaufgaben stets vorgegeben. 

30

Methoden 

______________________________________________________________________________ 

Um Eingaben im Restaurantbuchungssystem vorzunehmen, ist auf der Startseite 

der Anwendung zunächst das Kriterium der entsprechenden Subaufgabe auszuwählen 

(siehe Abbildung 7). Hierfür kann ein Nutzer jederzeit frei wählen, ob er die Auswahl 

per Touchscreen, also durch Drücken eines der grau unterlegten Buttons, oder per 

Spracheingabe vornimmt. Als Kommandos für die Spracheingabe sind die unmittelbaren 

Beschriftungen an den Buttons zu verwenden (z.B. „Stadt“ oder „Stadt auswählen“). 

Abbildung 7: Startbildschirm der Anwendung. Bei jeder Aufgabe sind Eingaben für die vier Subaufgaben: 

(1) Suche nach Stadt (2) nach der Kategorie (3) der Uhrzeit und (4) der Personenanzahl zu tätigen. 

Nach der Wahl des Suchkriteriums auf der Startseite erscheint für jede Subaufgabe 

anschließend der erste von insgesamt sechs Listenbildschirmen mit Auswahlmöglichkeiten 

zur erfolgreichen Bearbeitung der jeweiligen Subaufgabe (siehe Abbildung 

2). Die Sortierung der Auswahlmöglichkeiten erfolgt über alle sechs Listenbildschirme 

in erwarteter alphanumerischer Reihenfolge. Um die konkrete Eingabe vorzunehmen, 

werden Probanden instruiert, dass sie jederzeit frei entscheiden können, ob sie den 

Touchscreen oder die Spracheingabe verwendet möchten. Während über die Spracheingabe 

bereits auf dem ersten Listenbildschirm alle verfügbaren Eingaben auch von weiter 

hinten liegenden Listenbildschirmen erkannt werden, können per Toucheingabe nur 

Eingaben ausgewählt werden, die unmittelbar sichtbar sind und direkt angeklickt werden 

können. Um bei der Touchinteraktion also Eingaben von weiter hinten liegenden 

Listenbildschirmen auszuwählen, ist ein Klick auf die Taste mit dem blauen Pfeil am 

rechten unteren Rand der Anwendung notwendig, um zum jeweils nächsten Listenbildschirm 

geführt zu werden – und zwar solange bis der entsprechende Eintrag als grau 

unterlegter Button auf dem Listenbildschirm erscheint. Dessen Auswahl ist dann durch 

einen Klick zu bestätigen. 

31

Methoden 

______________________________________________________________________________ 

Aachen 

Augsburg 

Berlin 

a) 

Bremen 

Aachen 

Chemnitz 

Essen 

Hamburg 

Leipzig 

Osnabrück 

Augsburg 

Cottbus 

Erfurt 

Hannover 

Lübeck 

Rostock 

Berlin 

Dortmund 

Frankfurt 

Kiel 

Mannheim 

Stuttgart 

Bremen 

Düsseldorf 

Freiburg 

Köln 

München 

Wiesbaden 

b) 

Abbildung 2: Listenbildschirme für die Subaufgabe „Stadt auswählen“. Während per Spracheingabe 

alle verfügbaren Eingaben bereits auf dem ersten Listenbildschirm erkannt werden (a), erfordert es die 

Toucheingabe, durch alle Listenbildschirme bis zur entsprechenden Eingabe zu klicken (b). 

Hat der Nutzer einen Eintrag für die Subaufgabe per Spracheingabe oder per 

Touchscreen ausgewählt, gelangt er automatisch zur Startseite zurück, auf dem nun die 

entsprechende Auswahl als übernommen angezeigt wird (siehe Abbildung 3a). Sind alle 

vier Subaufgaben entsprechend der Vorgaben einer Aufgabe bearbeitet, kann die Suche 

per Spracheingabe oder per Klick auf den Button „Restaurant suchen“ auf der Startseite 

abschließend initiiert werden (siehe Abbildung 3b). Damit ist die Aufgabe erfolgreich 

erledigt, und es erscheint ein Abschlussbildschirm mit der Möglichkeit, die nächste Suche 

zu starten (siehe Abbildung 3c). 

Berlin 

Berlin 

indisch 

18:00 Uhr 

4 Personen 

a) b) c) 

Abbildung 3: Startbildschirm bei fortschreitendem Bearbeitungsstand: (a) eine bearbeitete Subaufgabe 

(Stadtauswahl), (b) alle Subaufgaben bearbeitet, anschließend erfolgt der Start zur Suche mit dem 

Button „Restaurant suchen“, (c) Abschluss der Aufgabe (Endbildschirm). 

32

Methoden 

______________________________________________________________________________ 

3.2.1 Manipulation der fehlerbehafteten Erkennung von Eingaben 

Im vorliegenden Versuch wurde die Erkennung sowohl von Spracheingaben als 

auch von Toucheingaben durch fehlerbehaftete Interaktionen systematisch manipuliert. 

Wie bereits in Abschnitt 2.3.1 erwähnt, werden als Fehler sogenannte „Auslassungen“ 

verstanden, d.h. dass das System getätigte Eingaben des Nutzers nicht verarbeitet und 

Probanden somit gefordert sind, die entsprechende Eingabe erneut vorzunehmen. Um an 

bisherige Versuche anzuknüpfen und sowohl für die auditive als auch für die manuelle 

Eingabe vergleichbare und plausible Situationen realisieren zu können, wurden in der 

vorliegenden Untersuchungen weder Ergänzungen noch Ersetzungen als mögliche Fehler 

einbezogen (vgl. Hunt, 1990). Sowohl bei der Spracheingabe als auch bei der 

Touchinteraktion lag die Rate fehlerhafter Auslassungen in den entsprechenden Versuchsbedingungen 

bei jeweils 20 Prozent, sodass durchschnittlich jeder fünfte Aktionsschritt 

des Nutzers zu einer fehlenden Reaktion des Systems führte. 

3.2.1.1 Fehlerbehaftete Sprachinteraktion 

Im Fall der Sprachinteraktion erlebten Probanden fehlerhafte Auslassungen dadurch, 

dass sie grundsätzlich auf den Startbildschirm zurückgelangten und im unteren 

Bereich der Anwendung die Rückmeldung „Die Spracheingabe wurde nicht verstanden“ 

für ca. 700 ms wahrnehmen konnten (siehe Abbildung 4). Die Fehlerrate wurde automatisch 

durch einen Wahrscheinlichkeitsalgorithmus erzeugt, sodass fehlerhafte Auslassungen 

in keinen regelmäßigen Abständen im Lauf der Interaktion auftraten. 

Abbildung 4: Feedback in der Bedingung fehlerbehafteter Eingaben bei der Sprachinteraktion. 

33

Methoden 

______________________________________________________________________________ 

3.2.1.2 Fehlerbehaftete Touchinteraktion 

Fehlerhafte Auslassungen bei der Touchinteraktion nahmen Probanden dadurch 

wahr, dass sie den Touchscreen zwar berührten, das Gerät jedoch keine Reaktion zeigte 

und für 1.4 Sekunden nicht bedient werden konnte. Im Gegensatz zur Sprachinteraktion 

wurde bei fehlerhaften Auslassungen in der Touchinteraktion auf eine verbalisierte 

Rückmeldung an die Probanden verzichtet, da es äußerst unwahrscheinlich erschien, 

dass ein reales System solche Rückmeldungen beim Nicht-Erkennen einer 

Toucheingabe produzieren würde. Bereits im Rahmen unsystematisch durchgeführter 

Vorbefragungen und Experteneinschätzungen zeigte sich, dass ein verbalisiertes Feedback 

für die Fehlermanipulation der Touchinteraktion aus anwendungsorientierter Sicht 

nicht überzeugend vermittelbar gewesen wäre. 

Zudem wurde bei der Ermittlung der Fehlerrate kein statistischer Algorithmus 

verwendet, sondern es wurde exakt jede fünfte Touchinteraktion mit einer fehlerbehafteten 

Auslassung versehen. Dies wiederum hat zur Folge, dass das Zurückwerfen auf 

die Startseite analog zur fehlerbehafteten Spracheingabe nicht umgesetzt werden konnte. 

In diesem Fall wären nämlich Subaufgaben, bei denen Zieleingaben auf dem vierten, 

fünften oder sechsten Listenbildschirm zu finden sind, durch die reine Touchinteraktion 

allein nicht mehr lösbar gewesen. Um den entstehenden Zeitvorteil bei fehlerbehafteten 

Eingaben in der Touchvariante auszugleichen, wurde die bereits erwähnte zeitliche Verzögerung 

von 1.4 Sekunden im Anschluss an den fehlerhaften Klick eingesetzt, in welcher 

das Gerät nicht bedient werden konnte. Diese Zeitspanne wurde empirisch ermittelt 

und entsprach der durchschnittlichen Zeit, die ein Nutzer benötigt, um vom Startbildschirm 

per Sprachinteraktion auf den ersten Listenbildschirm zu wechseln, von wo aus 

er per Sprachinteraktion alle verfügbaren Eingabeelemente auswählen kann. Durch diese 

Verzögerung zeigen sich beide fehlerbehafteten Modalitäten bezüglich des zeitlichen 

Aufwandes der Aufgabenlösung wiederum miteinander vergleichbar. 

3.3 Versuchsaufbau 

Das vorliegende Experiment wurde als Wizard-of-Oz Versuch mit zwei Versuchsleitern 

umgesetzt. Hierbei betreut ein Versuchsleiter jeweils die Probanden und 

organisiert den Versuchsablauf, wohingegen der zweite Versuchsleiter für die Probanden 

nicht erkennbar im Hintergrund agiert und Systemreaktionen einleitet. Solche Ver- 

34

Methoden 

______________________________________________________________________________ 

suchsaufbauten werden im Bereich der Mensch-Maschine-Interaktion immer dann verwendet, 

wenn nicht die technische Realisierung einer Systemkomponente im Vordergrund 

steht, sondern vielmehr das Nutzerverhalten und die Akzeptanz für bestimmte 

Gestaltungslösungen. Da Wizard-of-Oz Versuche bereits mit vereinfachten Prototypen 

durchgeführt werden können, stellen sie eine effektive Möglichkeit dar, um die Erfüllung 

von Nutzerbedürfnissen bereits in frühen Phasen der Produktentwicklung evaluieren 

und absichern zu können. Im vorliegenden Fall wurde die Spracherkennung durch 

einen zweiten Versuchsleiter simuliert. Die Entscheidung wurde zugunsten eines Wizard-of-Oz 

Versuchsaufbaus getroffen, da die gängige Spracherkennungstechnik keine 

absolut zuverlässige Versuchsbedingung (0% Fehlerrate) hätte garantieren können. Für 

den berichteten Versuch ist der Aufbau in Abbildung 5 dargestellt. Der Proband saß zur 

Bearbeitung der Aufgaben in einer schallisolierten Akustikkabine, welche mit einer 

Mikrofonverbindung zum zweiten Versuchsleiter (Wizard) präpariert war. Der Wizard 

befand sich während des gesamten Versuchs außerhalb der Kabine und war für den 

Probanden auch beim Betreten des Versuchsraumes durch eine abgetrennte Wandverkleidung 

nicht sichtbar. Über einen Kopfhörer vernahm der Wizard die Sprachbefehle 

des Probanden, die er an das System stellte. Als mobiles Endgerät wurde ein Google G1 

Mobiltelefon von HTC mit Android 1.6 als Betriebssystem verwendet. Dieses wiederum 

war mittels einer TCP/IP-Verbindung über ein separates W-Lan-Netz und einer 

Übertragungsrate von 54 Mbit/s mit einem Rechner verbunden, an welchem der Wizard 

die gewünschten Eingaben des Probanden durch einen Klick direkt vornehmen konnte. 

Abbildung 5: Wizard-of-Oz Versuchsaufbau. Während der Proband in der Akustikkabine am Gerät 

arbeitet, wurden Spracheingaben vom zweiten Versuchsleiter (Wizzard) außerhalb der Kabine simuliert. 

35

Methoden 

______________________________________________________________________________ 

Da bei der Spracheingabe der Proband bereits auf dem ersten Listenbildschirm 

alle verfügbaren Elemente einer Subaufgabe nennen konnte, verfügte der Wizard über 

eine erweiterte Benutzerschnittstelle, die auf seinem Monitor sämtliche Eingabemöglichkeiten 

auf einen Blick darstellte. Da Nutzer auch jederzeit selbstständig per 

Toucheingabe mit dem Gerät interagieren konnten, zeigte eine rote Markierung jeweils, 

in welcher Subaufgabe sich ein Nutzer gerade befindet (siehe Abbildung 6). Zu bemerken 

ist an der Stelle, dass Fehler bei der Spracherkennung wie bereits im Abschnitt 

4.2.1 beschrieben, durch einen statistischen Wahrscheinlichkeitsalgorithmus automatisiert 

in die Interaktion eingebracht wurden. Somit reagierte der Wizard ausschließlich 

auf die Sprachkommandos des Probanden, wohingegen ihm die Manipulation der Fehler 

nicht zugänglich war. 

Abbildung 6: Systemansicht für den zweiten Versuchsleiter (Wizard). Rot markiert ist zur besseren 

Übersichtlichkeit die aktuell dem Probanden zur Verfügung stehende Auswahl an möglichen Eingaben. 

Insgesamt haben am Versuch vier verschiedene Versuchsleiter teilgenommen, 

wobei ein Versuchsleiter durchweg als erster Versuchsleiter fungierte und drei Versuchsleiter 

sich als Wizard unsystematisch abwechselten. Die drei Wizards wurden in 

einem vorherigen Versuchsleitertraining auf ihren Einsatz vorbereitet und übten in verschiedenen 

Testläufen die Normalbedienung als auch ein konsistentes Reagieren auf 

kritische Bedienvorgänge, wie beispielsweise unverständliche oder unvollständige 

Sprachkommandos. 

36

Methoden 

______________________________________________________________________________ 

3.4 Abhängige Variablen und Messinstrumente 

Als abhängige Variablen wurden Verhaltensdaten und subjektive Bewertungen 

erhoben. Im Bereich des Nutzerverhaltens diente die relative Nutzungshäufigkeit von 

Sprache als Kennwert für die Wahl der Eingabemodalität. Als subjektive Bewertung 

wurde die erlebte Beanspruchung und die wahrgenommene Produktqualität als Gesamturteil 

über die Interaktion erhoben. Zur Messung der Beanspruchungshöhe diente im 

Anschluss an jede Aufgabe die eindimensionale Skala zur Erfassung der subjektiv erlebten 

Anstrengung (SEA) nach Eilers, Nachreiner & Hänecke (1986). Die Produktqualität 

wurde im Anschluss an jeden Aufgabenblock mit Hilfe des AttrakDiff nach 

Hassenzahl, Burmester & Koller (2003) erhoben. Dieser Fragebogen besteht aus insgesamt 

28 Items in Form eines semantischen Differentials, welche zu den vier Dimensionen 

(1) pragmatische Qualität, (2) hedonische Qualität – Identifikation, (3) hedonische 

Qualität – Stimulation und (4) Attraktivität aggregiert werden. Während die pragmatische 

Qualität vor allem Aspekte der Zielerreichung (Einfachheit, Übersichtlichkeit und 

Erwartungskonformität) betreffen, beschreiben die Dimensionen zur hedonischen Qualität 

vor allem nicht-aufgabenbezogene Systemeigenschaften, wie soziale Verbundenheit, 

Integration, Prestige (Identifikation) oder Originalität, Neuartigkeit und Motivation 

(Stimulation). Mit der Dimension Attraktivität wird ein globales Gesamturteil zum Produkt 

(Sympathie, Schönheit) erfasst. 

3.5 Datenaufbereitung 

Um die unmittelbare Interaktion mit dem mobilen Endgerät zu erheben, wurde 

für jede Versuchsperson ein Logfile in Form eines Excel-Dokumentes erstellt, in welches 

folgende Angaben automatisch abgespeichert wurden: (1) die Aufgabe, die die 

Person bearbeitete, (2) den Ausgangszustand des Systems vor der Interaktion, (3) die 

Modalität, mit der die Interaktion stattfand, (4) die Eingabe, die gemacht wurde und ob 

diese gegebenfalls mit einer fehlerbehaften Auslassung versehen wurde, (5) die Anzahl 

getätigter Interaktionsschritte seit Beginn einer Subaufgabe, (6) ein Systemzeitstempel 

und (7) der Druck in g/mm², mit dem eine Eingabe im Fall einer Touchinteraktion vorgenommen 

wurde. Im Rahmen der vorliegenden Arbeit wurden ausschließlich aus der 

aufgezeichneten Modalitätenwahl relative Prozentangaben der Nutzung von Sprache für 

die beiden Bildschirmansichten Startseite und erster Listenbildschirm einer Subaufgabe 

ermittelt. Um die Angaben aus den aufgezeichneten Logfiles zu erhalten, wurde ein 

37

Methoden 

______________________________________________________________________________ 

mathematischer Algorithmus in MatLAB ® verwendet, der die Werte für alle Subaufgaben 

sortierte und aggregierte. In Folge, lagen für jeden Probanden pro Aufgabenblock 

genau sechs Kennwerte vor, welche der jeweiligen Listenbildschirmtiefe der Subaufgabe 

entsprechen. Somit geben diese Werte die prozentuale Nutzung von Sprache an unter 

Berücksichtigung, auf welchem Listenbildschirm die konkreten Auswahlmöglichkeiten 

zu finden waren. Zur Analyse wurden die Kennwerte in die Statistiksoftware SPSS ® 

exportiert. 

Die Angaben zum subjektiven Erleben (Beanspruchung und Systembewertungen) 

wurden manuell in die Datenmaske übertragen. Hierbei wurden die SEA-Werte als 

Rohwerte ausgewertet, wohingegen die Items des AttrakDiff zu den unter 4.5 erwähnten 

Dimensionen aggregiert wurden. 

3.6 Untersuchungsablauf 

Nach dem Betreten des Untersuchungslabors führte der erste Versuchsleiter die 

Probanden unmittelbar in die Akustikkabine, wo sie auf einem bequemen Bürosessel 

Platz nehmen konnten. Die Akustikkabine wurde den Probanden als optimale Umgebung 

für die Untersuchung der Spracheingabemodalität eingeführt. Wie bereits in Abschnitt 

4.3 erläutert, lag der Arbeitsplatz des zweiten Versuchsleiters, des Wizard, außerhalb 

der Akustikkabine durch mehrere Sichtschutzwände abgetrennt. 

Zu Beginn des Versuchs erklärten die Probanden ihr Einverständnis zur Teilnahme 

an der Untersuchung, und sie füllten einen kurzen Fragebogen zur Erhebung 

soziodemografischer Daten sowie ihrer Vorerfahrung mit Touchdisplays bzw. Sprachdialogsystemen 

aus. Anschließend wurden die Teilnehmer schriftlich über den Verlauf 

der Untersuchung sowie über die Bedienmöglichkeiten des Prototypen informiert. Hierbei 

wurde ihnen erklärt, dass sie im Laufe der Untersuchung eine Reihe prototypischer 

Bedienaufgaben bearbeiten werden und dass der Prototyp sowohl per Toucheingabe als 

auch per Spracheingabe bedient werden kann. Die Probanden wurden instruiert, dass sie 

sich selbst für eine Eingabemodalität entscheiden können und ein Modalitätenwechsel 

jederzeit, auch innerhalb einer Aufgabe, möglich ist. Es wurde darauf hingewiesen, 

dass, egal welche Modalität genutzt wird, auf der Startseite zunächst das Kriterium 

(Stadt, Kategorie, Uhrzeit, Personen) auszuwählen ist, bevor die eigentliche Eingabe 

vorgenommen werden kann. Ebenso wurde erwähnt, dass per Spracheingabe bereits auf 

dem ersten Listenbildschirm alle verfügbaren Auswahlelemente aufgerufen werden 

können, während per Toucheingabe nur die unmittelbar angezeigten Elemente auf den 

38

Methoden 

______________________________________________________________________________ 

Listenbildschirmen angeklickt werden können. Für die genauen Instruktionen sei an 

dieser Stelle auf den Anhang dieser Arbeit (Abschnitt B) verwiesen. 

Daraufhin startete der Versuchsleiter eine der vier Anwendungsversionen auf 

dem Smartphone, zu der die Probanden zuvor randomisiert zugeordnet wurden (Sprache 

einwandfrei/ Touch einwandfrei, Sprache einwandfrei/ Touch fehlerbehaftet, Sprache 

fehlerbehaftet/ Touch einwandfrei, Sprache fehlerbehaftet/ Touch fehlerbehaftet). Um 

die Probanden mit dem Versuchsablauf vertraut zu machen und weitere standardisierte 

Instruktionen zu vermitteln, wurden zunächst drei Übungsdurchgänge unter Anwesenheit 

des Versuchsleiters durchgeführt. Hierzu bekamen die Probanden das Smartphone 

in die Hand unter Beachtung, dass sie das Gerät während des Versuchs stets in der linken 

Hand halten mögen, um Eingaben per Touch jederzeit mit der rechten Hand vornehmen 

zu können; keinesfalls sollte das Gerät während der Aufgabenbearbeitung unberührt 

auf dem Tisch liegen. Die Übungsdurchgänge bestanden aus drei Aufgaben, die 

den Probanden in Papierform vorgelegt wurden. Um beide Eingabemodalitäten mit ihren 

Vor- und Nachteilen (Effizienzsteigerung durch Spracheingabe, manipulierte Fehlerbedingungen) 

kennenzulernen, war die erste Aufgabe ausschließlich per Touch zu 

erledigen und die zweite ausschließlich per Sprache. Die dritte Aufgabe konnte, wie 

instruiert, mit der präferierten Modalität bzw. unter einer jederzeit vorliegenden Wechselmöglichkeit 

bearbeitet werden. Nach jeder Aufgabe bewerteten die Probanden ihre 

subjektiv erlebte Anstrengung auf der SEA-Skala, die ihnen als Stift-Papier-Version 

vorgelegt wurde. Für einen geregelten Ablauf wurden Teilnehmer instruiert, den bereitgelegten 

Stift nur zum Ankreuzen in die Hand zu nehmen und diesen während der Aufgabenbearbeitung 

frei auf dem Tisch liegen zu lassen. Nach dem Training bestand die 

Möglichkeit, noch offene Fragen zum Versuch zu klären. 

Anschließend wurde die Akustikkabine geschlossen und die Probanden konnten 

die zwölf Aufgaben des ersten Blockes alleine und in ihrem eigenen Arbeitstempo erledigen. 

Die Aufgaben wurden den Teilnehmern einzeln und nacheinander auf einem 14‘‘ 

Monitor präsentiert und waren während der Bearbeitung für die Probanden jederzeit 

sichtbar. Bei der Aufgabenkonstruktion wurde im Vorfeld darauf geachtet, dass sechs 

der zwölf Aufgaben subaufgabenkonsistent waren, d.h. dass die Auswahlelemente für 

alle vier Subaufgaben einer Gesamtaufgabe auf einer bestimmten Listentiefe liegen (also 

alle vier Elemente auf dem jeweils ersten, zweiten, dritten, vierten, fünften oder 

sechsten Listenbildschirm). Für die übrigen sechs Aufgaben des Blockes wurde die Listentiefe 

bei den Subaufgaben systematisch variiert (siehe Abschnitt C.II im Anhang). 

39

Methoden 

______________________________________________________________________________ 

Zudem wurde die Präsentationsreihenfolge der zwölf Aufgaben für alle Probanden innerhalb 

einer Versuchsbedingung systematisch ausbalanciert, um mögliche Reihenfolgeeffekte 

zu vermeiden (siehe Abschnitt D im Anhang). Nach jeder Aufgabe bewerteten 

die Probanden selbstständig die subjektiv erlebte Anstrengung, worauf sie zusätzlich 

über den Präsentationsbildschirm hingewiesen wurden. Nach Bearbeitung des ersten 

Blockes betrat der Versuchsleiter die Akustikkabine und überreichte den Probanden den 

Fragebogen AttrakDiff mit der Bitte, damit das Gesamtsystem zu bewerten. Währenddessen 

startete der Versuchsleiter die Anwendung erneut, wobei jeder Proband im zweiten 

Aufgabenblock dieselbe Versuchsbedingung zugewiesen bekam wie im ersten 

Block. Ebenso waren Instruktionen und Ablauf für den zweiten Block identisch. Teilnehmer 

bearbeiteten auch dieselben zwölf Aufgaben, jedoch wurden diese in einer anderen 

Reihenfolge präsentiert. Entgegen des ersten Aufgabenblockes erhielten alle Probanden 

im zweiten Aufgabenblock jedoch keine ausbalancierten Reihenfolgen, sondern 

es gab nur eine für alle Probanden zugewiesene Reihenfolge. Nach Erledigung des 

zweiten Blocks wurde auch der Fragebogen AttrakDiff ein zweites Mal vorgelegt. 

Begrüßung 

Einverständnis 

Instruktionen 

Trainingsaufgaben 

SEA-Skala 

Aufgaben im 

1.Block 

SEA-Skala 

AttrakDiff 

Aufgaben im 

2. Block 

SEA-Skala 

AttrakDiff 

Aufklärung 

Verabschiedung 

drei Aufgaben: 

(1) nur Touch 

(2) nur Sprache 

(3) multimodal 

12 Aufgaben 

ausbalancierte 

Reihenfolgen 

12 Aufgaben 

unbalancierte 

Reihenfolgen 

Abbildung 7: Schematischer Versuchsablauf. 

Zum Abschluss wurde die Teilnahmevergütung von 10 Euro ausbezahlt, und die 

Probanden wurden vor der Verabschiedung ausführlich über den Wizard-of-Oz Versuchsaufbau 

aufgeklärt. Je nach Versuchsbedingung dauerte eine Untersuchungseinheit 

zwischen 30 und 45 Minuten. Der schematische Versuchsablauf ist in Abbildung 7 grafisch 

zusammengefasst. 

3.7 Stichprobenbeschreibung 

An der Untersuchung haben insgesamt 48 Probanden teilgenommen, darunter 24 

Frauen und 24 Männer, welche gleichmäßig auf die vier Untersuchungsbedingungen 

40

Methoden 

______________________________________________________________________________ 

verteilt wurden. Das Alter der Personen lag zwischen 19 und 40 Jahren mit einem 

Durchschnittsalter von M = 25.2 Jahren (s = 3.73). Die Akquise der Teilnehmer erfolgte 

über die Probandenserver der Humboldt-Universität (PESA) und des Zentrums Mensch- 

Maschine-Systeme sowie über die eMail-Verteiler der Studenten im Fach Human 

Factors an der Technischen Universität Berlin und der Studenten in Psychologie an der 

Freien Universität Berlin. Die Stichprobe bestand aus 44 Studenten unterschiedlicher 

Fachrichtungen, zwei Selbstständigen, einer Berufstätigen sowie einer Abiturientin. 

Bei der Rekrutierung wurden Personen ausgeschlossen, die an früheren Versuchen 

mit dem Restaurantbuchungssystem teilgenommen haben. Dennoch wiesen acht 

Probanden (17 Prozent) darauf hin, dass sie bereits aus anderen Untersuchungen Erfahrungen 

zum Einsatz von Sprachsteuerungssystemen mitbrachten. 

Die Hälfte aller Teilnehmer (n = 24) gab an, ein Mobiltelefon mit Touchscreen 

Display zu besitzen, welches in drei von vier Fällen (n = 18) zusätzlich auch über eine 

Funktion zur Spracheingabe verfügt. Bemerkenswert ist, dass nur ein Proband einschätzte, 

diese Funktion „oft“ zu verwenden, wohingegen fünf Probanden sie lediglich 

„selten“ und zwölf Probanden „nie“ benutzen. Darüber hinaus gab ein großer Teil der 

Stichprobe (n = 40 bzw. 83 Prozent) an, zumindest über gelegentliche Erfahrungen mit 

Sprachdialogsystemen (z.B. Hotline, Callcenter, etc.) zu verfügen. Ebenso werden interaktive 

Geräte mit Touchscreen Funktionalität von den meisten Teilnehmern (n = 39 

bzw. 81 Prozent) mindestens ein Mal pro Woche verwendet. 

Zusammenfassend kann somit festgehalten werden, dass die Teilnehmer des vorliegenden 

Experimentes hauptsächlich junge Studenten aus unterschiedlichen Fachdisziplinen 

sind, deren Verteilung im Bereich selbst eingeschätzter Nutzungserfahrung für 

ein insgesamt technikaffin ausgeprägtes Nutzungsverhalten sprechen. 

41

Ergebnisse 

______________________________________________________________________________ 

4 Ergebnisse 

Im folgenden Kapitel werden die Ergebnisse der experimentellen Untersuchung 

berichtet. Begonnen wird mit der Prüfung der statistischen Voraussetzungen in den Verteilungen 

der abhängigen Variablen. Im zweiten Abschnitt werden anschließend die 

Ergebnisse zur Modalitätenwahl vorgestellt. Die Prüfung der statistischen Bedeutsamkeit 

von Unterschieden in der subjektiv erlebten Anstrengung fasst der dritte Abschnitt 

zusammen, diejenigen zur wahrgenommenen Produktqualität sodann der vierte Abschnitt. 

4.1 Prüfung der statistischen Voraussetzungen 

Bevor die durchgeführten Analysen dargelegt werden, sind zunächst die statistischen 

Voraussetzungen in den Verteilungen der abhängigen Variablen zu betrachten. 

Als wichtigste Merkmale bei der Durchführung von (multivariaten) Varianzanalysen 

mit Messwiederholung sind die Annahmen zur Normalverteilung, zur Varianzhomogenität 

und ggf. zur Sphärizität zu überprüfen (Backhaus et al., 2011). 

Der Test auf Normalverteilung der Variablen wurde aufgrund der vorliegenden 

Stichprobengröße (n = 48) mit dem Shapiro-Wilk-Test durchgeführt, der sich für Stichproben 

bis zu n < 50 eignet. Ist der Shapiro-Wilk-Test signifikant (p < .05), weicht die 

untersuchte Variable von der Normalverteilung ab. Es zeigte sich, dass für den überwiegenden 

Teil der abhängigen Variablen signifikante Werte im Shapiro-Wilk-Test vorliegen, 

sodass in diesen Fällen nicht von einer Normalverteilung ausgegangen werden 

kann (siehe Tabelle im Anhang). Bei dem Shapiro-Wilk-Test handelt es sich um ein 

sehr sensitives Maß für die Nicht-Normalverteilung (Hopkins & Weeks, 1990). Einige 

Autoren betrachten Abweichungen von der Normalverteilung als unproblematisch, 

wenn die Schiefe der Verteilung einen Betrag von unter drei und eine Kurtosis von 

nicht größer als zehn aufweist (z.B. Kline, 1998). Die Betrachtung der entsprechenden 

Kennwerte zeigt, dass diese Kriterien durchweg für sämtliche kritische Verteilungen 

erfüllt sind (siehe Abschnitt F.I im Anhang). Aus diesem Grund wurde von einer Transformation 

der berichteten Variablen abgesehen. 

Die Homogenität der Varianz für jede abhängige Variable über alle Stufenkombinationen 

der Zwischensubjektfaktoren wurde mit dem Levene-Test auf Gleichheit der 

Kovarianzen überprüft. Ist der Levene-Test signifikant (p < .05), muss davon ausgegan- 

42

Ergebnisse 

______________________________________________________________________________ 

gen werden, dass die Varianzhomogenität verletzt ist. Die Ergebnisse zeigen, dass der 

Levene-Test in mehreren Fällen (bei 47 Prozent aller Überprüfungen) zu signifikanten 

Resultaten führt (siehe Abschnitt F.II Anhang). Da im vorliegenden Versuchsdesign 

jedoch alle Zellen vollständig und gleichmäßig besetzt sind und inhomogene Varianzen 

die Interpretation der Varianzanalyse nur dann ernsthaft in Frage stellen, wenn die 

Gruppengröße der verglichenen Zellen ungleich groß bzw. das Verhältnis zwischen 

größter und kleinster Zellenbesetzung größer als 1.5 ist (Tinsley & Brown, 2000), wurde 

auch in diesem Fall von einer Transformation der Werte abgesehen. 

Die Voraussetzung der Sphärizität wurde mit dem Mauchly-Test geprüft. Dieser 

Test analysiert, ob die Varianzen der Differenzen zwischen Messwertpaaren in Messwiederholungsdesigns 

gleich groß sind. Da die Überprüfung der Sphärizität erst für Innersubjektfaktoren 

relevant wird, die mindestens dreifach gestuft sind, wurde der 

Mauchly-Test nur für den Faktor Listentiefe und nicht für den Faktor Aufgabenblock 

angewendet. In einer durchgeführten Varianzanalyse lieferte der Mauchly-Test für den 

Faktor Listentiefe ein signifikantes Ergebnis (p < .05), sodass angenommen werden 

muss, dass die Voraussetzung der Sphärizität verletzt ist (siehe Abschnitt 5.3). In einer 

weiteren Varianzanalyse erwies sich die Annahme der Sphärizität für den Interaktionsterm 

Listentiefe x Aufgabenblock als nicht erfüllt (siehe Abschnitt 5.4). In beiden Fällen 

wurde für die Bestimmung der Signifikanz eine Adjustierung der Zähler- und 

Nennerfreiheitsgrade mit Hilfe der Greenhouse-Geisser Korrektur vorgenommen. Bei 

der Vorstellung der Analyseverfahren in der Einleitung dieser Abschnitte wird auf diese 

Anpassung erneut hingewiesen. 

4.2 Analyse der Modalitätenwahl 

Um zu überprüfen, inwieweit fehlerhafte Auslassungen in den Eingabemodalitäten 

einerseits und der manipulierte Effizienzvorteil von Sprache gegenüber Toucheingaben 

andererseits zu systematischen Veränderungen in der Modalitätenwahl führten, 

wurden die relativen Häufigkeiten der Sprachnutzung auf dem Startbildschirm sowie 

die nach Subaufgaben aggregierten relativen Häufigkeiten der Nutzung von Sprache 

auf dem jeweils ersten Listenbildschirm einer Subaufgabe ausgewertet. Beide Analysen 

werden in den folgenden Abschnitten berichtet. 

43

Ergebnisse 

______________________________________________________________________________ 

4.2.1 Modalitätenwahl auf dem Startbildschirm 

Zur Analyse der Modalitätenwahl auf dem Startbildschirm der Anwendung wurde 

eine 2x2x2 Varianzanalyse mit einfacher Messwiederholung und den beiden unabhängigen 

Variablen Spracherkennung (einwandfrei: S+/ fehlerhaft: S-) sowie Toucherkennung 

(einwandfrei: T+/ fehlerhaft: T-) gerechnet. Die inferenzstatistischen Ergebnisse 

der Analyse sind in Tabelle 3 zusammengefasst. 

Tabelle 3: Varianzanalyse zur Sprachnutzung auf der Startseite. Anmerkung: (*) p < .1; ** p < .01. 

Quelle der Varianz F df1 df2 p part. η 2 

Spracherkennung (S) - between 2.967 1 44 .092 (*) 0.063 

Toucherkennung (T) - between 18.049 1 44 < .001 ** 0.291 

Aufgabenblock (B) - within 0.009 1 44 .923 < 0.001 

S x T 0.579 1 44 .451 0.013 

B x T 1.444 1 44 .236 0.032 

B x S 0.723 1 44 .400 0.016 

B x S x T 0.858 1 44 .359 0.019 

Für Interaktionen auf dem Startbildschirm zeigt sich, dass die Präferenz für die 

Verwendung der Modalität Sprache bedeutsam von Fehlern in der Toucherkennung, 

jedoch nur tendenziell von Fehlern in der Spracherkennung beeinflusst wird (siehe Tabelle 

3). Entsprechend der Mittelwerte in Abbildung 8 ist ersichtlich, dass fehlerhafte 

Auslassungen in der Modalität Touch (T-) erwartungsgemäß dazu führen, dass Sprache 

signifikant häufiger gewählt wird. Ebenfalls erwartungskonform ist die Tendenz zur 

geringeren Sprachnutzung, wenn das System Spracherkennungsfehler (S-) produziert. 

Zwischen den zwei Aufgabenblöcken liegen keine relevanten Unterschiede vor. 

Sprachnutzung auf dem Startbildschirm 

1 

0,8 

0,6 

0,4 

0,2 

0 

keine Touchfehler (T+) 

Touchfehler (T-) 

Spracherkennungsfehler (S-) 

keine Spracherkennungsfehler (S+) 

Abbildung 8: Mittelwerte und Standardabweichungen der Modalitätenwahl Sprache (relative Häufigkeiten) 

auf dem Startbildschirm in Abhängigkeit zu den vier Versuchsbedingungen. 

44

Ergebnisse 

______________________________________________________________________________ 

4.2.2 Modalitätenwahl auf den Listenbildschirmen 

Um zu überprüfen, inwieweit die Modalität Sprache auf dem jeweils ersten Listenbildschirm 

einer Subaufgabe unterschiedlich häufig in Abhängigkeit zu den fehlerbehafteten 

Eingabemodalitäten und zur manipulierten Listentiefe der auszuwählenden 

Einträge verwendet wird, wurde eine 2x2x6x2 Varianzanalyse mit einfacher Messwiederholung 

sowie der fehlerbehafteten Spracherkennung (einwandfrei: S+/ fehlerhaft: S-) 

und der fehlerbehafteten Toucherkennung (einwandfrei: T+/ fehlerhaft: T-) gerechnet. 

Als sechsfachgestufter Innersubjektfaktor gingen in die Analyse die nach Listentiefe 

sortierten und aggregierten Werte der Sprachnutzung für alle 48 Subaufgaben eines 

Aufgabenblockes ein. Jede Faktorstufe wird somit durch einen Mittelwert aus acht Einzelmessungen 

präsentiert. Die Resultate der Varianzanalyse zeigt Tabelle 4. Zu beachten 

ist hierbei, dass sich für den Innersubjektfaktor Listentiefe (L) die 

Sphärizitätsannahme als Voraussetzung für die Interpretation der Ergebnisse einer Varianzanalyse 

mit Messwiederholung als verletzt zeigt (p < .01), sodass die 

Signifikanzprüfung in diesen Fällen nach einer Adjustierung der Zähler- und Nennerfreiheitsgrade 

mit Hilfe der Greenhouse-Geisser Korrektur vorgenommen wurde. 

Tabelle 4: Varianzanalyse zur Sprachnutzung auf dem jeweils ersten Listenbildschirm einer Subaufgabe. 

Anmerkung: 1 = Greenhouse-Geisser korrigierte Freiheitsgrade; (*) p < .1; * p < .05; ** p < .01. 


Spracherkennung (S) - between 0.149 1 44 .701 0.003 

Toucherkennung (T) - between 11.994 1 44 .001 ** 0.214 

Listentiefe (L) – within 30.837 2.38 1 104.58 1 < .001 ** 0.412 

Aufgabenblock (B) - within 9.977 1 44 < .003 ** 0.185 

S x T 0.534 1 44 .469 0.012 

S x L 1.793 2.38 1 104.58 1 .165 0.039 

S x B 0.035 1 44 .853 0.001 

T x L 4.100 2.38 1 104.58 1 .014 * 0.085 

T x B 3.674 1 44 .062 (*) 0.019 

L x B 1.288 3.45 1 151.95 1 .280 0.028 

S x T x B 0.907 1 44 .346 0.020 

S x L x B 0.366 3.45 1 151.95 1 .805 0.008 

T x L x B 0.258 3.45 1 151.95 1 .881 0.006 

S x T x L 0.625 2.38 1 104.58 1 .564 0.014 

S x T x L x B 1.739 3.45 1 151.95 1 .153 0.038 

45

Ergebnisse 

______________________________________________________________________________ 

Analog zum Interaktionsverhalten auf dem Startbildschirm beeinflusste das Vorliegen 

von Fehlern in der Modalität Touch die Präferenz für die Nutzung von Sprache 

signifikant, wohingegen Spracherkennungsfehler keinen bedeutsamen Einfluss auf die 

Nutzung der Sprachmodalität ausübten. Die vorliegenden Unterschiede in der Häufigkeit 

der Sprachnutzung visualisiert Abbildung 9 grafisch. Bereits deskriptiv ist zur erkennen, 

dass die Systemvarianten mit Touchfehlern (blaue und violette Kurven: T-) in 

beiden Aufgabenblöcken mit einer deutlich erhöhten Sprachnutzung einhergehen. 

Zudem konnte beobachtet werden, dass die Modalitätenwahl auf den jeweils ersten 

Listenbildschirmen bedeutsam davon abhängt, auf welchem Listenbildschirm das 

entsprechende Auswahlelement zu finden war: Je höher die Listentiefe ist und je mehr 

Klickinteraktionen per Toucheingabe erforderlich wären, um die Aufgabe erfolgreich zu 

bearbeiten, desto wahrscheinlicher wird es, dass Nutzer den Interaktionsvorteil der direkten 

Spracheingabe auf dem ersten Listenbildschirm akzeptieren (siehe Abbildung 9). 

Bonferroni korrigierte post Hoc Einzelpaarvergleiche 1 zeigen auf, dass die relative Häufigkeit 

der Sprachnutzung zwischen den beiden Bedingungen der Touchfunktionalität 

(einwandfrei: T+ und fehlerhaft: T-) im ersten Aufgabenblock signifikant unterschiedlich 

ausfällt, wenn die Eingaben auf dem ersten, zweiten oder dritten Listenbildbildschirm 

zu finden sind. Demnach verwenden Nutzer die Modalität Touch häufiger, wenn 

der Vorteil gegenüber Sprache eine Einsparung von bis zu zwei Interaktionsschritten 

beinhaltet, allerdings nur, wenn die Modalität Touch nicht fehlerbehaftet ist. Im zweiten 

Aufgabenblock zeigen die Bonferroni post Hoc Einzelpaarvergleiche 1 , dass die fehlerfrei 

funktionierende Modalität Touch lediglich bei Eingaben auf dem ersten Listenbildschirm 

verwendet wird, also nur dann, wenn kein direkter Effizienzvorteil der Modalität 

Sprache im Sinne eingesparter Interaktionsschritte vorliegt. 

1 Zur Bonferroni-Korrektur wurden die relevanten Mittelwerte auf der Basis von t-Tests verglichen und 

die Grenze zur Signifikanzprüfung auf das lokale Alpha-Niveau von α lok = α global / k herabgesetzt, wobei 

α global dem in den t-Tests ermittelten Signifikanzniveau entspricht und k die Anzahl an durchgeführten 

Einzelpaarvergleichen präsentiert. 

46

Ergebnisse 

______________________________________________________________________________ 

. 

1. Aufgabenblock 

relative Häufigkeit der Sprachnutzung 


Listentiefe 

Listentiefe 

Abbildung 9: Mittelwertverläufe der Modalitätenwahl Sprache (relative Häufigkeiten) auf dem 

jeweils ersten Listenbildschirm einer Subaufgabe für die vier verschiedenen Versuchsbedingungen im 

ersten (oben) bzw. zweiten Aufgabenblock (unten). Auf der Abszisse ist die Listentiefe der Auswahlelemente 

abgetragen, der Wert „5“ bedeutet demnach, dass das Element auf dem fünften Listenbildschirm zu 

finden ist. 

Die signifikante Interaktion zwischen der Listentiefe und der Versuchsbedingung 

Touch zeigt darüber hinaus, dass die Zunahme der Sprachnutzung über die Listentiefe 

hinweg für die Bedingungen mit fehlerbehafteter Toucheingabe (blaue und violette 

Kurven in Abbildung 9) auf bereits hohem Niveau eher flach ausfällt, wohingegen der 

Interaktionsvorteil bei einwandfreier Toucherkennung (orange und grün) bedeutsam 

steiler verläuft. Inhaltlich bedeutet dies, dass Probanden für die Auswahl von Elementen, 

welche bereits direkt auf dem ersten bzw. noch auf dem zweiten Listenbildschirm 

zu finden waren, eher die Modalität Touch verwendet haben und zwar insbesondere 

dann, wenn diese Modalität nicht mit fehlerhaften Auslassungen versehen war. 

Wie Tabelle 3 zudem darstellt, entschieden sich die Probanden im zweiten Aufgabenblock 

signifikant öfter für die Modalität Sprache als im ersten Block (M = .82, 

s = 0.22 versus M = .78 s = 0.24). 

47

Ergebnisse 

______________________________________________________________________________ 

4.3 Analyse der subjektiv erlebten Anstrengung (SEA) 

Die Werte zur wahrgenommenen Beanspruchung wurden ebenfalls in einer 

2x2x6x2 Varianzanalyse mit Messwiederholung ausgewertet. Da die Bewertungen retrospektiv, 

also nach Abschluss jeder Aufgabe, erhoben worden sind, konnten nur diejenigen 

sechs Beanspruchungsurteile pro Aufgabenblock in die Analyse aufgenommen 

werden, für die die Aufgaben aus konsistenten Subaufgaben bestanden. Konsistent bedeutet 

an dieser Stelle, dass alle vier Subaufgaben, auf die sich das eine Abschlussurteil 

bezieht, eine identische Listentiefe aufweisen. Im Gegensatz zur Modalitätenwahl, bei 

der alle Subaufgaben berücksichtigt werden konnten, werden die Faktorstufen der Listentiefe 

in der Messung der subjektiv erlebten Anstrengung somit jeweils durch genau 

eine Einzelmessung präsentiert. Während die Sphärizitätsannahme für den Faktor Listentiefe 

nicht mit ausreichender Sicherheit verworfen kann, erzielte der Mauchly-Test 

für die Interaktion der Innersubjektfaktoren Aufgabenblock x Listentiefe (B x L) ein 

signifikantes Ergebnis (p < .01), sodass die Freiheitsgrade für diesen Fall korrigiert 

worden sind (vgl. Abschnitt 5.1). Die Resultate der Varianzanalyse fasst Tabelle 5 zusammen, 

die deskriptiven Daten werden in Abbildung 10 grafisch dargestellt. 

Tabelle 5: Varianzanalyse zur subjektiv erlebten Anstrengung. Anmerkung: 1 = Greenhouse-Geisser 

korrigierte Freiheitsgrade; (*) p < .1; * p < .05; ** p < .01. 


Spracherkennung (S) - between 16.898 1 44 < .001 ** 0.277 

Toucherkennung (T) - between 5.036 1 44 .030 * 0.103 

Listentiefe (L) – within 1.170 5 220 .325 0.026 

Aufgabenblock (B) - within 6.214 1 44 .017 * 0.124 

S x T 3.378 1 44 .073 (*) 0.071 

S x L 0.591 5 220 .707 0.013 

S x B 0.401 1 44 .530 0.090 

T x L 2.232 5 220 .052 (*) 0.048 

T x B 0.277 1 44 .601 0.006 

L x B 1.490 3.11 1 137.03 1 .219 0.033 

S x T x B 0.210 1 44 .649 0.005 

S x L x B 1.378 3.11 1 137.03 1 .251 0.030 

T x L x B 0.766 3.11 1 137.03 1 .519 0.017 

S x T x L 1.706 5 220 .134 0.037 

S x T x L x B 0.833 3.11 1 137.03 1 .481 0.019 

48

Ergebnisse 

______________________________________________________________________________ 

Wie aus Abbildung 10 deutlich wird, liegen die SEA-Bewertungen insgesamt in 

einem Bereich geringer Beanspruchung; zur besseren Übersichtlichkeit ist die Ordinate 

daher verkürzt dargestellt. Die Varianzanalyse zeigt signifikante Effekte aufgrund der 

Manipulation von Fehlern sowohl in der Spracherkennung als auch in der 

Touchbedienung (siehe Tabelle 4). Erwartungsgemäß nahmen Probanden höhere Beanspruchung 

wahr, wenn fehlerhafte Auslassungen in der Modalität Sprache (M = 31.39, 

s = 20.71 versus M = 12.91, s = 11.37 bei einwandfreier Funktionalität) oder in der 

Modalität Touch (M = 27.20, s = 22.49 versus M = 17.10, s = 13.62 bei einwandfreier 

Funktionalität) vorlagen. Besonders hohe Werte in der Beanspruchung liegen in der 

Versuchsbedingung vor, welche fehlerhafte Auslassungen sowohl in der Modalität 

Sprache als auch in der Modalität Touch aufweist (siehe violette Kurve in Abbildung 

10). Bonferroni post hoc Paarvergleiche 2 zwischen den vier Systemvarianten zeigen auf, 

dass die subjektiv erlebte Anstrengung in dieser Bedingung über den Faktor Listentiefe 

hinweg signifikant von allen anderen drei Systemen abweicht (p < .05). 

Neben den Zwischensubjektfaktoren weist auch der Innersubjektfaktor Aufgabenblock 

einen signifikanten Einfluss auf die Beanspruchungswerte auf, dahingehend, 

dass im zweiten Aufgabenblock durchschnittlich geringere Werte in der subjektiv erlebten 

Anstrengung angegeben werden (M = 24.92, s = 22.36 im ersten Block versus 

M = 19.38, s = 19.25 im zweiten Block). 

2 Zur Bonferroni-Korrektur wurden die relevanten Mittelwerte auf der Basis von t-Tests verglichen und 

die Grenze zur Signifikanzprüfung auf das lokale Alpha-Niveau von α lok = α global / k herabgesetzt, wobei 

α global dem in den t-Tests ermittelten Signifikanzniveau entspricht und k die Anzahl an durchgeführten 

Einzelpaarvergleichen präsentiert. 

49

Ergebnisse 

______________________________________________________________________________ 


SEA-Bewertungen [0-220] 


Listentiefe 

Listentiefe 

Abbildung 10: Mittelwertverläufe der subjektiv erlebten Anstrengung auf dem jeweils ersten Listenbildschirm 

einer Subaufgabe für die vier verschiedenen Versuchsbedingungen im ersten (oben) bzw. 

zweiten Aufgabenblock (unten). Auf der Abszisse ist die Listentiefe der Auswahlelemente abgetragen, 

der Wert „5“ bedeutet demnach, dass das Element auf dem fünften Listenbildschirm zu finden ist. 

4.4 Wahrgenommene Produktqualitäten (AttrakDiff) 

Für die Analyse des Fragebogens zu wahrgenommenen Produktqualitäten 

(AttrakDiff) wurde eine 2x2x2 multivariate Varianzanalyse mit einfacher Messwiederholung 

auf den unabhängigen Variablen Spracherkennung (einwandfrei: S+/ fehlerhaft: 

S-) und Toucherkennung (einwandfrei: T+/ fehlerhaft: T-) gerechnet. Als abhängige 

Messwerte wurden die vier Dimensionen des Fragebogens (pragmatische Qualität, Identifikation, 

Stimulation und Attraktivität) in die Analyse einbezogen. Aus Gründen der 

Übersichtlichkeit werden in diesem Abschnitt nur die signifikanten Ergebnisse nach den 

vier Dimensionen sortiert, vorgestellt. Für eine Gesamtübersicht der Varianzanalyse 

wird auf die entsprechende Tabelle im Anhang verwiesen. 

Bei den Bewertungen zur pragmatischen Qualität stellte sich heraus, dass die 

Systemvarianten mit fehlerhaften Auslassungen in der Modalität Sprache (S-) durchweg 

50

Ergebnisse 

______________________________________________________________________________ 

geringer bewertet werden (F(1,44) = 13.768, p < .01, η p 2 = 0.238), wie aus den Mittelwertunterschieden 

in Abbildung 11 grafisch deutlich wird. In Abhängigkeit zu den 

Faktorstufen der manipulierten Touchfunktionalität fällt dieser Unterschied beim Vorliegen 

von fehlerhaften Auslassung in der Touchbedienung (T-) signifikant stärker auf, 

als bei der einwandfrei funktionierenden Modalität Touch (T+), was am Interaktionseffekt 

zwischen den beiden unabhängigen Faktoren deutlich wird (F(1,44) = 4.856, p < 

.05, η p 2 = 0.099). Im Sinne eines generellen Haupteffekts beeinflussen die Fehler in der 

Touchbedienung die abschließenden Gesamturteile jedoch nicht bedeutsam, ebenso 

zeigten sich die Unterschiede zwischen den Aufgabenblöcken als nicht signifikant. 

Pragmatische Qualität 

3 

2 

1 

0 

-1 

Touchfehler 

(T-) 

keine Touchfehler 

(T+) 

Touchfehler 

(T-) 


(T+) 

-2 

-3 

1. Aufgabenblock 2. Aufgabenblock 



Abbildung 11: Mittelwerte und Standardabweichung der wahrgenommenen pragmatischen Qualität 

in Abhängigkeit zu den drei jeweils zweifachgestuften unabhängigen Variablen. 

Bezüglich der hedonischen Qualität Identifikation zeigte sich analog zur pragmatischen 

Qualität, dass die fehlerbehaftete Modalität Sprache (S-) zu geringeren Bewertungen 

führte (F(1,44) = 4.955, p < .05, η 2 p = 0.101). Darüber hinaus liegen keine 

weiteren bedeutsamen Haupteffekte bzw. Interaktionseffekte auf diese abhängige Variable 

vor. Die Mittelwertunterschiede sind der Abbildung 12 zu entnehmen. 

51

Ergebnisse 

______________________________________________________________________________ 

Hedonische Qualität: Identifikation 

3 

2 

1 

0 

-1 

Touchfehler 

(T-) 


(T+) 

Touchfehler 

(T-) 


(T+) 

-2 

-3 




Abbildung 12: Mittelwerte und Standardabweichung der wahrgenommenen hedonischen Qualität 

Identifikation in Abhängigkeit zu den drei jeweils zweifachgestuften unabhängigen Variablen. 

Während für die hedonische Qualität Stimulation keine bedeutsamen Haupteffekte 

beobachtet werden konnten, zeigt der signifikante Interaktionseffekt zwischen den 

unabhängigen Variablen auf, dass hohe Werte vor allem dann vorliegen, wenn entweder 

beide Eingabemodalitäten fehlerbehaftet sind oder beide Modalitäten einwandfrei funktionieren. 

Geringe Werte in der Stimulation liegen hingegen vor, wenn lediglich eine 

Modalität fehlerbehaftet ist und diese durch die jeweils andere kompensiert werden 

kann (F(1,44) = 4.259, p < .05, η 2 p = 0.088, siehe Abbildung 13). 

Hedonische Qualität: Stimulation 

3 

2 

1 

0 

-1 

Touchfehler 

(T-) 


(T+) 

Touchfehler 

(T-) 


(T+) 

-2 

-3 




Abbildung 13: Mittelwerte und Standardabweichung der wahrgenommenen hedonischen Qualität 

Stimulation in Abhängigkeit zu den drei jeweils zweifachgestuften unabhängigen Variablen. 

Die Bewertungen zur allgemeinen Produktattraktivität fallen für die Varianten 

mit einwandfreier Sprachinteraktion (S+) besser aus, als für die Varianten, in denen die 

Sprachinteraktion fehlerbehaftet ist (S-); (F(1,44) = 4.093, p < .05, η 2 p = 0.085, siehe 

52

Ergebnisse 

______________________________________________________________________________ 

Abbildung 14). Unterschiede aufgrund der experimentellen Manipulation der 

Touchmodalität oder aufgrund des Aufgabenblockes sind ebenso wie vorliegende Interaktionen 

für die Varianzaufklärung der abschließenden Attraktivitätsurteile statistisch 

nicht relevant. 

Attraktivität 

3 

2 

1 

0 

-1 

Touchfehler 

(T-) 


(T+) 

Touchfehler 

(T-) 


(T+) 

-2 

-3 




Abbildung 14: Mittelwerte und Standardabweichung der wahrgenommenen Attraktivität in Abhängigkeit 

zu den drei jeweils zweifachgestuften unabhängigen Variablen. 

4.5 Zusammenfassung 

Die Ergebnisse der experimentellen Untersuchung zeigen zusammenfassend auf, 

dass die Qualitätsmanipulation in der Erkennung von Toucheingaben die Modalitätenwahl 

und damit das Nutzungsverhalten direkt beeinflusst, und dass Probanden bei fehlerhaften 

Auslassungen in der Modalität Touch signifikant häufiger die Modalität Sprache 

verwenden, um Systemeingaben vorzunehmen. Zudem wird diese Bedingung als 

subjektiv beanspruchender wahrgenommen. Die abschließenden Urteile zu den Produktqualitäten 

zeigen sich von der Manipulation der Toucheingabe nicht beeinflusst. 

Für fehlerhafte Auslassungen in der Modalität Sprache kann kein Einfluss auf 

die Modalitätenwahl nachgewiesen werden. Hingegen nehmen Probanden bei vorliegender 

fehlerbehafteter Spracherkennung eine erhöhte subjektive Anstrengung wahr 

und bewerten sowohl die pragmatische Qualität, die Identifikation und die Attraktivität 

bei Interaktion mit dem System als geringer. 

Für den manipulierten Effizienzvorteil der Modalität Sprache in Form von Einsparungen 

an Interaktionsschritten gegenüber der Modalität Touch kann gezeigt werden, 

dass Sprache signifikant häufiger verwendet wird, wenn die Listentiefe einer Eingabe 

hoch ist und damit der Interaktionsvorteil besonders groß ist. In Abhängigkeit zur Funk- 

53

Ergebnisse 

______________________________________________________________________________ 

tionalität der Modalität Touch wird dieser Interaktionsvorteil von Probanden sogar differenziert 

umgesetzt: Ist der Vorteil gering, wird eher die Modalität Touch genutzt, allerdings 

auch nur dann, wenn diese Modalität nicht fehlerbehaftet ist. Für die zunehmende 

Listentiefe können in der vorliegenden Untersuchung keine erhöhten Beanspruchungswerte 

beobachtet werden. 

Zwischen den beiden Aufgabenblöcken zeigen sich Unterschiede in der Modalitätenwahl. 

Während auf der Startseite zur Auswahl der Subaufgaben die Modalität 

Sprache ähnlich oft verwendet wird, benutzen Probanden Sprache im zweiten Aufgabenblock 

auf dem jeweils ersten Listenbildschirm einer Subaufgabe zur Auswahl einer 

konkreten Eingabe signifikant häufiger. Darüber hinaus liegen für die subjektiv erlebte 

Anstrengung im zweiten Block durchgängig geringere Urteile vor. Die Produktqualitäten 

werden nach Abschluss der beiden Aufgabenblöcke nicht systematisch unterschiedlich 

bewertet. 

54

Diskussion 

______________________________________________________________________________ 

5 Diskussion 

Entsprechend der drei aufgestellten Hypothesenblöcke (vgl. Abschnitt 2.4.2) 

werden die im vorigen Kapitel dargestellten und zusammengefassten Ergebnisse in drei 

Abschnitten diskutiert. Zunächst werden die Untersuchungsannahmen zur Modalitätenwahl 

behandelt. Daraufhin werden die Hypothesen zur subjektiv erlebten Anstrengung 

und abschließend diejenigen zu den wahrgenommenen Produktqualitäten betrachtet. Die 

Diskussion endet mit einer kritischen Würdigung der Ergebnisse und etwaiger Limitationen 

bei der Generalisierung der Befunde aufgrund des verwendeten methodischen 

Vorgehens. 

5.1 Hypothesen zur Modalitätenwahl 

Mit den ersten Hypothesen in diesem Bereich wurde angenommen, dass die Modalitätenwahl 

zugunsten der Sprache sowohl durch eine einwandfreie Spracherkennung 

(H1.1) als auch durch eine fehlerbehaftete Toucherkennung (H1.2) beeinflusst wird. 

Aus den vorliegenden Ergebnissen geht hervor, dass hierbei nur die Hypothese H1.2 

empirisch gestützt werden kann: Das Vorliegen von Touchfehlern führte sowohl bei der 

Auswahl der Subaufgaben auf dem Startbildschirm als auch zur Eingabe von Elementen 

innerhalb einer Subaufgabe auf dem jeweils ersten Listenbildschirm zu einer signifikant 

häufigeren Nutzung der Spracherkennung und somit zu einem erhöhten Wechsel von 

der Modalität Touch zur Modalität Sprache. Auf Seiten der Sprachnutzung ließ sich ein 

entsprechender Effekt jedoch nicht nachweisen, gleichwohl für Interaktionen auf der 

Startseite zumindest tendenziell gezeigt werden konnte, dass Nutzer bei Spracherkennungsfehlern 

vermehrt auf die Modalität Touch auswichen. Dieser Befund steht in Kontrast 

zu bisherigen Studien, in denen das Vorliegen von Spracherkennungsfehlern 

nachweislich zu einem erhöhten Ausweichen auf die alternative manuelle Modalität 

führte (Schaffer et al., 2011a). Jedoch wurden in der eben genannten Studie extremere 

Fehlerraten von durchschnittlich 10 Prozent mit durchschnittlich 30 Prozent miteinander 

verglichen. Ebenso ließen sich unter Bezugnahme auf Joeckel (2010) in post Hoc Vergleichen 

Unterschiede in der Häufigkeit der Nutzung der manuellen Modalität nur zwischen 

den Bedingungen geringer Fehler (0-10%) und extrem erhöhter Fehlerraten 

(>25%) nachweisen. Somit lässt sich nicht ausschließen, dass die in der vorliegenden 

Untersuchung vorgenommenen Manipulationsunterschiede nicht hinreichend waren, um 

einen signifikanten Effekt für den Bereich von Spracherkennungsfehlern zu produzie- 

55

Diskussion 

______________________________________________________________________________ 

ren. Jedoch muss nach den Erfahrungen aus den Benutzertests und den geschilderten 

Berichten der Probanden durchaus zugestanden werden, dass es sich bei einer Fehlerrate 

von 20 Prozent um eine anwendungsorientiert relevante und überzeugend vermittelbare 

Faktorstufe handelte. Als überraschend erweist sich in diesem Zusammenhang zudem, 

dass sich, verglichen mit früheren Versuchen, Probanden im Fall einwandfrei funktionierender 

Modalitäten deskriptiv deutlich seltener für die Modalität Sprache entschieden 

als für die Modalität Touch. Auf der anderen Seite lässt sich die Kurve mit fehlerbehafteter 

Spracherkennung und funktionierender Touchbedienung weitestgehend in die bisherige 

Versuchsreihe einordnen. Da sowohl der Untersuchungsgegenstand als auch die 

Instruktionen und die Aufgaben von ihrem Wesen her nicht unterschiedlich waren, ist 

die Abweichung für den ersten Fall entweder zufallsbedingt zu erklären oder dem Einsatz 

der Akustikkabine geschuldet. Während in früheren Versuchen der erste Versuchsleiter 

mit dem Probanden in einem Raum anwesend war und ihm die Aufgaben sukzessiv 

präsentierte, musste für die vorliegende Untersuchung die Akustikkabine aus organisatorischen 

Gründen gewählt werden, in der die Probanden die Aufgabenbearbeitung 

allein durchführten und sich entsprechend unbeobachtet fühlen konnten. Das perfekt 

funktionierende System mag unter diesen Umständen entweder dazu geführt haben, 

dass Probanden aus einer motivierten Testbereitschaft heraus die Grenzen des Systems 

durch häufigere Modalitätenwechsel stärker herausfordern wollten oder die Entwicklung 

von Heuristiken durch die Nichtanwesenheit weiterer Personen verbessert werden 

konnte, sodass sich Probanden in bestimmten Dialogsituationen verstärkt für die manuelle 

Bedienung entschieden haben, da sie hierdurch Effizienzvorteile erwartet haben. 

Mit der Hypothese H1.3 wurde angenommen, dass Aktionsmodalitäten mit einem 

höheren Innovationsgrad, wie die Spracherkennung, zunächst eine gewisse Gewöhnungszeit 

benötigen, um für den Nutzer im Sinne einer Entscheidungsheuristik 

kognitiv verfügbarer zu werden. Zur Beantwortung dieser Annahme zeigte sich ein interessanter 

Befund. Während die Spracherkennung auf dem Startbildschirm nicht bedeutsam 

unterschiedlich verwendet wird, kann die Hypothese durch die Daten aus der Bearbeitung 

der ersten Listenbildschirmen bekräftigt werden. Dieser Befund ist insofern 

erstaunlich, als dass zwischen diesen beiden Dialogsituationen tatsächlich ein elementarer 

Unterschied vorliegt. Während die Startseite eine Auswahlsituation bereithält, die 

mit der Erledigung eines Interaktionsschrittes auditiv oder manuell erledigt werden 

kann, treten die in der Studie manipulierten Effizienzvorteile durch verkürzte Interaktionsschritte 

durch die Sprachinteraktion erst auf dem jeweils ersten Listenbildschirm 

56

Diskussion 

______________________________________________________________________________ 

einer Subaufgabe zu Tage. In diesem Zusammenhang geht das von McCrasken und 

Aldrich (1984) entwickelte Kapazitätenmodell davon aus, dass Spracherkennung zur 

Erledigung eines Interaktionsschrittes kognitiv beanspruchender sein kann, als eine manuelle 

Interaktionsform. Wie Bierbaum et al. (1987) aufgezeigt haben, ist der kognitive 

Vorbereitungsprozess für die sprachliche Produktion eines Satzes in der Regel aufwendiger 

als der entsprechende Prozess für eine manuelle Produktion zur Auswahl einer 

Bedienung per Touchscreen. Die Probanden des vorliegenden Experiments verhielten 

sich vor diesem Hintergrund äußerst effizient: Für die mit einem Interaktionsschritt zu 

erledigende Aufgabe auf dem Startbildschirm nutzten sie auch nach längerer Gewöhnung 

mit dem System die manuelle Interaktion, da diese weniger beanspruchend war 

und vermutlich auch in Form von Bedienzeiten schneller als die Spracherkennung zum 

Ergebnis geführt hat. Auf den Listenbildschirmen hingegen setzten sie die Spracherkennung 

zunehmend häufig ein, sparten damit vor allem bei Auswahlelementen mit einer 

hohen Listentiefe unnötige manuelle Interaktionsschritte und festigten die kognitive 

Verfügbarkeit der sprachlichen Eingabe als Entscheidungsheuristik für die Modalitätenwahl. 

Dass das Lernen bezüglich der Modalitätenwahl ausschließlich auf den Listenbildschirmen 

nachgewiesen werden kann, spricht dafür, dass sich Probanden über die 

jeweiligen Vor- und Nachteile beider Aktionsmodalitäten bewusst zeigten. 

Wie bereits in früheren Studien mit dem hier verwendeten Untersuchungsgegenstand 

gezeigt werden konnte, stützen auch die Daten aus der vorliegenden Untersuchung 

die Hypothese, dass Aufgabeneffizienz, im Sinne einer geringen Anzahl an Interaktionsschritten, 

ein entscheidender Einflussfaktor für die Modalitätenwahl darstellt (vgl. 

Schaffer et al., 2011a). Nutzer verwendeten die Modalität Sprache auf den Listenbildschirmen 

verstärkt dann, wenn die Eingabe der Elemente über die alternative Modalität 

Touch besonders viele zusätzliche Interaktionsschritte erfordert hätte, was das Zutreffen 

der Hypothese H1.4 bekräftigt. 

Die letzten beiden zu prüfenden Hypothesen in diesem Block nahmen Interaktionseffekte 

an, welche davon ausgingen, dass die Effizienzvorteile der Sprache in Abhängigkeit 

zur Fehlerbehaftung der Sprachererkennung (H1.5) bzw. der Modalität 

Touch (1.6) differenziert zu Tage treten. Auf der Datenbasis der vorliegenden Untersuchung 

kann die Hypothese H1.6 als gestützt betrachtet werden: Während bei dem Vorliegen 

von Touchfehlern bereits für Eingaben mit einer geringen Listentiefe die Spracherkennung 

bevorzugt genutzt wird, verhalten sich Nutzer bei einwandfreier Touchbedienung 

und einer geringen Listentiefe so, als sei die Touchinteraktion für diese Zwe- 

57

Diskussion 

______________________________________________________________________________ 

cke effizienter bzw. ebenso effizient wie die Spracherkennung. Diese Ergebnisse unterstützen 

die bereits diskutierten Annahmen zu möglichen Vertrautheitseffekten, welche 

zu einer verstärkten Nutzung der Sprachmodalität führen sollten. Auch dabei zeigte sich 

für die Interaktion auf den Startbildschirmen, dass keine wesentliche Veränderung in 

der Modalitätenwahl auftrat. Auch hier ließ sich das Ziel durch einen Interaktionsschritt 

in der auditiven oder der manuellen Modalität erreichen und Personen entschieden sich 

aus dem vermuteten Grund, dass die Touchinteraktion weniger aufwendiger sei als die 

Sprachinteraktion (vgl. McCrasken et al., 1984) für die Wahl der manuellen Modalität. 

Äquivalent scheint dies auch für den ersten Listenbildschirm zuzutreffen, wenn das entsprechende 

Auswahlelement bereits darauf angezeigt wird. Jedoch kann an dieser Stelle 

auch gezeigt werden, dass Probanden auch mögliche Effektivitätseinbußen in ihre Entscheidung 

einbeziehen und sich auch in dieser Dialogsituation für die Sprachinteraktion 

entscheiden, wenn die Touchinteraktion mit fehlerbehafteten Auslassung versehen ist. 

Diese Erklärung wird auch dadurch bekräftig, dass Nutzer entgegen der Hypothese H1.5 

bei einwandfreier Spracherkennung nicht bedeutsam öfter die Modalität Sprache verwendeten, 

um Eingaben mit einer geringen Listentiefe vorzunehmen, z.B. um bereits 

sichtbare Elemente auf dem ersten Listenbildschirm auszuwählen. An dieser Stelle erscheint 

ihnen der einfache Klick, vorausgesetzt die Touchinteraktion funktioniert einwandfrei, 

kognitiv oder motorisch weniger aufwändig. 

5.2 Hypothesen zur subjektiv erlebten Anstrengung 

Die ersten beiden Hypothesen in diesem Bereich nahmen an, dass eine geringe 

Effektivität in einer der zur Verfügung stehenden Modalitäten zu erhöhten Werten in 

der subjektiv erlebten Anstrengung führen. Mit den vorliegenden Ergebnissen können 

entsprechende Auswirkungen auf die Beanspruchung sowohl für das Vorliegen von 

Spracherkennungsfehlern als auch für das Vorliegen von Touchfehlern gezeigt werden 

und somit die Hypothesen H2.1 und H2.2 als gestützt betrachtet werden. Dies zeigt, 

dass Probanden bei den unmittelbar nach jeder Aufgabe abzugebenen Beanspruchungsurteilen 

sensitiv auf das Vorliegen von Effektivitätseinschränkungen reagieren, auch 

falls sie aufgrund von Fehlern diese Modalität tatsächlich nur selten benutzt haben sollten. 

Im Sinne der zunehmenden Etablierung einer Verfügbarkeitsheuristik zur Auswahl 

der eher innovativen Sprachmodalität ging die Hypothese H2.3 davon aus, dass 

Probanden im zweiten Durchgang eine geringere Beanspruchung erleben sollten als im 

58

Diskussion 

______________________________________________________________________________ 

ersten Durchgang. Auch diese Hypothese kann durch die vorliegenden Ergebnisse bekräftigt 

werden. Etwaig mag dieser Effekt jedoch auch dadurch verstärkt worden sein, 

dass das Bearbeiten der standardisierten Aufgaben von einer hohen Routine geprägt 

war. Die Aufgaben waren insgesamt von äußerst geringer Komplexität, wofür das generell 

geringe Werteniveau spricht, und hielten keine sonderlich unerwarteten Überraschungen 

für die Probanden parat. Auch die Systembedienung und die Effizienz- und 

Effektivitätscharakteristika änderten sich nicht im Laufe einer Untersuchungseinheit. 

Inwieweit dieser Effekt somit tatsächlich auf die Etablierung einer Entscheidungsheuristik 

zur vereinfachten Modalitätenwahl oder auf die Gewöhnung an den ohnehin sehr 

einfach gehaltenen Nutzungskontext zurückzuführen ist, bleibt somit teilweise offen. 

Mit der diesen Bereich abschließenden Hypothese H2.4 wurde davon ausgegangen, 

dass es bei ansteigender Listentiefe auf Seiten der Auswahlelemente nicht zu einer 

erhöhten subjektiv erlebten Anstrengung bei den Probanden kommen sollte, da diese 

zunehmende Aufgabenkomplexität sich lediglich auf die Touchinteraktion bezieht und 

durch die effizientere Spracherkennung unmittelbar kompensiert werden kann (vgl. 

Schaffer et al., 2011a). Die vorliegenden Daten stützen diese Nullhypothese, auch bei 

einem entsprechend heraufgesetzten Alpha-Niveau. An dieser Stelle sei auf eine weitere 

von Schaffer et al. (2011b) durchgeführte Studie verwiesen, in welcher die erforderlichen 

Interaktionsschritte zur Erledigung der Subaufgaben zwischen der Touch- und der 

Sprachinteraktion gleich gehalten wurden. Aufgaben mit einer erhöhten Listentiefe erforderten 

somit auch unter Nutzung der Spracherkennung zunächst ein sukzessives 

Blättern in den Listbildschirmen, bevor die Auswahl des Elementes getroffen werden 

konnte. Die Ergebnisse dieser Studie bestätigen, dass sich die dadurch ansteigende Aufgabenschwierigkeit 

in entsprechend erhöhten Werten subjektiv erlebter Anstrengung 

widerspiegeln. 

5.3 Hypothesen zu wahrgenommenen Produktqualitäten 

Im Bereich der wahrgenommenen Produktqualitäten wurden Hypothesen zur 

pragmatischen Qualität und zur globalen Produktgüte (Attraktivität) aufgestellt, dahingehend, 

dass erlebte fehlerbehaftete Eingabenerkennungen zu geringeren Pragmatikurteilen 

(H3.1 und H3.2) sowie zu geringeren Werten in der Produktgüte führen (H3.4 

und H3.5). Durch die Daten bekräftigt wird, dass Spracherkennungsfehler zu geringeren 

Bewertungen der pragmatischen Qualität (H3.1) und der abschließenden Systemattraktivität 

führen (H3.4). Nicht bekräftigen lassen sich jedoch diejenigen Hypothesen, die 

59

Diskussion 

______________________________________________________________________________ 

Einflüsse aufgrund der fehlerbehafteten Touchinteraktion angenommen haben. Da sich 

demgegenüber die Modalitätenwahl deutlich durch Touchfehler, jedoch nicht nachweislich 

durch Spracherkennungsfehler beeinflusst zeigte, dissoziieren die subjektiven Bewertungen 

auf den ersten Blick vom tatsächlich gezeigten Verhalten der Nutzer, was für 

den Bereich von Fragebogendaten in aktueller Literatur häufiger thematisiert wird (z.B. 

Konerding, 2006). Die vorliegenden Verzerrungen lassen sich jedoch insoweit erklären, 

als dass die Sprachnutzung in dieser Untersuchung deutlich überdurchschnittlich verwendet 

worden ist und Probanden sich somit bei der abschließenden Produktbewertung 

mehr Interaktionssituationen in Zusammenhang mit der Spracherkennung ins Bewusstsein 

rufen konnten. Unter diesen Umständen erscheint es nicht verwunderlich, dass Unterschiede 

zwischen der einwandfreien und der fehlerbehafteten Spracherkennung stärker 

ins Gewicht fallen als die Unterschiede aufgrund der Touchmanipulation. Aus theoretischer 

Sicht erklären lässt sich dies wiederum mit der Verfügbarkeitsheuristik (vgl. 

Abschnitt 2.2.4.2), anhand derer Personen Urteile auf Basis der Leichtigkeit ihres Erinnerns 

bzw. Vorstellens treffen. Da die Wahrscheinlichkeit für das Erleben von 

Touchfehlern aufgrund der erhöhten Wahl für die Modalität Sprache reduziert ist, beeinflussen 

entsprechende Situationen zwar das unmittelbare Nutzungsverhalten, jedoch 

zeigen sich die entsprechend wenigen, jedoch ausschlaggebenden Situationen mit 

Touchfehlern beim abschließenden Urteil weniger präsent. 

Diese Erklärung kann dadurch bekräftigen werden, dass sich die unterschiedlichen 

pragmatischen Bewertungen in Interaktion mit der Effektiviät der Spracherkennung 

beim Vorliegen von Touchfehlern deutlicher niederschlagen als wenn die 

Touchinteraktion einwandfrei funktioniert. Bei den Ergebnissen zur Modalitätenwahl 

wurde diskutiert, dass sich Probanden ausschließlich auf Basis der Effektivitätsmanipulation 

der manuellen Interaktion für die Aktionsmodalität Sprache entscheiden. Vor 

diesem Hintergrund erscheint es einleuchtend, dass Unterschiede in den pragmatischen 

Bewertungen aufgrund von Spracherkennungsfehlern vor allem beim Vorliegen von 

Touchfehlern auftreten, da diese ein Ausweichen auf die Spracherkennung begünstigen. 

Auf der anderen Seite wird die funktionierende Touchinteraktion für diejenigen Dialogsituationen 

eingesetzt, in denen ihr Probanden eine höhere Effizienz zusprechen (z.B. 

Auswahl auf dem Startbildschirm, Auswahl auf Listenbildschirmen, wenn Elemente 

eine geringe Listentiefe haben), sodass Fehler in der Spracherkennung für das abschließende 

Gesamturteil weniger stark ins Gewicht fallen. 

60

Diskussion 

______________________________________________________________________________ 

Mit den Hypothesen H3.3 und H3.6 wurden zeitbezogene Veränderungen in den 

Urteilen zur pragmatischen Qualität sowie zur globalen Produktgüte vorhergesagt, welche 

durch die vorliegenden Daten nicht gestützt werden können. Da die Probanden bereits 

im ersten Aufgabenblock das nicht sonderlich komplexe System, welches zudem 

als reduzierter Prototyp konzipiert war, sehr gut selbstständig bedienen konnten und die 

prototypischen Bedienaufgaben standardmäßig ohne unerwartete Überraschungen für 

die Probanden konzipiert waren, erscheint nachvollziehbar, dass eine subjektiv erlebte 

Performanzsteigerung im Sinne eines Lerneffektes auf Seiten der Benutzbarkeit zum 

zweiten Aufgabenblock nur sehr unwahrscheinlich zu erzielen gewesen ist (vgl. 

Hornbaek, 2006). Ebenso liefern die Daten keine Stütze für das Vorliegen einer Attraktivitätssteigerung 

aufgrund zunehmender Nutzungszeit. Jedoch erwiesen sich bereits in 

früheren Studien Ergebnisse zum mere exposure Effekt (Zajonc, 1968) vor dem Hintergrund 

interaktiver Untersuchungsgegenstände als durchaus divergent (Minge, 2011). 

Die Dimensionen des AttrakDiff zu den hedonischen Produktqualitäten Identifikation 

und Stimulation wurden explorativ in die Auswertung aufgenommen. Hinsichtlich 

der Identifikation zeigte sich analog zur pragmatischen Qualität ein bedeutsamer 

Haupteffekt aufgrund der Fehlermanipulation in der Sprachererkennung. Da dieser Faktor 

aufgrund der zugrundeliegenden Items vor allem erfasst, ob Technik als wertvoll, 

vorzeigbar und menschenverbindend betrachtet wird, erscheinen die Ergebnisse nachvollziehbar, 

jedoch deutlicher von pragmatischen Qualitäten beeinflusst, als es für diese 

von der pragmatischen Qualität unabhängigen hedonischen Qualität vorab zu erwarten 

gewesen wäre. Eine Erklärung für dieses Ergebnis kann somit in der Überstrahlung der 

aufgabenbezogenen Urteile auf nicht-aufgabenbezogene Bewertungen der Identifikation 

im Sinne eines pragmatischen Halo-Effektes gefunden werden (Minge, 2011). 

Die Ergebnisse zur Stimulation liefert mit ihren Items zur Originalität, Neuheit 

und Motivation zunächst das Bild einer unabhängigen Dimension zur pragmatischen 

Qualität, da sich erhöhte Ausprägungen in den beiden Extremvarianten zeigten, d.h. 

wenn beide Modalitäten entweder einwandfrei funktionierten oder beide Modalitäten 

fehlerbehaftet waren. Dieses Ergebnis könnte dem Rahmen der Untersuchungssituation 

geschuldet sein, welches das Restaurantbuchungssystem als einen Prototypen vorstellte. 

Probanden könnten dazu tendiert haben, nicht nur das perfekt funktionierende System 

als besonders stimulierend erlebt zu haben, sondern auch das hoch fehleranfällige, da 

sich dieses mit einer deutlich früheren Phase der Produktentwicklung assoziiert zeigt 

und eine entsprechende Forschungsarbeit notwendig macht. 

61

Diskussion 

______________________________________________________________________________ 

5.4 Kritische Würdigung und Limitation 

Die Ergebnisse dieses Experimentes zeigen auf, dass sowohl die Modalitätenwahl 

als auch subjektive Bewertungen in Form von erlebter Beanspruchung und wahrgenommener 

Produktqualitäten durch die Manipulation der Effektivität und Effizienz 

alternativ angebotener Aktionsmodalitäten beeinflusst werden. Während eine fehlerhafte 

manuelle Aktionsmodalität den Wechsel zur automatischen Spracherkennung förderte 

und die subjektiv erlebte Anstrengung erhöhte, wirkten sich die erlebten Touchfehler, 

vermutlich aufgrund der verringerten Nutzung dieser Modalität, nicht bedeutsam auf 

abschließenden Gesamturteile aus. Spracherkennungsfehler führten zwar nicht zu einer 

reduzierten Nutzung der Sprachmodalität, wurden jedoch mit erhöhter Beanspruchung 

und schlechteren Abschlussurteilen bewertet. 

Die Resultate dieser Arbeit sind vor einer Verallgemeinerung aus mehrfacher 

Sicht kritisch zu betrachten. Zunächst orientieren sich die Befunde am verwendeten 

Untersuchungsmaterial, welches ausschließlich aus einer Kombination von Listenbildschirmen 

bestand und speziell für die zu bearbeitenden Aufgaben konstruiert war. Als 

Folge handelte es sich in der Untersuchungssituation um ein deutlich komplexitätsreduzierendes 

Szenario, sodass mögliche Unterschiede in der manipulierten Effektivität und 

Effizienz für die Probanden offensichtlicher zu Tage traten, als dies in realen Anwendungen 

der Fall gewesen wäre. 

Methodisch ist zudem kritisch im Auge zu behalten, dass sich die eingesetzte 

Stichprobe hauptsächlich aus Studenten unterschiedlicher Fachrichtungen zusammensetzte 

und sich bei den Probanden ein deutlich technikaffin ausgeprägtes Interesse zeigte. 

Die Stichprobe kann daher ausdrücklich nicht als repräsentativ bezeichnet werden 

und trifft insbesondere keine Aussagen für spezielle Personengruppen, die von multimodaler 

Interaktion unter Umständen besonders profitieren würden, wie z.B. Nutzer 

sehr geringen oder sehr hohen Alters, körperlich eingeschränkte Anwender, etc. 

Die in diesem Experiment verwendeten Aktionsmodalitäten, die sprachliche und 

die manuelle Interaktionsform, stellen insbesondere für den mobilen Anwendungsbereich 

eine zur Zeit besonders häufig eingesetzte multimodale Kombination dar. Darüber 

hinaus sind selbstverständlich zahlreiche weitere Aktionsmodalitäten denkbar (z.B. 

Gesteninteraktion, Tastenbedienung, etc.). Die Ergebnisse beziehen sich explizit auf die 

in dieser Untersuchung verwendeten Aktionsmodalitäten und halten einer direkten 

Übertragbarkeit auf eine andere Klassifikation (z.B. innovativer versus konservative 

62

Diskussion 

______________________________________________________________________________ 

Modalität) nicht stand. Wie bereits Vilimek (2007) feststellte, präsentieren multimodale 

Geräte immer den Einzelfall einer technischen Systemrealisierung und müssen daher 

auch separat evaluiert und auf Verwendbarkeit getestet werden. 

Bezüglich der abhängigen Variablen wäre es zum einen wünschenswert, subjektive 

Beanspruchungswerte durch objektivere Verfahren, wie z.B. Maße zur Herzfrequenzvariabilität, 

zu validieren (vgl. Nickel et al., 2002). Diese wären insbesondere für 

die Verwendung in zeitlich kurzen Untersuchungseinheiten von vielversprechendem 

Wert. Zum anderen erscheint es zukünftig zweckmäßig, den Bereich der Performanzmessung 

durch weitere objektive Maße des Nutzerverhaltens abzudecken. Die vorliegende 

Masterarbeit fokussierte aus Kapazitätsgründen ausschließlich auf die Modalitätenwahl 

und die prozentuale Nutzungshäufigkeit der Modalität Sprache. Darüber hinaus 

sind Maße, wie z.B. Bearbeitungszeiten (Task Completion Time), Reaktionszeitmessungen 

in spezifischen Dialogsituationen oder der Werte zum Tastendruck, mit dem eine 

manuelle Eingabe getätigt wird, von zusätzlichem Interesse. 

Abschließend sei kritisch auf das Versuchsdesign hingewiesen, in welchem eine 

vollständige Balancierung der Aufgabenreihenfolgen lediglich im ersten, jedoch nicht 

im zweiten Aufgabenblock umsetzte. Während für den ersten Block gewährleistet wurde, 

dass jede Aufgabe an jeder Stelle innerhalb des Versuchsablaufs gleich häufig vertreten 

war, erhielten Probanden im zweiten Aufgabenblock eine grundsätzlich andere, 

jedoch für alle Personen identische Reihenfolge (vgl. Anhang D.I). Zudem waren die 

Aufgaben im ersten und im zweiten Aufgabenblock identischen Inhalts. Vermutlich 

sind die mit der fehlenden Balancierung im zweiten Block verbundenden Auswirkungen 

auf die Modalitätenwahl und die Bewertungen eher gering, jedoch können sie an dieser 

Stelle nicht zweifelsfrei quantifiziert bzw. ausgeschlossen werden. Eine Alternative für 

die Optimierung des Versuchsaufbaus wäre es, zum einen auch für den zweiten Block 

eine Balancierung der Aufgaben vorzunehmen und zum anderen äquivalente Aufgaben 

zu konstruieren, deren Schwierigkeit und Komplexität nicht signifikant von den im ersten 

Block verwendeten Aufgaben abweicht. Dies würde maßgeblich dazu beitragen, 

Übertragungseffekte bei identisch verwendeten Aufgaben zukünftig zu reduzieren. 

63

Ausblick 

______________________________________________________________________________ 

8 Ausblick 

Es gibt nicht viele Konzepte im Bereich der Mensch-Technik-Interaktion, die 

wie die Multimodalität eine solch rasante Entwicklung durchlaufen haben und als Hoffnungsträger 

gehandelt werden, um Technik einfacher und natürlicher zu machen. Die 

vielen unterschiedlichen Innovationsmöglichkeiten, Systemausgaben auf der einen Seite 

wahrzunehmen und Systemeingaben auf der anderen Seite vorzunehmen, sind eine 

durchaus vielversprechende Begleiterscheinung, die es zukünftig einem noch breiteren 

Anwenderkreis möglich machen wird, mit Technik zu interagieren. Multimodalität erreicht 

diese Ziele allerdings nur, wenn sie unter dem Fokus einer menschzentrierten 

bzw. interaktionszentrierten Entwicklung von Technik beachtet und umgesetzt wird. 

Nur dann werden nicht nur Wettbewerbsvorteil am Markt gesichert, sondern auch positive 

Effekte langfristig für den Anwender nutzbar gemacht 

Mit der vorliegenden Arbeit wurde die Modalitätenwahl bei multimodaler Interaktion 

untersucht. Das Ziel lag darin, für eine spezielle Anwendungssituation Aussagen 

über den Einfluss verschiedener Faktoren auf das Nutzungsverhalten und subjektive 

Bewertungen zu treffen. Ein größerer Hintergrund der Arbeit liegt jedoch darin, die 

Untersuchungsergebnisse in die Resultate der bisherigen Versuchsreihe einzuordnen 

und somit Aussagen zur Modalitätenwahl zu verallgemeinern. Aus den gewonnen Daten 

soll unter Nutzung einer kognitiven Architektur ein Modell der Modalitätenwahl generiert 

und anschließend durch weitere Nutzertests validiert werden. Die Vorteile solcher 

Modellierungsansätze liegen klar auf der Hand: Zum einen erlauben sie ein tieferes Verständnis 

über die kognitiv ablaufenden Informationsverarbeitungsprozesse, die bei der 

Modalitätenwahl stattfinden, zum anderen lässt sich der Aufwand bei der erforderlichen 

Evaluation multimodaler Systeme zukünftig drastisch reduzieren, vorausgesetzt das 

Modell würde auch in neuen Situationen brauchbare Vorhersagen liefern. Gezielt untersucht 

werden könnten somit auch kleinere Veränderungen in der Systemgestaltung oder 

in der Abstimmung der verschiedenen Modalitäten. 

Der Ansatz der kognitiven Modellierung würde somit dem generellen Ziel von 

Multimodalität, Mensch-Technik-Interaktion ein Stück weit menschlicher und dadurch 

einfacher zu machen, gerecht werden. 

64

Literaturverzeichnis 

______________________________________________________________________________ 


Althoff, F., McGlaun, G. & Lang, M. (2001). Combining Multiple Input Modalities for 

Virtual Reality Navigation – A user study. In Proceedings of HCII 2001: 9 th International 

Conference on Human Computer Interaction. New Orleans, USA. 

Aula, A., Majaranta, P. and Räihä, K.-J. (2005). Eye-tracking Reveals the Personal 

Styles for Search Result Evaluation. Human-Computer Interaction - INTERACT 

2005, Lecture Notes in Computer Science. Heidelberg: Springer. (S. 1058-1061). 

Backhaus, K., Erichson, B., Plinke, W. & Weiber, R. (2011). Multivariate Analysemethoden. 

11. Auflage. Berlin: Springer Verlag. 

Baddeley, A.D. (1986). Working memory. Oxford, UK: Oxford University Press. 

Bates, R. & Istance, H.O. (2005). Towards eye based virtual environment interaction for 

users with high-level motor disabilities. International Journal of Disability & Human 

Development: The International Conference Series on Disability, Virtual Reality 

and Associated Technologies, 4(3), 161-169. 

Beuter, N. (2007). Gestenbasierte Positionsreferenzierung für die multimodale Interaktion 

mit einem anthropomorphen Robotersystem. Diplomarbeit im Fach Angewandte 

Informatik an der Technischen Universität Bielefeld. 

Bevan, N. (1995). Usability is Quality of Use. In Proceedings of the 6 th International 

Conference on Human Computer Interaction, Yokohama. Amsterdam: Elsevier. 

Bierbaum, C.R., Szabo, S.M. & Aldrich, T.B. (1987). A comprehensive task analysis oft 

he UH-60 mission with crew workload estimates and preliminary decision rules for 

developing a UH-60 workload prediction model (Technical Report ASI690-302- 

87[B], Vol. I., II, III, IV). Fort Rucker, AL. 

Bilici, V., Krahmer, E., te Riele, S. & Veldhuis, R. (2000). Preferred Modalities in Dialogue 

Systems, Proceedings of ICSLP2000, 727-730. 

Buxton, B. (2007). Sketching User Experience – Getting the Design Right and the Right 

Design. Toronto: Morgan Kaufmann Publishers. 

Card, S.K., Mackinlay, J.D. & Robertson, G.G. (1990). The design space of input devices, 

Proceedings of SIGCHI’90, ACM Press, 117-124. 

Charwat, H.J. (1994). Lexikon der Mensch-Maschine-Kommunikation (2. Auflage). 

München: Oldenbourg Verlag. 

Duffy, L. (1993). Team decision making biases: An information processing perspective. 

In: G.A. Klein, J. Orasanu, R. Calderwodd & C.E. Zsmabok (Hrsg.). Decision Making 

in Action: Models and Methods (S. 346-359). Norwood, NJ, Ablex. 

65


______________________________________________________________________________ 

Eilers, K., Nachreiner, F. & Hänecke, K. (1986). Entwicklung und Überprüfung einer 

Skala zur Erfassung subjektiv erlebter Anstrengung. Zeitschrift für Arbeitswissenschaft, 

40 (4), 215-224. 

Endsley, M.R. (1995). Toward a theory of situation awareness in dynamic systems. 

Human Factors, 37(1), 32-64. 

Engesser, H. (1993). Duden “Informatik” (2. Auflage). Mannheim: Duden Verlag. 

ETSI EG 202 191 (2003). Human Factors (HF); Multimodal interaction, communication 

and navigation guidelines. Sophia-Antipolis Cedex, France: ETSI. 

http://docbox.etsi.org/EC_Files/EC_Files/eg_202191v010101p.pdf vom 09.08.2012. 

Geiser, G. (1990) Mensch-Maschine-Kommunikation. München: Oldenbourg Verlag. 

Greening, L., Dollinger, S.J. & Pitz, G. (1996). Adolescents’ perceived risk and personal 

experience with natural disasters: An evaluation of cognitive heuristics. Acta 

Psychologica, 91, 27-38. 

Hassenzahl, M., Burmester, M. & Koller, F. (2003). AttrakDiff: Ein Fragebogen zur 

Messung wahrgenommener hedonischer und pragmatischer Qualität. In G. Szwillus 

& J. Ziegler (Hrsg.), Mensch & Computer 2003: Interaktion in Bewegung (S. 187- 

196). Stuttgart: B.G. Teubner. 

Hauptmann, A.G. (1989). Speech and gestures for graphic image manipulation. In: M. 

Helander (Hrsg.). Proceedings of ACM CHI ’89 Conference of Human Factors in 

Computing Systems. ACM Press (S. 241-245). 

Hedicke, V. (2000). Multimodalität in Mensch-Maschine-Schnittstellen (S. 203-232). 

In. K.P. Timpe, T. Jürgensohn & H. Kolrep (Hrsg.). Mensch-Maschine- 

Systemtechnik, 2. Auflage. Düsseldorf: Symposion Verlag. 

Hopkins, K.D. & Weeks, D.L. (1990). Tests for normality and measures of skewness 

and kurtosis: Their place in research reporting. Educational and Psychological 

Measurement, 50, 717-729. 

Hornbaek, K. (2006). Current practice in measuring usability: Challenges to usability 

studies and research. Journal of Human-Computer Studies, 64, 79-102. 

Hunt, M.J. (1990). Figures of Merit for Assessing Connected Word Recognisers. 

Speech Communication, 9, 239-336. 

ISO 9241-210 (2010). Ergonomics of human-computer interaction – Part 210: Humancentered 

design process for interactive systems. Geneva: International 

Standardiziation Organization (ISO). 

Iwata, H., Yano, I., Uemura, T. & Moriya, T. (2004). Food Simulator. A Haptic Interface 

for Biting. VR 2004: 51-58. 

66


______________________________________________________________________________ 

Jöckel, B. (2010). Ermittlung von Schwellenwerten für Modalitätenwechsel in multimodaler 

Mensch-Maschine-Interaktion. Masterarbeit im Studiengang Human Factors 

an der Technischen Universität Berlin. 

Jones, P.E. & Roelofsma, P.H.M.P. (2000). The potential for social contextual and 

group biases in team decision-making: biases, conditions and psychological 

mechanisms. Ergonomics, 43(8), 1129-1152. 

Jordan, P.W. (2000). Designing pleasurable products. London: Taylor & Francis. 

Jungermann, H., Pfister, H.R. & Fischer, K. (2005). Die Psychologie der Entscheidung 

(2. Auflage). Heidelberg: Spektrum Akademischer Verlag. 

Kahneman, D., Slovic, P. & Tversky, A. (1982). Jugdment under uncertainty: Heuristics 

and biases. Cambridge, New York. Cambridge University Press. 

Kahneman, D. & Tversky, A. (1972). Subjective probability: A judgment of representativeness. 

Cognitive Psychology, 3, 430-454. 

Kantowitz, B.H. & Campbell, J.L. (1996). Pilot workload and flight-deck automation. 

In: R. Parasuraman & M. Mouloua (Hrsg.). Automation and human performance: 

Theory and applications (S. 117-136). Lawrence Erlbaum: NJ. 

Kline, R.B. (1998). Structure equation modeling. New York: Guilford. 

Konerding, U. (2006). Theorie und Methoden zur Vorhersage und Erklärung von Verhalten 

aufgrund von Fragebogendaten. Habilitationsschrift an der Technischen 

Universität Berlin. 

Kreuzbauer, R. & Malter, A.J. (2005). Embodied cognition and new product design: 

Changing product form to influence brand categorization. In: Journal of Product Innovation 

Management, 22(5), 165-176. 

Kruger, J. & Dunning, D. (1999). Unskilled and unaware of it. How difficulties in recognizing 

one’s own incompetence lead to inflated self-assessments. Journal of Personality 

and Social Psychology, 77(6), 1121-1134. 

Liberman, A. & Trope, Y. (1996). Social hypothesis testing: Cognitive and motivational 

mechanisms. In E.T. Higgins & A.W. Kruglanski (Hrsg.). Social psychology: 

Handbook of basic principles (S. 239-270). New York: Guilford. 

Lochmatter, T., Raemy, X. & Martinoli, A. (2007). Geruchslokalisation mit mobilen 

Robotern. IT Business, 1/2007, 40-41. 

Luczak, H. (1998). Arbeitswissenschaft. 2. Auflage. Berlin: Springer Verlag. 

Mahlke, S. & Minge, M. (2008). Consideration of Multiple Components of Emotions in 

Human-Technology Interaction. In C. Peter & R. Beale (Hrsg.), Affect and Emotion 

in HCI, LNCS 4868. Berlin: Springer. 

67


______________________________________________________________________________ 

Martin, J.-C. (1998). Types of cooperation and referenceable objects: Implications on 

annotation schemas for multimodal language resources. Paper presented at the 

LREC 1000 pre-conference workshop, Athen, Griechenland. 

Maybury, M.T. & Stock, O. (1999). Multimedia Communication, including Text. In: E. 

Hovy, N. Ide, R. Frederking, J. Mariani & A. Zampolli (Hrsg.). Multilingual Information 

Management: Current Levels and Future Abilities. A study commissioned 

by the US National Science Foundation and also delivered to European Commission 

Language Engineering Office and the US Defense Advanced Research Projects 

Agency. 

McCrasken, J.H. & Aldrich, T.B. (1984). Analysis of selected LHX mission functions: 

workload. Proceedings of 34th conference on Winter simulation: exploring new 

frontiers, 157-162. 

Minge, M. (2011). Dynamische Aspekte des Nutzungserlebens der Interaktion mit technischen 

Systemen. Dissertation an der Fakultät V der Technischen Universität Berlin. 

Muthig, K.-P. (1990). Informationsaufnahme und Informationsverarbeitung. In: C.G. 

Hoyos & B. Zimolong (Hrsg.). Ingenieurpsychologie (S. 92-114). Göttingen: 

Hogrefe. 

Neuss, R. (2000). Usability Engineering als Ansatz zum Multimodalen Mensch- 

Maschine-Dialog. Dissertationsschrift an der Technischen Universität München. 

Nickel, P., Eilers, K., Seehase, L. & Nachreiner, F. (2002). Zur Reliabilität, Validität, 

Sensitivität und Diagnostizität von Herzfrequenz- und Herzfrequenzvariabilitätsmaßen 

als Indikatoren psychischer Beanspruchung. Zeitschrift für Arbeitswissenschaft, 

56(1), 22-36. 

Niedermeier,F.B. (2003). Entwicklung und Bewertung eines Rapid-Prototyping Ansatzes 

zur multimodalen Mensch-Maschine-Interaktion im Kraftfahrzeug. Genehmigte 

Dissertation der Fakultät für Elektrotechnik und Informationstechnik der Technischen 

Universität München. 

Nigay, L. & Courtaz, J. (1993). A design space for multimodal systems – concurrent 

processing and data fusion (S. 172-178). In: INTERCHI ’93, Proceedings of the 

Conference on Human Factors and Computing Systems. New York: ACM Press. 

Nigay, L., Jambon, F. & Coutaz, J. (1995). Formal specification of multimodality. Paper 

presented at the CHI’95 workshop on formal specification of user interfaces, Denver, 

Colorado. 

Norman, D.A. (1990). The ‘problem‘ with automation: Inappropriate feedback and interaction, 

not ‘over-automation’. In: D.E. Broadbent, J. Reason & A.D. Baddeley 

(Hrsg.). Human factors in hazardous situations (S. 137-145). New York: Clarendon 

Press. 

68


______________________________________________________________________________ 

Orasanu, J., & Fischer, U. (1997). Finding decisions in natural environments: The view 

from the cockpit. In C. Zsambok & G. Klein (Eds.). Naturalistic Decision Making 

(pp. 343-357). Hillsdale, NJ: Erlbaum. 

Ostermann, T. (2010). Das Streben nach Konsistenz im Entscheidungsprozess. Eine 

Untersuchung möglicher Enflussfaktoren. Dissertation an der Erziehungswissenschaftlichen 

Fakultät der Universität Erfurt. 

Oviatt, S.L. (1996). Multimodal Interfaces for Dynamic Interactive Maps. In Proceedings 

of CHI ’96: Conference of Human Factors in Computing Systems (New York, 

USA). ACM Press (S. 415-422). 

Oviatt, S.L. (1999). Ten myths of multimodal interaction. Communications of the ACM, 

42(11), 74-81. 

Perakakis, M. & Potamianos, A. (2008). Multimodal system evaluation using modality 

efficiency and synergy metrics. Proceedings of ICMI’08, ACM Press, 9-16. 

Previc, F. H. (1998). The neuropsychology of 3-D space. Psychological Bulletin, 124, 

123–164. 

Rasmussen, J., & Rouse, W. (1981). Human Detection and Diagnosis of System Failures. 

New York: Plenum Press. 

Reder, L. M. (1988). Strategic control of retrieval strategies. The Psychology of Learning 

and Motivation, 22, 227-259. 

Roetting, M. & Seifert, K. (2005). Multimodale Mensch-Maschine Interaktion (S. 283- 

300). In: K. Karrer, B. Gauss & C. Steffens (Hrsg.). Beiträge zur Mensch-Maschine- 

Systemtechnik. Düsseldorf: Symposion Verlag. 

Rohs, M. (2009). Mobile and Physical Interaction. Skriptum zur Vorlesung am Institut 

für Softwaretechnik und Theoretische Informatik der Technischen Universität Berlin. 

Rudnicky, A.I. (1993). Mode preference in a simple data-retrieval task. Proceedings of 

the workshop on Human Language Technology (SLT 2010,. Stroudsberg, PA, 364- 

369. 

Schaffer, S., Jöckel, B., Wechsung, I., Schleicher, R. & Möller, S. (2011a). Modality 

Selection and Perceived Mental Effort in a Mobile Application. Proc. 12th Ann. 

Conf. of the Int. Speech Communication Assoc. (Interspeech 2011). International 

Speech Communication Association (ISCA), 2253-2256. 

Schaffer, S. & Reitter, D. (2012). Modeling Efficiency-guided Modality Choice in 

Voice and Graphical User Interfaces. Proceedings of ICCM 2012, Berlin, 253-254. 

Schaffer, S., Schleicher, R. & Möller, S. (2011b). Measuring Cognitive Load for different 

Input Modalities. 9. Berliner Werkstatt Mensch-Maschine-Systeme. VDI Verlag, 

287-292. 

69


______________________________________________________________________________ 

Schmid, U. & Kindsmüller, M.C. (1996). Kognitive Modellierung. Eine Einführung in 

die logischen und algorithmischen Grundlagen. Heidelberg: Spektrum Akademischer 

Verlag. 

Schomaker, L., Nijtmans, J., Camurri, A., Lavagetto, F., Morasso, P., Benoît, C., 

Guiard-Marigny, T., le Goff, B., Robert-Ribes, J., Adjoudani, A., Defée, I., Münch, 

S., Hartung, K. & Blauert, J. (1995). A taxonomy of multimodal interaction in the 

human information processing system. Multimodal integration for advanced multimedia 

interfaces (Report of the Esprit Project 8579 MIAMI No. WP 1). Nijmegen, 

Netherlands: University of Nijmegen. 

Spence, C., Nicholls, M.E. & Driver, J. (2001). The cost of expecting events in the 

wrong sensory modality. Perception & Psychophysics, 63(2), 330-336. 

Streitz, N.A. (1990). Psychologische Aspekte der Mensch-Computer-Interaktion (S. 

240-284). In: C. Graf Hoyos (Hrsg.). Enzyklopädie der Psychologie. Ingenieurpsychologie, 

D/III/2. Göttingen: Verlag für Psychologie, Hogrefe. 

Suhm, B., Myers, B. & Waibel, A. (1999). Model-based and empirical evaluation of 

multimodal interactive error correction, Proceedings of CHI’99, ACM Press, 123- 

133. 

Technoplus GmbH (2012). Geruchssensor. Innovative Technologien. http://www. technoplus-gmbh.de/pdf/Produktblatt_tp_geruchssensor2_hg.pdf 

vom 09.08.2012. 

Thomas, C. & Curson, I. (1996). Performance measurement handbook, 3. Auflage. National 

Physical Laboratory. Teddington, UK. 

Timpe, K.-P. & Kolrep, H. (2000). Das Mensch-Maschine-System als interdisziplinärer 

Gegenstand (S. 9-40). In: K.-P. Timpe, T. Jürgensohn & H. Kolrep (Hrsg.). Mensch- 

Maschine-Systemtechnik, 2. Auflage. Düsseldorf: Symposion Verlag. 

Tinsley , H.E.A. & Brown, S.D. (2000). Handbook of Applied Multivariate Statistics 

and Mathematical Modelling. San Diego: Academic Press. 

Tversky, A. & Kahneman, D. (1973). Availability: A heuristic for judging frequency 

and probability. Cognitive Psychology, 42, 207-232. 

Tversky, A. & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and biases. 

Science, 185, 1124-1131. 

Tversky, A. & Kahneman, D. (1992). Advances in prospect theory: Cumulative representation 

of uncertainty. In: D. Kahneman & A. Tversky (Hrsg.). Choices, values, 

and frames (S. 44-66). Cambridge: Cambridge University Press. 

Vilimek, R. (2007). Gestaltungsaspekte multimodaler Interaktion im Fahrzeug. Ein Beitrag 

aus ingenieurpsychologischer Perspektive. Inaugural-Dissertation an der Universität 

Regensburg. 

70


______________________________________________________________________________ 

Vo, M.T. & Waibel, A. (1993). Multimodal Human-Computer Interaction. In: Proceedings 

of ISSD’93: International Symposium on Spoken Dialogue: New Directions in 

Human and ManMachine Communication (Tokyo), 95-101. 

Walpow, J. & Winter Walpow, E. (2012). Brain-Computer Interfaces. Principles and 

Practices. Oxford: Oxford University Press. 

Wechsung, I., Engelbrecht, K.-P., Naumann, A., Möller, S., Schaffer, S. & Schleicher, 

R. (2010). Investigating Modality Selection Strategies. Workshop on Spoken Language 

Technology (SLT). 

Weidenmann, B. (1995). Multicodierung und Multimodalität im Lernprozess. In: L.J. 

Issing & P. Klimsa (Hrsg.). Informationen und Lernen mit Multimedia. Weinheim: 

Psychologische Verlagsunion. 

Wickens, C.D. (2002). Multiple ressources and performance prediction. Theoretical 

Issues in Ergonomics Science, 3(2), 159-177. 

Wickens, C.D. & Hollands, J.G. (2000). Engineering psychology and human performance 

(3rd edition). Upper Saddle River, NJ: Prentice Hall. 

Zajonc, R. (1968). Attitudinal Effects of Mere Exposure. Journal of Personality and 

Social Psychology, (9)2, 1–27. 

Zsambok, C.E. (1997). Naturalistic Decision Making: Where are we now? In: C.E. 

Zsmabok & G.A. Klein (Hrsg.). Naturalistic Decision Making (S. 3-16). Mahwah: 

Lawrence Erlbaum. 

71

Anhang 

______________________________________________________________________________ 

Anhang 

A 

Einverständniserklärung 

Einverständniserklärung 

Hiermit erkläre ich mich einverstanden, an der Studie 

Restaurantbuchungssystem 

teilzunehmen. Für meine Teilnahme erhalte ich eine Vergütung von 10 €. 

Die in diesem Zusammenhang erhobenen Daten werden aufgezeichnet, in anonymisierter Form 

gespeichert und zu wissenschaftlichen Zwecken ausgewertet. 

Meine Daten werden streng vertraulich behandelt und können nur von entsprechend autorisierten 

Personen eingesehen werden. 

Meine Teilnahme an der Studie erfolgt freiwillig. 

Mir ist bewusst, dass ich die Studie zu jedem Zeitpunkt abbrechen kann. In diesem Fall verliere 

ich jedoch den Anspruch auf die oben genannte Vergütung. 

________________________ 

Ort, Datum 

_________________________________ 

Unterschrift 

72

Anhang 

______________________________________________________________________________ 

B 

Instruktionen 

Herzlich Willkommen! Vielen Dank, dass Sie sich die Zeit für diese Untersuchung nehmen. 

Sie werden heute den mobilen Prototypen eines Restaurantbuchungssystems testen. Mit diesem 

Prototypen können Sie online einen Tisch in einem bestimmten Restaurant reservieren. 

Die Suche nach einem Restaurant erfolgt über folgende vier Kriterien: 

o 

o 

o 

o 

die Stadt, in der ein Restaurant liegen soll (z.B. Berlin) 

die Kategorie des Restaurants (z.B. italienisch) 

die Uhrzeit, zu der ein Tisch gewünscht wird (z.B. 18:00 Uhr) und 

die Anzahl der Personen, für die ein Tisch benötigt wird (z.B. zwei Personen). 

Für den Test geben wir Ihnen zwei Blöcke mit je 12 Bedienaufgaben vor, die Ihnen einzeln auf 

dem Bildschirm präsentiert werden. Jede Aufgabe nennt Ihnen die jeweiligen Eingaben, die Sie 

für eine Restaurantsuche vornehmen sollen, z.B. „ein Restaurant mit italienischer Küche in Berlin 

um 18:00 Uhr für zwei Personen“. 

Nach jeder Aufgabe werden Sie die Interaktion auf einem kurzen Fragebogen bewerten. 

Die Bedienung des Prototypen erfolgt wahlweise über Touchscreen oder über Sprache. Sie 

selbst entscheiden, wie sie das System bedienen möchten, und Sie können jederzeit – auch 

innerhalb einer Restaurantsuche – zwischen den Eingabeformen wechseln. 

Zur Eingabe über Touchscreen klicken Sie bitte mit dem Finger auf die entsprechenden Buttons 

im Display des Prototypen (siehe Startbildschirm in Abbildung 1). 

Die Bedienung über Spracherkennung erfolgt mittels Sprachkommandos, die im Wesentlichen 

den Displaybeschriftungen entsprechen, z.B. „Stadt auswählen“, „Berlin“ oder „Restaurant suchen“. 

Bitte beachten Sie bei der Spracherkennung, dass Sie auf dem Startbildschirm (Abbildung 1) 

zunächst das jeweilige Kriterium nennen müssen, das Sie auswählen möchten (also z.B. „Stadt 

auswählen“), bevor Sie die eigentliche Eingabe, z.B. „Mannheim“ direkt nennen können. Das 

gleiche gilt für die anderen drei Kriterien Kategorie, Uhrzeit und Personenanzahl. 

. 

Abbildung 1: Startbildschirm des Prototypen 

Haben Sie alle vier Kriterien erfolgreich eingegeben, schicken Sie bitte eine Reservierungsanfrage 

über „Restaurant suchen“ ab. Damit ist eine Testaufgabe erledigt. 

Sie werden die Bedienung des Prototypen nun zunächst an einigen Beispielaufgaben kennenlernen. 

Haben Sie vorab noch Fragen zum Versuch oder zur Bedienung? 

73

Anhang 

______________________________________________________________________________ 

C 

Aufgaben und Aufgabenkonstruktion 

I. Trainingsaufgaben 

Aufgabe 1 

Aufgabe 2 

„Suchen Sie ein Fischrestaurant in Kiel ab 20:00 Uhr für 10 Personen.“ 

Bearbeitung erfolgte unimodal nur über den Touchscreen. 

„Suchen Sie ein Sushi-Restaurant in Wiesbaden ab 21:00 Uhr für 2 Personen.“ 

Bearbeitung erfolgte unimodal nur über die Spracherkennung. 

Aufgabe 3 „Suchen Sie ein orientalisches Restaurant in Dortmund ab 13:00 Uhr für 18 

Personen.“ 

Bearbeitung erfolgte multimodal nach individueller Präferenz und jederzeitiger 

Wahlmöglichkeit zwischen Touchscreen und Spracherkennung 

II. 

Aufgaben des Hauptversuchs 

No. Aufgabe Listentiefe 

„Stadt“ 

Listentiefe 

„Kategorie“ 

Listentiefe 

„Uhrzeit“ 

Listentiefe 

„Personen“ 

1 „Suchen Sie ein Restaurant mit 

amerikanischer Küche in Freiburg 1 2 3 4 

ab 16:00 Uhr für 13 Personen.“ 


griechischer Küche in Erfurt 

3 3 3 3 



mediterraner Küche in Bremen 5 1 6 2 



chinesischer Küche in Dortmund 2 2 2 2 



indischer Küche in München 

3 5 4 6 



portugiesischer Küche in Stuttgart 6 6 6 6 


7 „Suchen Sie ein Restaurant japanischer 

Küche in Düsseldorf 

4 2 3 1 



brasilianischer Küche in Augsburg 1 1 1 1 



deutscher Küche in Rostock 

2 6 1 5 



italienischer Küche in Köln 

4 4 4 4 



russischer Küche in Hannover 6 5 4 3 



mexikanischer Küche in Leipzig 


5 5 5 5 

Grau unterlegte Zeilen präsentieren die sechs „subaufgabenkonsistenten Hauptaufgaben“, in 

denen die Listentiefe also für alle vier Subaufgaben identisch ist. 

74

Anhang 

______________________________________________________________________________ 

D 

Balancierung der Aufgabenreihenfolgen 

I. Aufgabenblock 1 

Versuchsbedingung: 

Touch einwandfrei (T+) / Sprache einwandfrei (S+) 

VP01 1 3 5 7 9 11 12 10 8 6 4 2 

VP02 3 5 7 9 11 12 10 8 6 4 2 1 

VP03 5 7 9 11 12 10 8 6 4 2 1 3 

VP04 7 9 11 12 10 8 6 4 2 1 3 5 

VP05 9 11 12 10 8 6 4 2 1 3 5 7 

VP06 11 12 10 8 6 4 2 1 3 5 7 9 

VP07 12 10 8 6 4 2 1 3 5 7 9 11 

VP08 10 8 6 4 2 1 3 5 7 9 11 12 

VP09 8 6 4 2 1 3 5 7 9 11 12 10 

VP10 6 4 2 1 3 5 7 9 11 12 10 8 

VP11 4 2 1 3 5 7 9 11 12 10 8 6 

VP12 2 1 3 5 7 9 11 12 10 8 6 4 


Touch fehlerbehaftet (T-) / Sprache einwandfrei (S+) 

VP13 1 3 5 7 9 11 12 10 8 6 4 2 

VP14 3 5 7 9 11 12 10 8 6 4 2 1 

VP15 5 7 9 11 12 10 8 6 4 2 1 3 

VP16 7 9 11 12 10 8 6 4 2 1 3 5 

VP17 9 11 12 10 8 6 4 2 1 3 5 7 

VP18 11 12 10 8 6 4 2 1 3 5 7 9 

VP19 12 10 8 6 4 2 1 3 5 7 9 11 

VP20 10 8 6 4 2 1 3 5 7 9 11 12 

VP21 8 6 4 2 1 3 5 7 9 11 12 10 

VP22 6 4 2 1 3 5 7 9 11 12 10 8 

VP23 4 2 1 3 5 7 9 11 12 10 8 6 

VP24 2 1 3 5 7 9 11 12 10 8 6 4 

75

Anhang 

______________________________________________________________________________ 


Touch einwandfrei (T+) / Sprache fehlerbehaftet (S-) 

VP25 1 3 5 7 9 11 12 10 8 6 4 2 

VP26 3 5 7 9 11 12 10 8 6 4 2 1 

VP27 5 7 9 11 12 10 8 6 4 2 1 3 

VP28 7 9 11 12 10 8 6 4 2 1 3 5 

VP29 9 11 12 10 8 6 4 2 1 3 5 7 

VP30 11 12 10 8 6 4 2 1 3 5 7 9 

VP31 12 10 8 6 4 2 1 3 5 7 9 11 

VP32 10 8 6 4 2 1 3 5 7 9 11 12 

VP33 8 6 4 2 1 3 5 7 9 11 12 10 

VP34 6 4 2 1 3 5 7 9 11 12 10 8 

VP35 4 2 1 3 5 7 9 11 12 10 8 6 

VP36 2 1 3 5 7 9 11 12 10 8 6 4 


Touch fehlerbehaftet (T-) / Sprache fehlerbehaftet (S-) 

VP37 1 3 5 7 9 11 12 10 8 6 4 2 

VP38 3 5 7 9 11 12 10 8 6 4 2 1 

VP39 5 7 9 11 12 10 8 6 4 2 1 3 

VP40 7 9 11 12 10 8 6 4 2 1 3 5 

VP41 9 11 12 10 8 6 4 2 1 3 5 7 

VP42 11 12 10 8 6 4 2 1 3 5 7 9 

VP43 12 10 8 6 4 2 1 3 5 7 9 11 

VP44 10 8 6 4 2 1 3 5 7 9 11 12 

VP45 8 6 4 2 1 3 5 7 9 11 12 10 

VP46 6 4 2 1 3 5 7 9 11 12 10 8 

VP47 4 2 1 3 5 7 9 11 12 10 8 6 

VP48 2 1 3 5 7 9 11 12 10 8 6 4 

II. Aufgabenblock 2 

alle 

VPn 

11 9 7 5 3 1 12 2 4 6 8 10 

76

Anhang 

______________________________________________________________________________ 

E 

Fragebögen 

I. Soziodemografie 

Geschlecht: O weiblich O männlich 

Alter: _________________________________________ 

Beruf (wenn Student, mit Fachrichtung): __________________________________________ 

Haben Sie in der Vergangenheit bei Versuchen mit Sprachsteuerungssystemen 

teilgenommen? 

O 

O 

ja 

nein 

Besitzen Sie ein Handy mit Touchscreen Funktionalität? O ja 

O nein 

Wie oft nutzen Sie Touchscreen Eingabesysteme (z.B. 

Smartphones, Fahrkartenautomaten, Bankautomaten, u.ä.)? 

O 

O 

O 

O 

täglich 

wöchentlich 

seltener 

nie 

Hat ihr Handy eine Sprachfunktion? O ja 

O nein 

Wenn ja, benutzen Sie diese? O immer 

O oft 

O selten 

O nie 

Sprechen Sie auf Anrufbeantworter/Mailboxes? O immer 

O oft 

O selten 

O nie 

Haben Sie Erfahrungen mit Sprachdialogsystemen/Spracheingabesystemen? 

(z.B. automatische Hotlines der Bahn, von Versicherungen, 

Telefonanbietern, Navi-Eingabe über Sprache u.ä.) 

O 

O 

ja 

nein 

Wie oft nutzen Sie Sprachdialogsysteme? O täglich 

O wöchentlich 

O seltener 

O nie 

77

Anhang 

______________________________________________________________________________ 

II. 

Skala zur subjektiv erlebten Anstrengung (SEA) 

Beanspruchungshöhe 

Bitte kreuzen Sie auf der folgenden Skala Ihre Gesamtbewertung für die gerade absolvierte 

Aufgabe an. 

78

Anhang 

______________________________________________________________________________ 

III. 

Bewertung der wahrgenommenen Produktqualitäten (AttrakDiff) 

Nachfolgend finden Sie einige Wortpaare, mit deren Hilfe Sie das System bewerten können. Die 

Wortpaare stellen jeweils extreme Gegensätze dar, zwischen denen eine Abstufung möglich ist. 

Zum Beispiel: 

unsympathisch 

 

sympathisch 

Diese Bewertung bedeutet, dass das System eher sympathisch, aber noch verbesserungsbedürftig 

ist. 

Denken Sie nicht lange über die Wortpaare nach, sondern geben Sie bitte die Einschätzung ab, 

die Ihnen spontan in den Sinn kommt. Vielleicht passen einige Wortpaare nicht so gut auf das 

System kreuzen Sie aber trotzdem bitte immer eine Antwort an. Denken Sie daran, dass es 

keine "richtigen" oder "falschen" Antworten gibt - nur Ihre persönliche Meinung zählt! 

menschlich 

isolierend 

angenehm 

originell 

einfach 

fachmännisch 

hässlich 

praktisch 

sympathisch 

umständlich 

stilvoll 

voraussagbar 

minderwertig 

ausgrenzend 

nicht vorzeigbar 

zurückweisend 

phantasielos 

gut 

verwirrend 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

technisch 

verbindend 

unangenehm 

konventionell 

kompliziert 

laienhaft 

schön 

unpraktisch 

unsympathisch 

direkt 

stillos 

unberechenbar 

wertvoll 

einbeziehend 

vorzeigbar 

einladend 

kreativ 

schlecht 

übersichtlich 

79

Anhang 

______________________________________________________________________________ 

abstoßend 

mutig 

innovativ 

lahm 

bringt mich Leuten 

näher 

motivierend 

neuartig 

widerspenstig 

harmlos 

 

 

 

 

 

 

 

 

 

anziehend 

vorsichtig 

konservativ 

fesselnd 

trennt mich von 

Leuten 

entmutigend 

herkömmlich 

handhabbar 

herausfordernd 

80

Anhang 

______________________________________________________________________________ 

F 

Prüfung der statistischen Voraussetzungen 

I. Verteilungsform der abhängigen Variablen 

Kennwerte zur Prüfung der Verteilungsform der abhängigen Variablen. Angegeben sind die deskriptiven 

Kennwerte der Verteilungen sowie die Größen zur Prüfung der Normalverteilung anhand des 

Shapiro-Wilk-Tests; * p < .05. 

abhängige Variable M s Schiefe Kurtosis Shapiro- 

Sprache auf Startseite, Block 1 .55 0.32 -0.40 -0.89 .928 48 .006* 

Sprache Listentiefe 1, Block 1 .58 0.36 -0.18 -1.49 .878 48 < .000* 

Sprache Listentiefe 2, Block 1 .76 0.30 -1.30 0.61 .776 48 < .000* 





SEA Listentiefe 1, Block 1 23.65 26.25 2.58 9.64 .761 48 < .000* 






Pragmatik, Block 1 5.54 0.87 -1.27 2.79 .909 48 .001* 

Identifikation, Block 1 4.60 0.93 -0.65 0.47 .957 48 .077* 

Stimulation, Block 1 4.54 0.88 -0.35 -0.09 .983 48 .706* 

Attraktivität, Block 1 5.23 0.96 -1.04 1.19 .926 48 .005* 

Sprache auf Startseite, Block 2 .55 0.36 -0.36 -1.28 .891 48 < .000* 

Sprache Listentiefe 1, Block 2 .56 0.37 -0.19 -1.45 .879 48 < .000* 












Pragmatik, Block 2 5.58 0.86 -1.09 0.96 .906 48 .001* 

Identifikation, Block 2 4.54 0.92 -0.53 0.15 .972 48 .315* 

Stimulation, Block 2 4.63 0.85 -0.33 -0.12 .979 48 .541* 

Attraktivität, Block 2 5.22 0.92 -.094 0.77 .932 48 .008* 

Wilk 

df 

p 

81

Anhang 

______________________________________________________________________________ 

II. 

Homogenität der Fehlervarianzen (Levene-Test) 

Levene-Tests zur Prüfung der Varianzhomogenität; * p < .05. 

Quelle der Varianz F df1 df2 p 

Sprache auf Startseite, Block 1 2.352 3 44 .085 

Sprache auf Startseite, Block 2 3.425 3 44 .025* 

Sprache Listentiefe 1, Block 1 1.462 3 44 .238 

Sprache Listentiefe 2, Block 1 7.481 3 44 .000* 











SEA Listentiefe 1, Block 1 2.561 3 44 .067 

SEA Listentiefe 2, Block 1 5.308 3 44 .003* 











Pragmatik, Block 1 1.297 3 44 .287 

Identifikation, Block 1 2.814 3 44 .050 

Stimulation, Block 1 0.598 3 44 .620 

Attraktivität, Block 1 2.268 3 44 .094 

Pragmatik, Block 2 2.556 3 44 .067 

Identifikation, Block 2 3.674 3 44 .019* 

Stimulation, Block 2 3.290 3 44 .029* 

Attraktivität, Block 2 4.410 3 44 .009* 

82

Anhang 

______________________________________________________________________________ 

G 

Deskriptive Ergebnisse 

I. Sprachnutzung auf der Startseite 

Mittelwerte und Standardabweichungen der relativen Häufigkeit von Sprachnutzung auf der 

Startseite. 



Touchfehler (T-) keine Touchfehler (T+) Touchfehler (T-) keine Touchfehler (T+) 

M s M s M s M s 

Block 1 .67 0.21 .75 0.25 .31 0.34 .48 0.29 

Block 2 .70 0.19 .77 0.26 .25 0.35 .49 0.37 

II. 

Sprachnutzung auf dem jeweils ersten Listenbildschirm 

Mittelwerte und Standardabweichungen der relativen Häufigkeit von Sprachnutzung auf dem jeweils 

ersten Listenbildschirm einer Subaufgabe im ersten Aufgabenblock. 


Touchfehler (T-) keine Touchfehler (T+) 




Listentiefe 1 .71 0.25 .84 0.24 .37 0.34 .39 0.37 

Listentiefe 2 .88 0.16 .90 0.19 .72 0.29 .55 0.40 

Listentiefe 3 .96 0.08 .89 0.22 .71 0.25 .68 0.37 

Listentiefe 4 .94 0.14 .93 0.16 .80 0.29 .74 0.33 

Listentiefe 5 .95 0.14 .87 0.25 .73 0.33 .79 0.32 

Listentiefe 6 .92 0.18 .97 0.11 .86 0.30 .69 0.35 

Mittelwerte und Standardabweichungen der relativen Häufigkeit von Sprachnutzung auf dem jeweils 

ersten Listenbildschirm einer Subaufgabe im zweiten Aufgabenblock. 






Listentiefe 1 .67 0.26 .80 0.29 .37 0.30 .42 0.46 

Listentiefe 2 .87 0.22 .90 0.18 .75 0.34 .59 0.42 

Listentiefe 3 .99 0.03 .94 0.12 .88 0.28 .71 0.34 

Listentiefe 4 .94 0.16 .97 0.15 .85 0.31 .81 0.31 

Listentiefe 5 .95 0.11 1.00 0.13 .86 0.29 .78 0.29 

Listentiefe 6 .96 0.06 .96 0.18 .90 0.29 .85 0.29 

83

Anhang 

______________________________________________________________________________ 

III. 

SEA-Werte auf dem jeweils ersten Listenbildschirm 

Mittelwerte und Standardabweichungen der subjektiv erlebten Anstrengung (SEA) im ersten Aufgabenblock. 

Anmerkungen: Die Skala reicht von [0-220]. 





Listentiefe 1 35.25 40.60 14.25 11.53 28.75 23.74 16.33 16.44 

Listentiefe 2 46.42 34.14 19.67 15.83 31.75 30.27 11.50 11.11 

Listentiefe 3 50.50 31.70 14.08 11.58 20.17 14.60 17.25 24.29 

Listentiefe 4 47.33 43.97 14.50 12.09 24.25 19.96 8.42 8.12 

Listentiefe 5 44.42 31.70 16.67 12.92 27.25 23.29 17.92 20.44 

Listentiefe 6 39.92 28.74 9.58 8.70 22.42 18.54 19.50 19.39 

Mittelwerte und Standardabweichungen der subjektiv erlebten Anstrengung (SEA) im zweiten 

Aufgabenblock. Anmerkungen: Die Skala reicht von [0-220]. 





Listentiefe 1 37.83 31.51 12.33 11.53 29.25 28.96 10.08 19.26 

Listentiefe 2 41.33 24.90 13.17 11.15 17.67 16.29 10.67 12.20 

Listentiefe 3 30.83 17.94 12.75 11.15 9.75 13.73 6.58 7.45 

Listentiefe 4 34.25 22.57 15.33 11.70 18.25 14.21 10.58 14.12 

Listentiefe 5 35.33 32.43 10.42 9.85 18.25 19.41 8.17 11.61 

Listentiefe 6 43.50 27.56 13.08 11.63 18.83 16.29 6.92 12.07 

84

Anhang 

______________________________________________________________________________ 

IV. 

Wahrgenommene Produktqualitäten (AttrakDiff) 

Mittelwerte und Standardabweichungen des AttrakDiff nach dem ersten Aufgabenblock. Anmerkungen: 

Das semantische Differential reicht von [-3] bis [3]. 




M s M s M s M SD 

Pragmatik 0.90 0.71 2.13 0.44 1.39 1.12 1.75 .60 

Identifikation 0.19 0.95 1.01 0.55 0.37 1.20 0.84 .76 

Stimulation 0.79 0.78 0.31 0.73 0.24 1.08 0.83 .84 

Attraktivität 0.81 1.22 1.67 0.54 1.15 1.12 1.30 .71 

Mittelwerte und Standardabweichungen des AttrakDiff nach dem zweiten Aufgabenblock. Anmerkungen: 

Das semantische Differential reicht von [-3] bis [3]. 




M SD M SD M SD M SD 

Pragmatik 4.90 .89 6.15 .43 5.50 .97 5.77 .57 

Identifikation 4.26 .94 4.88 .45 4.34 1.14 4.69 .96 

Stimulation 4.81 .82 4.45 .60 4.34 1.21 4.90 .62 

Attraktivität 4.77 1.10 5.67 .30 5.12 1.14 5.32 .76 

85

Anhang 

______________________________________________________________________________ 

H Inferenzstatistische Ergebnisse 

I. Wahrgenommene Produktqualitäten (AttrakDiff) 

2x2x2 Varianzanalyse zur Pragmatischen Qualität; (*) p < .1; * p < .05; ** p < .01. 


Spracherkennung (S) - between 13.768 1 44 .001** .238 

Toucherkennung (T) - between 0.147 1 44 .703** .003 

Aufgabenblock (B) - within 0.400 1 44 .531** .009 

S x T 4.856 1 44 .033** .099 

S x B 0.059 1 44 .809** .001 

T x B 0.192 1 44 .664** .004 

S x T x B 0.192 1 44 .664** .004 

2x2x2 Varianzanalyse zur Hedonischen Qualität: Identifikation; (*) p < .1; * p < .05; ** p < .01. 





S x T 0.371 1 44 .546** .008 

S x B 2.016 1 44 .163** .044 

T x B 0.257 1 44 .615** .006 

S x T x B 0.093 1 44 .762** .002 

2x2x2 Varianzanalyse zur Hedonischen Qualität: Stimulation; (*) p < .1; * p < .05; ** p < .01. 





S x T 4.259 1 44 .045** .088 

S x B 0.128 1 44 .722** .003 

T x B 0.003 1 44 .959** .000 

S x T x B 0.441 1 44 .510** .010 

2x2x2 Varianzanalyse zur Attraktivität; (*) p < .1; * p < .05; ** p < .01. 


Spracherkennung (S) - between 4.093 1 44 .049* .085 

Toucherkennung (T) - between 0.001 1 44 .982* .000 

Aufgabenblock (B) - within 0.052 1 44 .820* .001 

S x T 1.840 1 44 .182* .040 

S x B 0.209 1 44 .649* .005 

T x B 0.013 1 44 .909* .000 

S x T x B 0.013 1 44 .909* .000 

86

Modalitätenwahl bei multimodaler Interaktion. - Graduiertenkolleg ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?