25.02.2013 Aufrufe

Usability Testing - Theorien, Modelle und Methoden - Institut für ...

Usability Testing - Theorien, Modelle und Methoden - Institut für ...

Usability Testing - Theorien, Modelle und Methoden - Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Westfälische Wilhelms-Universität Münster<br />

Ausarbeitung<br />

<strong>Usability</strong> <strong>Testing</strong> - <strong>Theorien</strong>, <strong>Modelle</strong><br />

<strong>und</strong> <strong>Methoden</strong> der Softwareevaluation<br />

im Rahmen des Seminars Software Management<br />

Themensteller: Prof. Dr. Herbert Kuchen<br />

Betreuerin: Susanne Gruttmann<br />

<strong>Institut</strong> <strong>für</strong> Wirtschaftsinformatik<br />

Praktische Informatik in der Wirtschaft<br />

Andreas Simon


Inhaltsverzeichnis<br />

1 Motivation <strong>und</strong> Überblick ............................................................................................ 3<br />

2 <strong>Theorien</strong> <strong>und</strong> <strong>Modelle</strong> der Softwareevaluation ............................................................ 5<br />

2.1 Ein <strong>Usability</strong>-Referenz-Modell ............................................................................. 5<br />

2.2 Die Theorie des explorativen Lernens .................................................................. 8<br />

3 <strong>Methoden</strong> der Softwareevaluation ............................................................................. 10<br />

3.1 Analytische Evaluationsmethoden ...................................................................... 10<br />

3.2 Vorbereitung eines empirischen <strong>Usability</strong>-Tests ................................................ 13<br />

3.3 Befragungen ........................................................................................................ 14<br />

3.4 Ausführungsmetriken .......................................................................................... 18<br />

3.5 Verhaltensmetriken <strong>und</strong> physiologogische Metriken ......................................... 20<br />

4 Fazit ............................................................................................................................ 25<br />

Literaturverzeichnis ........................................................................................................ 26<br />

II


Kapitel 1: Motivation <strong>und</strong> Überblick<br />

1 Motivation <strong>und</strong> Überblick<br />

<strong>Usability</strong> hat sich in den vergangenen Jahren zu einem zentralen Schlagwort bei der<br />

Gestaltung von Anwendungen entwickelt. Häufig bieten die bestehenden Systeme<br />

nämlich bereits die zur Aufgabenerfüllung notwendigen Funktionalitäten, sie können<br />

jedoch nicht von den Anwendern genutzt werden, da die Funktionalitäten kompliziert<br />

zu bedienen oder aufzufinden sind. Aus solchen Problemen können wirtschaftliche<br />

Nachteile entstehen. Beispielsweise kann eine komplizierte Bedienung die <strong>für</strong> die<br />

Bearbeitung einer Aufgabe notwendige Zeit sehr lang machen [TA08]. Durch eine<br />

<strong>Usability</strong>-Verbesserung ließe sich also die Bearbeitungszeit verkürzen, was sich in<br />

Form von Kostensenkungen <strong>für</strong> das betroffene Unternehmen auszahlt.<br />

<strong>Usability</strong> kann sogar erfolgsentscheidend <strong>für</strong> eine Website sein. Wenn eine Seite gut<br />

benutzbar ist, so kann sie neue K<strong>und</strong>en überzeugen <strong>und</strong> bestehende K<strong>und</strong>en an sich<br />

binden. In einem stark umkämpften Markt, in denen die von den Seiten angebotenen<br />

Dienste in zunehmenden Maße austauschbar sind, kann so die <strong>Usability</strong> zu einem<br />

wettbewerbsentscheidenden Faktor werden. Die Einfachheit der Suche war z. B. ein<br />

entscheidender Faktor <strong>für</strong> den Erfolg von Google.<br />

<strong>Usability</strong> wird im Deutschen zumeist mit Gebrauchstauglichkeit wiedergegeben. Nach<br />

der Internationalen Organisation <strong>für</strong> Standardisierung (ISO) ist <strong>Usability</strong> „das Ausmaß,<br />

in dem ein Produkt von bestimmten Nutzern verwendet werden kann, um bestimmte<br />

Ziele mit Effektivität, Effizienz <strong>und</strong> Zufriedenheit in einem bestimmten<br />

Nutzungskontext zu erreichen“ [TA08, S. 4]. Nach Nielsen lässt sich <strong>Usability</strong> durch die<br />

folgenden fünf wesentlichen Attribute beschreiben [Ni93]:<br />

• Ease of learning: Der Nutzer soll sich schnell im System zurechtfinden, um<br />

möglichst ohne Einarbeitung mit der Erledigung seiner Aufgaben beginnen zu<br />

können.<br />

• Efficiency of Use: Ein Nutzer, der das System kennt, soll es mit hohem<br />

Produktivitätsgrad bedienen können.<br />

• Memorability: Hat ein Nutzer das System schon einmal verwendet, so sollte er<br />

sich nach einer Phase, in der er das System nicht genutzt hat, schnell wieder zurechtfinden.<br />

3


Kapitel 1: Motivation <strong>und</strong> Überblick<br />

• Errors: Das System sollte so gestaltet sein, dass der Nutzer möglichst wenig<br />

Fehler begeht. Beim Auftreten eines Bedienungsfehlers müssen adäquate<br />

Bewältigungsroutinen vorhanden sein. Schwere Fehler sollten nicht auftreten.<br />

• Satisfaction: Das System sollte angenehm zu nutzen sein, so dass der Nutzer die<br />

Verwendung des Systems als subjektiv angenehm empfindet <strong>und</strong> gerne mit dem<br />

System arbeitet.<br />

Gemeinsam ist beiden Definitionen die Interaktion zwischen Nutzer <strong>und</strong> System bzw.<br />

Produkt. Bei dem Produkt / System handelt es sich im Rahmen dieser Arbeit<br />

gr<strong>und</strong>sätzlich um Software, wobei unter Software die Programme eines EDV-Systems<br />

verstanden werden. Beispiele sind unternehmensspezifische Anwendungen oder auch<br />

dynamische Webanwendungen wie Online-Shops.<br />

Zunächst soll in Kapitel 2 auf theoretische Gr<strong>und</strong>lagen eingegangen werden, um ein<br />

Hintergr<strong>und</strong>wissen über das Thema <strong>Usability</strong> <strong>und</strong> die kognitiven Prozesse des Nutzers<br />

bei der Bedienung von Software aufzubauen.<br />

Um die <strong>Usability</strong> eines Produktes zielgerichtet verbessern zu können, sind die<br />

Problembereiche der Software zu identifizieren. Zu diesem Zweck wird in Kapitel 3<br />

eine Vielzahl von Evaluationsmethoden dargestellt. An dieser Stelle sei darauf<br />

hingewiesen, dass ein <strong>Usability</strong>-Test in verschiedenen Entwicklungsstadien einer<br />

Software angewendet werden kann. Beginnend mit einer Evaluation von Prototypen<br />

über das Testen einer Betaversion, die Evaluation des fertigen Produktes bis hin zu<br />

Feldtests mit den tatsächlichen Anwendern in einer realen Anwendungssituation. Im<br />

Folgenden soll jedoch immer von der Evaluation des fertigen Produktes ausgegangen<br />

werden, um die Komplexität der Untersuchungen zu begrenzen <strong>und</strong> den Rahmen der<br />

Arbeit nicht zu sprengen.<br />

In Kapitel 4 wird eine abschließende Bewertung der vorgestellten Verfahren<br />

vorgenommen.<br />

4


Kapitel 2: <strong>Theorien</strong> <strong>und</strong> <strong>Modelle</strong> der Softwareevaluation<br />

2 <strong>Theorien</strong> <strong>und</strong> <strong>Modelle</strong> der Softwareevaluation<br />

Im Folgenden sollen ausgewählte <strong>Theorien</strong> <strong>und</strong> <strong>Modelle</strong> zur <strong>Usability</strong> <strong>und</strong> zum<br />

Umgang von Menschen mit technischen Schnittstellen präsentiert werden. Sie sollen ein<br />

Gr<strong>und</strong>verständnis zum Thema <strong>Usability</strong> legen <strong>und</strong> bilden so die Gr<strong>und</strong>lage <strong>für</strong> die<br />

erfolgreiche Evaluation von Nutzerschnittstellen. <strong>Modelle</strong> als zweckorientierte,<br />

abstrahierende Abbildungen der Realität liefern dabei einen besonders wertvollen<br />

Beitrag zum Verständnis.<br />

2.1 Ein <strong>Usability</strong>-Referenz-Modell<br />

Winter, Wagner <strong>und</strong> Deissenboeck haben ein <strong>Usability</strong>-Modell auf Basis eines<br />

definierten Metamodells entwickelt. Ihr Modell umfasst zwei Dimensionen. Auf der<br />

einen Achse werden die Merkmale der (logischen) Nutzerschnittstelle des<br />

Softwaresystems abgetragen, auf der anderen Achse die Aktivitäten des Nutzers. Durch<br />

diese Aufteilung wollen die Autoren eine Vermischung von System- <strong>und</strong><br />

Nutzereigenschaften vermeiden, die ihrer Ansicht nach häufig bei etablierten <strong>Usability</strong>-<br />

<strong>Modelle</strong>n auftreten. Jede Achse wird als Baum aus sog. Fakten bzw. Aktivitäten<br />

aufgebaut, bis die einzelnen Fakten so feingranular wie möglich sind. Jedem Fakt<br />

werden daraufhin Attribute zugewiesen. Schließlich werden die Einflüsse der Attribute<br />

des Systems auf die Attribute der Nutzeraktivität modelliert. Durch diese<br />

Systematisierung erreichen die Autoren eine Explikation der Beziehungen zwischen<br />

Systemeigenschaften <strong>und</strong> den Eigenschaften der Nutzerinteraktion. Die<br />

Nutzerinteraktionen werden als <strong>Usability</strong> erlebt. Durch diese explizite Modellierung<br />

kann ein gemeinsames Systemverständnis innerhalb eines Teams entwickelt werden <strong>und</strong><br />

die Stellschrauben zur Verbesserung einzelner Aspekte der Nutzerinteraktion werden<br />

besser verstanden.<br />

5


Kapitel 2: <strong>Theorien</strong> <strong>und</strong> <strong>Modelle</strong> der Softwareevaluation<br />

Die logische Nutzerschnittstelle als sichtbarer Teil der Software wird wie folgt<br />

aufgebrochen:<br />

Eingabekanäle<br />

Ausgabekanäle<br />

Logische Nutzerschnittstelle<br />

Dialogmanagement<br />

Eingabedaten<br />

Ausgabedaten<br />

Abbildung 1: Untergliederung der logischen Nutzerschnittstelle<br />

Die Teilfakten besitzen wiederum folgende Attribute [WWD07]:<br />

• Existenz: Das gr<strong>und</strong>legendste Attribut ist, ob ein Fakt überhaupt existiert oder<br />

nicht. Bereits die Existenz eines Fakts kann positiven oder negativen Einfluss<br />

auf bestimmte Aktivitäten haben.<br />

• Relevanz: Ein Fakt ist relevant, wenn er angemessen <strong>und</strong> wichtig in konkreten<br />

Anwendungskontext ist.<br />

• Eindeutigkeit: Ein eindeutiger Fakt ist präzise <strong>und</strong> klar. Eindeutigkeit ist häufig<br />

<strong>für</strong> Informationen oder Steuerelemente wichtig, die korrekt interpretiert werden<br />

müssen.<br />

• Einfachheit: Für viele Fakten ist es wichtig, dass sie in einem bestimmten<br />

Kontext einfach sind, d. h. klein <strong>und</strong> geradlinig.<br />

• Konformität. Es gibt zwei Arten von Konformität: Konformität zu<br />

existierenden Standards <strong>und</strong> Richtlinien, <strong>und</strong> Konformität zu den Erwartungen<br />

des Nutzers. In beiden Fällen respektiert <strong>und</strong> folgt der Fakt bestehenden Regeln<br />

oder <strong>Modelle</strong>n.<br />

• Konsistenz: Es gibt zwei Arten von Konsistenz: interne <strong>und</strong> externe Konsistenz.<br />

Interne Konsistenz bedeutet, dass das gesamte Produkt einheitlichen Regeln<br />

folgt. Externe Konsistenz zielt dagegen auf die Korrespondenz mit externen<br />

Fakten wie z. Β. Analogien oder dem Sachverständnis des Nutzers ab.<br />

• Beherrschbarkeit: Das Verhalten eines beherrschbaren Faktes kann durch die<br />

Aktionen eines Nutzers stark beeinflusst werden<br />

6


Kapitel 2: <strong>Theorien</strong> <strong>und</strong> <strong>Modelle</strong> der Softwareevaluation<br />

• Anpassbarkeit: Ein anpassbarer Fakt kann ebenso wie ein beherrschbarer Fakt<br />

vom Nutzer beeinflusst werden, jedoch kann ein anpassbarer Fakt eine<br />

Voreinstellung besitzen gemäß den Bedürfnissen <strong>und</strong> Präferenzen des Nutzers<br />

dauerhaft festgelegt werden.<br />

• Geschütztheit: Im Gegensatz zu beherrschbaren <strong>und</strong> anpassbaren Fakten kann<br />

ein geschützter Fakt nicht durch den Nutzer verändert werden, was bei<br />

kritischen Systemteilen erwünscht sein kann.<br />

• Anpassungsfähigkeit: Ein anpassungsfähiger Fakt passt sich an die Nutzerbedürfnisse<br />

oder den Kontext an. Im Gegensatz zu anpassbaren Fakten arbeitet<br />

ein anpassungsfähiger Fakt dabei ohne explizite Nutzereingaben.<br />

Die Nutzeraktivitäten lassen sich folgendermaßen strukturieren:<br />

Zielbildung<br />

Willensbildung<br />

Interaktion mit dem Produkt<br />

Ausführung Auswertung<br />

Festlegen<br />

der Aktion<br />

Ausführung<br />

der Aktion<br />

Wahrnehmung<br />

des Umweltzustands<br />

Interpretation<br />

des Umweltzustands<br />

Abbildung 2: Untergliederung der Interaktion mit dem Produkt [WWD07]<br />

Jedem der unteren Fakten lassen sich nun die folgenden Attribute zuordnen:<br />

• Häufigkeit: Die Anzahl des Auftretens einer Aufgabe<br />

• Dauer: Die Zeitspanne, die eine Aufgabe benötigt<br />

Evaluation<br />

des<br />

Ergebnisses<br />

• Physischer Stress: Die Summe aller physischen Anstrengungen, die zur<br />

Erfüllung einer Aufgabe nötig sind<br />

• Kognitive Belastung: Die Summe aller mentalen Anstrengungen, die eine<br />

Aufgabe erfordert.<br />

7


Kapitel 2: <strong>Theorien</strong> <strong>und</strong> <strong>Modelle</strong> der Softwareevaluation<br />

• Wahrscheinlichkeit eines Fehlers: Die relative Häufigkeit von fehlerhaften<br />

Ausführungen einer Aufgabe.<br />

Auf Basis der soeben vorgestellten Attribute können nun die Beziehungen modelliert<br />

werden. Um beispielsweise auszudrücken, dass die interne Konsistenz des<br />

Dialogmanagements die Wahrscheinlichkeit eines Fehlers bei der Interpretation (der<br />

Informationen) reduziert, kann folgende Regel formuliert werden:<br />

[Dialogmanagement | INTERNE KONSISTENZ]<br />

� –[Interpretation | FEHLERWAHRSCHEINLICHKEIT]<br />

Allgemein haben die Regeln immer die Form:<br />

[Fakt f | ATTRIBUT A1] � +/–[Aktivität a | ATTRIBUT A2]<br />

Hierdurch wird ausgedrückt, dass das Attribut A1 des Faktes f einen positiven (oder<br />

negativen) Einfluss auf das Attribut A2 von Aktivität a besitzt.<br />

Das so entwickelte <strong>Usability</strong>-Modell muss nun noch <strong>für</strong> bestimmte Einsatzzwecke<br />

konkretisiert werden. Die Regeln werden dabei unter Berücksichtigung der<br />

Produkteigenschaften formuliert. Je nach dem Einsatzkontext kann <strong>Usability</strong> z. B. als<br />

besonders effiziente Arbeit oder als besonders sichere Arbeit verstanden werden.<br />

Entsprechend verlagert sich das Gewicht z. B. zwischen der Dauer <strong>und</strong> der<br />

Fehlerwahrscheinlichkeit bei der Aufgabenerfüllung.<br />

2.2 Die Theorie des explorativen Lernens<br />

Die Theorie des explorativen Lernens formuliert ein Modell über die kognitiven<br />

Prozesse, die ein Nutzer anwendet, um mithilfe einer Schnittstelle eine gegebene<br />

Aufgabe zu lösen [PLRW92]. Prinzipiell handelt es sich hier um ein zyklisches Modell.<br />

Ausgehend von Startziel entwickelt der Nutzer einen Plan <strong>für</strong> eine Aktion, führt diese<br />

Aktion aus, evaluiert die Rückmeldungen des Systems, überdenkt seine Ziele <strong>und</strong><br />

beginnt dann von neuem.<br />

Die Ziele des Nutzers sind im Modell hierarchisch angeordnet. Ein Oberziel besteht aus<br />

mehreren Zwischenzielen, die wiederum aus Unterzielen aufgebaut sind. Die einfachste<br />

Form eines Ziels stellt eine Aktion dar, die autonom vom Nutzer ausgeführt werden<br />

kann. Ziele sind auch mit Aussagen über das vorhandene Hintergr<strong>und</strong>wissen des<br />

Nutzers <strong>und</strong> über seine Umweltbeobachtungen verb<strong>und</strong>en. Wenn eine solche Aussage<br />

8


Kapitel 2: <strong>Theorien</strong> <strong>und</strong> <strong>Modelle</strong> der Softwareevaluation<br />

wahr wird (z. B. durch Beobachtung), so wird die Verbindung zwischen der Aussage<br />

<strong>und</strong> den Zielen aktiviert. Wenn alle eingehenden Verbindungen einer Aktion aktiviert<br />

sind, so wird sie ausgeführt. Durch Rückmeldungen des Systems werden Ziele vom<br />

Nutzer deaktiviert, sofern sie als erledigt wahrgenommen werden. Durch die Erledigung<br />

aller Teilziele wiederum werden die entsprechenden Oberziele erledigt. Dieser Prozess<br />

pflanzt sich bis zur Wurzel der Zielhierarchie fort.<br />

Um den Unterschied zwischen ausstehenden Zielen <strong>und</strong> erfüllten Zielen modellieren zu<br />

können, besteht jedes Ziel aus zwei Knoten (vgl. Abbildung 3), einem Will-Knoten, der<br />

ein noch nicht erfülltes Ziel ausdrückt, <strong>und</strong> einem Erledigt-Knoten, der ein erfülltes Ziel<br />

repräsentiert.<br />

Sofern mehrere Ziele in einer bestimmten Reihenfolge erfüllt werden müssen, lässt sich<br />

dies durch den Und-dann-Knoten modellieren. Er wird durch das Oberziel <strong>und</strong> die<br />

vorausgehende Aktion aktiviert <strong>und</strong> ermöglicht so die Ausführung des nachfolgenden<br />

Ziels erst nach der Ausführung des vorhergehenden.<br />

Legende<br />

Aktivierungsverbindung<br />

Hemmende Verbindung<br />

erledigt<br />

will<br />

Tippe den<br />

Benutzernamen ein<br />

Gib dem System meinen<br />

Benutzernamen<br />

erledigt<br />

<strong>und</strong>dann<br />

erledigt<br />

will<br />

Drücke die<br />

EINGABE-Taste<br />

Abbildung 3: Beispielhafte Zielstruktur mit Und-dann-Sequenz [PLRW92]<br />

will<br />

9


Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />

3 <strong>Methoden</strong> der Softwareevaluation<br />

Im Folgenden sollen verschiedene <strong>Methoden</strong> der Softwareevaluation dargestellt werden.<br />

Unter Methode wird dabei ein bestimmtes Vorgehen zur Gewinnung von Erkenntnissen<br />

über die <strong>Usability</strong> einer Software verstanden.<br />

3.1 Analytische Evaluationsmethoden<br />

Analytische Evaluationsmethoden werden im Gegensatz zu den unten vorgestellten<br />

empirischen <strong>Methoden</strong> nicht mit Hilfe von Testnutzern, sondern von <strong>Usability</strong>-Experten<br />

oder von den Entwicklern der Software durchgeführt. Üblicherweise sind diese<br />

Experten jedoch durch ihr Vorwissen über die Software bei der Evaluation nicht<br />

objektiv. Um dennoch zu brauchbaren Aussagen über die <strong>Usability</strong> zu kommen, wurden<br />

in der Literatur verschiedene <strong>Methoden</strong> entwickelt, die den Experten bei der Bewertung<br />

helfen sollen.<br />

Heuristische Evaluation<br />

Der naheliegendste Evaluationsansatz liegt darin, Probleme, die aus der Vergangenheit<br />

mit anderer Software bekannt sind, in Form von Prinzipien zu generalisieren. Diese<br />

Prinzipien, die oft auch als Guidelines bezeichnet werden, können dann an der zu<br />

evaluierenden Software überprüft werden [Ni92]. Nielsen schlägt da<strong>für</strong> allerdings kein<br />

konkretes Vorgehensmodell vor, sondern betont, dass aufgr<strong>und</strong> der geringeren<br />

Formalität die heuristische Evaluation gleichsam eine „Discount-Methode“ mit sehr<br />

geringen Kosten ist.<br />

Nielsen legt allerdings großen Wert darauf, dass die Evaluation von <strong>Usability</strong>-Experten<br />

durchgeführt wird. Besonders erfolgreich sind nach seinen Erfahrungen die sog.<br />

„Doppelexperten“, die sich sowohl mit den <strong>Usability</strong>-Regeln, als auch mit dem<br />

getesteten Programm sehr gut auskennen. Außerdem empfiehlt er den Einsatz von<br />

Expertengruppen mit drei bis fünf Mitgliedern, da sie bessere Ergebnisse liefern würden<br />

als einzelne Experten.<br />

Cognitive Walkthrough<br />

Der Cognitive Walkthrough evaluiert eine Benutzerschnittstelle auf der Basis<br />

kognitionspsychologischer Erkenntnisse, insbesondere unter Berücksichtigung der<br />

Theorie des explorativen Lernens (vgl. Kapitel 2.2). Mit Hilfe des Cognitive<br />

10


Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />

Walkthrough können vor allem sog. Walk-up-and-use-Systeme (d. h. Systeme, die ohne<br />

Benutzerschulung bedient werden können sollen) dahingehend evaluiert werden, ob ein<br />

Nutzer ein gegebenes Ziel ohne weitere Anleitung mit der Software umsetzen kann. Zur<br />

Zielerfüllung sind in der Regel mehrere Teilschritte auszuführen. Der Cognitive<br />

Walkthrough untersucht, ob der Nutzer selbstständig diese Teilschritte mit den durch<br />

die Nutzerschnittstelle gegebenen Informationen bilden kann <strong>und</strong> ob er diese<br />

Teilschritte erfolgreich ausführen kann. Um auch Analysten ohne umfangreiches<br />

Wissen über Kognitionspsychologie die Nutzung der Methode zu erlauben, wird der<br />

Analyst mit Hilfe von Formularen durch den Prozess begleitet.<br />

Zunächst soll die Terminologie der Methode im Überblick dargestellt werden, um ein<br />

Verständnis <strong>für</strong> die Begrifflichkeiten zu erarbeiten.<br />

Aufgabe Eine Aktivität, die ein Nutzer mit dem untersuchten System<br />

durchführen möchte, z. B.<br />

• „Überprüfe die Rechtschreibung von Datei ‚foo‘“<br />

• „Melde dich am Computer an“<br />

Ziel Etwas, das der Benutzer erreichen möchte. Höhere Ziele können mit<br />

Aufgaben identisch sein, während es sich bei niederen Zielen um<br />

Aktionen handeln kann, z. B.<br />

• ÜBERPRÜFE DIE SCHREIBWEISE VON DATEI „FOO“<br />

• STARTE DAS TEXTVERARBEITUNGSPROGRAMM<br />

• DRÜCKE DIE ENTER-TASTE<br />

Aktion Eine physische Aktivität, die der Nutzer ausführen kann. Es kann<br />

sich dabei um eine einfache, „atomare“ Aktion oder um eine gut<br />

geübte Sequenz von atomaren Aktionen handeln, z. B.<br />

• Drücke die „S“-Taste<br />

• Wähle „Drucken“ aus dem Datei“-Menü<br />

Zielstruktur Eine Hierarchie von verb<strong>und</strong>enen Zielen. Unter jedem<br />

übergeordneten Ziel können die Teilziele mit Hilfe von „<strong>und</strong>-dann“<br />

in eine bestimmte Reihenfolge gebracht werden oder aber<br />

ungeordnet sein, z. B.<br />

• MELDE DICH AM COMPUTER AN<br />

GIB DEN BENUTZERNAMEN EIN<br />

<strong>und</strong>-dann GIB DAS PASSWORT EIN<br />

• LÖSCHE DIE DATEIEN ‚FOO‘ UND ‚BAR‘<br />

LÖSCHE ‚FOO‘<br />

LÖSCHE ‚BAR‘<br />

Und-dann Eine Zielstruktur, in der zwei oder mehr Unterziele in einer<br />

bestimmten Reihenfolge ausgeführt werden müssen (vgl. Beispiel<br />

oben).<br />

Schritt Die Analyseeinheit beim Cognitive Walkthrough. Bei jedem Schritt<br />

berücksichtigen sind zu jeder Aktion drei Fragen zu beantworten:<br />

• Welche Ziele sollte der Nutzer unmittelbar vor der Action<br />

haben?<br />

• Werden diese Ziele beim aktuellen Zustand der Schnittstelle<br />

11


Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />

den Nutzer dazu anregen, die korrekte Aktion auszuwählen<br />

<strong>und</strong> auszuführen?<br />

• Wie beeinflusst die Änderung der Nutzerschnittstelle nach<br />

der richtigen Aktion die Ziele des Nutzers?<br />

Tabelle 1: Die Terminologie des Cognitive Walkthrough<br />

Im Vorfeld der Evaluation müssen einige Vorbereitungen getroffen werden. Zunächst<br />

müssen Aufgaben ausgewählt werden, die analysiert werden sollen. Dabei sollten nicht<br />

nur einfache, atomare, sondern vor allem komplexere Aufgaben ausgewählt werden, die<br />

eine Kombination mehrerer Aktionen erforderlich machen. Denn der Übergang<br />

zwischen Teilschritten bereitet den Benutzern in der Praxis häufig Probleme <strong>und</strong> der<br />

Cognitive Walkthrough zielt insbesondere auf die Aufdeckung von solchen Problemen<br />

beim Übergang zwischen Teilschritten ab [PLRW92]. Im Anschluss müssen die<br />

ausgewählten Aufgaben beschrieben werden, wobei darauf Wert gelegt werden sollte,<br />

die Beschreibung nicht systemspezifisch, sondern möglichst allgemeinverständlich<br />

vorzunehmen. Auch Annahmen über den Systemzustand bei Beginn des Tests <strong>und</strong> über<br />

das Hintergr<strong>und</strong>wissen der Nutzerpopulation müssen hier explizit formuliert werden.<br />

Anschließend wird eine korrekte Aktionssequenz definiert, mit der die gestellte<br />

Aufgabe gelöst werden kann. Dabei sollte es sich um die beste durch die Schnittstelle<br />

angebotene Sequenz handeln, um relevante Aussagen über die Systemqualität zu<br />

erhalten. Wird eine suboptimale Sequenz analysiert, so besitzen die Ergebnisse keinen<br />

Aussagewert über die <strong>Usability</strong> des Systems. Es ist <strong>für</strong> die Ergebnisse entscheidend, die<br />

richtige Granularitätsstufe <strong>für</strong> die einzelnen Schritte zu wählen, um bestimmte Probleme<br />

finden zu können. Besteht zwischen einem Oberziel <strong>und</strong> einem seiner Unterziele zu<br />

große Ähnlichkeit aus Sicht des Nutzers, so kann es passieren, dass nach der<br />

erfolgreichen Ausführung des Unterziels auch das Oberziel als abgeschlossen<br />

angesehen wird (Supergoal-Kill-Off-Problem). Die Autoren schlagen daher vor, mit<br />

einer möglichst feingranularen Modellierung zu beginnen <strong>und</strong> die Teilziele nur dann<br />

zusammenzufassen, wenn sichergestellt ist, dass sich ein über- <strong>und</strong> ein untergeordnetes<br />

Ziel nicht zu ähnlich sind.<br />

Um die Entscheidungen des Analysten über das Verhalten der Nutzer zu f<strong>und</strong>ieren,<br />

sollte anschließend die erwartete Nutzerpopulation beschrieben werden. Dabei sind<br />

insbesondere die Erfahrungen mit vergleichbaren Systemen <strong>und</strong> Nutzerschnittstellen<br />

von Interesse, die ein Hintergr<strong>und</strong>wissen über das evaluierte System begründen.<br />

12


Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />

Abschließend werden die anfänglichen Ziele des Nutzers beschrieben, die sich aus der<br />

Aufgabenstellung <strong>und</strong> dem Hintergr<strong>und</strong>wissen des Nutzers ableiten. Sollten mehrere<br />

Zielstrukturen denkbar sein, so sollten sämtliche dieser Strukturen dargestellt werden<br />

<strong>und</strong> jeweils mit einer geschätzten Wahrscheinlichkeit <strong>für</strong> ihr Auftreten versehen<br />

werden.<br />

Im Anschluss an diese vorbereitenden Maßnahmen wird jede Aktion evaluiert. Dabei<br />

werden die folgenden drei Schritte durchgeführt<br />

1. Vergleich zwischen den tatsächlichen <strong>und</strong> den erwünschten Zielen eines Nutzers<br />

2. Probleme bei der Auswahl einer Aktion mit den gegebenen Zielen<br />

3. Die Auswirkungen der Systemantwort auf die Zielstrukturen des Nutzers<br />

Zunächst werden vom Entwickler die erwünschten Ziele des Nutzers zu Beginn der<br />

Aktion definiert. Anschließend werden diese Ziele basierend auf dem vorangegangenen<br />

Schritt bzw. auf der Vorbereitung mit den wahrscheinlichen Zielstrukturen der Benutzer<br />

verglichen. Dabei können sich Abweichungen ergeben, die zu Problemen beim Umgang<br />

mit der Nutzerschnittstelle führen.<br />

Anschließend wird auf Basis der Zielstruktur anhand einiger Fragen evaluiert, ob der<br />

Benutzer die korrekte Aktion ausführen kann. Damit ein Benutzer die korrekte Aktion<br />

ausführen kann, muss sie z. B. verfügbar <strong>und</strong> einleuchtend beschriftet sein. Ist dies nicht<br />

gegeben, so liegt ein Aktionskonflikt vor, da der Nutzer nicht die richtige Aktion<br />

ausführen kann, obwohl er das richtige Ziel erfüllen will.<br />

Schließlich wird der Einfluss der Systemrückmeldung auf die Zielstrukturen des<br />

Benutzers untersucht. Die Systemrückmeldung sollte einen Fortschritt melden, sollte<br />

korrekt erfüllte Ziele als solche erscheinen lassen, andererseits aber auch nicht erfüllte<br />

Ziele nicht fälschlicherweise als erfüllt erscheinen lassen. Außerdem können durch<br />

entsprechende Rückmeldungen neue Ziele vom Nutzer gebildet werden. Diese Ziele<br />

bilden die Gr<strong>und</strong>lage <strong>für</strong> den nächsten Evaluationsschritt, in dem wiederum zunächst<br />

Zielkonflikte <strong>und</strong> dann Aktionskonflikte analysiert werden.<br />

3.2 Vorbereitung eines empirischen <strong>Usability</strong>-Tests<br />

Im Gegensatz zu den oben dargestellten analytischen <strong>Methoden</strong> wird ein Großteil der<br />

<strong>Usability</strong>-Tests empirisch durchgeführt, d. h. eine Gruppe von Testpersonen benutzt die<br />

13


Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />

Software <strong>und</strong> wird dabei beobachtet. Aus dem Verhalten der Probanden werden<br />

Rückschlüsse auf die <strong>Usability</strong> der Software gezogen. Um eine solche empirische<br />

Studie durchführen zu können, sind im Vorfeld einige Schritte der Vorbereitung<br />

durchzuführen.<br />

Zunächst einmal müssen die Versuchspersonen ausgewählt werden. Dabei sind<br />

insbesondere die Anzahl <strong>und</strong> die Art der Personen entscheidend. Gr<strong>und</strong>sätzlich werden<br />

die Aussagen bei steigender Zahl an Probanden immer präziser. Tullis <strong>und</strong> Albert<br />

weisen jedoch darauf hin, dass nach ihren Erkenntnissen bereits mit sechs bis acht<br />

Teilnehmern qualitativ gute Erkenntnisse bei geringen Kosten erzielt werden können.<br />

Bei abschließenden Evaluationen empfehlen sie dagegen 50 bis 100 Probanden [TA08,<br />

S. 59]. Die Probanden sollten von ihren Fähigkeiten <strong>und</strong> ihrem Hintergr<strong>und</strong>wissen<br />

möglichst nah an den Personen liegen, die die Software später nutzen werden. Ein Test,<br />

bei dem die Entwickler als Versuchspersonen eingesetzt werden ist in der Regel nicht<br />

repräsentativ, da die Entwickler das System aufgr<strong>und</strong> ihres allgemeinen technischen<br />

Sachverstands <strong>und</strong> ihrer Produktkenntnis im Besonderen die Software wesentlich<br />

effizienter bedienen können als die Endnutzer.<br />

Danach sind Aufgaben festzulegen, die die Probanden im Rahmen des <strong>Usability</strong>-Tests<br />

erfüllen sollen. Die Bearbeitung der Aufgaben bildet den Bezugsrahmen zur Messung<br />

vieler <strong>Usability</strong>-Parameter. Zudem kann überprüft werden, ob der Proband die<br />

Aufgaben (korrekt) lösen konnte. Dies gibt Aufschluss darüber, ob der Proband reale<br />

Aufgaben mit der Software bewältigen könnte.<br />

3.3 Befragungen<br />

Ein naheliegendes Mittel, um von den Probanden Erkenntnisse über die <strong>Usability</strong> der<br />

Software zu erhalten, ist die Probanden zu befragen. Durch Befragungen können<br />

insbesondere Erkenntnisse über die Zufriedenheit der Nutzer gewonnen werden. Dies ist<br />

mit anderen <strong>Methoden</strong> in der Regel nicht möglich. Wenn also die Nutzerzufriedenheit<br />

<strong>für</strong> die zu testende Software erfolgskritisch ist (z. B. bei Websites), so sind Befragungen<br />

die zu bevorzugende Evaluationsmethode. Bei der Gestaltung einer solchen Befragung<br />

sind jedoch gewisse Hinweise zu beachten, um ein optimales Ergebnis zu erzielen.<br />

14


Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />

Fragebogendesign<br />

Zunächst soll an dieser Stelle auf die Gestaltung von Fragen im Rahmen von<br />

Fragebögen eingegangen werden. Im Zusammenhang der <strong>Usability</strong>-Evaluation haben<br />

sich vor allem die Likert-Skala <strong>und</strong> Polaritätsprofile bewährt. Mithilfe der Likert-Skala<br />

werden in der Regel vorgegebene Aussagen über das Produkt bewertet, z. B. „Ich fand<br />

die Navigation verwirrend“. Zur Bewertung der Aussage dient dem Probanden eine<br />

Skala in der folgenden Form [Fri90, S. 175]:<br />

1. Ich lehne es stark ab<br />

2. Ich lehne es ab<br />

3. Ich weiß nicht, neutral<br />

4. Ich stimme zu<br />

5. Ich stimme stark zu<br />

Es ist auch möglich, sieben statt fünf Kategorien zu verwenden, um eine feinere<br />

Einteilung zu nutzen. Nachteilig ist dann allerdings, dass die Beschriftung <strong>für</strong> die<br />

Zwischenschritte schwieriger wird, was auch nicht dazu verleiten sollte, Adverbien wie<br />

„extrem“ oder „absolut“ bei der Beschriftung zu verwenden, da so die<br />

Wahrscheinlichkeit <strong>für</strong> eine starke Zustimmung oder Ablehnung verringert. Schließlich<br />

besteht noch die Möglichkeit, eine gerade Anzahl an Optionen zu verwenden. Da es in<br />

diesem Fall keine Mitte, bzw. keine neutrale Position gibt, ist der Proband gezwungen,<br />

sich zumindest tendenziell <strong>für</strong> Zustimmung oder Ablehnung zu entscheiden. Die<br />

einzelnen Antworten werden in der Regel mit Zahlen kodiert (bei der Standard-Skala<br />

z. B. 0 bis 4).<br />

Mithilfe von Polaritätsprofilen wird ein Objekt in ein Raster von Gegensatzpaaren<br />

eingeordnet. Beispiele hier<strong>für</strong> sind:<br />

schwach ○ ○ ○ ○ ○ ○ ○ stark<br />

schön ○ ○ ○ ○ ○ ○ ○ hässlich<br />

heiß ○ ○ ○ ○ ○ ○ ○ kalt<br />

hell ○ ○ ○ ○ ○ ○ ○ dunkel<br />

Auch diese Skala wird mit Zahlen kodiert. Man geht dabei implizit davon aus, dass die<br />

Abstände zwischen den einzelnen Kategorien gleich groß sind.<br />

Es gilt zu beachten, dass die Ergebnisse bei Umfragen durch die Anwesenheit des<br />

Moderators verzerrt werden können. Probanden werden versuchen, dem Moderator<br />

15


Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />

diejenigen Antworten zu geben, die er erhofft. Der Proband wird in Gegenwart eines<br />

Moderators also eine positivere Einschätzung abgeben, als er es in einer anonymen<br />

Befragungssituation, z. B. einer Online-Befragung, tun würde. Man spricht in diesem<br />

Zusammenhang von der „sozialen Erwünschtheit“ [TA08, S. 126] bestimmter<br />

Antworten. Diesem Problem kann der Moderator begegnen, indem er den Probanden<br />

beim Ausfüllen des Fragebogens nicht beobachtet. Noch besser ist es, wenn der<br />

Moderator den Raum verlässt, während der Proband den Fragebogen ausfüllt.<br />

Befragung nach der Aufgabe<br />

Im Anschluss an jede ausgeführte Aufgabe kann der Proband über die empf<strong>und</strong>ene<br />

Komplexität der Aufgabe befragt werden. Im einfachsten Fall muss er z. B. die Aussage<br />

„Diese Aufgabe war einfach zu lösen“ auf einer Likert-Skala bewerten („Ich lehne es<br />

stark ab“ vs. „Ich stimme stark zu“).<br />

Eine etwas differenziertere Aussage lässt sich mit Hilfe des After Scenario<br />

Questionnaire (ASQ) von Jim Lewis treffen. Dabei werden im Anschluss an eine<br />

Aufgabe die folgenden drei Aussagen auf einer Likert-Skala mit sieben Kategorien<br />

bewertet [TA08, S. 129]:<br />

1. „Ich bin damit zufrieden, wie einfach ich die Aufgaben erledigen konnte.“<br />

2. „Ich bin mit dem Zeitaufwand zufrieden, mit dem ich die Aufgaben erledigen<br />

konnte“<br />

3. „Ich bin mit den unterstützenden Informationen (Online-Hilfe, Nachrichten.<br />

Dokumentation) bei der Erfüllung der Aufgaben zufrieden.<br />

Durch diese drei Aussagen werden gleichzeitig die Effektivität (Frage 1), die Effizienz<br />

(Frage 2) <strong>und</strong> die Zufriedenheit (alle drei Fragen) des Nutzers erhoben.<br />

Mit den so erhobenen Nutzereindrücken können einerseits solche Aufgaben identifiziert<br />

werden, die besonders schwierig oder aufwändig zu lösen waren, <strong>und</strong> die somit<br />

Kandidaten <strong>für</strong> eine <strong>Usability</strong>-Optimierung sind. Außerdem kann durch eine<br />

Mittelwertbildung über alle einzelnen Aufgabenevaluationen die Gesamtusability des<br />

Systems erhoben werden.<br />

Bewertungen nach der Sitzung<br />

Nach dem Abschluss des eigentlichen <strong>Usability</strong>-Tests kann mithilfe eines<br />

umfangreichen Fragebogens der Gesamteindruck der Testperson erhoben werden. Im<br />

16


Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />

Gegensatz zur Mittelwertbildung aus der Bewertung einzelner Aufgaben wir hier jedoch<br />

der Proband insbesondere seinen letzten Eindruck über die Software zum Ausdruck<br />

bringen, der nicht notwendigerweise mit dem Mittelwert übereinstimmt.<br />

Nichtsdestotrotz handelt es sich hier um den prägenden Eindruck <strong>für</strong> den Probanden,<br />

der seine zukünftige Einstellung gegenüber dem Produkt nachhaltig beeinflussen kann.<br />

Für solche abschließenden Fragebögen gibt es in der Literatur eine Reihe von<br />

Vorschlägen, die teilweise nur den Gesamteindruck über die <strong>Usability</strong> messen, teilweise<br />

jedoch auch in Kategorien unterteilt sind, um Teilaspekte der <strong>Usability</strong> bewerten zu<br />

können. Aus Platzgründen kann hier nicht auf alle diese Fragebögen eingegangen<br />

werden. Vergleichsstudien [TA08, S. 146] haben gezeigt, dass mit dem System<br />

<strong>Usability</strong> Scale (SUS) ein Fragebogen existiert, der schon bei kleinen Testgruppen sehr<br />

konsistente Ergebnisse liefert. Der SUS besteht aus zehn jeweils leicht abgewandelten<br />

Aussagen über die <strong>Usability</strong>, von denen jeweils fünf positiv bzw. fünf negativ<br />

formuliert sind [TA08, S. 138]:<br />

1. Ich denke, dass ich dieses System gerne häufig nutzen würde.<br />

2. Ich fand das System unnötig komplex.<br />

3. Ich denke, das System war einfach zu benutzen.<br />

4. Ich denke, ich würde die Hilfe eines Technikers benötigen, um das System<br />

benutzen zu können.<br />

5. Ich halte die verschiedenen Funktionen des Systems <strong>für</strong> gut integriert.<br />

6. Ich halte das System <strong>für</strong> zu inkonsistent.<br />

7. Ich kann mir vorstellen, dass die meisten Leute sehr schnell lernen würden, mit<br />

dem System umzugehen.<br />

8. Ich fand das System sehr mühsam zu benutzen.<br />

9. Ich fühlte mich bei der Nutzung des Systems sehr sicher.<br />

10. Ich musste viele Dinge lernen, bevor ich das System nutzen konnte.<br />

Die Zustimmung bzw. Ablehnung zu allen Aussagen wird auf einer Likert-Skala mit<br />

fünf Optionen bewertet <strong>und</strong> mit Werten von 0 bis 4 kodiert. Die Kodierung aller<br />

negativen Aussagen wird von vier abgezogen. Daraufhin wird die Summe dieser Werte<br />

gebildet, wodurch ein Wert zwischen 0 <strong>und</strong> 40 ermittelt wird. Durch Multiplikation mit<br />

2,5 wird dann der sog. SUS-Score ermittelt, der als Prozentwert interpretiert werden<br />

17


Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />

kann, wobei 100 % einem perfekten System entsprechen. Werte unter 60 % sind nach<br />

Tullis <strong>und</strong> Albert ein Indiz <strong>für</strong> gewichtige <strong>Usability</strong>-Probleme, Werte über 80 % können<br />

dagegen als gut angesehen werden [TA, S. 149].<br />

3.4 Ausführungsmetriken<br />

Aus wirtschaftlicher Sicht ist bei vielen Anwendungen vor allem die Bewertung des<br />

Handelns der Probanden entscheidend.<br />

Bearbeitungserfolg<br />

Die einfachste Form, den Bearbeitungserfolg zu messen, ist eine binäre Entscheidung<br />

(Bearbeitung erfolgreich / Bearbeitung nicht erfolgreich). Dabei bezieht sich die<br />

Aussage immer auf eine konkrete Aufgabenstellung, die der Proband erfüllen soll. Das<br />

Ergebnis wird in Form von Binärvariablen <strong>für</strong> jeden Probanden <strong>und</strong> jede Aufgabe<br />

kodiert:<br />

Wert Bedeutung<br />

0 Bearbeitung erfolgreich<br />

1 Bearbeitung nicht erfolgreich<br />

Tabelle 2: Binäre Kodierung des Bearbeitungserfolgs<br />

Zur Analyse der Daten sollte zunächst <strong>für</strong> jede gestellte Aufgabe der Mittelwert über<br />

alle Probanden berechnet werden. Diese Erfolgsraten der Aufgaben können dann –<br />

angereichert mit Streumaßen wie z. B. Konfidenzintervallen – in einem<br />

Balkendiagramm dargestellt werden, um zwischen den einzelnen Aufgaben einen<br />

Vergleich zu ziehen <strong>und</strong> diejenigen Aufgaben mit besonders auffälligen Problemen zu<br />

identifizieren.<br />

Es ist jedoch nicht immer sinnvoll, den Erfolg des Probanden rein binär zu kodieren.<br />

Häufig ergeben sich auch Zwischenzustände, die in der Analyse entsprechend<br />

berücksichtigt werden sollten. Denkbar ist hier z. B. eine Gewichtung der Ergebnisse:<br />

Bewertung Interpretation<br />

1,0 Vollständiger Erfolg (ohne Hilfestellung)<br />

0,5 Teilweiser Erfolg<br />

0,0 Aufgabe oder falsche Antwort<br />

Tabelle 3: Gewichtung des Bearbeitungserfolges [TA08, S. 71]<br />

18


Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />

Anlog zur Erfolgsrate kann durch Mittelwertberechnung hier eine „Erfolgspunktzahl“<br />

berechnet werden. Alternativ kann der Erfolg auch anhand einer geordneten Skala<br />

festgestellt werden, die der Erfahrung des Nutzers entspricht:<br />

Kodierung Bedeutung<br />

1 Kein Problem. Der Proband hat die Aufgabe erfolgreich ohne<br />

Schwierigkeiten oder Ineffizienzen gelöst.<br />

2 Kleinere Probleme. Der Proband hat die Aufgabe gelöst, jedoch einen<br />

kleinen Umweg genommen. Er hat ein oder zwei kleine Fehler gemacht,<br />

die er jedoch schnell beheben <strong>und</strong> so die Aufgabe erfolgreich lösen<br />

konnte.<br />

3 Größere Probleme. Der Proband hat die Aufgabe erfolgreich gelöst,<br />

jedoch mit größeren Problemen. Er musste sich abmühen <strong>und</strong> hat einen<br />

größeren Umweg gemacht, schließlich jedoch die Aufgabe erfolgreich<br />

gelöst.<br />

4 Fehlschlag / Aufgabe: Der Proband hat die falsche Antwort gegeben oder<br />

vor Erledigung der Aufgabe aufgegeben, oder der Moderator ist zur<br />

nächsten Aufgabe übergegangen vor dem erfolgreichen Abschluss.<br />

Tabelle 4: Ordinale Kodierung des Bearbeitungserfolges<br />

Da es sich hier um ordinale Daten handelt, darf nun allerdings kein Mittelwert gebildet<br />

werden. Stattdessen sollte eine relative Häufigkeitsverteilung der Kategorien <strong>für</strong> jede<br />

Aufgabe erstellt werden.<br />

Bearbeitungsdauer<br />

Für viele Anwendungen ist die Bearbeitungsdauer von entscheidender Relevanz. Hier<br />

handelt es sich auch um eine wirtschaftlich relevante Kennzahl. Je kürzer die<br />

Bearbeitungszeit pro Fall ist, z. B. bei der Reisebuchung per Telefon, umso mehr Fälle<br />

können pro Zeit abgearbeitet werden, was höhere Abfertigungsraten <strong>und</strong> somit<br />

Kostenersparnisse nach sich zieht.<br />

In der Praxis gestaltet sich die Messung der Bearbeitungsdauer jedoch relativ schwierig.<br />

Zum Einen müssen der Start- <strong>und</strong> der Endzeitpunkt der Bearbeitung festgestellt werden<br />

können. Dazu kann der Proband dazu aufgefordert werden, die Aufgabenstellung laut<br />

vorzulesen, sodass nach dem Lesen eine Stoppuhr gestartet werden kann. Den<br />

Endzeitpunkt markiert die Antwort des Probanden. Zum anderen soll die<br />

Bearbeitungsdauer durch die Zeitmessung nicht beeinflusst werden. Wenn der Proband<br />

die Zeitmessung wahrnimmt, kann er in Leistungsdruck geraten, der seine Leistung<br />

negativ beeinflusst. Wenn der Proband andererseits gänzlich ohne Zeitdruck arbeitet,<br />

kann er die Aufgabe evtl. ineffizient lösen, da er eine kleine „Besichtigung“ der<br />

Software durchführt, ohne konkret auf das Ziel hinzuarbeiten. Daher sollte der Proband<br />

19


Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />

dazu aufgefordert werden, die Aufgaben „so schnell wie möglich“ zu bearbeiten, ohne<br />

ihn explizit auf die Zeitmessung hinzuweisen. Nach erfolgter Zeitmessung sollten die<br />

Messdaten noch um Ausreißer bereinigt werden. Wird der Proband während des Tests<br />

nicht kontrolliert, so kann er entweder die Ausführung einer Aufgabe <strong>für</strong> die<br />

Mittagspause unterbrechen, was zu ungewöhnlich langen Bearbeitungszeiten führt. Auf<br />

der anderen Seite können Probanden dazu neigen, die Aufgaben nicht sorgfältig zu<br />

bearbeiten, was zu extrem kurzen Bearbeitungszeiten führt. Solche Ausreißer können<br />

mithilfe statistischer Verfahren identifiziert <strong>und</strong> aussortiert werden.<br />

Zur Analyse der Messdaten kann wiederum <strong>für</strong> jede gestellte Aufgabe der Mittelwert<br />

der Bearbeitungszeit berechnet werden. Darüber hinaus kann die Bearbeitungszeit in<br />

Intervalle unterteilt werden <strong>und</strong> es wird die Anzahl bzw. der Anteil an Probanden<br />

dargestellt, die in das entsprechende Intervall fallen. Schließlich ist häufig nur<br />

entscheidend, dass der Nutzer die gestellte Aufgabe innerhalb eines bestimmten<br />

Zeitlimits (z. B. eine Minute) lösen kann. In solchen Fällen ist der Anteil an Probanden,<br />

der diese Grenze nicht überschritten hat, von besonderem Interesse.<br />

Bearbeitungseffizienz<br />

Die Bearbeitungseffizienz kann zwar aus der Bearbeitungsdauer abgeleitet werden, es<br />

ist jedoch vorteilhaft, direkt den Aufwand bestimmen zu können, die zu Lösung der<br />

Aufgabe notwendig ist. Dies ist in den meisten Fällen ebenfalls relativ einfach möglich.<br />

Aufwand besteht <strong>für</strong> den Nutzer in kognitivem Aufwand einerseits <strong>und</strong> physischem<br />

Aufwand andererseits. Kognitiver Aufwand kann darin bestehen, den richtigen Link auf<br />

einer Website zu finden oder die nächste notwendige Aktion festzulegen. Physischer<br />

Aufwand besteht z. B. in Mausklicks oder Tastatureingaben. Im einfachsten Fall wird<br />

die Anzahl solcher Aktionen (mithilfe darauf spezialisierter Software) gezählt <strong>und</strong><br />

anschließend werden wiederum die Mittelwerte <strong>für</strong> jede Aufgabe bestimmt. Ein<br />

Vergleich zwischen Aufgaben mit ähnlicher Komplexität kann dabei zu interessanten<br />

Beobachtungen führen.<br />

3.5 Verhaltensmetriken <strong>und</strong> physiologogische Metriken<br />

Während eines <strong>Usability</strong>-Tests erfüllt ein Proband in der Regel nicht ausschließlich<br />

seine Aufgaben. Vielmehr gibt er eine Reihe großteils unbewusster Signale von sich,<br />

die <strong>für</strong> die <strong>Usability</strong>-Bewertung von großem Interesse sein können. Auf die<br />

20


Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />

Beobachtungs- <strong>und</strong> Analysemöglichkeiten solcher Signale soll im Folgenden<br />

eingegangen werden.<br />

Verbale Verhaltensweisen<br />

Probanden geben während eines <strong>Usability</strong>-Tests meist beiläufig Kommentare über ihre<br />

Empfindungen über die Software ab. Gr<strong>und</strong>sätzlich lassen sich diese Kommentare in<br />

die Kategorien positiv, negativ <strong>und</strong> neutral einordnen. Indem die Kommentare<br />

aufgezeichnet <strong>und</strong> gezählt werden, kann anschließend <strong>für</strong> jede Aufgabe eine<br />

Häufigkeitsverteilung der Klassen erstellt werden. Anhand der Häufigkeitsverteilung<br />

lassen sich dann die einzelnen Aufgaben untereinander vergleichen oder es lassen sich<br />

die Ergebnisse ähnlicher Aufgaben bei unterschiedlichen untersuchten Programmen<br />

oder unterschiedlichen Designvorschlägen vergleichen. Aufgaben bzw. Software mit<br />

einem hohen Anteil an negativen Bewertungen müssen demnach bei einer Verbesserung<br />

besonders berücksichtigt werden.<br />

Nichtverbale Verhaltensweisen<br />

Zu den nichtverbalen Verhaltensweisen zählen z. B. Gesichtsausdrücke, Gesten oder<br />

nervöses Fingerklopfen. Solche Ausdrücke wechseln jedoch unter Umständen sehr<br />

schnell, so dass hier eine Videoaufzeichnung zur nachgelagerten Analyse sinnvoll sein<br />

kann. Mit entsprechend vorbereiteten Bögen können solche Ausdrücke außerdem recht<br />

schnell dokumentiert werden.<br />

Um aus den gesammelten Verhaltensweisen eine Metrik abzuleiten, werden die Anzahl<br />

positiver <strong>und</strong> negativer Ausdrücke zusammengezählt <strong>und</strong> <strong>für</strong> jede Aufgabe dargestellt.<br />

Tullis <strong>und</strong> Albert führen als sinnvolles Einsatzbeispiel einen MP3-Player an, auf dem<br />

eine nur schwer leserliche Seriennummer aufgedruckt ist [TA08, S. 171]. Diese<br />

Seriennummer muss bei der Installation der zugehörigen Software eingetragen werden.<br />

Wenn der Proband das Gerät hin <strong>und</strong> her dreht, es in besserem Licht zu betrachten<br />

versucht oder einen jüngeren Menschen um Unterstützung bittet, so sind dies klare<br />

Indizien <strong>für</strong> ein <strong>Usability</strong>-Problem.<br />

Eye-Tracking<br />

Bei Eye-Tracking handelt es sich um eine sehr fortgeschrittene Technologie, die es<br />

erlaubt, die Blickrichtung <strong>und</strong> die Verweildauer auf bestimmten Punkten der<br />

Nutzeroberfläche zu dokumentieren. Früher waren zum Eye-Tracking recht komplexe<br />

Versuchsaufbauten mit mehreren Kameras notwendig, doch mit den letzten<br />

21


Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />

Entwicklungen kann Eye-Tracking nun relativ einfach <strong>und</strong> ohne Belastungen <strong>für</strong> den<br />

Probanden durchgeführt werden.<br />

Die Messdaten können z. B. in Form von „Hitzebildern“ ausgegeben werden. Je höher<br />

die angezeigte „Temperatur“ ist (signalisiert durch die rote Farbgebung), desto länger<br />

hat der Proband auf die entsprechende Stelle geschaut (vgl. Abbildung 4). Basierend auf<br />

diesen Rohdaten können dann Einblicke in die Entstehung bestimmter <strong>Usability</strong>-<br />

Probleme gewonnen werden.<br />

Ein Ansatz besteht hier in der Analyse von kritischen Steuerungselementen. Gibt es auf<br />

einer Website beispielsweise einen Link, der direkt die Erledigung einer gestellten<br />

Aufgabe ermöglicht <strong>und</strong> wird beobachtet, dass die Probanden diesen Link nie benutzen,<br />

kann mithilfe des Eye-Tracking analysiert werden, ob die Probanden den Link<br />

überhaupt wahrnehmen [TA08, S. 176]. Dazu wird ein rechteckiger Bereich um den<br />

Link festgelegt. Nun wird bei jedem Probanden – basierend auf den Tracking-Daten –<br />

die Zeit bestimmt, während der er diesen Bereich fixiert. Anschließend kann die<br />

durchschnittliche Fixierungsdauer über alle Probanden ermittelt werden. Alternativ<br />

wird eine Zeitschranke definiert, die notwendig ist, um die Beschriftung zu lesen <strong>und</strong> es<br />

wird der Anteil an Probanden gemessen, die mindestens so lange diesen Bereich fixiert<br />

haben. Wenn nun die durchschnittliche Fixierungsdauer bzw. der Anteil an Probanden<br />

mit ausreichender Fixierungsdauer sehr gering ist, so wurde das Element offensichtlich<br />

nicht wahrgenommen <strong>und</strong> daher nicht benutzt. Wurde das Element allerdings lange<br />

genug fixiert, so liegt wahrscheinlich ein Problem mit der Beschriftung des Elementes<br />

vor, da die Probanden den Link nicht mit der ihnen gestellten Aufgabe in Verbindung<br />

gebracht haben.<br />

22


Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />

Abbildung 4: „Hitzebild“ einer Eye-Tracking-Untersuchung [TA08]<br />

Hautwiderstand <strong>und</strong> Pulsfrequenz<br />

Wenn ein Proband unter Stress gerät, so zeigt sich dies auch an physiologischen<br />

Veränderungen. Durch vermehrtes Schwitzen verringert sich der elektrische<br />

Hautwiderstand <strong>und</strong> der Puls beschleunigt sich. Stress entsteht bei <strong>Usability</strong>-Tests z. B.<br />

durch schlecht gestaltete Nutzerschnittstellen, häufig auftretende <strong>und</strong> irritierende<br />

Fehlermeldungen oder lange Wartezeiten. Studien konnten belegen, dass durch solche<br />

Stressfaktoren der Puls tatsächlich beschleunigt wird, <strong>und</strong> der Hautwiderstand<br />

23


Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />

herabgesetzt ist [TA08, S. 183 ff.]. Bei gut gestalteten Nutzerschnittstellen tritt meist<br />

sogar ein gegenteiliger Effekt ein, der Puls sinkt also unter das Normalniveau ab.<br />

Durch entsprechende Messinstrumente lassen sich diese Signale heute schon<br />

aufzeichnen. Leider sind die Instrumente allerdings noch relativ unbequem <strong>und</strong> störend,<br />

sodass sie selbst zu einem Stressfaktor werden können. Technische Entwicklungen<br />

begründen jedoch ebenso wie beim Eye-Tracking die Hoffnung, dass zukünftig solche<br />

Messungen mit weniger Eingriffen möglich sein werden [TA08, S. 185 f.].<br />

Beispielsweise wurde bereits ein Bürostuhl vorgestellt, der die Pulsfrequenz einer<br />

darauf sitzenden Person messen kann. Mithilfe dieser physiologischen Daten lassen sich<br />

nämlich sehr interessante Einblicke in die unbewussten Wirkungen der<br />

Schnittstellengestaltung gewinnen. Schnittstellen mit hohen Stresswerten werden vom<br />

Nutzer mit hoher Wahrscheinlichkeit abgelehnt.<br />

24


Kapitel 4: Fazit<br />

4 Fazit<br />

Die Arbeit hat eine breite Palette an Evaluationsmethoden dargestellt. Einerseits handelt<br />

es sich um analytische <strong>Methoden</strong>, die direkt von <strong>Usability</strong>-Experten mit einem tiefen<br />

Sachverständnis angewendet werden. Die permanente Verfügbarkeit von Experten<br />

vorausgesetzt, können diese <strong>Methoden</strong> begleitend zur Produktentwicklung angewendete<br />

werden. Sie erfordern keine langfristige Vorausplanung oder Analyse von Messdaten.<br />

Da<strong>für</strong> sind diese Verfahren gleichzeitig sehr von der Qualität der Experten abhängig<br />

<strong>und</strong> durch das Hintergr<strong>und</strong>wissen der Experten können die Ergebnisse gegenüber<br />

Durchschnittsnutzern abweichen.<br />

Daher sollte auf die empirischen <strong>Methoden</strong> keineswegs bei der Evaluation verzichtet<br />

werden. Nur echte Nutzer mit einem realistischen Hintergr<strong>und</strong>wissen können<br />

beweiskräftige Aussagen über die <strong>Usability</strong> liefern. Zudem können hier tatsächlich<br />

Messwerte erhoben werden, die einen Vergleich zwischen unterschiedlichen Produkten,<br />

Produktvarianten oder auch im Zeitablauf ermöglichen. Am effektivsten ist sicherlich<br />

die Kombination mehrerer Verfahren. So können die bestehenden Probleme im Rahmen<br />

von empirischen <strong>Usability</strong>-Tests identifiziert <strong>und</strong> anschließend von <strong>Usability</strong>-Experten<br />

auf ihre Ursache hin analysiert werden<br />

In diesem Zusammenhang soll noch darauf hingewiesen werden, dass es noch einige<br />

weitere <strong>Methoden</strong> gibt, die im Rahmen dieser Arbeit nicht mehr dargestellt werden<br />

konnten. Insbesondere sind hier aggregierte Metriken zu nennen, die eine Aussage über<br />

die <strong>Usability</strong> eines gesamten Produktes ermöglichen. Auf Basis dieser Kennzahlen sind<br />

direkte Vergleiche zwischen unterschiedlichen Varianten einfach möglich. Es wurde<br />

auch nicht dargestellt, wie auf Basis von <strong>Usability</strong>-Kennzahlen wirtschaftliche<br />

Kennzahlen wie der Return on Investment (ROI) berechnet werden können, die den<br />

Nutzen von <strong>Usability</strong>-Verbesserungen quantifizieren.<br />

Mit der zunehmenden Wichtigkeit von <strong>Usability</strong> als Wettbewerbsfaktor sollte kein<br />

Unternehmen auf <strong>Usability</strong>-Tests verzichten. Nur so lassen sich nachvollziehbare<br />

Entscheidungen über konkrete Maßnahmen zur Verbesserung der <strong>Usability</strong> fällen.<br />

25


Literaturverzeichnis<br />

[Fr90] Jürgen Friedrichs: <strong>Methoden</strong> empirischer Sozialforschung, Westdeutscher<br />

Verlag, 1990.<br />

[Ha86] Winfried Hacker: Allgemeine Arbeits- <strong>und</strong> Ingenieurpsychologie: Verlag<br />

Hans Huber, 1986.<br />

[HZ90] Carl Graf Hoyos, Bernhard Zimolong: Ingenieurpsychologie, Verlag <strong>für</strong><br />

Psychologie, 1990.<br />

[Ni92] Jakob Nielsen: Finding <strong>Usability</strong> Problems Through Heuristic Evaluation,<br />

Proceedings of the SIGCHI conference on Human factors in computing<br />

systems, S. 373-380, ACM, 1992.<br />

[Ni93] Jakob Nielsen.: <strong>Usability</strong> Engineering, AP Professional. 1993.<br />

[PLRW92] Peter G. Polson, Clayton Lewis, John Rieman, Cathleen Wharton: Cognitive<br />

Walkthroughs: A Method for Theory-Based Evaluation of User Interfaces,<br />

International Journal of Man-Machine Studies 36(5), S. 741-773, Academic<br />

Press, 1992.<br />

[TA08] Tom Tullis, Bill Albert: Measuring the User Experience, Collecting,<br />

Analyzing and Presenting <strong>Usability</strong> Metrics, Morgan Kaufmann, 2008.<br />

[WWD07] Sebastian Winter, Stefan Wagner, Florian Deissenboeck: A Comprehensive<br />

Model of <strong>Usability</strong>, http://wwwbroy.in.tum.de/~deissenb/publications/<br />

2007_winters_usability.pdf, 2007.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!