Usability Testing - Theorien, Modelle und Methoden - Institut für ...
Usability Testing - Theorien, Modelle und Methoden - Institut für ...
Usability Testing - Theorien, Modelle und Methoden - Institut für ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Westfälische Wilhelms-Universität Münster<br />
Ausarbeitung<br />
<strong>Usability</strong> <strong>Testing</strong> - <strong>Theorien</strong>, <strong>Modelle</strong><br />
<strong>und</strong> <strong>Methoden</strong> der Softwareevaluation<br />
im Rahmen des Seminars Software Management<br />
Themensteller: Prof. Dr. Herbert Kuchen<br />
Betreuerin: Susanne Gruttmann<br />
<strong>Institut</strong> <strong>für</strong> Wirtschaftsinformatik<br />
Praktische Informatik in der Wirtschaft<br />
Andreas Simon
Inhaltsverzeichnis<br />
1 Motivation <strong>und</strong> Überblick ............................................................................................ 3<br />
2 <strong>Theorien</strong> <strong>und</strong> <strong>Modelle</strong> der Softwareevaluation ............................................................ 5<br />
2.1 Ein <strong>Usability</strong>-Referenz-Modell ............................................................................. 5<br />
2.2 Die Theorie des explorativen Lernens .................................................................. 8<br />
3 <strong>Methoden</strong> der Softwareevaluation ............................................................................. 10<br />
3.1 Analytische Evaluationsmethoden ...................................................................... 10<br />
3.2 Vorbereitung eines empirischen <strong>Usability</strong>-Tests ................................................ 13<br />
3.3 Befragungen ........................................................................................................ 14<br />
3.4 Ausführungsmetriken .......................................................................................... 18<br />
3.5 Verhaltensmetriken <strong>und</strong> physiologogische Metriken ......................................... 20<br />
4 Fazit ............................................................................................................................ 25<br />
Literaturverzeichnis ........................................................................................................ 26<br />
II
Kapitel 1: Motivation <strong>und</strong> Überblick<br />
1 Motivation <strong>und</strong> Überblick<br />
<strong>Usability</strong> hat sich in den vergangenen Jahren zu einem zentralen Schlagwort bei der<br />
Gestaltung von Anwendungen entwickelt. Häufig bieten die bestehenden Systeme<br />
nämlich bereits die zur Aufgabenerfüllung notwendigen Funktionalitäten, sie können<br />
jedoch nicht von den Anwendern genutzt werden, da die Funktionalitäten kompliziert<br />
zu bedienen oder aufzufinden sind. Aus solchen Problemen können wirtschaftliche<br />
Nachteile entstehen. Beispielsweise kann eine komplizierte Bedienung die <strong>für</strong> die<br />
Bearbeitung einer Aufgabe notwendige Zeit sehr lang machen [TA08]. Durch eine<br />
<strong>Usability</strong>-Verbesserung ließe sich also die Bearbeitungszeit verkürzen, was sich in<br />
Form von Kostensenkungen <strong>für</strong> das betroffene Unternehmen auszahlt.<br />
<strong>Usability</strong> kann sogar erfolgsentscheidend <strong>für</strong> eine Website sein. Wenn eine Seite gut<br />
benutzbar ist, so kann sie neue K<strong>und</strong>en überzeugen <strong>und</strong> bestehende K<strong>und</strong>en an sich<br />
binden. In einem stark umkämpften Markt, in denen die von den Seiten angebotenen<br />
Dienste in zunehmenden Maße austauschbar sind, kann so die <strong>Usability</strong> zu einem<br />
wettbewerbsentscheidenden Faktor werden. Die Einfachheit der Suche war z. B. ein<br />
entscheidender Faktor <strong>für</strong> den Erfolg von Google.<br />
<strong>Usability</strong> wird im Deutschen zumeist mit Gebrauchstauglichkeit wiedergegeben. Nach<br />
der Internationalen Organisation <strong>für</strong> Standardisierung (ISO) ist <strong>Usability</strong> „das Ausmaß,<br />
in dem ein Produkt von bestimmten Nutzern verwendet werden kann, um bestimmte<br />
Ziele mit Effektivität, Effizienz <strong>und</strong> Zufriedenheit in einem bestimmten<br />
Nutzungskontext zu erreichen“ [TA08, S. 4]. Nach Nielsen lässt sich <strong>Usability</strong> durch die<br />
folgenden fünf wesentlichen Attribute beschreiben [Ni93]:<br />
• Ease of learning: Der Nutzer soll sich schnell im System zurechtfinden, um<br />
möglichst ohne Einarbeitung mit der Erledigung seiner Aufgaben beginnen zu<br />
können.<br />
• Efficiency of Use: Ein Nutzer, der das System kennt, soll es mit hohem<br />
Produktivitätsgrad bedienen können.<br />
• Memorability: Hat ein Nutzer das System schon einmal verwendet, so sollte er<br />
sich nach einer Phase, in der er das System nicht genutzt hat, schnell wieder zurechtfinden.<br />
3
Kapitel 1: Motivation <strong>und</strong> Überblick<br />
• Errors: Das System sollte so gestaltet sein, dass der Nutzer möglichst wenig<br />
Fehler begeht. Beim Auftreten eines Bedienungsfehlers müssen adäquate<br />
Bewältigungsroutinen vorhanden sein. Schwere Fehler sollten nicht auftreten.<br />
• Satisfaction: Das System sollte angenehm zu nutzen sein, so dass der Nutzer die<br />
Verwendung des Systems als subjektiv angenehm empfindet <strong>und</strong> gerne mit dem<br />
System arbeitet.<br />
Gemeinsam ist beiden Definitionen die Interaktion zwischen Nutzer <strong>und</strong> System bzw.<br />
Produkt. Bei dem Produkt / System handelt es sich im Rahmen dieser Arbeit<br />
gr<strong>und</strong>sätzlich um Software, wobei unter Software die Programme eines EDV-Systems<br />
verstanden werden. Beispiele sind unternehmensspezifische Anwendungen oder auch<br />
dynamische Webanwendungen wie Online-Shops.<br />
Zunächst soll in Kapitel 2 auf theoretische Gr<strong>und</strong>lagen eingegangen werden, um ein<br />
Hintergr<strong>und</strong>wissen über das Thema <strong>Usability</strong> <strong>und</strong> die kognitiven Prozesse des Nutzers<br />
bei der Bedienung von Software aufzubauen.<br />
Um die <strong>Usability</strong> eines Produktes zielgerichtet verbessern zu können, sind die<br />
Problembereiche der Software zu identifizieren. Zu diesem Zweck wird in Kapitel 3<br />
eine Vielzahl von Evaluationsmethoden dargestellt. An dieser Stelle sei darauf<br />
hingewiesen, dass ein <strong>Usability</strong>-Test in verschiedenen Entwicklungsstadien einer<br />
Software angewendet werden kann. Beginnend mit einer Evaluation von Prototypen<br />
über das Testen einer Betaversion, die Evaluation des fertigen Produktes bis hin zu<br />
Feldtests mit den tatsächlichen Anwendern in einer realen Anwendungssituation. Im<br />
Folgenden soll jedoch immer von der Evaluation des fertigen Produktes ausgegangen<br />
werden, um die Komplexität der Untersuchungen zu begrenzen <strong>und</strong> den Rahmen der<br />
Arbeit nicht zu sprengen.<br />
In Kapitel 4 wird eine abschließende Bewertung der vorgestellten Verfahren<br />
vorgenommen.<br />
4
Kapitel 2: <strong>Theorien</strong> <strong>und</strong> <strong>Modelle</strong> der Softwareevaluation<br />
2 <strong>Theorien</strong> <strong>und</strong> <strong>Modelle</strong> der Softwareevaluation<br />
Im Folgenden sollen ausgewählte <strong>Theorien</strong> <strong>und</strong> <strong>Modelle</strong> zur <strong>Usability</strong> <strong>und</strong> zum<br />
Umgang von Menschen mit technischen Schnittstellen präsentiert werden. Sie sollen ein<br />
Gr<strong>und</strong>verständnis zum Thema <strong>Usability</strong> legen <strong>und</strong> bilden so die Gr<strong>und</strong>lage <strong>für</strong> die<br />
erfolgreiche Evaluation von Nutzerschnittstellen. <strong>Modelle</strong> als zweckorientierte,<br />
abstrahierende Abbildungen der Realität liefern dabei einen besonders wertvollen<br />
Beitrag zum Verständnis.<br />
2.1 Ein <strong>Usability</strong>-Referenz-Modell<br />
Winter, Wagner <strong>und</strong> Deissenboeck haben ein <strong>Usability</strong>-Modell auf Basis eines<br />
definierten Metamodells entwickelt. Ihr Modell umfasst zwei Dimensionen. Auf der<br />
einen Achse werden die Merkmale der (logischen) Nutzerschnittstelle des<br />
Softwaresystems abgetragen, auf der anderen Achse die Aktivitäten des Nutzers. Durch<br />
diese Aufteilung wollen die Autoren eine Vermischung von System- <strong>und</strong><br />
Nutzereigenschaften vermeiden, die ihrer Ansicht nach häufig bei etablierten <strong>Usability</strong>-<br />
<strong>Modelle</strong>n auftreten. Jede Achse wird als Baum aus sog. Fakten bzw. Aktivitäten<br />
aufgebaut, bis die einzelnen Fakten so feingranular wie möglich sind. Jedem Fakt<br />
werden daraufhin Attribute zugewiesen. Schließlich werden die Einflüsse der Attribute<br />
des Systems auf die Attribute der Nutzeraktivität modelliert. Durch diese<br />
Systematisierung erreichen die Autoren eine Explikation der Beziehungen zwischen<br />
Systemeigenschaften <strong>und</strong> den Eigenschaften der Nutzerinteraktion. Die<br />
Nutzerinteraktionen werden als <strong>Usability</strong> erlebt. Durch diese explizite Modellierung<br />
kann ein gemeinsames Systemverständnis innerhalb eines Teams entwickelt werden <strong>und</strong><br />
die Stellschrauben zur Verbesserung einzelner Aspekte der Nutzerinteraktion werden<br />
besser verstanden.<br />
5
Kapitel 2: <strong>Theorien</strong> <strong>und</strong> <strong>Modelle</strong> der Softwareevaluation<br />
Die logische Nutzerschnittstelle als sichtbarer Teil der Software wird wie folgt<br />
aufgebrochen:<br />
Eingabekanäle<br />
Ausgabekanäle<br />
Logische Nutzerschnittstelle<br />
Dialogmanagement<br />
Eingabedaten<br />
Ausgabedaten<br />
Abbildung 1: Untergliederung der logischen Nutzerschnittstelle<br />
Die Teilfakten besitzen wiederum folgende Attribute [WWD07]:<br />
• Existenz: Das gr<strong>und</strong>legendste Attribut ist, ob ein Fakt überhaupt existiert oder<br />
nicht. Bereits die Existenz eines Fakts kann positiven oder negativen Einfluss<br />
auf bestimmte Aktivitäten haben.<br />
• Relevanz: Ein Fakt ist relevant, wenn er angemessen <strong>und</strong> wichtig in konkreten<br />
Anwendungskontext ist.<br />
• Eindeutigkeit: Ein eindeutiger Fakt ist präzise <strong>und</strong> klar. Eindeutigkeit ist häufig<br />
<strong>für</strong> Informationen oder Steuerelemente wichtig, die korrekt interpretiert werden<br />
müssen.<br />
• Einfachheit: Für viele Fakten ist es wichtig, dass sie in einem bestimmten<br />
Kontext einfach sind, d. h. klein <strong>und</strong> geradlinig.<br />
• Konformität. Es gibt zwei Arten von Konformität: Konformität zu<br />
existierenden Standards <strong>und</strong> Richtlinien, <strong>und</strong> Konformität zu den Erwartungen<br />
des Nutzers. In beiden Fällen respektiert <strong>und</strong> folgt der Fakt bestehenden Regeln<br />
oder <strong>Modelle</strong>n.<br />
• Konsistenz: Es gibt zwei Arten von Konsistenz: interne <strong>und</strong> externe Konsistenz.<br />
Interne Konsistenz bedeutet, dass das gesamte Produkt einheitlichen Regeln<br />
folgt. Externe Konsistenz zielt dagegen auf die Korrespondenz mit externen<br />
Fakten wie z. Β. Analogien oder dem Sachverständnis des Nutzers ab.<br />
• Beherrschbarkeit: Das Verhalten eines beherrschbaren Faktes kann durch die<br />
Aktionen eines Nutzers stark beeinflusst werden<br />
6
Kapitel 2: <strong>Theorien</strong> <strong>und</strong> <strong>Modelle</strong> der Softwareevaluation<br />
• Anpassbarkeit: Ein anpassbarer Fakt kann ebenso wie ein beherrschbarer Fakt<br />
vom Nutzer beeinflusst werden, jedoch kann ein anpassbarer Fakt eine<br />
Voreinstellung besitzen gemäß den Bedürfnissen <strong>und</strong> Präferenzen des Nutzers<br />
dauerhaft festgelegt werden.<br />
• Geschütztheit: Im Gegensatz zu beherrschbaren <strong>und</strong> anpassbaren Fakten kann<br />
ein geschützter Fakt nicht durch den Nutzer verändert werden, was bei<br />
kritischen Systemteilen erwünscht sein kann.<br />
• Anpassungsfähigkeit: Ein anpassungsfähiger Fakt passt sich an die Nutzerbedürfnisse<br />
oder den Kontext an. Im Gegensatz zu anpassbaren Fakten arbeitet<br />
ein anpassungsfähiger Fakt dabei ohne explizite Nutzereingaben.<br />
Die Nutzeraktivitäten lassen sich folgendermaßen strukturieren:<br />
Zielbildung<br />
Willensbildung<br />
Interaktion mit dem Produkt<br />
Ausführung Auswertung<br />
Festlegen<br />
der Aktion<br />
Ausführung<br />
der Aktion<br />
Wahrnehmung<br />
des Umweltzustands<br />
Interpretation<br />
des Umweltzustands<br />
Abbildung 2: Untergliederung der Interaktion mit dem Produkt [WWD07]<br />
Jedem der unteren Fakten lassen sich nun die folgenden Attribute zuordnen:<br />
• Häufigkeit: Die Anzahl des Auftretens einer Aufgabe<br />
• Dauer: Die Zeitspanne, die eine Aufgabe benötigt<br />
Evaluation<br />
des<br />
Ergebnisses<br />
• Physischer Stress: Die Summe aller physischen Anstrengungen, die zur<br />
Erfüllung einer Aufgabe nötig sind<br />
• Kognitive Belastung: Die Summe aller mentalen Anstrengungen, die eine<br />
Aufgabe erfordert.<br />
7
Kapitel 2: <strong>Theorien</strong> <strong>und</strong> <strong>Modelle</strong> der Softwareevaluation<br />
• Wahrscheinlichkeit eines Fehlers: Die relative Häufigkeit von fehlerhaften<br />
Ausführungen einer Aufgabe.<br />
Auf Basis der soeben vorgestellten Attribute können nun die Beziehungen modelliert<br />
werden. Um beispielsweise auszudrücken, dass die interne Konsistenz des<br />
Dialogmanagements die Wahrscheinlichkeit eines Fehlers bei der Interpretation (der<br />
Informationen) reduziert, kann folgende Regel formuliert werden:<br />
[Dialogmanagement | INTERNE KONSISTENZ]<br />
� –[Interpretation | FEHLERWAHRSCHEINLICHKEIT]<br />
Allgemein haben die Regeln immer die Form:<br />
[Fakt f | ATTRIBUT A1] � +/–[Aktivität a | ATTRIBUT A2]<br />
Hierdurch wird ausgedrückt, dass das Attribut A1 des Faktes f einen positiven (oder<br />
negativen) Einfluss auf das Attribut A2 von Aktivität a besitzt.<br />
Das so entwickelte <strong>Usability</strong>-Modell muss nun noch <strong>für</strong> bestimmte Einsatzzwecke<br />
konkretisiert werden. Die Regeln werden dabei unter Berücksichtigung der<br />
Produkteigenschaften formuliert. Je nach dem Einsatzkontext kann <strong>Usability</strong> z. B. als<br />
besonders effiziente Arbeit oder als besonders sichere Arbeit verstanden werden.<br />
Entsprechend verlagert sich das Gewicht z. B. zwischen der Dauer <strong>und</strong> der<br />
Fehlerwahrscheinlichkeit bei der Aufgabenerfüllung.<br />
2.2 Die Theorie des explorativen Lernens<br />
Die Theorie des explorativen Lernens formuliert ein Modell über die kognitiven<br />
Prozesse, die ein Nutzer anwendet, um mithilfe einer Schnittstelle eine gegebene<br />
Aufgabe zu lösen [PLRW92]. Prinzipiell handelt es sich hier um ein zyklisches Modell.<br />
Ausgehend von Startziel entwickelt der Nutzer einen Plan <strong>für</strong> eine Aktion, führt diese<br />
Aktion aus, evaluiert die Rückmeldungen des Systems, überdenkt seine Ziele <strong>und</strong><br />
beginnt dann von neuem.<br />
Die Ziele des Nutzers sind im Modell hierarchisch angeordnet. Ein Oberziel besteht aus<br />
mehreren Zwischenzielen, die wiederum aus Unterzielen aufgebaut sind. Die einfachste<br />
Form eines Ziels stellt eine Aktion dar, die autonom vom Nutzer ausgeführt werden<br />
kann. Ziele sind auch mit Aussagen über das vorhandene Hintergr<strong>und</strong>wissen des<br />
Nutzers <strong>und</strong> über seine Umweltbeobachtungen verb<strong>und</strong>en. Wenn eine solche Aussage<br />
8
Kapitel 2: <strong>Theorien</strong> <strong>und</strong> <strong>Modelle</strong> der Softwareevaluation<br />
wahr wird (z. B. durch Beobachtung), so wird die Verbindung zwischen der Aussage<br />
<strong>und</strong> den Zielen aktiviert. Wenn alle eingehenden Verbindungen einer Aktion aktiviert<br />
sind, so wird sie ausgeführt. Durch Rückmeldungen des Systems werden Ziele vom<br />
Nutzer deaktiviert, sofern sie als erledigt wahrgenommen werden. Durch die Erledigung<br />
aller Teilziele wiederum werden die entsprechenden Oberziele erledigt. Dieser Prozess<br />
pflanzt sich bis zur Wurzel der Zielhierarchie fort.<br />
Um den Unterschied zwischen ausstehenden Zielen <strong>und</strong> erfüllten Zielen modellieren zu<br />
können, besteht jedes Ziel aus zwei Knoten (vgl. Abbildung 3), einem Will-Knoten, der<br />
ein noch nicht erfülltes Ziel ausdrückt, <strong>und</strong> einem Erledigt-Knoten, der ein erfülltes Ziel<br />
repräsentiert.<br />
Sofern mehrere Ziele in einer bestimmten Reihenfolge erfüllt werden müssen, lässt sich<br />
dies durch den Und-dann-Knoten modellieren. Er wird durch das Oberziel <strong>und</strong> die<br />
vorausgehende Aktion aktiviert <strong>und</strong> ermöglicht so die Ausführung des nachfolgenden<br />
Ziels erst nach der Ausführung des vorhergehenden.<br />
Legende<br />
Aktivierungsverbindung<br />
Hemmende Verbindung<br />
erledigt<br />
will<br />
Tippe den<br />
Benutzernamen ein<br />
Gib dem System meinen<br />
Benutzernamen<br />
erledigt<br />
<strong>und</strong>dann<br />
erledigt<br />
will<br />
Drücke die<br />
EINGABE-Taste<br />
Abbildung 3: Beispielhafte Zielstruktur mit Und-dann-Sequenz [PLRW92]<br />
will<br />
9
Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />
3 <strong>Methoden</strong> der Softwareevaluation<br />
Im Folgenden sollen verschiedene <strong>Methoden</strong> der Softwareevaluation dargestellt werden.<br />
Unter Methode wird dabei ein bestimmtes Vorgehen zur Gewinnung von Erkenntnissen<br />
über die <strong>Usability</strong> einer Software verstanden.<br />
3.1 Analytische Evaluationsmethoden<br />
Analytische Evaluationsmethoden werden im Gegensatz zu den unten vorgestellten<br />
empirischen <strong>Methoden</strong> nicht mit Hilfe von Testnutzern, sondern von <strong>Usability</strong>-Experten<br />
oder von den Entwicklern der Software durchgeführt. Üblicherweise sind diese<br />
Experten jedoch durch ihr Vorwissen über die Software bei der Evaluation nicht<br />
objektiv. Um dennoch zu brauchbaren Aussagen über die <strong>Usability</strong> zu kommen, wurden<br />
in der Literatur verschiedene <strong>Methoden</strong> entwickelt, die den Experten bei der Bewertung<br />
helfen sollen.<br />
Heuristische Evaluation<br />
Der naheliegendste Evaluationsansatz liegt darin, Probleme, die aus der Vergangenheit<br />
mit anderer Software bekannt sind, in Form von Prinzipien zu generalisieren. Diese<br />
Prinzipien, die oft auch als Guidelines bezeichnet werden, können dann an der zu<br />
evaluierenden Software überprüft werden [Ni92]. Nielsen schlägt da<strong>für</strong> allerdings kein<br />
konkretes Vorgehensmodell vor, sondern betont, dass aufgr<strong>und</strong> der geringeren<br />
Formalität die heuristische Evaluation gleichsam eine „Discount-Methode“ mit sehr<br />
geringen Kosten ist.<br />
Nielsen legt allerdings großen Wert darauf, dass die Evaluation von <strong>Usability</strong>-Experten<br />
durchgeführt wird. Besonders erfolgreich sind nach seinen Erfahrungen die sog.<br />
„Doppelexperten“, die sich sowohl mit den <strong>Usability</strong>-Regeln, als auch mit dem<br />
getesteten Programm sehr gut auskennen. Außerdem empfiehlt er den Einsatz von<br />
Expertengruppen mit drei bis fünf Mitgliedern, da sie bessere Ergebnisse liefern würden<br />
als einzelne Experten.<br />
Cognitive Walkthrough<br />
Der Cognitive Walkthrough evaluiert eine Benutzerschnittstelle auf der Basis<br />
kognitionspsychologischer Erkenntnisse, insbesondere unter Berücksichtigung der<br />
Theorie des explorativen Lernens (vgl. Kapitel 2.2). Mit Hilfe des Cognitive<br />
10
Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />
Walkthrough können vor allem sog. Walk-up-and-use-Systeme (d. h. Systeme, die ohne<br />
Benutzerschulung bedient werden können sollen) dahingehend evaluiert werden, ob ein<br />
Nutzer ein gegebenes Ziel ohne weitere Anleitung mit der Software umsetzen kann. Zur<br />
Zielerfüllung sind in der Regel mehrere Teilschritte auszuführen. Der Cognitive<br />
Walkthrough untersucht, ob der Nutzer selbstständig diese Teilschritte mit den durch<br />
die Nutzerschnittstelle gegebenen Informationen bilden kann <strong>und</strong> ob er diese<br />
Teilschritte erfolgreich ausführen kann. Um auch Analysten ohne umfangreiches<br />
Wissen über Kognitionspsychologie die Nutzung der Methode zu erlauben, wird der<br />
Analyst mit Hilfe von Formularen durch den Prozess begleitet.<br />
Zunächst soll die Terminologie der Methode im Überblick dargestellt werden, um ein<br />
Verständnis <strong>für</strong> die Begrifflichkeiten zu erarbeiten.<br />
Aufgabe Eine Aktivität, die ein Nutzer mit dem untersuchten System<br />
durchführen möchte, z. B.<br />
• „Überprüfe die Rechtschreibung von Datei ‚foo‘“<br />
• „Melde dich am Computer an“<br />
Ziel Etwas, das der Benutzer erreichen möchte. Höhere Ziele können mit<br />
Aufgaben identisch sein, während es sich bei niederen Zielen um<br />
Aktionen handeln kann, z. B.<br />
• ÜBERPRÜFE DIE SCHREIBWEISE VON DATEI „FOO“<br />
• STARTE DAS TEXTVERARBEITUNGSPROGRAMM<br />
• DRÜCKE DIE ENTER-TASTE<br />
Aktion Eine physische Aktivität, die der Nutzer ausführen kann. Es kann<br />
sich dabei um eine einfache, „atomare“ Aktion oder um eine gut<br />
geübte Sequenz von atomaren Aktionen handeln, z. B.<br />
• Drücke die „S“-Taste<br />
• Wähle „Drucken“ aus dem Datei“-Menü<br />
Zielstruktur Eine Hierarchie von verb<strong>und</strong>enen Zielen. Unter jedem<br />
übergeordneten Ziel können die Teilziele mit Hilfe von „<strong>und</strong>-dann“<br />
in eine bestimmte Reihenfolge gebracht werden oder aber<br />
ungeordnet sein, z. B.<br />
• MELDE DICH AM COMPUTER AN<br />
GIB DEN BENUTZERNAMEN EIN<br />
<strong>und</strong>-dann GIB DAS PASSWORT EIN<br />
• LÖSCHE DIE DATEIEN ‚FOO‘ UND ‚BAR‘<br />
LÖSCHE ‚FOO‘<br />
LÖSCHE ‚BAR‘<br />
Und-dann Eine Zielstruktur, in der zwei oder mehr Unterziele in einer<br />
bestimmten Reihenfolge ausgeführt werden müssen (vgl. Beispiel<br />
oben).<br />
Schritt Die Analyseeinheit beim Cognitive Walkthrough. Bei jedem Schritt<br />
berücksichtigen sind zu jeder Aktion drei Fragen zu beantworten:<br />
• Welche Ziele sollte der Nutzer unmittelbar vor der Action<br />
haben?<br />
• Werden diese Ziele beim aktuellen Zustand der Schnittstelle<br />
11
Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />
den Nutzer dazu anregen, die korrekte Aktion auszuwählen<br />
<strong>und</strong> auszuführen?<br />
• Wie beeinflusst die Änderung der Nutzerschnittstelle nach<br />
der richtigen Aktion die Ziele des Nutzers?<br />
Tabelle 1: Die Terminologie des Cognitive Walkthrough<br />
Im Vorfeld der Evaluation müssen einige Vorbereitungen getroffen werden. Zunächst<br />
müssen Aufgaben ausgewählt werden, die analysiert werden sollen. Dabei sollten nicht<br />
nur einfache, atomare, sondern vor allem komplexere Aufgaben ausgewählt werden, die<br />
eine Kombination mehrerer Aktionen erforderlich machen. Denn der Übergang<br />
zwischen Teilschritten bereitet den Benutzern in der Praxis häufig Probleme <strong>und</strong> der<br />
Cognitive Walkthrough zielt insbesondere auf die Aufdeckung von solchen Problemen<br />
beim Übergang zwischen Teilschritten ab [PLRW92]. Im Anschluss müssen die<br />
ausgewählten Aufgaben beschrieben werden, wobei darauf Wert gelegt werden sollte,<br />
die Beschreibung nicht systemspezifisch, sondern möglichst allgemeinverständlich<br />
vorzunehmen. Auch Annahmen über den Systemzustand bei Beginn des Tests <strong>und</strong> über<br />
das Hintergr<strong>und</strong>wissen der Nutzerpopulation müssen hier explizit formuliert werden.<br />
Anschließend wird eine korrekte Aktionssequenz definiert, mit der die gestellte<br />
Aufgabe gelöst werden kann. Dabei sollte es sich um die beste durch die Schnittstelle<br />
angebotene Sequenz handeln, um relevante Aussagen über die Systemqualität zu<br />
erhalten. Wird eine suboptimale Sequenz analysiert, so besitzen die Ergebnisse keinen<br />
Aussagewert über die <strong>Usability</strong> des Systems. Es ist <strong>für</strong> die Ergebnisse entscheidend, die<br />
richtige Granularitätsstufe <strong>für</strong> die einzelnen Schritte zu wählen, um bestimmte Probleme<br />
finden zu können. Besteht zwischen einem Oberziel <strong>und</strong> einem seiner Unterziele zu<br />
große Ähnlichkeit aus Sicht des Nutzers, so kann es passieren, dass nach der<br />
erfolgreichen Ausführung des Unterziels auch das Oberziel als abgeschlossen<br />
angesehen wird (Supergoal-Kill-Off-Problem). Die Autoren schlagen daher vor, mit<br />
einer möglichst feingranularen Modellierung zu beginnen <strong>und</strong> die Teilziele nur dann<br />
zusammenzufassen, wenn sichergestellt ist, dass sich ein über- <strong>und</strong> ein untergeordnetes<br />
Ziel nicht zu ähnlich sind.<br />
Um die Entscheidungen des Analysten über das Verhalten der Nutzer zu f<strong>und</strong>ieren,<br />
sollte anschließend die erwartete Nutzerpopulation beschrieben werden. Dabei sind<br />
insbesondere die Erfahrungen mit vergleichbaren Systemen <strong>und</strong> Nutzerschnittstellen<br />
von Interesse, die ein Hintergr<strong>und</strong>wissen über das evaluierte System begründen.<br />
12
Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />
Abschließend werden die anfänglichen Ziele des Nutzers beschrieben, die sich aus der<br />
Aufgabenstellung <strong>und</strong> dem Hintergr<strong>und</strong>wissen des Nutzers ableiten. Sollten mehrere<br />
Zielstrukturen denkbar sein, so sollten sämtliche dieser Strukturen dargestellt werden<br />
<strong>und</strong> jeweils mit einer geschätzten Wahrscheinlichkeit <strong>für</strong> ihr Auftreten versehen<br />
werden.<br />
Im Anschluss an diese vorbereitenden Maßnahmen wird jede Aktion evaluiert. Dabei<br />
werden die folgenden drei Schritte durchgeführt<br />
1. Vergleich zwischen den tatsächlichen <strong>und</strong> den erwünschten Zielen eines Nutzers<br />
2. Probleme bei der Auswahl einer Aktion mit den gegebenen Zielen<br />
3. Die Auswirkungen der Systemantwort auf die Zielstrukturen des Nutzers<br />
Zunächst werden vom Entwickler die erwünschten Ziele des Nutzers zu Beginn der<br />
Aktion definiert. Anschließend werden diese Ziele basierend auf dem vorangegangenen<br />
Schritt bzw. auf der Vorbereitung mit den wahrscheinlichen Zielstrukturen der Benutzer<br />
verglichen. Dabei können sich Abweichungen ergeben, die zu Problemen beim Umgang<br />
mit der Nutzerschnittstelle führen.<br />
Anschließend wird auf Basis der Zielstruktur anhand einiger Fragen evaluiert, ob der<br />
Benutzer die korrekte Aktion ausführen kann. Damit ein Benutzer die korrekte Aktion<br />
ausführen kann, muss sie z. B. verfügbar <strong>und</strong> einleuchtend beschriftet sein. Ist dies nicht<br />
gegeben, so liegt ein Aktionskonflikt vor, da der Nutzer nicht die richtige Aktion<br />
ausführen kann, obwohl er das richtige Ziel erfüllen will.<br />
Schließlich wird der Einfluss der Systemrückmeldung auf die Zielstrukturen des<br />
Benutzers untersucht. Die Systemrückmeldung sollte einen Fortschritt melden, sollte<br />
korrekt erfüllte Ziele als solche erscheinen lassen, andererseits aber auch nicht erfüllte<br />
Ziele nicht fälschlicherweise als erfüllt erscheinen lassen. Außerdem können durch<br />
entsprechende Rückmeldungen neue Ziele vom Nutzer gebildet werden. Diese Ziele<br />
bilden die Gr<strong>und</strong>lage <strong>für</strong> den nächsten Evaluationsschritt, in dem wiederum zunächst<br />
Zielkonflikte <strong>und</strong> dann Aktionskonflikte analysiert werden.<br />
3.2 Vorbereitung eines empirischen <strong>Usability</strong>-Tests<br />
Im Gegensatz zu den oben dargestellten analytischen <strong>Methoden</strong> wird ein Großteil der<br />
<strong>Usability</strong>-Tests empirisch durchgeführt, d. h. eine Gruppe von Testpersonen benutzt die<br />
13
Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />
Software <strong>und</strong> wird dabei beobachtet. Aus dem Verhalten der Probanden werden<br />
Rückschlüsse auf die <strong>Usability</strong> der Software gezogen. Um eine solche empirische<br />
Studie durchführen zu können, sind im Vorfeld einige Schritte der Vorbereitung<br />
durchzuführen.<br />
Zunächst einmal müssen die Versuchspersonen ausgewählt werden. Dabei sind<br />
insbesondere die Anzahl <strong>und</strong> die Art der Personen entscheidend. Gr<strong>und</strong>sätzlich werden<br />
die Aussagen bei steigender Zahl an Probanden immer präziser. Tullis <strong>und</strong> Albert<br />
weisen jedoch darauf hin, dass nach ihren Erkenntnissen bereits mit sechs bis acht<br />
Teilnehmern qualitativ gute Erkenntnisse bei geringen Kosten erzielt werden können.<br />
Bei abschließenden Evaluationen empfehlen sie dagegen 50 bis 100 Probanden [TA08,<br />
S. 59]. Die Probanden sollten von ihren Fähigkeiten <strong>und</strong> ihrem Hintergr<strong>und</strong>wissen<br />
möglichst nah an den Personen liegen, die die Software später nutzen werden. Ein Test,<br />
bei dem die Entwickler als Versuchspersonen eingesetzt werden ist in der Regel nicht<br />
repräsentativ, da die Entwickler das System aufgr<strong>und</strong> ihres allgemeinen technischen<br />
Sachverstands <strong>und</strong> ihrer Produktkenntnis im Besonderen die Software wesentlich<br />
effizienter bedienen können als die Endnutzer.<br />
Danach sind Aufgaben festzulegen, die die Probanden im Rahmen des <strong>Usability</strong>-Tests<br />
erfüllen sollen. Die Bearbeitung der Aufgaben bildet den Bezugsrahmen zur Messung<br />
vieler <strong>Usability</strong>-Parameter. Zudem kann überprüft werden, ob der Proband die<br />
Aufgaben (korrekt) lösen konnte. Dies gibt Aufschluss darüber, ob der Proband reale<br />
Aufgaben mit der Software bewältigen könnte.<br />
3.3 Befragungen<br />
Ein naheliegendes Mittel, um von den Probanden Erkenntnisse über die <strong>Usability</strong> der<br />
Software zu erhalten, ist die Probanden zu befragen. Durch Befragungen können<br />
insbesondere Erkenntnisse über die Zufriedenheit der Nutzer gewonnen werden. Dies ist<br />
mit anderen <strong>Methoden</strong> in der Regel nicht möglich. Wenn also die Nutzerzufriedenheit<br />
<strong>für</strong> die zu testende Software erfolgskritisch ist (z. B. bei Websites), so sind Befragungen<br />
die zu bevorzugende Evaluationsmethode. Bei der Gestaltung einer solchen Befragung<br />
sind jedoch gewisse Hinweise zu beachten, um ein optimales Ergebnis zu erzielen.<br />
14
Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />
Fragebogendesign<br />
Zunächst soll an dieser Stelle auf die Gestaltung von Fragen im Rahmen von<br />
Fragebögen eingegangen werden. Im Zusammenhang der <strong>Usability</strong>-Evaluation haben<br />
sich vor allem die Likert-Skala <strong>und</strong> Polaritätsprofile bewährt. Mithilfe der Likert-Skala<br />
werden in der Regel vorgegebene Aussagen über das Produkt bewertet, z. B. „Ich fand<br />
die Navigation verwirrend“. Zur Bewertung der Aussage dient dem Probanden eine<br />
Skala in der folgenden Form [Fri90, S. 175]:<br />
1. Ich lehne es stark ab<br />
2. Ich lehne es ab<br />
3. Ich weiß nicht, neutral<br />
4. Ich stimme zu<br />
5. Ich stimme stark zu<br />
Es ist auch möglich, sieben statt fünf Kategorien zu verwenden, um eine feinere<br />
Einteilung zu nutzen. Nachteilig ist dann allerdings, dass die Beschriftung <strong>für</strong> die<br />
Zwischenschritte schwieriger wird, was auch nicht dazu verleiten sollte, Adverbien wie<br />
„extrem“ oder „absolut“ bei der Beschriftung zu verwenden, da so die<br />
Wahrscheinlichkeit <strong>für</strong> eine starke Zustimmung oder Ablehnung verringert. Schließlich<br />
besteht noch die Möglichkeit, eine gerade Anzahl an Optionen zu verwenden. Da es in<br />
diesem Fall keine Mitte, bzw. keine neutrale Position gibt, ist der Proband gezwungen,<br />
sich zumindest tendenziell <strong>für</strong> Zustimmung oder Ablehnung zu entscheiden. Die<br />
einzelnen Antworten werden in der Regel mit Zahlen kodiert (bei der Standard-Skala<br />
z. B. 0 bis 4).<br />
Mithilfe von Polaritätsprofilen wird ein Objekt in ein Raster von Gegensatzpaaren<br />
eingeordnet. Beispiele hier<strong>für</strong> sind:<br />
schwach ○ ○ ○ ○ ○ ○ ○ stark<br />
schön ○ ○ ○ ○ ○ ○ ○ hässlich<br />
heiß ○ ○ ○ ○ ○ ○ ○ kalt<br />
hell ○ ○ ○ ○ ○ ○ ○ dunkel<br />
Auch diese Skala wird mit Zahlen kodiert. Man geht dabei implizit davon aus, dass die<br />
Abstände zwischen den einzelnen Kategorien gleich groß sind.<br />
Es gilt zu beachten, dass die Ergebnisse bei Umfragen durch die Anwesenheit des<br />
Moderators verzerrt werden können. Probanden werden versuchen, dem Moderator<br />
15
Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />
diejenigen Antworten zu geben, die er erhofft. Der Proband wird in Gegenwart eines<br />
Moderators also eine positivere Einschätzung abgeben, als er es in einer anonymen<br />
Befragungssituation, z. B. einer Online-Befragung, tun würde. Man spricht in diesem<br />
Zusammenhang von der „sozialen Erwünschtheit“ [TA08, S. 126] bestimmter<br />
Antworten. Diesem Problem kann der Moderator begegnen, indem er den Probanden<br />
beim Ausfüllen des Fragebogens nicht beobachtet. Noch besser ist es, wenn der<br />
Moderator den Raum verlässt, während der Proband den Fragebogen ausfüllt.<br />
Befragung nach der Aufgabe<br />
Im Anschluss an jede ausgeführte Aufgabe kann der Proband über die empf<strong>und</strong>ene<br />
Komplexität der Aufgabe befragt werden. Im einfachsten Fall muss er z. B. die Aussage<br />
„Diese Aufgabe war einfach zu lösen“ auf einer Likert-Skala bewerten („Ich lehne es<br />
stark ab“ vs. „Ich stimme stark zu“).<br />
Eine etwas differenziertere Aussage lässt sich mit Hilfe des After Scenario<br />
Questionnaire (ASQ) von Jim Lewis treffen. Dabei werden im Anschluss an eine<br />
Aufgabe die folgenden drei Aussagen auf einer Likert-Skala mit sieben Kategorien<br />
bewertet [TA08, S. 129]:<br />
1. „Ich bin damit zufrieden, wie einfach ich die Aufgaben erledigen konnte.“<br />
2. „Ich bin mit dem Zeitaufwand zufrieden, mit dem ich die Aufgaben erledigen<br />
konnte“<br />
3. „Ich bin mit den unterstützenden Informationen (Online-Hilfe, Nachrichten.<br />
Dokumentation) bei der Erfüllung der Aufgaben zufrieden.<br />
Durch diese drei Aussagen werden gleichzeitig die Effektivität (Frage 1), die Effizienz<br />
(Frage 2) <strong>und</strong> die Zufriedenheit (alle drei Fragen) des Nutzers erhoben.<br />
Mit den so erhobenen Nutzereindrücken können einerseits solche Aufgaben identifiziert<br />
werden, die besonders schwierig oder aufwändig zu lösen waren, <strong>und</strong> die somit<br />
Kandidaten <strong>für</strong> eine <strong>Usability</strong>-Optimierung sind. Außerdem kann durch eine<br />
Mittelwertbildung über alle einzelnen Aufgabenevaluationen die Gesamtusability des<br />
Systems erhoben werden.<br />
Bewertungen nach der Sitzung<br />
Nach dem Abschluss des eigentlichen <strong>Usability</strong>-Tests kann mithilfe eines<br />
umfangreichen Fragebogens der Gesamteindruck der Testperson erhoben werden. Im<br />
16
Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />
Gegensatz zur Mittelwertbildung aus der Bewertung einzelner Aufgaben wir hier jedoch<br />
der Proband insbesondere seinen letzten Eindruck über die Software zum Ausdruck<br />
bringen, der nicht notwendigerweise mit dem Mittelwert übereinstimmt.<br />
Nichtsdestotrotz handelt es sich hier um den prägenden Eindruck <strong>für</strong> den Probanden,<br />
der seine zukünftige Einstellung gegenüber dem Produkt nachhaltig beeinflussen kann.<br />
Für solche abschließenden Fragebögen gibt es in der Literatur eine Reihe von<br />
Vorschlägen, die teilweise nur den Gesamteindruck über die <strong>Usability</strong> messen, teilweise<br />
jedoch auch in Kategorien unterteilt sind, um Teilaspekte der <strong>Usability</strong> bewerten zu<br />
können. Aus Platzgründen kann hier nicht auf alle diese Fragebögen eingegangen<br />
werden. Vergleichsstudien [TA08, S. 146] haben gezeigt, dass mit dem System<br />
<strong>Usability</strong> Scale (SUS) ein Fragebogen existiert, der schon bei kleinen Testgruppen sehr<br />
konsistente Ergebnisse liefert. Der SUS besteht aus zehn jeweils leicht abgewandelten<br />
Aussagen über die <strong>Usability</strong>, von denen jeweils fünf positiv bzw. fünf negativ<br />
formuliert sind [TA08, S. 138]:<br />
1. Ich denke, dass ich dieses System gerne häufig nutzen würde.<br />
2. Ich fand das System unnötig komplex.<br />
3. Ich denke, das System war einfach zu benutzen.<br />
4. Ich denke, ich würde die Hilfe eines Technikers benötigen, um das System<br />
benutzen zu können.<br />
5. Ich halte die verschiedenen Funktionen des Systems <strong>für</strong> gut integriert.<br />
6. Ich halte das System <strong>für</strong> zu inkonsistent.<br />
7. Ich kann mir vorstellen, dass die meisten Leute sehr schnell lernen würden, mit<br />
dem System umzugehen.<br />
8. Ich fand das System sehr mühsam zu benutzen.<br />
9. Ich fühlte mich bei der Nutzung des Systems sehr sicher.<br />
10. Ich musste viele Dinge lernen, bevor ich das System nutzen konnte.<br />
Die Zustimmung bzw. Ablehnung zu allen Aussagen wird auf einer Likert-Skala mit<br />
fünf Optionen bewertet <strong>und</strong> mit Werten von 0 bis 4 kodiert. Die Kodierung aller<br />
negativen Aussagen wird von vier abgezogen. Daraufhin wird die Summe dieser Werte<br />
gebildet, wodurch ein Wert zwischen 0 <strong>und</strong> 40 ermittelt wird. Durch Multiplikation mit<br />
2,5 wird dann der sog. SUS-Score ermittelt, der als Prozentwert interpretiert werden<br />
17
Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />
kann, wobei 100 % einem perfekten System entsprechen. Werte unter 60 % sind nach<br />
Tullis <strong>und</strong> Albert ein Indiz <strong>für</strong> gewichtige <strong>Usability</strong>-Probleme, Werte über 80 % können<br />
dagegen als gut angesehen werden [TA, S. 149].<br />
3.4 Ausführungsmetriken<br />
Aus wirtschaftlicher Sicht ist bei vielen Anwendungen vor allem die Bewertung des<br />
Handelns der Probanden entscheidend.<br />
Bearbeitungserfolg<br />
Die einfachste Form, den Bearbeitungserfolg zu messen, ist eine binäre Entscheidung<br />
(Bearbeitung erfolgreich / Bearbeitung nicht erfolgreich). Dabei bezieht sich die<br />
Aussage immer auf eine konkrete Aufgabenstellung, die der Proband erfüllen soll. Das<br />
Ergebnis wird in Form von Binärvariablen <strong>für</strong> jeden Probanden <strong>und</strong> jede Aufgabe<br />
kodiert:<br />
Wert Bedeutung<br />
0 Bearbeitung erfolgreich<br />
1 Bearbeitung nicht erfolgreich<br />
Tabelle 2: Binäre Kodierung des Bearbeitungserfolgs<br />
Zur Analyse der Daten sollte zunächst <strong>für</strong> jede gestellte Aufgabe der Mittelwert über<br />
alle Probanden berechnet werden. Diese Erfolgsraten der Aufgaben können dann –<br />
angereichert mit Streumaßen wie z. B. Konfidenzintervallen – in einem<br />
Balkendiagramm dargestellt werden, um zwischen den einzelnen Aufgaben einen<br />
Vergleich zu ziehen <strong>und</strong> diejenigen Aufgaben mit besonders auffälligen Problemen zu<br />
identifizieren.<br />
Es ist jedoch nicht immer sinnvoll, den Erfolg des Probanden rein binär zu kodieren.<br />
Häufig ergeben sich auch Zwischenzustände, die in der Analyse entsprechend<br />
berücksichtigt werden sollten. Denkbar ist hier z. B. eine Gewichtung der Ergebnisse:<br />
Bewertung Interpretation<br />
1,0 Vollständiger Erfolg (ohne Hilfestellung)<br />
0,5 Teilweiser Erfolg<br />
0,0 Aufgabe oder falsche Antwort<br />
Tabelle 3: Gewichtung des Bearbeitungserfolges [TA08, S. 71]<br />
18
Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />
Anlog zur Erfolgsrate kann durch Mittelwertberechnung hier eine „Erfolgspunktzahl“<br />
berechnet werden. Alternativ kann der Erfolg auch anhand einer geordneten Skala<br />
festgestellt werden, die der Erfahrung des Nutzers entspricht:<br />
Kodierung Bedeutung<br />
1 Kein Problem. Der Proband hat die Aufgabe erfolgreich ohne<br />
Schwierigkeiten oder Ineffizienzen gelöst.<br />
2 Kleinere Probleme. Der Proband hat die Aufgabe gelöst, jedoch einen<br />
kleinen Umweg genommen. Er hat ein oder zwei kleine Fehler gemacht,<br />
die er jedoch schnell beheben <strong>und</strong> so die Aufgabe erfolgreich lösen<br />
konnte.<br />
3 Größere Probleme. Der Proband hat die Aufgabe erfolgreich gelöst,<br />
jedoch mit größeren Problemen. Er musste sich abmühen <strong>und</strong> hat einen<br />
größeren Umweg gemacht, schließlich jedoch die Aufgabe erfolgreich<br />
gelöst.<br />
4 Fehlschlag / Aufgabe: Der Proband hat die falsche Antwort gegeben oder<br />
vor Erledigung der Aufgabe aufgegeben, oder der Moderator ist zur<br />
nächsten Aufgabe übergegangen vor dem erfolgreichen Abschluss.<br />
Tabelle 4: Ordinale Kodierung des Bearbeitungserfolges<br />
Da es sich hier um ordinale Daten handelt, darf nun allerdings kein Mittelwert gebildet<br />
werden. Stattdessen sollte eine relative Häufigkeitsverteilung der Kategorien <strong>für</strong> jede<br />
Aufgabe erstellt werden.<br />
Bearbeitungsdauer<br />
Für viele Anwendungen ist die Bearbeitungsdauer von entscheidender Relevanz. Hier<br />
handelt es sich auch um eine wirtschaftlich relevante Kennzahl. Je kürzer die<br />
Bearbeitungszeit pro Fall ist, z. B. bei der Reisebuchung per Telefon, umso mehr Fälle<br />
können pro Zeit abgearbeitet werden, was höhere Abfertigungsraten <strong>und</strong> somit<br />
Kostenersparnisse nach sich zieht.<br />
In der Praxis gestaltet sich die Messung der Bearbeitungsdauer jedoch relativ schwierig.<br />
Zum Einen müssen der Start- <strong>und</strong> der Endzeitpunkt der Bearbeitung festgestellt werden<br />
können. Dazu kann der Proband dazu aufgefordert werden, die Aufgabenstellung laut<br />
vorzulesen, sodass nach dem Lesen eine Stoppuhr gestartet werden kann. Den<br />
Endzeitpunkt markiert die Antwort des Probanden. Zum anderen soll die<br />
Bearbeitungsdauer durch die Zeitmessung nicht beeinflusst werden. Wenn der Proband<br />
die Zeitmessung wahrnimmt, kann er in Leistungsdruck geraten, der seine Leistung<br />
negativ beeinflusst. Wenn der Proband andererseits gänzlich ohne Zeitdruck arbeitet,<br />
kann er die Aufgabe evtl. ineffizient lösen, da er eine kleine „Besichtigung“ der<br />
Software durchführt, ohne konkret auf das Ziel hinzuarbeiten. Daher sollte der Proband<br />
19
Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />
dazu aufgefordert werden, die Aufgaben „so schnell wie möglich“ zu bearbeiten, ohne<br />
ihn explizit auf die Zeitmessung hinzuweisen. Nach erfolgter Zeitmessung sollten die<br />
Messdaten noch um Ausreißer bereinigt werden. Wird der Proband während des Tests<br />
nicht kontrolliert, so kann er entweder die Ausführung einer Aufgabe <strong>für</strong> die<br />
Mittagspause unterbrechen, was zu ungewöhnlich langen Bearbeitungszeiten führt. Auf<br />
der anderen Seite können Probanden dazu neigen, die Aufgaben nicht sorgfältig zu<br />
bearbeiten, was zu extrem kurzen Bearbeitungszeiten führt. Solche Ausreißer können<br />
mithilfe statistischer Verfahren identifiziert <strong>und</strong> aussortiert werden.<br />
Zur Analyse der Messdaten kann wiederum <strong>für</strong> jede gestellte Aufgabe der Mittelwert<br />
der Bearbeitungszeit berechnet werden. Darüber hinaus kann die Bearbeitungszeit in<br />
Intervalle unterteilt werden <strong>und</strong> es wird die Anzahl bzw. der Anteil an Probanden<br />
dargestellt, die in das entsprechende Intervall fallen. Schließlich ist häufig nur<br />
entscheidend, dass der Nutzer die gestellte Aufgabe innerhalb eines bestimmten<br />
Zeitlimits (z. B. eine Minute) lösen kann. In solchen Fällen ist der Anteil an Probanden,<br />
der diese Grenze nicht überschritten hat, von besonderem Interesse.<br />
Bearbeitungseffizienz<br />
Die Bearbeitungseffizienz kann zwar aus der Bearbeitungsdauer abgeleitet werden, es<br />
ist jedoch vorteilhaft, direkt den Aufwand bestimmen zu können, die zu Lösung der<br />
Aufgabe notwendig ist. Dies ist in den meisten Fällen ebenfalls relativ einfach möglich.<br />
Aufwand besteht <strong>für</strong> den Nutzer in kognitivem Aufwand einerseits <strong>und</strong> physischem<br />
Aufwand andererseits. Kognitiver Aufwand kann darin bestehen, den richtigen Link auf<br />
einer Website zu finden oder die nächste notwendige Aktion festzulegen. Physischer<br />
Aufwand besteht z. B. in Mausklicks oder Tastatureingaben. Im einfachsten Fall wird<br />
die Anzahl solcher Aktionen (mithilfe darauf spezialisierter Software) gezählt <strong>und</strong><br />
anschließend werden wiederum die Mittelwerte <strong>für</strong> jede Aufgabe bestimmt. Ein<br />
Vergleich zwischen Aufgaben mit ähnlicher Komplexität kann dabei zu interessanten<br />
Beobachtungen führen.<br />
3.5 Verhaltensmetriken <strong>und</strong> physiologogische Metriken<br />
Während eines <strong>Usability</strong>-Tests erfüllt ein Proband in der Regel nicht ausschließlich<br />
seine Aufgaben. Vielmehr gibt er eine Reihe großteils unbewusster Signale von sich,<br />
die <strong>für</strong> die <strong>Usability</strong>-Bewertung von großem Interesse sein können. Auf die<br />
20
Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />
Beobachtungs- <strong>und</strong> Analysemöglichkeiten solcher Signale soll im Folgenden<br />
eingegangen werden.<br />
Verbale Verhaltensweisen<br />
Probanden geben während eines <strong>Usability</strong>-Tests meist beiläufig Kommentare über ihre<br />
Empfindungen über die Software ab. Gr<strong>und</strong>sätzlich lassen sich diese Kommentare in<br />
die Kategorien positiv, negativ <strong>und</strong> neutral einordnen. Indem die Kommentare<br />
aufgezeichnet <strong>und</strong> gezählt werden, kann anschließend <strong>für</strong> jede Aufgabe eine<br />
Häufigkeitsverteilung der Klassen erstellt werden. Anhand der Häufigkeitsverteilung<br />
lassen sich dann die einzelnen Aufgaben untereinander vergleichen oder es lassen sich<br />
die Ergebnisse ähnlicher Aufgaben bei unterschiedlichen untersuchten Programmen<br />
oder unterschiedlichen Designvorschlägen vergleichen. Aufgaben bzw. Software mit<br />
einem hohen Anteil an negativen Bewertungen müssen demnach bei einer Verbesserung<br />
besonders berücksichtigt werden.<br />
Nichtverbale Verhaltensweisen<br />
Zu den nichtverbalen Verhaltensweisen zählen z. B. Gesichtsausdrücke, Gesten oder<br />
nervöses Fingerklopfen. Solche Ausdrücke wechseln jedoch unter Umständen sehr<br />
schnell, so dass hier eine Videoaufzeichnung zur nachgelagerten Analyse sinnvoll sein<br />
kann. Mit entsprechend vorbereiteten Bögen können solche Ausdrücke außerdem recht<br />
schnell dokumentiert werden.<br />
Um aus den gesammelten Verhaltensweisen eine Metrik abzuleiten, werden die Anzahl<br />
positiver <strong>und</strong> negativer Ausdrücke zusammengezählt <strong>und</strong> <strong>für</strong> jede Aufgabe dargestellt.<br />
Tullis <strong>und</strong> Albert führen als sinnvolles Einsatzbeispiel einen MP3-Player an, auf dem<br />
eine nur schwer leserliche Seriennummer aufgedruckt ist [TA08, S. 171]. Diese<br />
Seriennummer muss bei der Installation der zugehörigen Software eingetragen werden.<br />
Wenn der Proband das Gerät hin <strong>und</strong> her dreht, es in besserem Licht zu betrachten<br />
versucht oder einen jüngeren Menschen um Unterstützung bittet, so sind dies klare<br />
Indizien <strong>für</strong> ein <strong>Usability</strong>-Problem.<br />
Eye-Tracking<br />
Bei Eye-Tracking handelt es sich um eine sehr fortgeschrittene Technologie, die es<br />
erlaubt, die Blickrichtung <strong>und</strong> die Verweildauer auf bestimmten Punkten der<br />
Nutzeroberfläche zu dokumentieren. Früher waren zum Eye-Tracking recht komplexe<br />
Versuchsaufbauten mit mehreren Kameras notwendig, doch mit den letzten<br />
21
Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />
Entwicklungen kann Eye-Tracking nun relativ einfach <strong>und</strong> ohne Belastungen <strong>für</strong> den<br />
Probanden durchgeführt werden.<br />
Die Messdaten können z. B. in Form von „Hitzebildern“ ausgegeben werden. Je höher<br />
die angezeigte „Temperatur“ ist (signalisiert durch die rote Farbgebung), desto länger<br />
hat der Proband auf die entsprechende Stelle geschaut (vgl. Abbildung 4). Basierend auf<br />
diesen Rohdaten können dann Einblicke in die Entstehung bestimmter <strong>Usability</strong>-<br />
Probleme gewonnen werden.<br />
Ein Ansatz besteht hier in der Analyse von kritischen Steuerungselementen. Gibt es auf<br />
einer Website beispielsweise einen Link, der direkt die Erledigung einer gestellten<br />
Aufgabe ermöglicht <strong>und</strong> wird beobachtet, dass die Probanden diesen Link nie benutzen,<br />
kann mithilfe des Eye-Tracking analysiert werden, ob die Probanden den Link<br />
überhaupt wahrnehmen [TA08, S. 176]. Dazu wird ein rechteckiger Bereich um den<br />
Link festgelegt. Nun wird bei jedem Probanden – basierend auf den Tracking-Daten –<br />
die Zeit bestimmt, während der er diesen Bereich fixiert. Anschließend kann die<br />
durchschnittliche Fixierungsdauer über alle Probanden ermittelt werden. Alternativ<br />
wird eine Zeitschranke definiert, die notwendig ist, um die Beschriftung zu lesen <strong>und</strong> es<br />
wird der Anteil an Probanden gemessen, die mindestens so lange diesen Bereich fixiert<br />
haben. Wenn nun die durchschnittliche Fixierungsdauer bzw. der Anteil an Probanden<br />
mit ausreichender Fixierungsdauer sehr gering ist, so wurde das Element offensichtlich<br />
nicht wahrgenommen <strong>und</strong> daher nicht benutzt. Wurde das Element allerdings lange<br />
genug fixiert, so liegt wahrscheinlich ein Problem mit der Beschriftung des Elementes<br />
vor, da die Probanden den Link nicht mit der ihnen gestellten Aufgabe in Verbindung<br />
gebracht haben.<br />
22
Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />
Abbildung 4: „Hitzebild“ einer Eye-Tracking-Untersuchung [TA08]<br />
Hautwiderstand <strong>und</strong> Pulsfrequenz<br />
Wenn ein Proband unter Stress gerät, so zeigt sich dies auch an physiologischen<br />
Veränderungen. Durch vermehrtes Schwitzen verringert sich der elektrische<br />
Hautwiderstand <strong>und</strong> der Puls beschleunigt sich. Stress entsteht bei <strong>Usability</strong>-Tests z. B.<br />
durch schlecht gestaltete Nutzerschnittstellen, häufig auftretende <strong>und</strong> irritierende<br />
Fehlermeldungen oder lange Wartezeiten. Studien konnten belegen, dass durch solche<br />
Stressfaktoren der Puls tatsächlich beschleunigt wird, <strong>und</strong> der Hautwiderstand<br />
23
Kapitel 3: <strong>Methoden</strong> der Softwareevaluation<br />
herabgesetzt ist [TA08, S. 183 ff.]. Bei gut gestalteten Nutzerschnittstellen tritt meist<br />
sogar ein gegenteiliger Effekt ein, der Puls sinkt also unter das Normalniveau ab.<br />
Durch entsprechende Messinstrumente lassen sich diese Signale heute schon<br />
aufzeichnen. Leider sind die Instrumente allerdings noch relativ unbequem <strong>und</strong> störend,<br />
sodass sie selbst zu einem Stressfaktor werden können. Technische Entwicklungen<br />
begründen jedoch ebenso wie beim Eye-Tracking die Hoffnung, dass zukünftig solche<br />
Messungen mit weniger Eingriffen möglich sein werden [TA08, S. 185 f.].<br />
Beispielsweise wurde bereits ein Bürostuhl vorgestellt, der die Pulsfrequenz einer<br />
darauf sitzenden Person messen kann. Mithilfe dieser physiologischen Daten lassen sich<br />
nämlich sehr interessante Einblicke in die unbewussten Wirkungen der<br />
Schnittstellengestaltung gewinnen. Schnittstellen mit hohen Stresswerten werden vom<br />
Nutzer mit hoher Wahrscheinlichkeit abgelehnt.<br />
24
Kapitel 4: Fazit<br />
4 Fazit<br />
Die Arbeit hat eine breite Palette an Evaluationsmethoden dargestellt. Einerseits handelt<br />
es sich um analytische <strong>Methoden</strong>, die direkt von <strong>Usability</strong>-Experten mit einem tiefen<br />
Sachverständnis angewendet werden. Die permanente Verfügbarkeit von Experten<br />
vorausgesetzt, können diese <strong>Methoden</strong> begleitend zur Produktentwicklung angewendete<br />
werden. Sie erfordern keine langfristige Vorausplanung oder Analyse von Messdaten.<br />
Da<strong>für</strong> sind diese Verfahren gleichzeitig sehr von der Qualität der Experten abhängig<br />
<strong>und</strong> durch das Hintergr<strong>und</strong>wissen der Experten können die Ergebnisse gegenüber<br />
Durchschnittsnutzern abweichen.<br />
Daher sollte auf die empirischen <strong>Methoden</strong> keineswegs bei der Evaluation verzichtet<br />
werden. Nur echte Nutzer mit einem realistischen Hintergr<strong>und</strong>wissen können<br />
beweiskräftige Aussagen über die <strong>Usability</strong> liefern. Zudem können hier tatsächlich<br />
Messwerte erhoben werden, die einen Vergleich zwischen unterschiedlichen Produkten,<br />
Produktvarianten oder auch im Zeitablauf ermöglichen. Am effektivsten ist sicherlich<br />
die Kombination mehrerer Verfahren. So können die bestehenden Probleme im Rahmen<br />
von empirischen <strong>Usability</strong>-Tests identifiziert <strong>und</strong> anschließend von <strong>Usability</strong>-Experten<br />
auf ihre Ursache hin analysiert werden<br />
In diesem Zusammenhang soll noch darauf hingewiesen werden, dass es noch einige<br />
weitere <strong>Methoden</strong> gibt, die im Rahmen dieser Arbeit nicht mehr dargestellt werden<br />
konnten. Insbesondere sind hier aggregierte Metriken zu nennen, die eine Aussage über<br />
die <strong>Usability</strong> eines gesamten Produktes ermöglichen. Auf Basis dieser Kennzahlen sind<br />
direkte Vergleiche zwischen unterschiedlichen Varianten einfach möglich. Es wurde<br />
auch nicht dargestellt, wie auf Basis von <strong>Usability</strong>-Kennzahlen wirtschaftliche<br />
Kennzahlen wie der Return on Investment (ROI) berechnet werden können, die den<br />
Nutzen von <strong>Usability</strong>-Verbesserungen quantifizieren.<br />
Mit der zunehmenden Wichtigkeit von <strong>Usability</strong> als Wettbewerbsfaktor sollte kein<br />
Unternehmen auf <strong>Usability</strong>-Tests verzichten. Nur so lassen sich nachvollziehbare<br />
Entscheidungen über konkrete Maßnahmen zur Verbesserung der <strong>Usability</strong> fällen.<br />
25
Literaturverzeichnis<br />
[Fr90] Jürgen Friedrichs: <strong>Methoden</strong> empirischer Sozialforschung, Westdeutscher<br />
Verlag, 1990.<br />
[Ha86] Winfried Hacker: Allgemeine Arbeits- <strong>und</strong> Ingenieurpsychologie: Verlag<br />
Hans Huber, 1986.<br />
[HZ90] Carl Graf Hoyos, Bernhard Zimolong: Ingenieurpsychologie, Verlag <strong>für</strong><br />
Psychologie, 1990.<br />
[Ni92] Jakob Nielsen: Finding <strong>Usability</strong> Problems Through Heuristic Evaluation,<br />
Proceedings of the SIGCHI conference on Human factors in computing<br />
systems, S. 373-380, ACM, 1992.<br />
[Ni93] Jakob Nielsen.: <strong>Usability</strong> Engineering, AP Professional. 1993.<br />
[PLRW92] Peter G. Polson, Clayton Lewis, John Rieman, Cathleen Wharton: Cognitive<br />
Walkthroughs: A Method for Theory-Based Evaluation of User Interfaces,<br />
International Journal of Man-Machine Studies 36(5), S. 741-773, Academic<br />
Press, 1992.<br />
[TA08] Tom Tullis, Bill Albert: Measuring the User Experience, Collecting,<br />
Analyzing and Presenting <strong>Usability</strong> Metrics, Morgan Kaufmann, 2008.<br />
[WWD07] Sebastian Winter, Stefan Wagner, Florian Deissenboeck: A Comprehensive<br />
Model of <strong>Usability</strong>, http://wwwbroy.in.tum.de/~deissenb/publications/<br />
2007_winters_usability.pdf, 2007.