05.06.2013 Aufrufe

Ein kontrolliertes Experiment über die Auswirkung von Feedback ...

Ein kontrolliertes Experiment über die Auswirkung von Feedback ...

Ein kontrolliertes Experiment über die Auswirkung von Feedback ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Gottfried Wilhelm<br />

Leibniz Universität Hannover<br />

Fakultät für Elektrotechnik und Informatik<br />

Institut für Praktische Informatik<br />

Fachgebiet Software Engineering<br />

<strong>Ein</strong> <strong>kontrolliertes</strong> <strong>Experiment</strong> <strong>über</strong> <strong>die</strong> <strong>Auswirkung</strong> <strong>von</strong><br />

<strong>Feedback</strong>-Werkzeugen auf <strong>die</strong> Anforderungserhebung<br />

Diplomarbeit<br />

im Stu<strong>die</strong>ngang Mathematik mit Stu<strong>die</strong>nrichtung Informatik<br />

<strong>von</strong><br />

Melanie Hennemann<br />

Prüfer: Prof. Dr. Kurt Schneider<br />

Zweitprüfer: Prof. Dr. Ludwig Baringhaus<br />

Betreuer: M. Sc. Kai Stapel<br />

Hannover, 9. Mai 2010


Erklärung<br />

Hiermit versichere ich, <strong>die</strong> vorliegende Diplomarbeit selbstständig und ohne<br />

fremde Hilfe verfasst und keine anderen als <strong>die</strong> angegebenen Quellen und<br />

Hilfsmittel verwendet zu haben. Die Arbeit hat in gleicher oder ähnlicher Form<br />

noch keinem anderen Prüfungsamt vorgelegen.<br />

Hannover, den 10. Mai 2010 ___________________<br />

Melanie Hennemann<br />

| 2


Danksagung<br />

An <strong>die</strong>ser Stelle möchte ich mich bei allen Personen herzlich bedanken, <strong>die</strong><br />

mich bei der Erstellung <strong>die</strong>ser Arbeit unterstützt haben.<br />

Besonderer Dank gilt Prof. Dr. Kurt Schneider für <strong>die</strong> Vergabe und Betreuung<br />

meiner Diplomarbeit. Ich danke auch Prof. Dr. Ludwig Baringhaus für <strong>die</strong><br />

Geduld und Hilfestellung bei der Beantwortung <strong>von</strong> mathematischen Fragen.<br />

Bei M. Sc. Kai Stapel möchte ich mich für <strong>die</strong> hervorragende Unterstützung<br />

<strong>über</strong> den ganzen Zeitraum meiner Diplomarbeit bedanken.<br />

| 3


Inhaltsverzeichnis<br />

1 <strong>Ein</strong>leitung ................................................................................................................................6<br />

1.1 Motivation ........................................................................................................................6<br />

1.2 Ziele <strong>die</strong>ser Arbeit ............................................................................................................6<br />

1.3 Aufgabenstellung..............................................................................................................6<br />

1.4 Vorgehensweise und Gliederung......................................................................................7<br />

2 Grundlagen ..............................................................................................................................8<br />

2.1 Softwaretechnische Grundlagen.......................................................................................8<br />

2.1.1 Die Anforderungserhebung in der Softwareentwicklung..........................................8<br />

2.1.2 Beschreibung der Werkzeuge..................................................................................10<br />

2.1.3 Die GQM-Methode .................................................................................................14<br />

2.2 Statistische Grundlagen..................................................................................................15<br />

2.2.1 Grundbegriffe ..........................................................................................................15<br />

2.2.2 Statistische Tests .....................................................................................................18<br />

2.2.3 Bestimmung der Stichprobengröße .........................................................................20<br />

2.2.4 Zufällige Auswahl, Randomisation.........................................................................22<br />

2.2.5 Messfehler und Ausreißer........................................................................................23<br />

2.2.6 Korrelation <strong>von</strong> Merkmalen ....................................................................................24<br />

2.2.7 Skalenniveau............................................................................................................25<br />

2.3 Allgemeine Grundlagen..................................................................................................25<br />

2.3.1 Das <strong>Experiment</strong> .......................................................................................................25<br />

2.3.2 Exkurs: <strong>Experiment</strong>design.......................................................................................26<br />

2.3.3 Fragebögen als Hilfsmittel zur Datenerhebung.......................................................27<br />

3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode........................................................28<br />

3.1 Vorstu<strong>die</strong> ........................................................................................................................28<br />

3.1.1 Herausarbeitung der Hypothesen ............................................................................28<br />

3.1.2 <strong>Ein</strong>schränkungen auf das <strong>Experiment</strong> .....................................................................36<br />

3.2 Ziele und GQM-Modell..................................................................................................38<br />

3.2.1 Konkretisierung der Ziele und Hypothesen mit Hilfe <strong>von</strong> Abstraction Sheets .......38<br />

3.2.2 GQM-Modell - Ziele, Fragen, Metriken..................................................................42<br />

3.3 Mögliche <strong>Ein</strong>flüsse auf <strong>die</strong> Gültigkeit der Ergebnisse (Störvariablen)..........................44<br />

3.4 Sonstige Vorbereitungen ................................................................................................46<br />

| 4


3.4.1 Probandensuche.......................................................................................................46<br />

3.4.2 Software und Technik..............................................................................................46<br />

3.5 Messplan.........................................................................................................................46<br />

3.5.1 Schritte vor der Messung.........................................................................................46<br />

3.5.2 Schritte während der Messung ................................................................................53<br />

3.6 Vorgehensweise im <strong>Experiment</strong> – Prüflisten, Softwarebeispiel, Drehbuch...................53<br />

4 Durchführung des <strong>Experiment</strong>s.............................................................................................57<br />

4.1 Probanden.......................................................................................................................57<br />

4.2 Zusammenfassung des <strong>Experiment</strong>ablaufs.....................................................................60<br />

4.3 Was hat geklappt und wo kann verbessert werden.........................................................60<br />

5 Datensammlung und Vali<strong>die</strong>rung..........................................................................................62<br />

5.1 Messergebnisse aus dem universitären Umfeld .............................................................62<br />

5.1.1 Messergebnisse zu den GQM-Zielen ......................................................................62<br />

5.1.2 Messergebnisse außerhalb <strong>von</strong> GQM......................................................................74<br />

6 Analyse und Interpretation ....................................................................................................77<br />

6.1 Analyse und Interpretation der Ergebnisse aus dem universitären Umfeld ...................77<br />

6.2 Ergebnisaufbereitung durch Bewertung der Gültigkeit..................................................80<br />

6.2.1 Bewertung der Schlussfolgerungen.........................................................................80<br />

6.2.2 Bewertung des Konstrukts.......................................................................................81<br />

6.2.3 Bewertung der internen Validität ............................................................................82<br />

6.2.4 Externe Validität......................................................................................................84<br />

6.3 Ergebnisse aus dem industriellen Umfeld ......................................................................84<br />

6.4 Fazit und Ausblick..........................................................................................................90<br />

7 Anhang ..................................................................................................................................92<br />

Quantile der Normalverteilung.............................................................................................92<br />

Quantile der t-Verteilung......................................................................................................92<br />

Kritische Werte des Grubbs-Tests........................................................................................93<br />

Abbildungsverzeichnis .............................................................................................................94<br />

Tabellenverzeichnis..................................................................................................................95<br />

Quellenverzeichnis ...................................................................................................................96<br />

| 5


1 <strong>Ein</strong>leitung | 6<br />

1 <strong>Ein</strong>leitung<br />

1.1 Motivation<br />

Im Software Engineering und insbesondere bei der Anforderungserhebung werden häufig<br />

spezialisierte Werkzeuge eingesetzt, um <strong>die</strong> Beteiligten dabei zu unterstützen, <strong>die</strong><br />

Anforderungen an das zu entwickelnde System früher, vollständiger und korrekter zu<br />

formulieren. In der Anforderungserhebung wird mit dem Austausch <strong>von</strong> Wissen und<br />

Informationen zwischen den Beteiligten der Grundstein für den weiteren Verlauf des<br />

Softwareprojektes gelegt. Ob <strong>die</strong> Erwartungen des Kunden erfüllt werden können, hängt also<br />

ganz entschieden da<strong>von</strong> ab, ob <strong>die</strong> Anforderungen an das System genau den Vorstellungen<br />

des Kunden entsprechen. Abweichungen können schwerwiegende Folgen für das ganze<br />

Softwareprojekt haben. Die Umsetzung später erhobener Anforderungen oder <strong>die</strong> Änderung<br />

<strong>von</strong> Anforderungen können kostenintensiv werden oder das Softwareprojekt soweit<br />

hinauszögern, dass der Kunde das Interesse an dem Produkt verliert. Der <strong>Ein</strong>satz eines den<br />

Anforderungsprozess unterstützenden Werkzeugs verspricht dem vorzubeugen, indem dem<br />

Entwickler strukturierte Vorgehensweisen und Hinweise zur Verfügung gestellt werden, mit<br />

denen er systematisch durch den Anforderungserhebungsprozess geleitet wird. Um<br />

abschätzen zu können, ob <strong>die</strong>se Werkzeuge tatsächlich einen entsprechend nützlichen Effekt<br />

bewirken oder ob <strong>die</strong> gleichen Ergebnisse auch ohne den <strong>Ein</strong>satz eines solchen Werkzeugs<br />

hätten erzielt werden können, gilt es, in <strong>die</strong>ser Arbeit an einem konkreten Beispiel zu zeigen.<br />

1.2 Ziele <strong>die</strong>ser Arbeit<br />

Das <strong>über</strong>geordnete Ziel <strong>die</strong>ser Arbeit soll sein, <strong>die</strong> Wirkung eines den Anforderungsprozess<br />

unterstützenden Werkzeugs mit Hilfe eines empirischen <strong>Experiment</strong>s zu untersuchen. Dabei<br />

sollen Erkenntnisse dar<strong>über</strong> gewonnen werden, ob <strong>die</strong> gleichen oder vielleicht sogar bessere<br />

Ergebnisse auch ohne das Werkzeug hätten erzielt werden können. Konkret soll das<br />

Werkzeug Fast <strong>Feedback</strong> evaluiert werden, das <strong>die</strong> <strong>Ein</strong>sparung <strong>von</strong> Terminen zwischen<br />

Entwickler und Kunde aber trotzdem auch <strong>die</strong> Erhebung <strong>von</strong> mehr Anforderungen in einem<br />

gleichen Zeitraum verspricht. Dabei soll ein <strong>Ein</strong>druck da<strong>von</strong> vermittelt werden, bei welchen<br />

Kriterien der Anforderungserhebung Unterstützung in Form des Werkzeugs Fast <strong>Feedback</strong><br />

hilfreich ist und in welchen eher nicht. Dazu ist es natürlich sinnvoll, in den Grundlagen zu<br />

<strong>die</strong>ser Arbeit genau aufzuzeigen, welche Umstände in der Anforderungserhebung zu welchen<br />

Folgen im Projektverlauf führen könnten, <strong>die</strong> Verbesserungsaussichten durch Fast <strong>Feedback</strong><br />

darzustellen und daraus <strong>die</strong> genauen Hypothesen zu entwickeln.<br />

1.3 Aufgabenstellung<br />

Es stehen zwei konkrete Werkzeuge zur Durchführung der Arbeit zur Verfügung. Dabei<br />

handelt es sich um „Fast <strong>Feedback</strong>“ und „Vision Catcher“.<br />

Zu mindestens einem Werkzeug soll ein empirisches <strong>Experiment</strong> systematisch vorbereitet,<br />

durchgeführt und ausgewertet werden. Dazu gehören:<br />

• <strong>die</strong> Formulierung <strong>von</strong> fokussierten Fragestellungen und Hypothesen,


1 <strong>Ein</strong>leitung | 7<br />

• <strong>die</strong> Planung des <strong>Experiment</strong>s unter der Berücksichtigung statistischer Rahmenbedingungen<br />

für aussagekräftige Auswertungen,<br />

• <strong>die</strong> Bestimmung geeigneter Probanden und <strong>die</strong> Mitwirkung bei deren Anwerbung und<br />

<strong>Ein</strong>weisung in das <strong>Experiment</strong>,<br />

• <strong>die</strong> Durchführung und systematische Beobachtung der eigentlichen <strong>Experiment</strong>e,<br />

• <strong>die</strong> Auswertung der Resultate mit Hilfe der mathematischen Werkzeuge aus der Statistik,<br />

• das Angeben <strong>von</strong> Gültigkeitskriterien und deren Interpretation in Bezug auf <strong>die</strong><br />

Hypothesen, Forschungsfragen und gegebenenfalls ungeplanten Beobachtungen.<br />

Um statistisch signifikante Aussagen treffen zu können, sind in der Regel relativ große<br />

Probandenzahlen erforderlich, <strong>die</strong> nur schwer erreicht werden können. Daher ist es sinnvoll,<br />

zunächst einen Richtwert für den Umfang der Stichprobe mit Hilfsmitteln der Mathematik zu<br />

ermitteln. Zudem gibt es zahlreiche Fallstricke und Fehlerquellen, <strong>die</strong> einer belastbaren<br />

Interpretation der Beobachtungen im Wege stehen könnten. Diese können durch eine korrekte<br />

Anwendung der Statistik im Rahmen der Möglichkeiten eingeschränkt werden.<br />

Neben der eigentlichen Evaluierung <strong>von</strong> ein oder zwei Werkzeugen ist <strong>die</strong> Dokumentation der<br />

Vorgehensweise eine wesentliche Leistung <strong>die</strong>ser Diplomarbeit. Insbesondere soll <strong>die</strong><br />

Planung auch Erfahrungen gegen<strong>über</strong>gestellt werden, <strong>die</strong> im Verlauf der Evaluierung<br />

gemacht werden.<br />

1.4 Vorgehensweise und Gliederung<br />

Zunächst muss entschieden werden, mit der Evaluierung welchen Werkzeugs im Rahmen<br />

<strong>die</strong>ser Arbeit begonnen wird. Dazu wird im zweiten Kapitel <strong>die</strong>ser Arbeit auf <strong>die</strong><br />

Anforderungserhebung in der Softwareentwicklung eingegangen und darauf basierend <strong>die</strong><br />

Wahl des zu evaluierenden Werkzeugs begründet. Das gewählte Werkzeug wird dann<br />

ausführlich und zielorientiert vorgestellt. Im Anschluss daran werden <strong>die</strong> Grundlagen für <strong>die</strong><br />

Durchführung eines <strong>Experiment</strong>s geliefert. Sie stammen sowohl aus dem Bereich der<br />

Informatik als auch aus dem Bereich der Mathematik.<br />

Im dritten Kapitel geht es dann um <strong>die</strong> Vorbereitung des <strong>Experiment</strong>s. Es werden<br />

<strong>Ein</strong>schränkungen angegeben, <strong>die</strong> in Bezug auf das durchzuführende <strong>Experiment</strong> zu machen<br />

sind. Außerdem enthält <strong>die</strong> Vorbereitung des <strong>Experiment</strong>s <strong>die</strong> Ausarbeitung der Hypothesen,<br />

<strong>die</strong> systematische Herleitung aller Entscheidungen bzgl. der <strong>Experiment</strong>durchführung, eine<br />

Übersicht möglicher <strong>Ein</strong>flüsse auf <strong>die</strong> Ergebnisse und Hinweise zur Durchführung der<br />

Auswertung.<br />

Im Anschluss wird im vierten Kapitel <strong>die</strong> Durchführung des <strong>Experiment</strong>s genau dokumentiert<br />

und <strong>die</strong> Ergebnisse werden <strong>über</strong>sichtlich dargestellt, bevor sie im fünften Kapitel analysiert<br />

und interpretiert werden. Die Interpretation enthält <strong>die</strong> Beurteilung anhand <strong>von</strong><br />

Gültigkeitskriterien. Das Kapitel schließt ab mit einem Fazit, in dem auch mögliche<br />

Verbesserungsvorschläge für zukünftige <strong>Experiment</strong>e <strong>die</strong>ser Art gegeben werden, und<br />

Aussichten auf möglicherweise weiterführende Projekte.


2 Grundlagen | 8<br />

2 Grundlagen<br />

2.1 Softwaretechnische Grundlagen<br />

2.1.1 Die Anforderungserhebung in der Softwareentwicklung<br />

In der konventionellen Softwareentwicklung, nach der sich viele Entwicklungsfirmen richten,<br />

werden <strong>die</strong> verschiedenen Projektphasen nach einer festen Abfolge durchlaufen. Als Beispiel<br />

sei hier das Wasserfallmodell genannt, bei dem <strong>die</strong> Projektphasen in der vorgegebenen<br />

Reihenfolge durchlaufen werden sollen und <strong>die</strong> Ergebnisse jeder Phase als Grundlage für <strong>die</strong><br />

darauffolgende Phase <strong>die</strong>nen (vgl. Abb.1).<br />

Abbildung 1: Wasserfallmodell [Schn05] nach [Roy70]<br />

Dabei steht <strong>die</strong> Anforderungserhebungsphase vorne im Entwicklungsprozess und legt so den<br />

Grundstein für <strong>die</strong> weitere Entwicklerarbeit. „Die für das Projekt ermittelten Anforderungen<br />

werden in einer Anforderungsspezifikation festgeschrieben. Diese <strong>die</strong>nt als Referenzdokument<br />

für <strong>die</strong> folgenden Entwicklungsphasen.“ [Poh08, S.31] Die Anforderungen an <strong>die</strong> zu<br />

entwickelnde Software sollten weitestgehend im Voraus und möglichst korrekt festgelegt<br />

werden. Nachträgliche Änderungen oder Ergänzungen der Anforderungen sind in der<br />

konventionellen Softwareentwicklung in der Regel nicht vorgesehen. Sie würden einen<br />

erneuten Durchlauf aller auf <strong>die</strong> Anforderungserhebung folgenden Phasen bedeuten und damit<br />

zusätzliche Kosten und einen deutlich höheren Zeitaufwand erzeugen. Im Wesentlichen liefe<br />

das darauf hinaus, dass <strong>die</strong> Wünsche des Kunden oder auch anderer Stakeholder nicht<br />

zufriedenstellend umgesetzt würden. Deshalb ist es umso wichtiger, dass <strong>die</strong> erhobenen<br />

Anforderungen <strong>von</strong> vornherein möglichst genau den Vorstellungen des Kunden entsprechen<br />

und möglichst fehlerfrei dokumentiert werden. Da aber, wie im Beispiel des<br />

Wasserfallmodells, in der konventionellen Softwareentwicklung in den ersten drei<br />

Projektphasen auch keine Erstellung <strong>von</strong> Prototypen vorgesehen ist, ist es schwierig, <strong>die</strong><br />

(insbesondere <strong>die</strong> Be<strong>die</strong>noberfläche betreffenden) Anforderungen an das System mit dem<br />

Kunden abzustimmen und <strong>die</strong> erreichte Qualität der dokumentierten Anforderungen<br />

(beispielsweise ihre Korrektheit) zu <strong>über</strong>prüfen. Unterstützung in Form eines Werkzeugs<br />

wäre also in der konventionellen Softwareentwicklung insofern sinnvoll, als dass


2 Grundlagen | 9<br />

Anforderungen spezifizierter erhoben und ihre Qualität durch <strong>die</strong> Erstellung früherer<br />

Prototypen abgesichert werden könnten.<br />

„Verschiedene Stu<strong>die</strong>n der Standish Group nennen unzureichendes Requirements<br />

Engineering als eine der wichtigsten Ursachen für das Scheitern <strong>von</strong> Projekten“ [Poh08, S.8]<br />

Dabei stehen als Ursache <strong>die</strong> mangelnde <strong>Ein</strong>beziehung der Benutzer, unvollständige<br />

Anforderungen und Änderungen <strong>von</strong> Anforderungen an vorderster Stelle. [Poh08, S.9] In der<br />

Anforderungserhebung sollen aus Kundenbedürfnissen Anforderungen an <strong>die</strong> Software<br />

abgeleitet werden. Wenn <strong>die</strong> Anforderungen nicht richtig erhoben werden, kann das<br />

Folgefehler im Entwurf und in der Implementierung nach sich ziehen, <strong>die</strong> letztendlich zu<br />

höheren Kosten und der Unzufriedenheit des Kunden führen können. <strong>Ein</strong>e Anforderung an<br />

<strong>die</strong> Software beschreibt dabei eine gewünschte funktionale oder qualitätsbezogene<br />

Eigenschaft der Software aus Kundensicht. Die Aufgabe des Entwicklers ist es, den Kunden<br />

<strong>von</strong> Anfang an konsequent in <strong>die</strong> Entwicklung einzubeziehen und ihm zu helfen, seine<br />

Wünsche klarzumachen, und Fehlern durch systematisches und sorgfältiges Vorgehen<br />

vorzubeugen. Die Verfahrensweise in der Anforderungserhebung ist ausschlaggebend für den<br />

Projekterfolg.<br />

Ohne <strong>Ein</strong>satz eines Werkzeugs ist der Anforderungsingenieur frei, verschiedene<br />

Anforderungserhebungsmethoden wie zum Beispiel das Erstellen <strong>von</strong> Use Cases zu<br />

verwenden. Oft wird aber eher nach dem Prinzip „einfach mal anfangen“ gearbeitet. Doch<br />

genau <strong>die</strong>ses inkonsequente Vorgehen führt zu fehlerhaften Anforderungen, aus denen<br />

wiederum resultiert, dass <strong>die</strong> Software am Ende zum Beispiel fehlerhaft ist oder insgesamt zu<br />

spät fertig wird. Werkzeuge zur Unterstützung der Anforderungserhebung basieren oft auf<br />

schon bekannten Methoden und automatisieren das entsprechende gezielte Vorgehen der<br />

Methode. Im Prinzip ist aber der Anforderungsingenieur bei der Entscheidung, ob ein <strong>Ein</strong>satz<br />

eines zur Unterstützung der Anforderungserhebung entwickeltem Werkzeug in seinem<br />

konkreten Projekt sinnvoll ist, auf Erfahrungsberichte angewiesen. Das macht es umso<br />

interessanter, ein entsprechendes <strong>Experiment</strong> durchzuführen und anhand dessen eine Aussage<br />

dar<strong>über</strong> zu treffen, in welchen Fällen und in welchem Maße <strong>die</strong> Verwendung eines<br />

Werkzeugs nützlich sein kann.<br />

In der Softwareentwicklung nimmt <strong>die</strong> Anforderungserhebung meist mehrere Termine in<br />

Anspruch. Im ersten Termin stellt der Kunde vor, um was für eine zu entwickelnde Software<br />

es sich handelt. Der Anforderungsingenieur fragt erste Anforderungen an <strong>die</strong> Software ab und<br />

notiert sie sich grob. Meistens muss sich der Anforderungsingenieur im Anschluss an das<br />

erste Kundengespräch erst noch intensiver in den Kontext der zu entwickelnden Software<br />

einarbeiten, bevor er dann mit den ersten Plänen zur Umsetzung in das zweite<br />

Kundengespräch gehen kann. Im zweiten Kundengespräch stellt der Anforderungsingenieur<br />

seine Ideen vor und der Kunde gibt sein <strong>Feedback</strong> ab. Aus <strong>die</strong>sem Austausch <strong>von</strong> Ideen und<br />

Rückmeldungen entstehen dann meist noch neue Anforderungen, <strong>die</strong> sich der<br />

Anforderungsingenieur zur erneuten Bearbeitung wieder notiert. Nach dem zweiten Gespräch<br />

nimmt der Anforderungsingenieur gegebenenfalls <strong>die</strong> vom Kunden gewünschten Änderungen<br />

seiner Pläne vor und lässt auch <strong>die</strong> neu erhobenen Anforderungen noch einfließen. In einem<br />

dritten Gespräch werden <strong>die</strong> dokumentierten Ergebnisse erneut besprochen und vali<strong>die</strong>rt. Je<br />

nach dem, wie genau der Anforderungsingenieur den Kunden versteht bzw. seine Wünsche<br />

umzusetzen weiß, können auch noch weitere Termine notwendig sein. Da sowohl der<br />

Anforderungsingenieur als auch gerade der Kunde mit großer Wahrscheinlichkeit noch andere<br />

berufliche Termine wahrzunehmen haben, kann zwischen den Kundengesprächen auch schon<br />

mal eine etwas längere Zeit verstreichen. Die wenigen Termine, <strong>die</strong> für <strong>die</strong>


2 Grundlagen | 10<br />

Anforderungserhebung vorgesehen sind, können so letztendlich doch mehrere Wochen<br />

Projektzeit in Anspruch nehmen.<br />

Zusammengefasst besteht also ein Interesse daran, <strong>die</strong> folgenden Aspekte der<br />

Anforderungserhebung zu verbessern:<br />

1. Vermeidung <strong>von</strong> Fehlern bei der Dokumentation <strong>von</strong> Anforderungen, um späte und damit<br />

teure Änderungen zu vermeiden und um <strong>die</strong> Kundenwünsche bestmöglich umsetzen zu<br />

können.<br />

2. Reduzierung der Termine bis zur Vervollständigung der Anforderungserhebung, um <strong>die</strong><br />

Anforderungserhebungsphase zu verkürzen.<br />

2.1.2 Beschreibung der Werkzeuge<br />

In <strong>die</strong>sem Kapitel soll es darum gehen, aus den zwei zur Verfügung stehenden Werkzeugen<br />

Vision Catcher und Fast <strong>Feedback</strong> das in Bezug auf <strong>die</strong> zwei oben genannten Aspekte<br />

zweck<strong>die</strong>nlichere auszuwählen. Um <strong>die</strong> Wahl tiefer gehend begründen zu können, folgt hier<br />

eine Beschreibung der Funktionsweisen beider Werkzeuge.<br />

2.1.2.1 Vision Catcher<br />

Der Vision Catcher wurde im Rahmen der Masterarbeit <strong>von</strong> Ingo Kitzmann entwickelt (vgl.<br />

[Kit09]). Mit dem Vision Catcher können Entwickler und Kunde gemeinsam Szenarien<br />

erstellen und linear ablaufen lassen. Ziel ist es, vom Kunden unmittelbar Rückmeldung zu den<br />

Szenarien zu bekommen und sich <strong>die</strong>se bestätigen zu lassen. Dafür werden <strong>die</strong> Bilder der<br />

einzelnen Schritte chronologisch miteinander verbunden. Es können verschiedene Versionen<br />

eines Schrittes erfasst werden. Dazu werden einem Schritt mehrere Artefakte zugeordnet, <strong>von</strong><br />

denen nur das als „aktiv“ markierte Artefakt beim Abspielen des Films gezeigt wird. Alle<br />

Artefakte werden in einer Bibliothek angelegt, so dass sie auch für folgende Projekte wieder<br />

zur Verfügung stehen. Die Zuordnung <strong>von</strong> Schlagwörtern erleichtert dabei <strong>die</strong> Suche nach<br />

Artefakten. Als Artefakte werden Video-, Bild- und Audiodateien unterstützt. Zusätzlich<br />

können Skizzen direkt in Vision Catcher angefertigt werden.<br />

Werden bei der Dokumentation <strong>von</strong> Anforderungen in Form <strong>von</strong> Szenarien verschiedene<br />

Versionen eines Schrittes erfasst und unterschiedliche Me<strong>die</strong>n miteinander verknüpft, können<br />

dem Kunden ebenso viele verschiedene Möglichkeiten der Umsetzung und genauso andere<br />

Sichten auf <strong>die</strong> Anforderungen aufgezeigt werden. So entstehen oft noch während des<br />

Anforderungsinterviews weitere oder sogar innovative Anforderungen, <strong>die</strong> sonst vielleicht<br />

erst in der Entwicklungsphase oder gar nicht ermittelt worden wären.<br />

Die Anforderungen des Kunden, <strong>die</strong> nicht das aktuelle Szenario betreffen, können ebenfalls<br />

mit dem Vision Catcher dokumentiert werden. Dafür steht ein Protokollant in Form eines<br />

Audiomitschnitts bereit, der jeweils <strong>die</strong> letzten zehn Minuten des Gespräches in einem Puffer<br />

zwischenspeichert. Der Anforderungsingenieur kann jeweils entscheiden, ob gespeichert oder<br />

verworfen werden soll. Die Audioaufzeichnung kann dann im Anschluss an das Gespräch<br />

ausgewertet werden. Des Weiteren können Anforderungen, <strong>die</strong> unerwünschte Zustände<br />

beschreiben, festgehalten werden, indem sie nicht einfach nur durch <strong>die</strong> stattdessen<br />

gewünschten sondern durch selbstbeschreibende Szenarien dargestellt und anschließend als


2 Grundlagen | 11<br />

unerwünscht gekennzeichnet werden können. So gehen keine wichtigen Informationen des<br />

Kunden verloren.<br />

Da mit <strong>die</strong>sem Werkzeug zwei Personen zusammen an Szenarien und Skizzen arbeiten<br />

können, verspricht seine Verwendung eine sehr effektive Kommunikation. Die<br />

„Kommunikationstheorie (z.B. [Coc02]) zeigt [nämlich], dass mit der Reichhaltigkeit des<br />

Mediums <strong>die</strong> Effektivität der Kommunikation zunimmt“ [Kit09] und der Vision Catcher ist in<br />

<strong>die</strong>ser Theorie in der Nähe <strong>von</strong> „2 People at White Board“, das heißt im Bereich einer sehr<br />

effektiven Art der Kommunikation einzuordnen (vgl. Abb.2).<br />

2.1.2.2 Fast <strong>Feedback</strong><br />

Abbildung 2: Effektivität verschiedener Kommunikationsformen [Coc02]<br />

Fast <strong>Feedback</strong> ist eine Software, <strong>die</strong> auf Use Cases basiert und helfen soll, <strong>die</strong> Anforderungen<br />

an <strong>die</strong> zu entwickelnde Software systematisch zu ermitteln. Mit Use Cases können <strong>die</strong><br />

Beschreibungen für <strong>die</strong> wichtigsten oder sogar alle möglichen Szenarios, <strong>die</strong> bei der<br />

Benutzung der Software denkbar sind, zusammengefasst werden. <strong>Ein</strong> Use Case sollte<br />

genügend Informationen <strong>über</strong> das Ziel der zu beschreibenden Handlung, <strong>die</strong><br />

Rahmenbedingungen, <strong>die</strong> einzelnen Schritte des Szenarios und mögliche<br />

Fallunterscheidungen oder Problemfälle enthalten. Zusätzlich können in Fast <strong>Feedback</strong> aber<br />

auch weitere Angaben zum Beispiel dar<strong>über</strong> gemacht, welche Technologie für <strong>die</strong> Umsetzung<br />

des betreffenden Use Cases erforderlich ist. Je nach Granularität der Use Cases wird so ein<br />

Überblick <strong>über</strong> das System gegeben, <strong>die</strong> Wechselbeziehung zwischen Benutzer und Software<br />

dargestellt oder jeder Ablauf im Detail beschrieben. Use Cases eignen sich sehr gut für <strong>die</strong><br />

Anforderungserhebung, da sie relativ einfach zu schreiben und mit dem Kunden abzustimmen<br />

sind. In Abb.3 ist <strong>die</strong> Oberfläche <strong>von</strong> Fast <strong>Feedback</strong> dargestellt. Die linke Hälfte zeigt den<br />

Use Case „Geld abheben“ und <strong>die</strong> rechte Seite ein Mock-up zum vierten Use Case Schritt.


2 Grundlagen | 12<br />

Abbildung 3: Fast <strong>Feedback</strong> mit Use Case und Mock Up zum Beispiel "Geldautomat"<br />

Use Cases können dafür eingesetzt werden, funktionale Anforderungen und Prozesse der zu<br />

entwickelnden Software zu beschreiben. Allerdings sagen Use Cases erstmal nichts <strong>über</strong><br />

nicht-funktionale Anforderungen aus. In Fast <strong>Feedback</strong> können <strong>die</strong> Use Cases nun durch<br />

beliebig viele Mock-ups ergänzt werden. Mock-ups bestehen aus Skizzen der zu<br />

entwickelnden Be<strong>die</strong>noberfläche und stellen erste Versuche eines Demonstrations-Prototyps 1<br />

dar. Mit Hilfe der Mock-ups können auch nicht-funktionale Anforderungen mit dem Kunden<br />

abgestimmt und dokumentiert werden. Zum Beispiel lässt sich mit ihnen problemlos <strong>die</strong><br />

grobe Struktur der Be<strong>die</strong>nelemente darstellen. Zur Unterscheidung <strong>von</strong> funktionalen und<br />

nicht-funktionalen Anforderungen vgl. auch Kapitel 3.1.1.2.<br />

Natürlich ließen sich Use Cases in Verbindung mit Mock-ups auch ohne das Werkzeug Fast<br />

<strong>Feedback</strong> in der Anforderungserhebung anwenden. Aber Fast <strong>Feedback</strong> bietet dar<strong>über</strong> hinaus<br />

<strong>die</strong> Möglichkeit, <strong>die</strong> Mock-ups den entsprechenden Schritten der Use Cases zuzuweisen. In<br />

der Abb.2 wurde im Beispiel „Geldautomat“ Mock-up 3 dem vierten Schritt des Use Cases<br />

„Geld abheben“ zugeordnet. Werden dann noch <strong>die</strong> Use Cases in der richtigen Reihenfolge<br />

miteinander verknüpft, lassen sich <strong>die</strong> Mock-ups anhand der Use Cases zeitlich geordnet<br />

wiedergeben. Das gibt dem Anforderungsingenieur <strong>die</strong> Möglichkeit, dem Kunden sehr präzise<br />

einen <strong>Ein</strong>druck da<strong>von</strong> zu vermitteln, wie <strong>die</strong> Software aufgebaut sein bzw. wie der Ablauf<br />

einer konkreten zielorientierten Handlung mit der Software aussehen könnte.<br />

Fast <strong>Feedback</strong> vereint also zunächst einmal <strong>die</strong> beiden bekannten Methoden der Use Cases<br />

und Mock-ups miteinander und stellt zusätzliche Funktionen zur Verfügung, mit denen <strong>die</strong><br />

Methoden verknüpft werden können. Fast <strong>Feedback</strong> bindet den Anforderungsingenieur an <strong>die</strong><br />

Methoden und fördert dadurch ein systematisches zielgerichtetes Vorgehen. Die<br />

1 Demonstrations-Prototyp: Die Maskenfolge und der Bildschirmaufbau werden dargestellt, <strong>die</strong> suggerierte<br />

Funktion dahinter aber nicht. Diese Art Prototyp findet Verwendung, wenn das Aussehen der Software nach<br />

außen relevant ist. [Schn09, S.178]


2 Grundlagen | 13<br />

Anforderungen werden anhand <strong>von</strong> konkreten <strong>die</strong> zu entwickelnde Software betreffenden<br />

Szenarios erhoben. Dabei können alle denkbaren Szenarios und <strong>die</strong> zugehörigen<br />

Anforderungen durchgedacht werden. Durch <strong>die</strong> oben beschriebenen und <strong>die</strong> beiden<br />

wesentlichen Methoden Use Cases und Mock-ups ergänzenden Funktionen können der<br />

Anforderungsingenieur und der Kunde kontinuierlich bereits Vereinbartes immer wieder<br />

prüfen und so zum Beispiel fehlerhafte Anforderungen aufdecken.<br />

Die Art der Kommunikation wie sie bei der Verwendung <strong>von</strong> Fast <strong>Feedback</strong> entsteht ist wie<br />

<strong>die</strong> des Vision Catchers in einem sehr effektivem Bereich, das heißt in der Nähe <strong>von</strong> „2<br />

People at White Board“, anzuordnen (vgl. Abb.2).<br />

<strong>Ein</strong>e ausführliche Beschreibung des Werkzeugs bietet auch „Generating Fast <strong>Feedback</strong> in<br />

Requirements Elicitation“ [Schn07b].<br />

2.1.2.3 Zusammenfassung und Entscheidung<br />

Die vorgestellten Werkzeuge scheinen im Hinblick darauf, <strong>die</strong> Aspekte „Vermeidung <strong>von</strong><br />

Fehlern bei der Dokumentation <strong>von</strong> Anforderungen“ und „Reduzierung der Interviewtermine<br />

bis zur Vervollständigung der Anforderungserhebung“ zu <strong>über</strong>prüfen, beide eine<br />

entsprechende Verbesserung erwarten zu lassen. Sie bieten dem Anforderungsingenieur <strong>die</strong><br />

Möglichkeit, <strong>die</strong> Anforderungen des Kunden erst gemeinsam mit ihm zu erarbeiten, sie dann<br />

zu dokumentieren und anschließend auch schon zu vali<strong>die</strong>ren. Der Vision Catcher gibt dafür<br />

<strong>die</strong> Möglichkeit, Szenarien verschiedener Me<strong>die</strong>narten zu modellieren, und Fast <strong>Feedback</strong><br />

bietet das Erstellen und Verknüpfen <strong>von</strong> Use Cases und Mock-ups. Alle <strong>die</strong>se Funktionen<br />

laufen letztendlich darauf hinaus, mit Hilfe <strong>von</strong> anschaulichem Material schon früh ein<br />

<strong>Feedback</strong> vom Kunden zu erhalten. <strong>Ein</strong>erseits können nämlich so Anforderungen anhand <strong>von</strong><br />

Demonstrations-Prototypen diskutiert und dadurch Fehler vermieden werden und andererseits<br />

können in kürzerer Zeit <strong>die</strong> gleiche Menge an Anforderungen erhoben und somit <strong>die</strong> Anzahl<br />

der Termine für Anforderungsinterviews reduziert werden. Die Art der Kommunikation ist<br />

mit beiden Werkzeugen sehr effektiv.<br />

Obwohl <strong>die</strong> beiden Werkzeuge sich so ähnlich sind, sollen im Rahmen <strong>die</strong>ser Arbeit nur <strong>die</strong><br />

<strong>Auswirkung</strong>en der Verwendung <strong>von</strong> Fast <strong>Feedback</strong> untersucht werden. Ausschlaggebend für<br />

<strong>die</strong> Entscheidung ist <strong>die</strong> für den <strong>Ein</strong>satz des jeweiligen Werkzeugs notwendige Vorbereitung.<br />

Der Unterschied zwischen den beiden Werkzeugen liegt nämlich im Umfang der<br />

Vorbereitung. Beim Vision Catcher muss zum Füllen der Bibliothek zunächst einmal ein<br />

relativ großer Aufwand betrieben werden. Der Anforderungsingenieur muss sich einen<br />

Überblick <strong>über</strong> das gewünschte System verschaffen, Fotos und/oder Videos dem vom Kunden<br />

geforderten System entsprechend erstellen und sie in <strong>die</strong> Bibliothek einpflegen. Aber auch<br />

dann kann der Anforderungsingenieur im Vorfeld nicht sicher sein, alle für den Aufbau der<br />

Szenarien notwendigen Artefakte berücksichtigt zu haben. Mit großer Wahrscheinlichkeit<br />

müssen dann doch weitere Interviews zur Vali<strong>die</strong>rung der Anforderungen und zur Vorstellung<br />

des Demonstrations-Prototyps einkalkuliert werden und <strong>die</strong> erwartete <strong>Ein</strong>sparung an<br />

Interviews kommt doch nicht zustande. Dagegen kann man Fast <strong>Feedback</strong> sofort ohne<br />

vorheriges <strong>Ein</strong>pflegen <strong>von</strong> Daten im Anforderungsinterview verwenden. Natürlich muss der<br />

Anforderungsingenieur <strong>über</strong> ausreichend Kenntnis im Bereich Use Cases und Mock-ups<br />

verfügen, allerdings sind sie auch ohne <strong>die</strong> Verwendung <strong>von</strong> Werkzeugen gebräuchliche<br />

Methoden in der Anforderungserhebung, so dass sie in der Regel schon zum Handwerkszeug<br />

eines Anforderungsingenieurs gehören. Durch den Aufbau <strong>von</strong> Fast <strong>Feedback</strong> wird der<br />

Anforderungsingenieur zudem auch immer wieder an <strong>die</strong> Strukturen <strong>von</strong> Use Cases und


2 Grundlagen | 14<br />

Mock-ups erinnert. Insgesamt lässt also Fast <strong>Feedback</strong> größere Effekte in Bezug <strong>die</strong><br />

Verbesserung der Anforderungserhebung erwarten und soll deshalb evaluiert werden.<br />

2.1.3 Die GQM-Methode<br />

Im Folgenden sei <strong>die</strong> Vorgehensweise mit der GQM-Methode beschrieben, mit welcher das<br />

<strong>Experiment</strong> systematisch vorbereitet wurde.<br />

GQM steht für Goal-Question-Metric. Diese Methode <strong>die</strong>nt dazu, systematisch aus Zielen<br />

geeignete Metriken zu bestimmen. „Die Grundidee <strong>von</strong> GQM ist […]: Man soll nicht das<br />

messen, was leicht zu messen ist, sondern das, was man braucht, um seine Verbesserungsziele<br />

zu erreichen“ [Schn07a, S.69].<br />

Dazu definiert man zuerst <strong>die</strong> eigenen Ziele (Goal), zu denen man dann „Fragen [(Question)]<br />

formuliert und Metriken [(Metric)] sucht oder definiert, mit denen man <strong>die</strong> Fragen<br />

beantworten kann“ [Schn07a, S.69]. Aus dem entstandenen Ziel- bzw. GQM-Baum wird ein<br />

Messplan entwickelt, der genau vorgibt, wer wie welche Messungen durchführt. Darauf folgt<br />

<strong>die</strong> eigentliche Messung, nach der man dann <strong>die</strong> Ergebnisse „rückwärts einsetzt und so <strong>von</strong><br />

den Metriken bis zu den Zielen verfolgt“ [Schn07a, S.70]. Das Resultat sind Antworten auf<br />

<strong>die</strong> vor der Messung gestellten Fragen.<br />

Bei der folgenden Durchführung des <strong>Experiment</strong>s wird wie in Abb.3 dargestellt vorgegangen.<br />

Abbildung 3: Basilis Goal-Question-Paradigm zur iterativen Verbesserung [Schn07a, S.70]<br />

In einer Vorstu<strong>die</strong> sollen <strong>die</strong> Hypothesen mit Hilfe <strong>von</strong> Abstraction Sheets entwickelt und<br />

mögliche <strong>Ein</strong>flüsse <strong>über</strong>dacht werden. Aus den Hypothesen sollen dann <strong>die</strong> konkreten Ziele<br />

formuliert, zu den Zielen Fragen gestellt und letztendlich Metriken entwickelt werden, mit<br />

denen dann der Messplan aufgestellt werden kann. Die Daten des <strong>Experiment</strong>s können dann<br />

gesammelt und vali<strong>die</strong>rt werden, um sie anschließend zu analysieren und <strong>die</strong> Ergebnisse zu<br />

interpretieren. Am Ende soll <strong>die</strong> Gültigkeit der Ergebnisse unter <strong>Ein</strong>beziehen der möglichen<br />

<strong>Ein</strong>flüsse diskutiert werden.


€<br />

€<br />

2 Grundlagen | 15<br />

2.2 Statistische Grundlagen<br />

Statistische Verfahren werden in <strong>Experiment</strong>en dazu verwendet, um beispielsweise den Wert<br />

unbekannter quantitativer Größen zu schätzen oder um eine Aussage auf Gültigkeit hin zu<br />

<strong>über</strong>prüfen. Die für <strong>die</strong>se Arbeit relevanten Verfahren werden in <strong>die</strong>sem Kapitel vorgestellt.<br />

2.2.1 Grundbegriffe<br />

„Die Statistik befasst sich mit Daten, <strong>die</strong> bei wiederholter Beobachtung oder Messung<br />

festgestellt werden. Kennzeichnend für <strong>die</strong>se Daten sind zufällige (regellose) Schwankungen<br />

bei wiederholter Beobachtung oder Messung und stabile Häufigkeiten (Häufigkeitsverteilung)<br />

der Meß- oder Beobachtungswerte (Merkmalwerte) in hinreichend großen Gesamtheiten. Es<br />

wird angenommen, dass <strong>die</strong> in der Stichprobe beobachteten Daten zufällig und unabhängig<br />

aus der Grundgesamtheit entnommen sind.“ [Schn98, S.2] Die Daten können durch<br />

Messungen, aber auch durch Befragung <strong>von</strong> Personen erhoben werden; <strong>die</strong> Größen, auf <strong>die</strong><br />

sich Fragen oder Messungen beziehen, heißen Merkmale. Die Grundgesamtheit bezeichnet<br />

<strong>die</strong> Menge aller statistischen Objekte mit den gleichen Identifikationseigenschaften, <strong>über</strong> <strong>die</strong><br />

in einem <strong>Experiment</strong> mit Hilfe einer Stichprobe eine Aussage getroffen werden soll. <strong>Ein</strong>e<br />

Stichprobe erhält man durch Ziehen einer Teilmenge aus der Grundgesamtheit.<br />

Im Folgenden sollen <strong>die</strong> wichtigsten Grundbegriffe für solche Zufallsexperimente erklärt<br />

werden, <strong>die</strong> nur endlich viele oder abzählbar viele mögliche <strong>Experiment</strong>ergebnisse haben, das<br />

heißt <strong>die</strong> in einem sogenannten diskreten Wahrscheinlichkeitsraum liegen. Sei Ω ein<br />

Ergebnisraum, wobei alle denkbaren Ereignisse des zugehörigen Zufallsexperiments<br />

Teilmengen <strong>die</strong>ses Raumes sind. Beschreibe A ⊂ Ω ein Ereignis und {w} mit w ∈Ω ein<br />

Elementarereignis. Sei ( Ω,A)<br />

ein Ereignisraum. Dann heißt eine endliche Funktion X : Ω →<br />

€<br />

, <strong>die</strong> jedem Ergebnis w ∈Ω eine reelle Zahl X( w)<br />

zuordnet, so dass für <strong>die</strong> mit <strong>die</strong>ser<br />

Funktion beschriebenen Ereignisse € Wahrscheinlichkeiten nennbar € sind, reellwertige<br />

Zufallsvariable, falls<br />

€<br />

€<br />

€<br />

€<br />

X −1( Β)<br />

= { w ∈Ω | X( w)<br />

∈Β}<br />

∈ A, ∀Β∈ B,<br />

das heißt falls <strong>die</strong> Umkehrfunktion <strong>von</strong> X auf allen borelschen Mengen<br />

€<br />

2 <strong>von</strong> in A ist. Diese<br />

X<br />

Bedingung wird auch ( B,A)-Messbarkeit<br />

<strong>von</strong> X genannt mit (Ω,A) ⎯⎯ ⎯⎯ → ( , B). In vielen<br />

Fällen interessiert nämlich nicht w selbst, sondern eine durch w bestimmte Größe X( w),<br />

was<br />

in Beispiel 1 verdeutlicht werden soll.<br />

€<br />

€<br />

€<br />

€<br />

€<br />

€<br />

Es werde zweimal gewürfelt. Der Ergebnisraum ist dann Ω = { ( i, j)<br />

: i, j =1,...,6}.<br />

Nun<br />

interessiert nicht nur eine der beiden gewürfelten Augenzahlen, sondern <strong>die</strong> Summe der<br />

Augenzahlen beider Würfe X( w)<br />

= X( ( i, j)<br />

) = i + j. Man möchte dem Ereignis X ∈ Α mit<br />

Α ∈ , dass <strong>die</strong> Summe der Augenzahlen gleich 12 € ist, eine Wahrscheinlichkeit zuordnen.<br />

Dabei muss { w | X( w)<br />

∈ Α}<br />

∈ A sein.<br />

€<br />

€<br />

Beispiel 1: Zufallsexperiment „Würfeln“<br />

€<br />

2 Zur Definition einer borelschen Menge sei verwiesen auf [Kre00, S.130].


€<br />

€<br />

€<br />

€<br />

€<br />

2 Grundlagen | 16<br />

Die Ergebnisse eines Zufallsexperiments können wie beim „Würfeln“ selbst schon Zahlen<br />

sein, aber natürlich kann es sich bei den Ergebnissen beispielsweise auch um Ausprägungen<br />

qualitativer Merkmale handeln. [Har+05, S.103]<br />

Die Verteilung einer Zufallsvariable gibt an, „wie wahrscheinlich <strong>die</strong> einzelnen Werte <strong>von</strong><br />

X sind“ [Kre00, S.42]. Ist eine Zufallsvariable X reellwertig, so lässt sich ihre Verteilung<br />

eindeutig durch <strong>die</strong> Verteilungsfunktion F( X)<br />

= P( X ≤ x)<br />

mit x ∈ beschreiben, wobei<br />

P( X ≤ x)<br />

ausdrückt, mit welcher Wahrscheinlichkeit <strong>die</strong> Zufallsvariable X einen Wert kleiner<br />

oder gleich x annimmt. Als Beispiel für <strong>die</strong> Verteilung einer Zufallsvariable sei hier <strong>die</strong><br />

Normalverteilung genannt. Deren Eigenschaften sollen<br />

€<br />

€ etwas später in <strong>die</strong>sem Kapitel noch<br />

genauer beschrieben werden, da es im durchzuführenden <strong>Experiment</strong> um <strong>die</strong> Anzahl <strong>von</strong><br />

Fehlern und <strong>die</strong> Anzahl <strong>von</strong> Anforderungen gehen soll und deshalb zur Anwendung <strong>von</strong><br />

statistischen Tests eventuell einige Annahmen zur Normalverteilung erforderlich sein<br />

könnten. Zunächst werden aber noch weitere Grundbegriffe erläutert.<br />

Betrachtet man eine reellwertige Zufallsvariable X mit diskreter Verteilung und den Werten<br />

x1 ,x 2 ,...,x n , das heißt man führt das Zufallsexperiment n-mal durch, dann will man<br />

gegebenenfalls wissen, welchen Wert man für X im Mittel erhält. Der Mittelwert x ist<br />

definiert durch<br />

€<br />

.<br />

€<br />

Wenn man einen „mittleren Wert“ für <strong>die</strong> Zufallsvariable X angeben will, ist es auch sinnvoll,<br />

<strong>die</strong> Werte x1, x2,..., xn mit den entsprechenden Wahrscheinlichkeiten p1,..., pn zu gewichten.<br />

Die Berücksichtigung <strong>die</strong>ser Gewichtung findet man im Erwartungswert µ mit<br />

n<br />

∑<br />

µ € = xi pi i=1<br />

wieder. Der Erwartungswert ist eine Maßzahl für den Schwerpunkt einer Verteilung. [Kre00,<br />

S.52] Die Varianz ist ein Maß für <strong>die</strong> Abweichung der Zufallsvariable X <strong>von</strong> ihrem<br />

Erwartungswert, sie ist also ein Streuungsmaß. Für <strong>die</strong> Varianz gilt<br />

n<br />

σ 2 = (x i − µ) 2 ∑ pi .<br />

i=1<br />

Die Quadratwurzel der Varianz heißt Standardabweichung und wird mit bezeichnet.<br />

Bezieht man <strong>die</strong> Begriffe Varianz und Standardabweichung auf empirische Daten, so spricht<br />

man <strong>von</strong> der empirischen Varianz bzw. der empirischen Standardabweichung s. Die<br />

empirische Varianz stellt für <strong>die</strong> Varianz einer Zufallsvariable eine Schätzfunktion 3 aus<br />

Werten dar, <strong>die</strong> bei einer Stichprobe gemessen wurden. Die empirische Varianz ist gerade<br />

3 <strong>Ein</strong>e Schätzfunktion ordnet der Zufallsstichprobe einen Wert zu. Dabei ist natürlich ein Wert, der<br />

möglichst nahe oder gleich dem wahren Wert ist, gewünscht, allerdings kann der Wert auch weit daneben liegen.<br />

€<br />

€<br />


€<br />

€<br />

2 Grundlagen | 17<br />

mit Mittelwert <strong>von</strong><br />

x 1 ,x 2 ,..,x n .<br />

Die empirische Standardabweichung ist wiederum <strong>die</strong> Wurzel der empirischen Varianz. Sie<br />

hat im Gegensatz zur Varianz den Vorteil, dass € <strong>die</strong> Handhabung <strong>von</strong> Maßeinheiten einfacher<br />

ist.<br />

Als Kenngrößen <strong>von</strong> Verteilungen werden sogenannte Quantile benutzt. Für jedes beliebige p<br />

mit nennt man das p-Quantil, wenn für <strong>die</strong> Verteilungsfunktion gilt<br />

(vgl. Tab. „Quantile der Normalverteilung“). Dabei wird das 0,25-Quantil als das untere<br />

Quartil, das 0,75-Quantil als das obere Quartil und das 0,5-Quantil als Median bezeichnet.<br />

Der Median halbiert <strong>die</strong> Verteilung. Gegen<strong>über</strong> dem Mittelwert hat der Median den Vorteil,<br />

robuster gegen<strong>über</strong> Ausreißern zu sein. [WikiM]<br />

Nun seien noch einige Hinweise zu den Eigenschaften der Normalverteilung gegeben. <strong>Ein</strong>e<br />

Zufallsvariable X mit der Wahrscheinlichkeitsdichtefunktion 4<br />

f : → >0 , x f ( x),<br />

1<br />

f ( x)<br />

= ⋅ e<br />

σ 2π<br />

− 1<br />

⎛⎛<br />

2<br />

⎛⎛ x −µ ⎞⎞ ⎞⎞<br />

⎜⎜<br />

⎜⎜ ⎜⎜ ⎟⎟ ⎟⎟<br />

⎝⎝ 2⎝⎝<br />

σ ⎠⎠ ⎟⎟<br />

⎠⎠<br />

heißt mit Erwartungswert und Standardabweichung σ normalverteilt. Das Bild der<br />

Dichtefunktion ist <strong>die</strong> bekannte Glockenkurve (vgl. Abb.4).<br />

1<br />

F( x)<br />

=<br />

σ 2π<br />

1 ⎛⎛ t −µ ⎞⎞ 2<br />

x<br />

⋅⎜⎜ ⎟⎟<br />

2 ⎝⎝ σ ⎠⎠<br />

⋅ e−<br />

∫ dt<br />

−∞<br />

heißt <strong>die</strong> Verteilungsfunktion der Normalverteilung.<br />

Abbildung 4: Verteilungs- und Dichtefunktion der Normalverteilung [UniM]<br />

Grundsätzlich sollte eine Annahme <strong>über</strong> eine Verteilung immer mit einem entsprechenden<br />

Test <strong>über</strong>prüft werden. <strong>Ein</strong> Beispiel für einen Test zur Prüfung auf Normalverteilung ist der<br />

Kolmogoroff-Smirnov-Anpassungstest, deren genaue Beschreibung aber im Rahmen <strong>die</strong>ser<br />

Arbeit etwas zu weit führen würde. Die entsprechenden Berechnungen können beispielsweise<br />

mit dem Statistikprogramm „R“ durchgeführt werden, so dass <strong>die</strong> Ergebnisse für <strong>die</strong> in <strong>die</strong>ser<br />

Arbeit getroffenen Annahmen zur Normalverteilung zur Verfügung stehen und so auch ohne<br />

4 „Durch <strong>die</strong> Angabe einer Dichte, <strong>die</strong> in vielen Fällen als Ableitung der Verteilungsfunktion bestimmt werden<br />

kann, ist eine Wahrscheinlichkeitsdichte eindeutig bestimmt.“[Har+05, S.106]<br />

€<br />

€<br />

€<br />

€<br />


€<br />

€<br />

€<br />

2 Grundlagen | 18<br />

konkretere Beschreibung des Tests zur Diskussion der Gültigkeit der <strong>Experiment</strong>ergebnisse<br />

herangezogen werden können.<br />

2.2.2 Statistische Tests<br />

Mit einem statistischen Test (auch Hypothesen- oder Signifikanztest genannt) können<br />

Hypothesen entweder widerlegt oder gestützt werden. Beispielsweise möchte man wissen, ob<br />

ein Parameter größer oder kleiner als ein bestimmter Wert ist. Bei solchen Fragestellungen<br />

können statistische Tests natürlich nicht immer <strong>die</strong> richtige Entscheidung liefern, da <strong>die</strong><br />

Messdaten eines zufälligen <strong>Experiment</strong>s <strong>die</strong> Ausgangspunkte für <strong>die</strong> aufgestellten<br />

Hypothesen sind, aber sie können der Entscheidung eine Richtung weisen.<br />

Beim Aufstellen <strong>von</strong> testbaren Hypothesen unterscheidet man zwischen der Null- und<br />

Alternativhypothese ( und ). Die Nullhypothese enthält in der Regel <strong>die</strong> Aussage <strong>über</strong><br />

den Zusammenhang, der nicht erwartet wird. Diese Annahme soll verworfen werden, so dass<br />

<strong>die</strong> Alternativhypothese bestärkt wird. Die Aufgabe zwischen der Null- und der<br />

Alternativhypothese eine Entscheidung zu treffen, wird als Testproblem bezeichnet. Dabei<br />

können zwei Arten <strong>von</strong> Fehlern entstehen. Entscheidet man sich für H1 , obwohl H0 zutrifft,<br />

so bezeichnet man <strong>die</strong>sen Fehler als Fehler 1. Art bzw. -Fehler. Umgekehrt heißt <strong>die</strong><br />

Fehlentscheidung, bei der man sich für entscheidet, obwohl vorliegt, Fehler 2. Art<br />

bzw. -Fehler (vgl. Tab.1). Dabei kann man allerdings nicht feststellen, ob man einen Fehler<br />

€ €<br />

gemacht hat, sondern nur, <strong>von</strong> welcher Art der Fehler ist.<br />

Es liegt vor<br />

Entscheidung für<br />

H1 - Fehler 2. Art ( -Fehler)<br />

H1 Fehler 1. Art ( -Fehler)<br />

€<br />

-<br />

Tabelle 1: Fehlerarten beim Testen [Har+05, S.133]<br />

Nun soll gezeigt werden, wie so ein Test aussieht. Möchte man testen, ob ein Parameter p<br />

größer € bzw. kleiner als ein Wert p0 ist, so stellt man Hypothesen der Art H0 : p ≤ p0 gegen<br />

H1 : p > p0 bzw. gegen H1 : p < p0 auf. <strong>Ein</strong>e solche Hypothese nennt man<br />

einseitige Hypothese. Die einseitige Hypothese legt <strong>die</strong> Richtung des möglichen<br />

Unterschieds fest. Das zur einseitigen Hypothese gehörige Testproblem heißt einseitiges<br />

€<br />

€<br />

Testproblem. Die zweiseitige Hypothese gegen H1 : p ≠ p0 sagt nur etwas<br />

€<br />

dar<strong>über</strong> aus, ob es einen Unterschied zwischen dem Parameter p und dem Wert p0 gibt, ohne<br />

dabei eine Richtung vorzugeben. Man spricht <strong>von</strong> einem zweiseitigen Testproblem.<br />

€<br />

Betrachtet man ausschließlich eine Stichprobe mit einer Zufallsvariablen X einer<br />

normalverteilten Grundgesamtheit, <strong>die</strong> der Stichprobe <strong>die</strong> Werte<br />

€<br />

x1 ,..., xn zuordnet, mit<br />

unbekannten Erwartungswert µ ∈ und unbekannter Varianz σ<br />

€<br />

€<br />

€<br />

€<br />

2 > 0 zu gegebenem µ 0 ∈ .<br />

Dann lässt sich der einseitige <strong>Ein</strong>stichproben-t-Test mit n-1 Freiheitsgraden zu einem<br />

gewählten Signifikanzniveau α ∈(0,1) anwenden. Dabei testet man <strong>die</strong> Nullhypothese<br />

H0 : µ ≤ µ 0 gegen <strong>die</strong> Alternativhypothese H1 : µ > µ 0 . Dafür wird mit dem Mittelwert und<br />

€<br />

der Standardabweichung s der Stichprobe x1,..., xn <strong>die</strong> sogenannte Prüfgröße<br />

t = n x − µ 0<br />

s<br />

€<br />

€<br />


€<br />

€<br />

€<br />

€<br />

€<br />

€<br />

€<br />

€<br />

2 Grundlagen | 19<br />

ermittelt.<br />

H0 wird zum angegebenen Signifikanzniveau α verworfen, falls<br />

t > t( n −1;1−α)<br />

,<br />

€<br />

€<br />

wobei tn,γ das Quantil der t-Verteilung ist (vgl. Tab. „Quantile der t-Verteilung“). Analog<br />

kann <strong>die</strong> Nullhypothese H0 : µ ≥ µ 0 kann gegen <strong>die</strong> Alternativhypothese H1 : µ < µ 0 getestet<br />

werden. Beim zweiseitigen <strong>Ein</strong>stichproben-t-Test wird <strong>die</strong> Nullhypothese H0 : µ = µ 0 gegen<br />

<strong>die</strong> Alternativhypothese H1 : µ ≠ µ 0 getestet und H0 verworfen, falls<br />

€<br />

€<br />

€<br />

t > t⎛⎛ α ⎞⎞ .<br />

⎜⎜ n −1;1− ⎟⎟<br />

€<br />

⎝⎝ 2⎠⎠<br />

€<br />

€<br />

€<br />

Mit dem Zweistichproben-t-Test mit n+m-2 Freiheitsgraden betrachtet man zwei<br />

unabhängige Stichproben mit der Zufallsvariable X, <strong>die</strong> der ersten Stichprobe <strong>die</strong> Werte<br />

x1 ,...,x n zuordnet, und der Zufallsvariable Y, <strong>die</strong> der zweiten Stichprobe <strong>die</strong> Werte y1 ,..., yn zuordnet. X und Y seien Zufallsvariablen jeweils einer normalverteilten Grundgesamtheit.<br />

Seien µ x,µ y ∈ unbekannte Parameter. Gewählt sei ein Signifikanzniveau α ∈(0,1). Mit den<br />

2 2<br />

Mittelwerten , und den Stichprobenvarianzen sx,sy > 0 der beiden Stichproben € wird <strong>die</strong><br />

gewichtete Varianz<br />

€<br />

berechnet. Für <strong>die</strong> Prüfgröße t ergibt sich dann<br />

t =<br />

n⋅ m<br />

n + m<br />

x − y<br />

⋅ .<br />

s<br />

€<br />

Beim einseitigen Zweistichproben-t-Test wird <strong>die</strong> Nullhypothese H0 : µ ≤ µ 0 gegen<br />

H1 : µ > µ 0 getestet. Die Nullhypothese wird dann zum angegebenen Signifikanzniveau<br />

verworfen, falls<br />

t > t (n +m −2;1−α ).<br />

Die Nullhypothese H0 : µ ≥ µ 0 kann wiederum analog gegen <strong>die</strong> Alternativhypothese<br />

H1 : µ < µ 0 getestet werden. Beim zweiseitigen Zweistichproben-t-Test wird <strong>die</strong><br />

Nullhypothese H0 : µ = µ 0 gegen <strong>die</strong> Alternativhypothese H1 : µ ≠ µ 0 getestet und H0 verworfen, falls<br />

€<br />

t > t α<br />

(n € +m −2;1−<br />

2 )<br />

.<br />

Wird eine Nullhypothese abgelehnt, so spricht das für einen signifikanten Unterschied<br />

zwischen den Ausprägungen der betrachteten Stichprobenmerkmale.<br />

Sowohl der <strong>Ein</strong>stichproben- als auch der Zweistichproben-t-Test basieren auf der empirischen<br />

Standardabweichung der Stichprobe(n). Ihr Vorteil für das durchzuführende <strong>Experiment</strong> liegt<br />

€<br />

€<br />


2 Grundlagen | 20<br />

also darin, dass <strong>die</strong> Standardabweichung der Grundgesamtheit nicht bekannt sein muss, wie es<br />

beispielsweise bei dem Gauß-Test (einem weiteren statistischem Test) der Fall ist.<br />

Anstatt einen unbekannten Parameter durch einen einzigen Wert zu schätzen, möchte man<br />

manchmal einen möglichst kleinen Bereich angeben, in dem der gesuchte Parameter mit einer<br />

vorher festgelegten Wahrscheinlichkeit zu finden ist. Die Informationen <strong>über</strong> den<br />

unbekannten Parameter erhält man durch ein Zufallsexperiment und der Bereich, der den<br />

Parameter <strong>über</strong>decken soll, wird zufällig ausgewählt, so dass es im Allgemeinen unmöglich<br />

ist, ein Verfahren anzugeben, das immer so einen kleinen Bereich liefert. Man berücksichtigt<br />

also <strong>die</strong> Irrtumswahrscheinlichkeit α ∈( 0,1),<br />

dass der gesuchte Parameter nicht in dem<br />

Bereich liegt, und erhält mit einer Wahrscheinlichkeit <strong>von</strong> einen Bereich, in dem der<br />

unbekannte Parameter liegt. Dieser Bereich heißt Konfidenzintervall oder Vertrauensbereich<br />

zum Niveau 1 − α .<br />

€<br />

2.2.3 € Bestimmung der Stichprobengröße<br />

Die sogenannte Güteanalyse ist ein Verfahren, mit dem man im Vorfeld eines <strong>Experiment</strong>s<br />

eine Richtlinie erhält, welche Stichprobengröße erforderlich ist, um zu den gestellten Fragen<br />

aussagekräftige Antworten zu bekommen. Dieses Verfahren soll hier zum <strong>Ein</strong>satz kommen,<br />

da zu vermuten ist, dass für aussagekräftige Antworten eine sicher ausreichend große<br />

Probandenzahl nur schwer erreicht werden kann. <strong>Ein</strong>e zu kleine Stichprobengröße hat eine<br />

große Ungenauigkeit das heißt ein zu großes Konfidenzintervall zur Folge, ist deshalb<br />

unzuverlässig und liefert sehr wahrscheinlich unbrauchbare Ergebnisse. <strong>Ein</strong>e zu große<br />

Stichprobengröße dagegen verursacht Kosten, <strong>die</strong> in vielen Fällen nicht getragen werden<br />

können, und bedeutet einen wesentlich größeren Zeitaufwand. Es gibt je nach dem, wie <strong>die</strong><br />

zugrundeliegende Grundgesamtheit verteilt ist, verschiedene Möglichkeiten, den<br />

Stichprobenumfang abzuschätzen. In <strong>die</strong>sem Kapitel soll jeweils eine Möglichkeit für eine<br />

zugrundeliegende normalverteilte und eine binomialverteilte Grundgesamtheit vorgestellt<br />

werden. Auf normalverteilte Grundgesamtheiten wurde in Bezug auf das in <strong>die</strong>ser Arbeit<br />

durchzuführende <strong>Experiment</strong> in Kapitel 2.2.1 schon genauer eingegangen. Die Abschätzung<br />

des Stichprobenumfangs für eine binomialverteilte Grundgesamtheit soll hier, ohne dass<br />

näher auf <strong>die</strong> Eigenschaften einer Binomialverteilung eingegangen wurde, aufgeführt<br />

werden, da Annahmen zur Binomialverteilung ähnlich wie <strong>die</strong> zur Normalverteilung gängig<br />

im Bereich der Softwareentwicklung sind. Die konkreten Berechnungen zu dem <strong>Experiment</strong><br />

in <strong>die</strong>ser Arbeit werden in Kapitel 3.5.1.1 in den vor der Messung notwendigen Schritten<br />

dokumentiert.<br />

Die Güte meint <strong>die</strong> Wahrscheinlichkeit, mit der ein statistischer Test für <strong>die</strong><br />

Alternativhypothese entscheidet. Die Güte ist gerade , wobei β den Fehler 2. Art<br />

beschreibt, und wird unter anderem durch den Stichprobenumfang beeinflusst. Je größer der<br />

Stichprobenumfang ist, desto höher ist in der Regel <strong>die</strong> Güte. Je kleiner der nachzuweisende<br />

Effekt im <strong>Experiment</strong> ist, desto kleiner ist erwartungsgemäß <strong>die</strong> Güte. Ist der nachzuweisende<br />

Effekt also tatsächlich klein, so wird wahrscheinlich ein € größerer Stichprobenumfang<br />

erforderlich sein, um <strong>die</strong> Aussagekraft der getesteten Hypothese einschätzen zu können.<br />

Allerdings lassen sich <strong>die</strong>se <strong>Ein</strong>flüsse auf <strong>die</strong> Güte nicht verallgemeinern.


€<br />

€<br />

€<br />

€<br />

€<br />

2 Grundlagen | 21<br />

2.2.3.1 Bestimmung des Stichprobenumfangs <strong>über</strong> den Erwartungswert einer<br />

Normalverteilung<br />

Betrachtet man eine Stichprobe mit unabhängigen Zufallsvariablen x1 ,...,x n = X einer<br />

normalverteilten Grundgesamtheit, dann ermittelt man den Stichprobenumfang n beim Testen<br />

<strong>von</strong> Hypothesen <strong>über</strong> den unbekannten Parameter µ ∈ mit bekannter Varianz σ<br />

€<br />

2 > 0 nach<br />

[Pfla+01] folgendermaßen:<br />

Liegt ein einseitiges Testproblem zugrunde, das heißt man testet <strong>die</strong> Nullhypothese<br />

€<br />

€<br />

H0 : µ ≤ µ 0 gegen <strong>die</strong> Alternativhypothese H1 : µ > µ 0 zum gewählten Signifikanzniveau<br />

α ∈( 0,1)<br />

und gibt an der Stelle eine Wahrscheinlichkeit β ∈( 0,1)<br />

für den Fehler 2.<br />

Art vor, so muss der Stichprobenumfang, um beide Fehler einhalten zu können,<br />

€<br />

sein. uγ beschreibt hier das Quantil der Normalverteilung (vgl. Tab. „Quantile der<br />

Normalverteilung“).<br />

Analog bestimmt man auch n, wenn <strong>die</strong> Nullhypothese H0 : µ ≥ µ 0 gegen <strong>die</strong><br />

Alternativhypothese H1 : µ < µ 0 zum gewählten Signifikanzniveau α ∈( 0,1)<br />

und bei<br />

vorgegebener Wahrscheinlichkeit β ∈ 0,1<br />

€<br />

Im zweiseitigen<br />

€<br />

Testproblem H0 : µ = µ 0 gegen H1 : µ ≠ µ 0 zum gewählten Signifikanzniveau<br />

€<br />

α ∈( 0,1)<br />

ergibt sich bei vorgegebener Wahrscheinlichkeit β ∈( 0,1)<br />

für den Fehler 2. Art an<br />

€<br />

einer Stelle eine Stichprobengröße <strong>von</strong><br />

€<br />

.<br />

€<br />

( ) für den Fehler 2. Art getestet werden soll.<br />

€<br />

Man muss also mindestens eine Stichprobe der Größe n ziehen, um sicherzustellen, sich<br />

entweder höchstens mit der Wahrscheinlichkeit α irrtümlich für <strong>die</strong> Alternative<br />

entschieden zu haben, obwohl vorliegt, oder sich höchstens mit der Wahrscheinlichkeit β<br />

irrtümlich für <strong>die</strong> Hypothese entschieden hat, obwohl vorliegt.<br />

µ 1 ist stets so zu wählen, dass <strong>die</strong> Abweichung zwischen µ 0 und µ 1 nicht <strong>von</strong> praktischem<br />

Interesse ist. [Har+05, S.182]<br />

Sowohl für den einseitigen als auch für den zweiseitigen Test ist <strong>die</strong> Varianz der<br />

€ €<br />

Grundgesamtheit als bekannt vorausgesetzt. Für σ 2 kann aber beispielsweise auch ein<br />

Erfahrungswert aus früheren Messungen verwendet werden.<br />

2.2.3.2 Bestimmung der Stichprobengröße € <strong>über</strong> den Parameter p einer<br />

Binomialverteilung<br />


€<br />

2 Grundlagen | 22<br />

Betrachtet man eine Stichprobe mit unabhängigen Zufallsvariablen x1 ,...,x n = X einer<br />

binomialverteilten Grundgesamtheit, dann ist <strong>die</strong> Stichprobengröße n beim Testen <strong>von</strong><br />

Hypothesen <strong>über</strong> den Parameter p einer Binomialverteilung bei vorgegebenen Fehlern 1. und<br />

2. Art wird nach [Har+05, S.206] wie folgt bestimmt:<br />

€<br />

Formuliert man ein einseitiges Testproblem und testet <strong>die</strong> Nullhypothese H0 : p ≤ p0 gegen<br />

<strong>die</strong> Alternativhypothese H1 : p > p0 zum gewählten Signifikanzniveau α ∈( 0,1)<br />

und sichert<br />

dabei einen Fehler 2. Art β ∈( 0,1)<br />

an einer Stelle p1 > p0 ab, so muss man, um <strong>die</strong><br />

Fehlerwahrscheinlichkeiten α und β nicht zu <strong>über</strong>schreiten, als Stichprobenumfang<br />

€<br />

€<br />

€<br />

€<br />

€<br />

wählen. Die gleiche Formel zur Bestimmung des Stichprobenumfangs n gilt für das einseitige<br />

Testproblem, bei dem <strong>die</strong> Nullhypothese H0 : p ≥ p0 gegen <strong>die</strong> Alternativehypothese<br />

H1 : p < p0 bei vorgegebenem Fehler β an einer Stelle p1 < p0 . Im zweiseitigen Testproblem<br />

wird <strong>die</strong> Nullhypothese H0 : p = p0 gegen <strong>die</strong> Alternativhypothese H1 : p ≠ p0 zum gewählten<br />

Signifikanzniveau α ∈( 0,1)<br />

bestimmt<br />

€<br />

man den Stichprobenumfang n aus<br />

€<br />

€<br />

€<br />

€<br />

,<br />

€<br />

wenn man an einer Stelle<br />

p 1 ≠ p 0 einen Fehler 2. Art mit<br />

2.2.4 Zufällige Auswahl, Randomisation<br />

€<br />

€<br />

β ∈( 0,1)<br />

vorgibt.<br />

Es ist ausgeschlossen, alle möglichen <strong>Ein</strong>flüsse, <strong>die</strong> sich auf <strong>die</strong> Gültigkeit der Ergebnisse<br />

auswirken könnten, zu bestimmen und zu berücksichtigen. Sie sollten aber weitestgehend<br />

abgeschwächt werden. Insbesondere bei der Auswahl der Stichprobe, <strong>die</strong> als Grundlage für<br />

das <strong>Experiment</strong> <strong>die</strong>nt, sollten <strong>die</strong> Folgen <strong>von</strong> Störgrößen so gering wie möglich gehalten<br />

werden. Die Größe systematischer Fehler lässt sich allein aus den Messwerten nicht ermitteln,<br />

da der Fehler immer <strong>die</strong> gleiche Größe hat. Um also systematische Fehler bei der Auswahl<br />

der Stichprobe wie zum Beispiel den <strong>Experiment</strong>leitereffekt 5 einzugrenzen bzw. zu<br />

vermeiden, sollen im durchzuführenden <strong>Experiment</strong> <strong>die</strong> Probanden zufällig den<br />

<strong>Experiment</strong>gruppen zugeordnet werden. Dabei ist der systematische Fehler gerade derjenige,<br />

der immer wieder <strong>die</strong> gleiche Struktur aufweist. Sucht der <strong>Experiment</strong>leiter beispielsweise<br />

ein Objekt der Stichprobe (hier ein Teilnehmer des <strong>Experiment</strong>s) unbewusst nach einem<br />

bestimmten Merkmal aus, so wird er <strong>die</strong>sen Fehler, der starke Effekte in den Ergebnissen<br />

hervorrufen kann, bei jeder Auswahl des nächsten Objekts wiederholen.<br />

Für eine zufällige Auswahl werden zunächst alle Probanden durchnummeriert. Dann wird für<br />

jede <strong>Experiment</strong>gruppe <strong>die</strong> vorgesehene Anzahl <strong>von</strong> Probanden durch zufälliges Ziehen ihrer<br />

Nummern ausgewählt. „Diese Vorgehensweise nennt man auch Randomisation“ [Har+05,<br />

S.141] <strong>Ein</strong>e zufällige Auswahl <strong>von</strong> Nummer kann beispielsweise mit dem Statistikprogramm<br />

„R“ oder mit dem Tabellenkalkulationsprogramm „Excel“ simuliert werden.<br />

5 Der <strong>Experiment</strong>leitereffekt bedeutet, dass der <strong>Experiment</strong>leiter (unbewusst) auf das Versuchsergebnis einwirkt.


2 Grundlagen | 23<br />

2.2.5 Messfehler und Ausreißer<br />

Ziel eines <strong>Experiment</strong>s ist es, <strong>von</strong> einer Stichprobe Schlüsse auf <strong>die</strong> Grundgesamtheit zu<br />

ziehen. Sobald <strong>die</strong> Daten der Stichprobe erhoben wurden, sollte man sie auf statistische<br />

Fehler und Ausreißer prüfen, <strong>die</strong> das verallgemeinerte Ergebnis verfälschen könnten.<br />

2.2.5.1 Statistische Fehler<br />

„Nimmt man irgendwelche Messungen vor, [...], so sind <strong>die</strong>se niemals exakt; das bemerkt<br />

man, wenn Messungen wiederholt werden oder wenn verschiedene Personen das Gleiche<br />

messen. Es treten dann Schwankungen oder Ungenauigkeiten in den erhaltenen Messwerten<br />

auf.“ [Har+05, S.320] Statistische Fehler beeinflussen <strong>die</strong> Ergebnisse auf verschiedene Arten,<br />

sind zufällig und unberechenbar. Sie resultieren oft aus einer Reihe an Elementarfehlern. Das<br />

Ausmaß eines statistischen Fehlers lässt sich aber bewerten, wenn beispielsweise Messungen<br />

wiederholt werden und Ergebnisse mehrfach zur Beurteilung vorliegen.<br />

Im konkret durchzuführenden <strong>Experiment</strong> sollen zur Datenerhebung notwendige Definitionen<br />

und Klassifizierungen teilweise <strong>von</strong> zwei verschiedenen Personen angewendet werden, das<br />

heißt <strong>die</strong> Messung soll (zumindest teilweise) wiederholt werden, so dass ein Teil der<br />

Ergebnisse mehrfach vorliegt. Dabei kann eine gewisse Toleranz <strong>von</strong> Abweichungen<br />

eingeräumt werden. Bei deren Überschreitung sollte <strong>die</strong> Herleitung der Ergebnisse genau<br />

hinterfragt werden. Beispielsweise können <strong>die</strong> Metriken, <strong>die</strong> zu den Ergebnissen geführt<br />

haben, auf Präzision geprüft werden. Metriken können ungenau werden, wenn sie auf<br />

Definitionen und Klassifizierungen basieren.<br />

2.2.5.2 Ausreißer<br />

Oft sind einige Messwerte sehr weit <strong>von</strong> allen anderen entfernt. Das kann das Ergebnis eines<br />

<strong>Experiment</strong>s stark beeinflussen. Solche „Ausreißer“ können aber beispielsweise durch<br />

Unregelmäßigkeiten im <strong>Experiment</strong> entstanden sein. <strong>Ein</strong> Ausreißer-Test kann gegebenenfalls<br />

eine Entscheidungshilfe geben, ob es besser ist, den Ausreißer bei den weiteren Berechnungen<br />

nicht zu berücksichtigen. Zur Anwendung eines Tests müssen zunächst <strong>die</strong> zu testenden<br />

Datenpunkte ihrer Größe nach geordnet werden. Der Grubbs-Test, der hier als Beispiel für<br />

einen Ausreißertest angegeben werden soll, geht <strong>von</strong> der Annahme aus, dass <strong>die</strong><br />

Zufallsvariablen normalverteilt sind und testet, ob ein potentieller Ausreißer tatsächlich einer<br />

ist, indem <strong>über</strong>prüft wird, ob er aus der Normalverteilung stammt. Geprüft werden in der<br />

Regel der kleinste und der größte Wert einer Menge <strong>von</strong> Zufallsvariablen.<br />

Nach [Har+05, S.345] wird bei dem Ausreißer-Test <strong>von</strong> Grubbs für <strong>die</strong> Meßreihe mit den<br />

Zufallsvariablen x (1) ,...,x (n ) , wobei x (1) der kleinste und x (n ) der größte Wert der Menge <strong>von</strong><br />

Zufallsvariablen ist, <strong>die</strong> Nullhypothese H0 : (x (1) ist kein Ausreißer) gegen <strong>die</strong><br />

Alternativhypothese H1 : (x (1) ist ein Ausreißer) zum Signifikanzniveau α ∈( 0,1)<br />

getestet. H0 wird verworfen, € falls €<br />

€<br />

€<br />

€ .<br />

€<br />


€<br />

€<br />

€<br />

2 Grundlagen | 24<br />

Dabei bezeichnet den Mittelwert, s <strong>die</strong> Standardabweichung und n <strong>die</strong> Anzahl der<br />

Zufallsvariablen. Der Wert für lässt sich dann aus der Tabelle für kritische Werte 6<br />

des Grubbs-Tests ablesen (vgl. Tab. „Kritische Werte des Grubbs-Test“). Wird <strong>die</strong><br />

Nullhypothese H0 : (x (n) ist kein Ausreißer) gegen <strong>die</strong> Alternativhypothese H1 : (x (n) ist ein<br />

Ausreißer) wird zum Signifikanzniveau α ∈ 0,1 H0 wird verworfen, falls<br />

€<br />

.<br />

€<br />

2.2.6 Korrelation <strong>von</strong> Merkmalen<br />

( ) getestet.<br />

In der Analyse <strong>von</strong> in <strong>Experiment</strong>en erhobenen Daten möchte man oft Abhängigkeiten<br />

verschiedener Merkmale finden bzw. auch belegen, um qualitative Aussagen <strong>über</strong> deren<br />

Beziehung untereinander machen zu können. Die Korrelation <strong>von</strong> Merkmalen misst den<br />

Stärkegrad einer Abhängigkeit verschiedener Merkmale. Wenn eine Korrelation vorliegt,<br />

bedeutet das jedoch nicht zwingend, dass das eine Merkmal das andere kausal beeinflusst.<br />

Möglich ist auch, dass beide Merkmale <strong>von</strong> einer dritten Größe abhängen oder gar keine<br />

Abhängigkeit im Sinne eines kausalen Zusammenhangs besteht.<br />

Seien X mit den Werten x1,...,x n und Y mit den Werten y1,..., yn Zufallsvariablen einer<br />

normalverteilten Grundgesamtheit mit jeweils positiver Varianz, wobei <strong>die</strong> Werte für X und Y<br />

paarweise erhoben wurden. Will man <strong>die</strong> Korrelation anhand einer Stichprobe vom Umfang n<br />

aus <strong>die</strong>ser normalverteilten Grundgesamtheit, dann kann <strong>die</strong> Korrelation zwischen ihnen mit<br />

dem sogenannten<br />

€<br />

Pearsonschen Korrelationskoeffizienten<br />

€<br />

ρXY ∈ −1,+1<br />

ρ XY =<br />

n<br />

n<br />

∑<br />

i=1<br />

( xi − x ) yi − y<br />

( )<br />

( xi − x ) 2<br />

∑ ⋅ ∑ yi − y<br />

i=1<br />

n<br />

i=1<br />

( ) 2<br />

€<br />

€<br />

€<br />

[ ] mit<br />

abgeschätzt werden. [Har+05, S.546] Dabei bezeichnet x den Mittelwert <strong>von</strong> x1,..., xn und y<br />

den Mittelwert <strong>von</strong> y1,...,y n . Der Wert ρXY = +1 ( ρXY = −1) gibt dabei an, dass ein vollständig<br />

positiver (negativer) linearer Zusammenhang vorliegt. Bei einem Korrelationskoeffizienten<br />

<strong>von</strong> Null hängen <strong>die</strong> auf Korrelation geprüften<br />

€<br />

Merkmale nicht linear <strong>von</strong>einander ab. Mit<br />

€<br />

Hilfe der Korrelation kann man testen, ob <strong>die</strong> Zufallsvariablen X und Y wie oben<br />

€<br />

definiert<br />

unabhängig<br />

€<br />

sind. Dazu formuliert<br />

€<br />

man<br />

€<br />

zu den gegebenen Zufallsvariablen das zweiseitige<br />

Testproblem, bei dem man <strong>die</strong> Nullhypothese H0 : ρ = 0 gegen <strong>die</strong> Alternativhypothese<br />

H1 : ρ ≠ 0 zum gewähltem Signifikanzniveau α ∈( 0,1)<br />

mit dem zweiseitigen<br />

Zweistichproben-t-Test testet. Die Nullhypothese wird verworfen, falls gilt<br />

t > t n −2;1− α<br />

2<br />

€<br />

mit<br />

t = ρXY ⋅ n − 2<br />

2<br />

1− ρXY ,<br />

€<br />

6 Diese bezeichnen allgemein den kritischen Wert einer t-Verteilung mit m Freiheitsgraden zum Niveau β.<br />


2 Grundlagen | 25<br />

wobei das Quantil der t-Verteilung ist (vgl. Tab. „Quantile der t-Verteilung“).<br />

2.2.7 Skalenniveau<br />

„Um <strong>die</strong> Ausprägung eines Merkmals messen oder erfragen zu können, muss man natürlich<br />

zunächst eine Skala [...] festlegen, <strong>die</strong> alle möglichen Ausprägungen eines Merkmals<br />

beinhaltet.“ [Har+05, S.16] Zur Klassifizierung <strong>von</strong> Merkmalen lassen sich beispielsweise<br />

verschiedene Stufen der Skalierbarkeit, sogenannte Skalenniveaus verwenden. Das<br />

Skalenniveau definiert <strong>die</strong> mathematischen Operationen, <strong>die</strong> auf dem skalierten Merkmal<br />

zulässig sind (vgl. Tab.2). Ist ein Merkmal auf einem Niveau skalierbar, so ist es ebenfalls auf<br />

allen darunter liegenden Niveaus skalierbar. Dies gilt allerdings nicht für <strong>die</strong> Umkehrung. Das<br />

niedrigste Skalenniveau ist <strong>die</strong> Nominalskala. Ihre Werte „unterliegen keiner Rangfolge und<br />

sind nicht vergleichbar“ [Har+05, S.16] Dar<strong>über</strong> steht <strong>die</strong> Ordinalskala, deren Werte einer<br />

Rangfolge unterliegen und sich daher „in ihrer Intensität unterscheiden und nach der Stärke<br />

der Intensität ordnen lassen.“ [Har+05, S. 17] <strong>Ein</strong> Beispiel für <strong>die</strong> Ordinalskala ist <strong>die</strong><br />

Skalierung mit Hilfe <strong>von</strong> Schulnoten. Das höchste Skalenniveau ist <strong>die</strong> metrische Skala. Die<br />

Abstände zwischen ihren Werten sind interpretierbar. In der metrischen Skala werden <strong>die</strong><br />

Intervall- und Verhältnisskala zusammengefasst. Sie unterscheiden sich je nach dem, ob ein<br />

absoluter Nullpunkt existiert (Verhältnisskala) oder nicht (Intervallskala).<br />

Skalenniveau<br />

Gleichheit<br />

der Werte<br />

(=,≠)<br />

mögliche mathematische Operationen<br />

Ordnung<br />

der Werte<br />

()<br />

Verhältnisse<br />

<strong>von</strong><br />

Wertdifferenzen<br />

(+,-)<br />

Verhältnisse<br />

<strong>von</strong> Werten<br />

( )<br />

Beispiel<br />

Nominalskala ja nein nein nein Farbe<br />

Ordinalskala ja ja nein nein Schulnote<br />

metrische Intervallskala ja ja ja nein Zeit<br />

Skala Verhältnisskala ja ja ja ja Alter<br />

Tabelle 2: Skalenniveaus<br />

Die Skalierung zu dem in <strong>die</strong>ser Arbeit durchzuführenden <strong>Experiment</strong> wird in Kapitel 3.2.2<br />

vorgenommen. Sind <strong>die</strong> Ausprägungen der beobachteten Merkmale metrisch skaliert, so sind<br />

Methoden wie zum Beispiel <strong>die</strong> Korrelationsrechnung problemlos anwendbar.<br />

2.3 Allgemeine Grundlagen<br />

2.3.1 Das <strong>Experiment</strong><br />

Der Vollständigkeit halber soll in <strong>die</strong>sem Kapitel der schon vorweg mehrfach genannte<br />

Begriff <strong>Experiment</strong> definiert werden, um auf <strong>die</strong>ser Grundlage etwas <strong>über</strong> Variablen und<br />

<strong>Experiment</strong>design sagen zu können. <strong>Ein</strong> <strong>Experiment</strong> ist eine Untersuchung und eine<br />

Methode zur Datenerhebung, bei der gezielt vorher formulierte Hypothesen auf ihre<br />

Gültigkeit geprüft werden sollen. Man erhofft sich Hinweise dar<strong>über</strong>, ob <strong>die</strong> formulierten<br />

Hypothesen eher anzuzweifeln oder zu bekräftigen sind. Im Gegensatz zu einer reinen<br />

Beobachtung werden in einem <strong>Experiment</strong> bestimmte Rahmenbedingungen im Vorfeld<br />

bewusst festgelegt werden. Außerdem spielt in der Regel zusätzlich zu dem zu<br />

untersuchenden Objekt und dem Beobachter auch noch eine vorher gewählte Methode zur<br />

<strong>Experiment</strong>planung (hier <strong>die</strong> GQM-Methode) eine Rolle.


2 Grundlagen | 26<br />

Die wesentlichen Elemente eines <strong>Experiment</strong>s sind <strong>die</strong> Variablen. Man unterscheidet<br />

zwischen abhängigen, unabhängigen und Störvariablen. Die unabhängigen Variablen<br />

werden bewusst beeinflusst, um eine mögliche Veränderung messen zu können. Sie wirken<br />

auf <strong>die</strong> abhängigen Variablen ein. Ihre <strong>Auswirkung</strong> wiederum sollen gerade durch das<br />

<strong>Experiment</strong> geprüft werden. Als Störvariablen bezeichnet man schließlich Elemente<br />

innerhalb des Versuchsaufbaus, <strong>die</strong> ebenfalls auf <strong>die</strong> abhängigen Variablen einwirken und so<br />

<strong>die</strong> Gültigkeit der Ergebnisse beeinflussen und <strong>die</strong> Aussagekraft des <strong>Experiment</strong>s mindern.<br />

2.3.2 Exkurs: <strong>Experiment</strong>design<br />

Im klinischen Umfeld werden oft <strong>Experiment</strong>e durchgeführt, um beispielsweise <strong>die</strong><br />

unterschiedlichen Wirkungsweisen <strong>von</strong> zwei Medikamenten beim Menschen zu vergleichen.<br />

Beim sogenannten Parallelgruppen-Design wird jeder <strong>Experiment</strong>teilnehmer per<br />

Zufallsziehung nur einer der beiden <strong>Experiment</strong>gruppen zugeteilt, das heißt an jedem<br />

<strong>Experiment</strong>teilnehmer wird nur eines der beiden Medikamente getestet. Häufig wird aber das<br />

Cross-Over-Design angewendet. Im Gegensatz zum Parallelgruppen-Design werden dabei<br />

<strong>die</strong> <strong>Experiment</strong>teilnehmer nacheinander beiden <strong>Experiment</strong>gruppe zugeordnet, das heißt an<br />

jedem <strong>Experiment</strong>teilnehmer wird erst das eine und dann das andere Medikament getestet.<br />

Ausschließlich <strong>die</strong> Reihenfolge wird dann noch mit Hilfe einer Zufallsziehung bestimmt. Im<br />

Vorfeld der Planung des in <strong>die</strong>ser Arbeit durchzuführenden <strong>Experiment</strong>s stellte sich <strong>die</strong><br />

Frage, ob <strong>die</strong> Anwendung <strong>die</strong>ses <strong>Experiment</strong>designs <strong>die</strong> doppelte Menge an Datenpunkten<br />

liefern bzw. <strong>die</strong> Größe der für ein aussagekräftiges Ergebnis notwendigen Stichprobe<br />

verringern könnte, weshalb <strong>die</strong> Designmethode hier kurz erläutert und ihr Nutzen für <strong>die</strong>ses<br />

<strong>Experiment</strong> abgeschätzt werden soll.<br />

<strong>Ein</strong> <strong>Experiment</strong>, das <strong>die</strong> verschiedenen Wirkungsweisen <strong>von</strong> Medikamenten untersuchen ist<br />

ähnlich dem in <strong>die</strong>ser Arbeit durchgeführten <strong>Experiment</strong>, in dem <strong>die</strong> Wirkungsweisen <strong>von</strong><br />

Werkzeugen in der Anforderungserhebung verglichen werden sollen. Nach [Schu+08, S.306]<br />

kann <strong>die</strong>ses <strong>Experiment</strong>design in klinischen <strong>Experiment</strong>en im geeigneten Fall den Aufwand<br />

gegen<strong>über</strong> dem Parallelgruppendesign deutlich reduzieren, weil jeder <strong>Experiment</strong>teilnehmer<br />

seine eigene Kontrolle ist. Weniger Aufwand meint insbesondere, dass man mit einer<br />

geringeren Stichprobengröße auskommt. Die Idee da<strong>von</strong>, dass <strong>die</strong> Anwendung des Cross-<br />

Over-Designs <strong>die</strong> notwendige Stichprobengröße verringern könnte, begründet sich darin, dass<br />

<strong>die</strong> Variabilität innerhalb der einzelnen <strong>Experiment</strong>teilnehmer oft geringer ist als <strong>die</strong> zwischen<br />

<strong>Experiment</strong>teilnehmern. Die Frage ist, unter welchen Voraussetzungen das der Fall ist, das<br />

heißt welcher Fall für das Cross-Over-Design als geeignet betrachtet werden kann. Dieser<br />

mögliche positive Effekt einer geringeren Stichprobengröße kann nämlich nur dann eintreten,<br />

wenn <strong>von</strong> dem ersten <strong>Experiment</strong> keine sogenannten Überhangeffekte mit in das<br />

nachfolgende <strong>Experiment</strong> getragen werden. So ein Überhangeffekt kann beispielsweise<br />

entstehen, wenn das im ersten <strong>Experiment</strong> verabreichte Medikament <strong>die</strong> Wirkung des zweiten<br />

beeinflusst. Nur durch Vermeidung <strong>von</strong> Überhangeffekten kann <strong>die</strong> Vergleichbarkeit der<br />

<strong>Experiment</strong>gruppen geleistet werden. Wirken starke Überhangeffekte auf das zweite<br />

<strong>Experiment</strong> ein, <strong>die</strong> man im Vorfeld vielleicht nicht berücksichtigt hat, können nur noch <strong>die</strong><br />

Ergebnisse der ersten <strong>Experiment</strong>gruppe für ein Parallelgruppen-Design verwendet werden,<br />

für das dann aber oft <strong>die</strong> gewählte Stichprobengröße nicht mehr ausreicht. In klinischen<br />

<strong>Experiment</strong>en, in denen <strong>die</strong> Wirkungsweisen verschiedener Medikamente verglichen werden<br />

soll, kann zur Vermeidung <strong>von</strong> Überhangeffekte ein gewisser Zeitraum ohne<br />

Medikamentenverabreichung zwischen den <strong>Experiment</strong>en eingeplant werden (Wash-Out<br />

Periode).


2 Grundlagen | 27<br />

Um eine Entscheidung dar<strong>über</strong> zu treffen, ob der <strong>Ein</strong>satz des Cross-Over-Designs für<br />

<strong>Experiment</strong>e in der Softwareentwicklung und speziell für das in <strong>die</strong>ser Arbeit<br />

durchzuführende <strong>Experiment</strong> Sinn macht, muss also geprüft werden, ob Überhangeffekte<br />

vermieden werden können. Ob es grundsätzlich Situationen in der Softwareentwicklung gibt,<br />

in denen <strong>die</strong> Anwendung des Cross-Over-Designs den gewünschten Effekt der geringeren<br />

Stichprobengröße bringen würde, lässt sich allerdings nur schwer beurteilen, da das Umfeld,<br />

in dem <strong>Experiment</strong>e in der Softwareentwicklung angewendet werden, wahrscheinlich nicht<br />

vollständig <strong>über</strong>blickt werden kann. Für <strong>die</strong>sen gesonderten Fall der Wirkungsweisen <strong>von</strong><br />

Werkzeugen in der Anforderungserhebung kann aber gesagt werden, dass es unmöglich ist,<br />

den Überhangeffekt, dass der Anforderungsingenieur das im ersten <strong>Experiment</strong> Gelernte im<br />

zweiten <strong>Experiment</strong> benutzt, vollkommen auszuschließen. Der Überhangeffekt würde eine<br />

weitere Störvariable im <strong>Experiment</strong> bedeuten. Es werden allerdings schon dadurch einige<br />

<strong>Ein</strong>flüsse auf <strong>die</strong> Gültigkeit der Ergebnisse erwartet, dass in einem Anforderungsinterview<br />

durch <strong>die</strong> Beteiligung <strong>von</strong> Menschen kaum alle unabhängigen Variablen identifiziert und<br />

festgehalten werden können. Deshalb soll hier keine weitere notwendige <strong>Ein</strong>schränkung der<br />

Ergebnisse durch nicht kontrollierbare Abhängigkeiten in Kauf genommen und auf <strong>die</strong><br />

Anwendung des Cross-Over-Designs verzichtet werden.<br />

2.3.3 Fragebögen als Hilfsmittel zur Datenerhebung<br />

Bei Fragen an <strong>die</strong> Probanden kann zwischen offenen und geschlossenen Fragen unterschieden<br />

werden. <strong>Ein</strong>e offene Frage muss <strong>von</strong> dem Befragten mit einem freien Fließtext beantwortet<br />

werden. Die Auswertung ist bei <strong>die</strong>ser Art <strong>von</strong> Fragen besonders schwierig, weil sie schwer<br />

miteinander verglichen oder gar zu einer Gruppe <strong>von</strong> Antworten zusammengefasst werden<br />

können. Diese Problematik kann zu Ungenauigkeiten führen, <strong>die</strong> möglichst vermieden werden<br />

sollten. Besser sind da geschlossene Fragen, <strong>die</strong> dem Befragten eine Menge <strong>von</strong> Antworten<br />

vorgeben. Bei geschlossenen Fragen ist nach [Har+05, S.309] darauf zu achten, dass ihre<br />

Antworten <strong>über</strong>schaubar, erschöpfend und gut gegeneinander abgegrenzt sind.<br />

Mehrdeutigkeiten und subjektive Standpunkte des Fragebogenentwicklers müssen<br />

ausgeschlossen werden. Antwortmöglichkeiten der Form „weiß nicht“ oder „keine Angabe“<br />

sollte man nicht geben, da sie für den Befragten ein „Freifahrtsschein“ sind, <strong>über</strong> <strong>die</strong><br />

eigentliche Antwort gar nicht erst nachzudenken. Außerdem muss ein Fragebogen den<br />

<strong>Ein</strong>druck einer wirklichen Gesprächssituation erwecken. Dazu sollte er möglichst <strong>von</strong><br />

mehreren <strong>über</strong> <strong>die</strong> Rahmenbedingungen informierten Personen erarbeitet oder geprüft<br />

werden. Vor der eigentlichen Befragung sollte getestet werden, ob der Fragebogen<br />

zielgerichtet aufgebaut wurde.


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 28<br />

3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode<br />

3.1 Vorstu<strong>die</strong><br />

In der Vorstu<strong>die</strong> soll herausgearbeitet werden, worum es bei der Messung genau gehen soll.<br />

Klar ist, dass <strong>die</strong> Ergebnisse zwei unabhängiger Stichproben miteinander verglichen werden<br />

sollen. Dabei soll nur <strong>die</strong> eine Gruppe das Werkzeug Fast <strong>Feedback</strong> benutzen. Sie wird im<br />

Folgenden als <strong>Experiment</strong>gruppe bezeichnet. Die andere Gruppe soll als Hilfsmittel<br />

ausschließlich ein leeres Blatt Papier zur Verfügung gestellt bekommen. Dieses wird ihnen<br />

aus drei Gründen elektronisch in Form eines leeren Word-Dokuments bereitgestellt. Das hat<br />

erstens den Grund, dass <strong>die</strong> Probanden der verschiedenen Gruppen das jeweilige Werkzeug<br />

möglichst alle unter den gleichen Rahmenbedingungen benutzen sollen und ein Unterschied<br />

in der Art der Textverarbeitung (Papier gegen PC) eine Störvariable bedeuten könnte.<br />

Zweitens sind handschriftliche Dokumente grundsätzlich schwierig auszuwerten. Drittens<br />

wurde Word als Textverarbeitungsprogramm ausgewählt, weil da<strong>von</strong> auszugehen ist, dass <strong>die</strong><br />

Probanden aufgrund des Bekanntheitsgrades <strong>von</strong> Word ausreichend mit den zugehörigen<br />

Funktionen vertraut sind und keine <strong>Ein</strong>arbeitungszeit benötigen. Das <strong>von</strong> der zweiten Gruppe<br />

verwendete Werkzeug ist also Word und <strong>die</strong> Gruppe soll im Folgenden als Kontrollgruppe<br />

bezeichnet werden. Zur weiteren Erarbeitung dessen, worum es in der Messung nun genau<br />

gehen soll, werden in <strong>die</strong>sem Kapitel zunächst <strong>die</strong> Hypothesen aus den Grundlagen<br />

herausgearbeitet, dann wird das <strong>Experiment</strong> sinnvoll eingeschränkt und anschließend mit der<br />

GQM-Methode vorbereitet. So ist eine präzise Planung und korrekte Erstellung des<br />

Messplans möglich.<br />

3.1.1 Herausarbeitung der Hypothesen<br />

3.1.1.1 Hypothese 1 – Fehler in der Anforderungserhebung<br />

„Die Wichtigkeit des Requirements Engineering wird vielfach unterschätzt.“ [Poh08, S.10] In<br />

der Anforderungserhebungsphase werden <strong>die</strong> Anforderungen in der Regel zunächst nur vage<br />

formuliert. Verschiedene Stakeholder haben wahrscheinlich sogar unklare und<br />

widersprüchliche Ansichten zur gewünschten Software. Dazu kommt, dass sich der<br />

Anforderungsingenieur erst in den Kontext der zu entwickelnden Software einarbeiten muss.<br />

Werden <strong>die</strong> Anforderungen dann im nächsten Schritt dokumentiert, so kommt es nicht selten<br />

dazu, dass sich Missverständnisse, Widersprüche, Inkonsistenzen und ähnlich fehlerhaft<br />

dokumentierte Anforderungen in den Dokumenten verfestigen. „Beispielsweise werden<br />

Anforderungen <strong>über</strong>sehen oder missverständlich und unvollständig spezifiziert.“ [Poh08,<br />

S.10] Diese Fehler können ernste und kostenintensive Probleme zur Folge haben. [Schn08]<br />

Natürlich können sich auch Tippfehler und problematische Satzstrukturen einschleichen, um<br />

<strong>die</strong> es aber im Rahmen <strong>die</strong>ses <strong>Experiment</strong>s nicht gehen soll, da <strong>die</strong> zu untersuchende Software<br />

nicht darauf ausgelegt ist, solche Fehler zu finden. Vielmehr verspricht eine <strong>die</strong><br />

Anforderungserhebung unterstützende Software wie Fast <strong>Feedback</strong> dadurch Verbesserung,<br />

dass früher im Prozess ein Demonstrations-Prototyp mit Hilfe <strong>von</strong> Mock-ups skizziert werden<br />

kann, der dem Kunden <strong>die</strong> Möglichkeit zu einem schnellen <strong>Feedback</strong> gibt. Die<br />

Dokumentation und <strong>die</strong> Vali<strong>die</strong>rung fließen so in <strong>die</strong> Anforderungserhebung mit ein. <strong>Ein</strong> Ziel<br />

der Verwendung <strong>von</strong> Fast <strong>Feedback</strong> soll also sein, möglichst viele fehlerhaft dokumentierten<br />

Anforderungen zu erkennen und das am besten zu einem frühen Zeitpunkt, damit hohe


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 29<br />

Folgekosten für eventuelle nachträgliche Änderungen der Software vermieden werden<br />

können.<br />

Um eine konkrete Hypothese in Bezug auf <strong>die</strong> Erkennung fehlerhaft dokumentierter<br />

Anforderungen in der frühen Phase der Anforderungserhebung aufstellen zu können, ist es<br />

notwendig, genau zu definieren, in welchen Fällen <strong>die</strong> Anforderungen als fehlerhaft<br />

dokumentiert bezeichnet und wie sie klassifiziert werden können.<br />

Definition fehlerhaft dokumentierter Anforderungen:<br />

Fehler, <strong>die</strong> durch <strong>die</strong> Verwendung <strong>von</strong> Fast <strong>Feedback</strong> früher und häufiger gefunden werden<br />

sollen, sind erstens Missverständnisse zwischen dem Anforderungsingenieur und dem<br />

Kunden. Im Falle eines solchen Fehlers unterscheidet sich das, was einer der beiden<br />

gemeint und was der andere verstanden hat maßgeblich <strong>von</strong>einander. Dem liegt eine falsche<br />

Interpretation einer Aussage zugrunde. Zweitens sollen mit Fast <strong>Feedback</strong> früher und<br />

häufiger Widersprüche in den Anforderungen des Kunden an <strong>die</strong> Software aufgedeckt<br />

werden können. Solche Widersprüche entstehen dann, wenn der Kunde dem<br />

Anforderungsingenieur unbewusst gegensätzliche Informationen zur gewünschten Software<br />

liefert, <strong>von</strong> denen nur eine verwirklicht werden kann. Drittens sollen mit Hilfe <strong>von</strong> Fast<br />

<strong>Feedback</strong> Unvollständigkeiten identifiziert werden. Unvollständigkeiten entstehen dann,<br />

wenn vom Kunden (gegebenenfalls auch versteckt) genannte Anforderungen oder Teile <strong>von</strong><br />

Anforderungen, ohne <strong>die</strong> eine Software nicht funktionieren oder nicht den Vorstellungen<br />

des Kunden entsprechen würde, versehentlich nicht dokumentiert wird. Geschieht <strong>die</strong>s aber<br />

nicht unabsichtlich sondern absichtlich, das heißt der Anforderungsingenieur hält den<br />

betreffenden Aspekt nicht für wesentlich und interpretiert damit <strong>die</strong> Aussage des Kunden<br />

falsch, handelt es sich allerdings nicht um eine Unvollständigkeit, sondern um ein<br />

Missverständnis wie oben beschrieben. Viertens sollen gerade Inkonsistenzen zwischen<br />

Oberfläche und Ablauf aufgespürt werden. Solche Inkonsistenzen entstehen zum Beispiel<br />

beim Erstellen <strong>von</strong> Mock-ups zu verschiedenen Use Cases. Wenn beim Erstellen des<br />

zweiten Use Cases das Mock-up des ersten Use Cases vielleicht nicht mehr so gut in<br />

Erinnerung ist, kann der Aufbau der Oberflächen <strong>von</strong>einander abweichen, obwohl der<br />

Ablauf eigentlich identisch ist. Inkonsistente Bezeichnungen können wiederum<br />

Missverständnisse hervorrufen, <strong>die</strong> sich erst durch Fehler im Entwurf zeigen.<br />

Definition 1: Fehlerhaft dokumentierte Anforderungen<br />

Die in der Definition 1 genannten Arten <strong>von</strong> fehlerhaft dokumentierten Anforderungen sollen<br />

nun anhand <strong>von</strong> Beispielen verdeutlicht werden (vgl. Beispiel 1).<br />

Arten <strong>von</strong> Fehlern Beispiele zum Szenario „Bibliotheksverwaltung“<br />

Missverständnis<br />

Der Anforderungsingenieur dokumentiert <strong>die</strong> Anforderung: „Nach<br />

der Suche nach einem Buch soll das System den Benutzer nach der<br />

als nächstes gewünschten Aktion („weiteres Buch suchen“ oder<br />

„ausloggen“) fragen.“ Im weiteren Gespräch zwischen<br />

Anforderungsingenieur und Kunde stellt sich heraus, dass der<br />

Anforderungsingenieur mit „Suche“ schon den vollständigen<br />

Ausleihvorgang gemeint hat, während der Kunde dachte, es ginge<br />

ausschließlich um <strong>die</strong> Buchsuche mit Hilfe einer Suchfunktion.


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 30<br />

Widerspruch<br />

Unvollständigkeit<br />

Inkonsistenz<br />

Der Anforderungsingenieur und der Kunde sprechen <strong>über</strong> den<br />

Ausleihvorgang. Der Anforderungsingenieur dokumentiert <strong>die</strong><br />

Anforderung: „Der Zugriff soll nur <strong>über</strong> den Terminal möglich sein,<br />

der in der Bibliothek zur Verfügung steht.“ Im weiteren<br />

Gesprächsverlauf wird <strong>die</strong> Anforderung „Der Zugang zur Verwaltung<br />

soll auch <strong>über</strong> andere Rechner zum Beispiel vom eigenen Büro aus<br />

möglich sein.“ dokumentiert. Da der Anforderungsingenieur zur<br />

ersten Anforderung nicht notiert hat, dass es dabei um den<br />

Ausleihvorgang ging, stehen nun <strong>die</strong> beiden Anforderungen im<br />

Widerspruch zueinander.<br />

Der Anforderungsingenieur und der Kunde sprechen <strong>die</strong> Schritte und<br />

Funktionen <strong>von</strong> der Buchsuche bis zum Abschluss des<br />

Ausleihvorgangs durch. Später stellt sich heraus, dass dabei nur der<br />

Erfolgsfall das heißt der Fall, dass der Benutzer ein gefundenes Buch<br />

auch wirklich ausleihen möchte, berücksichtigt wurde. Es fehlt bis zu<br />

dem Zeitpunkt, zu dem der Fehler erkannt wurde, eine Funktion im<br />

Bereich der Suchergebnisliste, <strong>die</strong> der Benutzer auswählen kann,<br />

wenn er das gefundene Buch nicht ausleihen möchte. Der<br />

Ausleihvorgang war unvollständig.<br />

Beim Skizzieren der Softwareoberfläche benennt der<br />

Anforderungsingenieur <strong>die</strong> Schaltfläche zum starten der Suchfunktion<br />

an einigen Stellen als „Buch suchen“ und an anderen wiederum als<br />

„Buch finden“. Der Anforderungsingenieur und der Kunde wissen<br />

zwar, was gemeint ist (es liegt also kein Missverständnis vor), aber<br />

<strong>die</strong> Bezeichnungen sind inkonsistent.<br />

Beispiel 2: Fehlerhaft dokumentierte Anforderungen<br />

Mit Sicherheit gibt es weitere Arten <strong>von</strong> Fehlern wie zum Beispiel Widersprüche, <strong>die</strong> auf<br />

Interessengegensätzen beruhen, <strong>die</strong> aber in <strong>die</strong>sem <strong>Experiment</strong> aufgrund der Übersichtlichkeit<br />

des Systems nicht erwartet werden. Aus <strong>die</strong>sem Grund seien hier nur <strong>die</strong> oben genannten vier<br />

Unterscheidungen <strong>von</strong> Fehlern explizit zu klassifizieren. Alle übrigen Klassen werden in einer<br />

Klasse „sonstige Fehler“ zusammengefasst und bei der hier durchgeführten Untersuchung<br />

nicht berücksichtigt. Zur grundsätzlichen Definition <strong>von</strong> Anforderungen wird mit der<br />

Erarbeitung <strong>von</strong> Hypothese 2 Stellung genommen.<br />

Damit ergibt sich <strong>die</strong> folgende erste Hypothese:<br />

Durch <strong>die</strong> Verwendung <strong>von</strong> Fast <strong>Feedback</strong> in der Anforderungserhebung können Fehler in<br />

den Anforderungen schon im ersten Anforderungsinterview aufgedeckt werden.<br />

Hypothese 1: Fehler in der Anforderungserhebung


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 31<br />

3.1.1.2 Hypothese 2 – Anzahl der Anforderungen<br />

Bis <strong>die</strong> Anforderungserhebung inklusive der Vali<strong>die</strong>rung abgeschlossen ist, können<br />

normalerweise einige Wochen und mehrere Termine zwischen Anforderungsingenieur und<br />

Kunde vergehen. Das <strong>Feedback</strong> des Kunden muss oft in einer zweiten oder sogar dritten Serie<br />

<strong>von</strong> Interviews gesammelt werden, bevor <strong>die</strong> gesammelten Informationen und erste Pläne der<br />

Entwickler vali<strong>die</strong>rt werden können. Das kann den Fortschritt der Anforderungserhebung und<br />

damit auch den Fortschritt des ganzen Projektes erheblich verzögern. Bis zur möglichen<br />

Übergabe haben <strong>die</strong> Auftraggeber vielleicht das Interesse an dem Produkt verloren oder das<br />

Produkt ist bereits veraltet. Allerdings darf auf <strong>die</strong> Vali<strong>die</strong>rung und damit auf das <strong>Feedback</strong><br />

des Kunden auch nicht verzichtet werden, da das konsequente <strong>Ein</strong>beziehen des Kunden<br />

gerade in <strong>die</strong> frühe Entwicklungsphase ausschlaggebend für den Projekterfolg ist. Das zweite<br />

Ziel der Verwendung <strong>von</strong> Fast <strong>Feedback</strong> soll also sein, dass Fast <strong>Feedback</strong> zur<br />

Beschleunigung der Anforderungserhebungsphase dadurch beiträgt, dass <strong>die</strong> Vali<strong>die</strong>rung<br />

schon gleich im ersten Interview parallel zur Befragung abläuft und damit bis zum Abschluss<br />

der Vali<strong>die</strong>rung vermutlich weniger Termine mit dem Kunden notwendig sind. [Schn07b] Es<br />

kann also angenommen werden, dass mehr Anforderungen pro Zeiteinheit erhoben werden,<br />

da der Kunde durch <strong>die</strong> Erstellung <strong>von</strong> Mock-ups schon früh <strong>die</strong> Möglichkeit zum <strong>Feedback</strong><br />

bekommt. Das führt dazu, dass der Kunde selbst genauere Vorstellungen <strong>von</strong> der<br />

gewünschten Software bekommt, was wiederum dazu führt dass der Kunde seine Wünsche<br />

auch konkreter in Form <strong>von</strong> Anforderungen formulieren kann. Außerdem wird <strong>die</strong><br />

Vali<strong>die</strong>rung im Entwicklungsprozess vorgezogen, so dass der Anforderungsingenieur früher<br />

zum Endergebnis der Anforderungserhebungsphase gelangt.<br />

Um <strong>die</strong> Hypothese klar zu formulieren, soll im Folgenden konkret definiert werden, um was<br />

für Anforderungen es sich bei der oben beschriebenen Annahme handelt.<br />

<strong>Ein</strong>e Anforderung in der Softwareentwicklung ist ein natürlichsprachiger Satz mit einer<br />

Aussage <strong>über</strong> eine zu erfüllende Beschaffenheit einer Software. Bevor Anforderungen<br />

klassifiziert werden können, muss der beschreibende Satz so weit wie möglich zerlegt<br />

werden. In einigen dokumentierten Anforderungen verstecken sich oft eigentlich zwei oder<br />

mehr Anforderungen. Die Anforderungen müssen so geteilt werden, dass sie auch einzeln<br />

noch ihren Sinn behalten, das heißt oft kann eine Anforderung bei einem „und“ oder „oder“<br />

geteilt werden, da <strong>die</strong> entsprechenden Satzteile eigentlich zwei unabhängige Funktionen<br />

beschreiben, manchmal würde <strong>die</strong>se Trennung aber <strong>die</strong> Aussage ändern/verfälschen. Es sind<br />

aber auch manchmal Trennungen möglich, ohne dass ein „und“ oder „oder“ den Satz trennt.<br />

Grundsätzlich soll beim Trennen nach der Regel verfahren werden, dass ein Satz immer dann<br />

getrennt wird, wenn seine <strong>Ein</strong>zelteile noch <strong>die</strong>selbe Aussage beschreiben wie <strong>die</strong> ursprünglich<br />

dokumentierte Anforderung. Die einzige Ausnahme sollen Aufzählungen sein, deren<br />

Elemente offensichtlich zusammenhängen, weil sie beispielsweise alle ein und dasselbe<br />

Formular oder <strong>die</strong> gleiche <strong>Ein</strong>gabe betreffen. Sie zählen als eine Anforderung und werden<br />

nicht getrennt. Die Regeln zum Zerlegen <strong>von</strong> Anforderungen sollen an einigen Beispielen<br />

erläutert werden (vgl. Beispiel 2).<br />

„Im Anschluss soll der Administrator <strong>die</strong> Möglichkeit haben, ein weiteres Buch einzutragen<br />

oder zur Startseite zurückzukehren.“<br />

Daraus lassen sich zwei in sich logische Anforderungen machen:<br />

„Im Anschluss soll der Administrator <strong>die</strong> Möglichkeit haben, ein weiteres Buch


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 32<br />

einzutragen.“ und „Im Anschluss soll der Administrator <strong>die</strong> Möglichkeit haben, zur<br />

Startseite zurückzukehren.“<br />

„Nach dem Log-In sollen folgende Aktionen zur Verfügung gestellt werden: „Buch suchen“<br />

und „Schnellausleihe“.“<br />

Auch hier kann man sinnvoll trennen:<br />

„Nach dem Log-In soll <strong>die</strong> folgende Aktion zur Verfügung gestellt werden: „Buch<br />

suchen“.“ und „Nach dem Log-In soll <strong>die</strong> folgende Aktion zur Verfügung gestellt werden:<br />

„Schnellausleihe“.“<br />

Aber <strong>die</strong> folgende Anforderung lässt sich nicht mehr so trennen, dass <strong>die</strong> entstehenden<br />

Teilstücke noch Sinn ergeben.<br />

„Die Log-In Daten sollen aus Benutzernamen und Passwort bestehen.“<br />

Die Log-In Daten können nämlich nicht nur aus einem Benutzernamen oder nur aus einem<br />

Passwort bestehen, was aber nach einer Trennung ausgesagt würde.<br />

Bei einer Aufzählung, bei der sich alle Elemente auf ein und <strong>die</strong>selbe <strong>Ein</strong>gabe beziehen, soll<br />

<strong>die</strong> Anforderung auch nicht mehr getrennt werden.<br />

„Die Standortanzeige besteht aus Angaben zu Regal, Fach und Platz.“<br />

<strong>Ein</strong>e Standortanzeige braucht immer alle drei Variablen (Regal, Fach und Platz).<br />

Beispiel 3: Zerlegen <strong>von</strong> Anforderungen<br />

Zunächst sollen also alle vom Anforderungsingenieur dokumentierten Anforderungen in einer<br />

Tabelle notiert und dann in <strong>die</strong> kleinstmöglichen <strong>Ein</strong>zelteile zerlegt werden. Auf alle<br />

Anforderungen soll dann <strong>die</strong> Klassifikationen für funktionale bzw. nicht-funktionale<br />

Anforderungen angewendet werden.<br />

Damit <strong>die</strong> Klassifikation <strong>von</strong> jedem gleich durchgeführt werden kann, müssen <strong>die</strong> genannten<br />

Klassen <strong>von</strong> Anforderungen nun genau definiert werden. Im Anschluss an <strong>die</strong> jeweilige<br />

Definition soll der Bezug zum Anforderungsinterview dargestellt und eine <strong>Ein</strong>schätzung<br />

dar<strong>über</strong> abgegeben werden, ob <strong>die</strong> beschriebene Klasse <strong>von</strong> Anforderungen unter der<br />

Verwendung <strong>von</strong> Fast <strong>Feedback</strong> eher ein geringeres oder vermehrtes Aufkommen der eben<br />

<strong>die</strong>ser Anforderungsklasse erwarten lässt. Abschließend soll daraus <strong>die</strong> Hypothese formuliert<br />

werden.<br />

Anforderungen, <strong>die</strong> „vom System selbstständig ausgeführt werden sollen, Interaktionen des<br />

Systems (<strong>Ein</strong>gaben, Ausgaben) mit menschlichen Nutzern und Anforderungen zu<br />

allgemeinen, funktionalen Vereinbarungen und <strong>Ein</strong>schränkungen“ [Rup06] sind, sind<br />

funktional. Diese Anforderungen legen also fest, wie sich <strong>die</strong> Software verhalten soll.


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 33<br />

Nicht-funktionale Anforderungen „sollen alle jene Merkmale der Software darstellen, <strong>die</strong><br />

zum Gelingen der Interaktion zwischen Anwender und System maßgeblich beitragen, aber<br />

mit der direkten <strong>Ein</strong>gabe-Verarbeitung-Ausgabe-Kette <strong>von</strong> Daten nichts zu tun haben“<br />

[Zus+04, S.225]. Sie sagen etwas dar<strong>über</strong> aus, welche Eigenschaften <strong>die</strong> Software haben<br />

soll und werden deshalb auch als Qualitätsanforderungen bezeichnet. Nicht-funktionale<br />

Anforderungen lassen sich in verschiedene Typen unterteilen. <strong>Ein</strong>ige gängige Typen sind<br />

Benutzbarkeit, Zuverlässigkeit, Effizienz und Wartbarkeit. Aber auch technische<br />

Anforderungen gehören zu den nicht-funktionalen Anforderungen.<br />

Definition 2: Funktionale und nicht-funktionale Anforderungen<br />

Es ist möglich, dass unter der Verwendung <strong>von</strong> Fast <strong>Feedback</strong> deutlich mehr nichtfunktionale<br />

Anforderungen erhoben werden als ohne <strong>die</strong> Verwendung <strong>von</strong> Fast <strong>Feedback</strong>, da<br />

durch das Skizzieren <strong>von</strong> Mock-ups wahrscheinlich mehr dar<strong>über</strong> gesprochen wird, wie <strong>die</strong><br />

Oberfläche konkret aussehen, das heißt welche Eigenschaften sie haben soll. Gerade <strong>die</strong><br />

Eigenschaften der Oberfläche entscheiden oftmals dar<strong>über</strong>, ob <strong>die</strong> Software ein gewisses Maß<br />

an Benutzbarkeit aufweisen kann, weil sie dem Benutzer eine intuitive Be<strong>die</strong>nung<br />

ermöglichen können, durch <strong>die</strong> das problemlose <strong>Ein</strong>leiten der <strong>Ein</strong>gabe-Verarbeitung-<br />

Ausgabe-Kette erfolgen kann. Neben den Qualitätsanforderungen wird aber vermutlich auch<br />

<strong>die</strong> Anzahl funktionaler Anforderungen unter der Verwendung <strong>von</strong> Fast <strong>Feedback</strong> durch <strong>die</strong><br />

frühzeitig mögliche Vali<strong>die</strong>rung höher sein. Die frühzeitige Vali<strong>die</strong>rung spielt dabei natürlich<br />

sowohl bei den funktionalen als auch bei den nicht-funktionalen Anforderungen eine Rolle, so<br />

dass der durch <strong>die</strong> Verwendung <strong>von</strong> Fast <strong>Feedback</strong> hervorgerufene Aspekt bei den nichtfunktionalen<br />

Anforderungen wahrscheinlich deutlicher erkennbar sein wird als bei den<br />

funktionalen Anforderungen.<br />

Nun kommt es aber auch darauf an, ob <strong>die</strong> Anforderungen nur besprochen oder auch<br />

tatsächlich dokumentiert wurden. Nicht-dokumentierte Anforderungen können schnell<br />

verloren gehen und werden bei der Umsetzung der Anforderungen oft gar nicht mehr<br />

berücksichtigt. Im folgenden <strong>Experiment</strong> soll deshalb zwischen dokumentierten und nichtdokumentierten<br />

Anforderungen unterschieden werden.<br />

Die Dokumentation bezeichnet <strong>die</strong> Nutzbarmachung <strong>von</strong> Informationen zur weiteren<br />

Verwendung. Die Aufzeichnungen können als (Entscheidungs-) Grundlage für <strong>die</strong> weiteren<br />

Arbeiten <strong>die</strong>nen.<br />

Anforderungen können auf verschiedene Weisen (Text, Bild, Ton, Video) dokumentiert<br />

werden. Zwei Arten der Dokumentation sind in der Anforderungserhebung üblich - erstens<br />

<strong>die</strong> Dokumentation in Form <strong>von</strong> Text und zweitens <strong>die</strong> in Form <strong>von</strong> Mock-ups.<br />

Definition 3: Dokumentierte- und nicht-dokumentierte Anforderungen<br />

Interessant ist <strong>die</strong> Frage, ob, wenn bei der Verwendung <strong>von</strong> Fast <strong>Feedback</strong> wirklich mehr<br />

Anforderungen erhoben wurden, das tatsächlich eben solche Anforderungen sind, <strong>die</strong> mit<br />

Hilfe <strong>von</strong> Mock-ups festgehalten wurden. Denn das leichte Skizzieren <strong>von</strong> Mock-ups ist ein<br />

wesentlicher Aspekt <strong>von</strong> Fast <strong>Feedback</strong>.<br />

Der tatsächlich interessante Effekt, der unter der Verwendung <strong>von</strong> Fast <strong>Feedback</strong> in Bezug<br />

auf <strong>die</strong> Anzahl der Anforderungen sichtbar werden soll, dürfte der sein, der sich auf


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 34<br />

dokumentierte Anforderungen bezieht, denn das Dokumentieren <strong>von</strong> Informationen im<br />

Anforderungserhebungsprozess ist aus vielen Gründen unerlässlich. Seine wesentlichen<br />

Vorteile sind unter anderem Persistenz, eine gemeinsame Informationsbasis und eine<br />

Förderung der Kommunikation und der Objektivität [Poh08, S.217].<br />

Umgekehrt könnten sich Anforderungen in den Notizen des Anforderungsingenieurs<br />

verstecken, <strong>über</strong> <strong>die</strong> vielleicht gar nicht gesprochen wurde. Wenn weder der<br />

Anforderungsingenieur noch der Kunde <strong>über</strong> etwas, dass in einer nachträglichen Durchsicht<br />

der Notizen des Anforderungsingenieurs vielleicht als Anforderung erkennbar ist, kein Wort<br />

gesprochen haben, so soll es hier nicht als dokumentierte Anforderung gelten. Sobald auch<br />

nur einer der beiden etwas dar<strong>über</strong> gesprochen hat, soll es als dokumentierte Anforderung<br />

gelten. So kann es beispielsweise sein, dass der Kunde beim Skizzieren bestimmte Details der<br />

Oberfläche benennt, ohne dass der Kunde etwas dazu sagt. Es ist dann aber anzunehmen, dass<br />

der Kunde einen <strong>Ein</strong>wand gebracht hätte, wäre er mit der Struktur der Oberfläche so nicht<br />

einverstanden gewesen. Das Schweigen des Kunden wird also als stille Zustimmung gewertet<br />

und <strong>die</strong> Anforderung wird als solche gewertet.<br />

Es stellt sich <strong>die</strong> Frage, ob bei der Auszählung der Anforderungen zwischen vom Kunden<br />

angenommenen und abgelehnten Anforderungen unterschieden werden muss. Abgelehnte<br />

Anforderungen stellen jedoch im Umkehrschluss eine angenommene Anforderung da. Wird<br />

der Kunde beispielsweise gefragt, ob <strong>die</strong> Software eine Onlinefunktion haben soll, und der<br />

Kunde lehnt das ab, dann ergibt sich daraus <strong>die</strong> Anforderung, dass <strong>die</strong> Software keine<br />

Onlinefunktion haben soll. Zwischen angenommenen und abgelehnten Anforderungen muss<br />

also nicht unterschieden werden, da abgelehnte Anforderungen Informationen dar<strong>über</strong><br />

enthalten, welche Funktion oder Art <strong>von</strong> Oberfläche <strong>die</strong> zu entwickelnde Software gerade<br />

nicht haben soll, und stellt somit doch wieder eine angenommene Anforderung dar.<br />

Aus <strong>die</strong>sen <strong>Ein</strong>schätzungen leitet sich <strong>die</strong> zweite Hypothese ab:<br />

Der Anforderungsingenieur/ Projektmanager bekommt durch <strong>die</strong> Verwendung <strong>von</strong> Fast<br />

<strong>Feedback</strong> in der Anforderungserhebung mehr Informationen in Form <strong>von</strong> dokumentierten<br />

Anforderungen als ohne <strong>die</strong> Verwendung <strong>von</strong> Fast <strong>Feedback</strong>, wobei der Anteil der nichtfunktionalen<br />

Anforderungen (gemessen an der Gesamtmenge <strong>von</strong> dokumentierten<br />

Anforderungen) mehr zunimmt als der Anteil der funktionalen Anforderungen.<br />

Hypothese 2: Anzahl der Anforderungen<br />

3.1.1.3 Hypothese 3 – Benutzbarkeit <strong>von</strong> Fast <strong>Feedback</strong><br />

Die Verwendung <strong>von</strong> Fast <strong>Feedback</strong> soll den Anforderungsingenieur bei der<br />

Anforderungserhebung unterstützen. Dazu muss Fast <strong>Feedback</strong> als Werkzeug ein gewisses<br />

Maß an Benutzbarkeit aufweisen. Würde sich der Anforderungsingenieur durch <strong>die</strong><br />

Verwendung <strong>von</strong> Fast <strong>Feedback</strong> mehr blockiert oder gestört als unterstützt fühlen, so könnte<br />

das auch <strong>die</strong> vom <strong>Ein</strong>satz des Werkzeugs erwarteten Effekte zunichte machen und den<br />

gesamten Anforderungserhebungsprozess negativ beeinflussen. Deshalb muss für <strong>die</strong><br />

Bewertung des <strong>Ein</strong>satzes eines solchen Werkzeuges auf jeden Fall <strong>die</strong> Benutzbarkeit<br />

untersucht werden. Für den Fall einer schlechten Benutzbarkeit hätte das <strong>Ein</strong>fluss auf <strong>die</strong><br />

Gültigkeit der Ergebnisse aus Hypothesen 1 und 2. Um einen Vergleichspunkt zu haben, soll<br />

<strong>die</strong> Benutzbarkeit <strong>von</strong> Fast <strong>Feedback</strong> mit der <strong>von</strong> Word verglichen werden. Word wurde aus


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 35<br />

verschiedenen Gründen ohnehin schon zum Werkzeug der Kontrollgruppe bestimmt. Zudem<br />

ist bei einem derart verbreiteten Textverarbeitungsprogramm anzunehmen, dass <strong>die</strong><br />

Benutzbarkeit zumindest in sofern ausreichend ist, als dass sich der Anwender bei der<br />

Benutzung nicht in einem unzumutbaren Maß gestört fühlt.<br />

Die erste Frage ist, ob der Anforderungsingenieur das Werkzeug ausreichend versteht, um <strong>die</strong><br />

Vorteile und Möglichkeiten des Werkzeugs auszunutzen. <strong>Ein</strong> Unterschied zwischen der<br />

Lösung eines Problems mit der Benutzung <strong>von</strong> Fast <strong>Feedback</strong> und der Lösung des gleichen<br />

Problems ohne Fast <strong>Feedback</strong> (hier mit Word) kann sich nur zeigen, wenn Fast <strong>Feedback</strong><br />

ähnlich gut „verstanden“ wurde. Was es nun bedeutet, ein Werkzeug „verstanden“ zu haben,<br />

soll zur klaren Formulierung der Hypothese nun definiert werden.<br />

Die folgenden zwei Aspekte definieren „Werkzeug verstehen“:<br />

1. Erstens sollte vorausgesetzt werden, dass das Werkzeug auch <strong>über</strong> <strong>die</strong> ganze<br />

Anforderungserhebungszeit hin genutzt wird. Dabei kann dem Anforderungsingenieur<br />

zwar ein Zeitraum <strong>von</strong> fünf Minuten eingeräumt werden, in dem er sich zum Beispiel<br />

erst einmal durch Fragen einen groben Überblick <strong>über</strong> das System verschafft, bevor er<br />

mit der Dokumentation der Anforderungen beginnt. Aber spätestens nach fünf Minuten<br />

Gesprächszeit sollte das Werkzeug dann zum <strong>Ein</strong>satz kommen, um <strong>die</strong> <strong>Experiment</strong>e<br />

untereinander vergleichbar zu halten, ohne dass <strong>die</strong> tatsächliche Zeit, in der das<br />

Werkzeug benutzt wird, zu stark <strong>von</strong> der gesamten Anforderungserhebungszeit<br />

abweicht. Dadurch würde eine ungewollte Variable in das <strong>Experiment</strong> eingebracht. Im<br />

<strong>Ein</strong>zelfall müsste dann entschieden werden, ob der entsprechende Datenpunkt bei der<br />

Auswertung nicht mehr berücksichtigt wird. Dies könnte zum Beispiel dann der Fall<br />

sein, wenn sich der Datenpunkt als „Ausreißer“ darstellt (vgl. hierzu Kapitel 2.2.5.2)<br />

2. Für den zweiten Aspekt müssen <strong>die</strong> beiden Werkzeuge Fast <strong>Feedback</strong> und Word<br />

unabhängig <strong>von</strong>einander betrachtet werden. Es kann da<strong>von</strong> gesprochen werden, dass das<br />

Werkzeug verstanden wurde, wenn mindestens 40% der vorher definierten<br />

Grundfunktionen der zu entwickelnden Software (zumindest ansatzweise) dokumentiert<br />

wurden. Bei Fast <strong>Feedback</strong> wird <strong>die</strong>se Dokumentation in Form <strong>von</strong> Use Cases, Use<br />

Case Schritten oder Mock-ups umgesetzt, bei Word sollten entsprechende Stichworte im<br />

Text oder in Mock-ups festgehalten werden. Außerdem müssen <strong>die</strong> Features des<br />

jeweiligen Werkzeugs ausreichend genutzt werden. Dies ist bei Fast <strong>Feedback</strong> mit der<br />

Erfüllung der folgenden zwei Bedingungen der Fall: Erstens muss mindestens ein<br />

Mock-up pro Use Case erstellt werden und zweitens muss jedes Mock-up eine<br />

Verknüpfung zu einem Use Case Schritt haben. Auch Word verfügt eine Funktion zum<br />

Malen <strong>von</strong> Bildern, <strong>die</strong> zum Erstellen <strong>von</strong> Mock-ups verwendet werden kann. Die<br />

Bedingung sollte hier sein, dass mindestens ein Mock-up im ganzen Dokument erstellt<br />

wurde.<br />

Definition 4: „Werkzeug verstehen“<br />

Zu den Features <strong>von</strong> Fast <strong>Feedback</strong> gehören aber natürlich nicht nur das Erstellen <strong>von</strong> Mockups<br />

und deren Zuweisung zu den entsprechenden Use Case Schritten sondern auch das<br />

Verknüpfen <strong>von</strong> Use Case Schritten untereinander und das Abspielen einer Demo bestehend<br />

aus den Mock-ups in chronologischer Reihenfolge. Allerdings ist mit der verkürzten<br />

Anforderungserhebungsdauer nicht zu erwarten, dass <strong>die</strong> Möglichkeiten, Use Case Schritte<br />

untereinander zu verknüpfen und eine Demo abzuspielen, in vollem Umfang genutzt werden


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 36<br />

können. Deshalb seien hier nur das Erstellen <strong>von</strong> Mock-ups und deren Zuweisung zu den<br />

entsprechenden Use Case Schritten <strong>die</strong> Indikatoren für <strong>die</strong> ausreichende Nutzung der<br />

Features.<br />

Die zweite Frage ist, ob der Anforderungsingenieur mit den Möglichkeiten der Software<br />

zufrieden ist. So sollen mit Hilfe eines Fragebogens <strong>die</strong> <strong>Ein</strong>drücke des<br />

Anforderungsingenieurs bzgl. des Werkzeugs Fast <strong>Feedback</strong> abgefragt werden.<br />

So kommt man zur dritten Hypothese:<br />

Die Benutzbarkeit <strong>von</strong> Fast <strong>Feedback</strong> ist gut, da das Werkzeug mindestens genauso<br />

verständlich ist wie Word und sich der Anforderungsingenieur unterstützt fühlt.<br />

3.1.2 <strong>Ein</strong>schränkungen auf das <strong>Experiment</strong><br />

Hypothese 3: Benutzbarkeit <strong>von</strong> Fast <strong>Feedback</strong><br />

Dieses Kapitel zeigt <strong>Ein</strong>schränkungen auf, <strong>die</strong> in Bezug auf das durchzuführende <strong>Experiment</strong><br />

unter anderem auch deshalb gemacht werden müssen, um negative <strong>Auswirkung</strong>en auf <strong>die</strong><br />

Gültigkeit der Ergebnisse gering zu halten. Auf genau <strong>die</strong>se <strong>Ein</strong>flüsse wird dann in der<br />

Analyse und Interpretation der Ergebnisse eingegangen.<br />

3.1.2.1 <strong>Ein</strong>schränkungen bzgl. der Rahmenbedingungen<br />

1. Software lässt sich anhand <strong>von</strong> Kriterien in verschiedene Arten unterteilen. Nimmt man<br />

<strong>die</strong> Aufteilung nach der Beziehung der Software zum Anwender vor, so gibt es auf der<br />

einen Seite <strong>die</strong> Software, <strong>die</strong> für den Anwender direkt sichtbar und be<strong>die</strong>nbar ist<br />

(Anwendersoftware) und auf der anderen Seite <strong>die</strong> Software, <strong>die</strong> für den Anwender nicht<br />

direkt sichtbar ist (Systemsoftware). Häufig will ein Kunde eine Anwendersoftware, das<br />

heißt eine Software mit einer Oberfläche, entwickeln lassen. Gerade <strong>die</strong><br />

Anwendersoftware ist <strong>die</strong> Software, deren Entwicklung durch <strong>die</strong> Verwendung des<br />

Werkzeugs Fast <strong>Feedback</strong> in der Anforderungserhebung unterstützt werden kann. Denn<br />

zur Darstellung <strong>die</strong>ser Oberfläche verwendet man <strong>die</strong> Mock-ups. Wenn keine Oberfläche<br />

benötigt würde, gäbe es mit den Mock-ups kaum etwas darzustellen. Die Funktionen <strong>von</strong><br />

Fast <strong>Feedback</strong> könnten nicht im vollem Umfang genutzt werden, es wären nicht <strong>die</strong><br />

entsprechenden Effekte zu erwarten und der <strong>Ein</strong>satz <strong>von</strong> Fast <strong>Feedback</strong> würde keinen<br />

Sinn machen. Aus <strong>die</strong>sem Grund bezieht sich das folgende <strong>Experiment</strong> einzig und allein<br />

auf Software, <strong>die</strong> eine Oberfläche benötigt.<br />

2. <strong>Ein</strong> reales Kundengespräch dauert in der Regel um <strong>die</strong> neunzig Minuten. Es ist<br />

unwahrscheinlich, dass sich ausreichend Studenten als Probanden finden, wenn sie der<br />

realistischen Kundengesprächsdauer entsprechend viel Zeit investieren müssen. Die<br />

Simulation der Anforderungserhebungen soll in <strong>die</strong>sem <strong>Experiment</strong> deshalb einen zeitlich<br />

eingeschränkten Rahmen <strong>von</strong> dreißig Minuten bekommen. Außerdem sollte <strong>die</strong> Software,<br />

zu der im <strong>Experiment</strong> Anforderungserhebungen simuliert werden sollen, eine<br />

<strong>über</strong>schaubare Menge an Funktionen haben, um in der gekürzten Kundengesprächszeit<br />

zumindest <strong>die</strong> wesentlichen Funktionen der Software durchsprechen zu können. Die Wahl<br />

des zeitlichen Rahmens pro Anforderungserhebung und <strong>die</strong> Wahl des


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 37<br />

Softwarebeispiels, zu dem Anforderungserhebungen simuliert werden sollen, wurde mit<br />

Hilfe eines Probedurchlaufes getroffen. In <strong>die</strong>sem wurde zunächst eine Gesprächsdauer<br />

<strong>von</strong> zwanzig Minuten zur Erhebung der Anforderungen zum SE-Bibliothekbeispiel (zur<br />

genauen Beschreibung des SE-Bibliothekbeispiels vgl. Kapitel 3.6) vereinbart. Obwohl<br />

das SE-Bibliothekbeispiel aufgrund seiner Übersichtlichkeit geeignet schien, zeigte sich,<br />

dass <strong>die</strong> Zeit nicht ganz ausreicht, um alle Funktionen des Werkzeugs nutzen und um alle<br />

wesentlichen Funktionen der zu entwickelnden Software in Form <strong>von</strong> Use Cases<br />

aufnehmen zu können. Unter der Berücksichtigung der Menge der wesentlichen Szenarien<br />

der Software, zu der beispielhaft Anforderungen erhoben werden sollen, wurde <strong>die</strong><br />

Gesprächsdauer auf dreißig Minuten festgelegt. Ob in <strong>die</strong>sem Zeitrahmen der Anspruch<br />

an eine optimale Ausnutzung der mit dem Werkzeug gebotenen Möglichkeiten erfüllt<br />

werden kann, hängt natürlich aber auch <strong>von</strong> den folgenden Faktoren ab: Wissensstand des<br />

Probanden bzgl. Anforderungserhebung, Use Cases etc., Auffassungsgabe des Probanden<br />

bzgl. der Benutzung <strong>von</strong> Fast <strong>Feedback</strong>. Diesen <strong>Ein</strong>flüssen kann aber mit einer geeigneten<br />

Auswahl der Probanden entgegengewirkt werden.<br />

3.1.2.2 <strong>Ein</strong>schränkungen bzgl. der Probanden und der <strong>Experiment</strong>- und Kontrollgruppe<br />

1. Natürlich kann ein erfahrener Anforderungsingenieur <strong>von</strong> vorn herein bessere Ergebnisse<br />

erzielen, als ein <strong>Ein</strong>steiger. In <strong>die</strong>sem <strong>Experiment</strong> sollte man für eine hohe Gültigkeit der<br />

Ergebnisse, einen annährend einheitlichen oder zumindest einen möglichst ähnlichen<br />

Wissensstand der Probanden annehmen können. Deshalb sollen <strong>die</strong> Teilnehmer zunächst<br />

ausschließlich aus dem universitären Umfeld und insbesondere aus dem Fachbereich<br />

Informatik stammen. Dabei kann es sich sowohl um Informatikstudenten als auch um<br />

Mitarbeiter des Instituts handeln. Vorraussetzung für <strong>die</strong> Teilnahme am <strong>Experiment</strong><br />

ist, schon etwas <strong>über</strong> Anforderungserhebungen in einer der vom Fachgebiet Software<br />

Engineering angebotenen Vorlesungen gehört zu haben. Vorkenntnisse und Erfahrungen<br />

der Probanden sollen im Anschluss an das <strong>Experiment</strong> abgefragt werden, um einschätzen<br />

zu können, ob <strong>die</strong> Ergebnisse miteinander vergleichbar sind oder <strong>die</strong> Voraussetzungen der<br />

Probanden zusätzlich zum Werkzeug Fast <strong>Feedback</strong> eine weitere Variable darstellen, <strong>die</strong><br />

bei der Auswertung der Ergebnisse berücksichtigt werden muss. Um aber auch einen<br />

Bezug zur realen Softwareentwicklung außerhalb eines universitären Umfelds<br />

herzustellen zu können, kann das <strong>Experiment</strong>, sofern dazu eine Möglichkeit besteht,<br />

zusätzlich auch in einer echten Softwarefirma durchgeführt werden. Man könnte dann<br />

annehmen, dass <strong>die</strong> Mitarbeiter der Entwicklungsabteilung dann wiederum einen<br />

ähnlichen Wissensstand vorzuweisen haben.<br />

2. Da das zu evaluierende Werkzeug Fast <strong>Feedback</strong> auf Use Cases und Mock-ups basiert,<br />

wäre es denkbar, den Probanden der Kontrollgruppe als Hilfsmittel ebenfalls Use Cases<br />

und Mock-ups benutzen zu lassen - mit dem Unterschied, dass sie dafür außer einem<br />

leeren Dokument nichts zur Verfügung gestellt bekämen. Da <strong>die</strong>se Methoden aber <strong>die</strong><br />

wesentlichen Bestandteile <strong>von</strong> Fast <strong>Feedback</strong> sind, scheint es doch realitätsnaher und vor<br />

allen Dingen interessanter zu sein, <strong>die</strong> <strong>Experiment</strong>gruppe mit einer Kontrollgruppe zu<br />

vergleichen, <strong>die</strong> keine Hilfestellungen bzgl. zu verwendenden Anforderungserhebungsmethoden,<br />

sondern als Hilfsmittel nur ein leeres Dokument zur Verfügung gestellt<br />

bekommt. Zwar lässt <strong>die</strong> letztere Vorgehensweise befürchten, dass am Ende <strong>die</strong><br />

sichtbaren Effekte vielleicht hauptsächlich auf <strong>die</strong> Verwendung der Methoden Use Cases<br />

und Mock-ups zurückzuführen ist, allerdings würden weitere Effekte natürlich auch<br />

dar<strong>über</strong> hinaus deutlich werden können. Die Frage ist, ob der Umstand, dass <strong>die</strong><br />

Kontrollgruppe keine Use Cases oder Mock-ups verwenden muss, eine neue Variable im


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 38<br />

<strong>Experiment</strong> darstellt oder ob sie unter <strong>die</strong> Variable Fast <strong>Feedback</strong> fällt. Da in der Realität<br />

vermutlich eher nach dem Prinzip „einfach mal anfangen“ vorgegangen wird, ohne dass<br />

tatsächlich auch bestimmte Methoden vorgegeben oder selbstständig genutzt werden,<br />

scheint es doch sinnvoll, <strong>die</strong> Kontrollgruppe das <strong>Experiment</strong> realitätsnah ohne konkrete<br />

Vorgaben zu durchführen und sie selber entscheiden zu lassen, ob sie eine bestimmte<br />

Methode verwenden wollen oder nicht.<br />

3.2 Ziele und GQM-Modell<br />

3.2.1 Konkretisierung der Ziele und Hypothesen mit Hilfe <strong>von</strong> Abstraction Sheets<br />

Aus den erarbeiteten Hypothesen lassen sich <strong>die</strong> folgenden Ziele bzgl. Fast <strong>Feedback</strong> ableiten,<br />

<strong>die</strong> es gilt, im durchzuführenden <strong>Experiment</strong> zu <strong>über</strong>prüfen:<br />

1. Erkennung fehlerhaft dokumentierter Anforderungen<br />

2. Dauer der Anforderungserhebung senken<br />

3. Benutzbarkeit <strong>von</strong> Fast <strong>Feedback</strong> feststellen.<br />

Zu <strong>die</strong>sen Zielen sollen nun mit Hilfe <strong>von</strong> Abstraction Sheets zugehörige wichtige<br />

Informationen wie Qualitäts- und <strong>Ein</strong>flussfaktoren und Ausgangs- und <strong>Ein</strong>gangshypothesen<br />

zugeordnet werden.<br />

Ziel: Erkennung fehlerhaft dokumentierter Anforderungen<br />

Ziel: Zweck: Qualitätsaspekt: Beobachtungsgegenstand: Perspektive:<br />

1.1 Erkenne fehlerhaft Anforderungserhebung Anforderungsingenieur/<br />

dokumentierte<br />

Anforderungen<br />

Projektmanager<br />

Qualitätsfaktoren:<br />

<strong>Ein</strong>flussfaktoren:<br />

• Anzahl der erkannten Fehler<br />

o Unvollständigkeiten<br />

o Missverständnisse<br />

o Widersprüche<br />

o Inkonsistenzen<br />

• Zeitpunkt des Erkennens<br />

(hier nicht berücksichtigt, Begründung<br />

folgt im nächsten Absatz)<br />

Ausgangshypothesen:<br />

• Im ersten Interview wird kein(e) bis<br />

ein(e)<br />

o Unvollständigkeit<br />

o Missverständnis<br />

o Widerspruch<br />

o Inkonsistenz erkannt.<br />

• Verwendung <strong>von</strong> Fast <strong>Feedback</strong><br />

<strong>Ein</strong>flusshypothesen:<br />

Tabelle 3: Abstraction Sheet zu Hypothese 1<br />

• Unter der Verwendung <strong>von</strong> Fast<br />

<strong>Feedback</strong> werden mehr Fehler schon im<br />

ersten Interview erkannt.


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 39<br />

<strong>Ein</strong> <strong>Experiment</strong>, das sich für jeden Probanden <strong>über</strong> mehrere Termine erstreckt, ist in einem<br />

universitären Umfeld schwer umsetzbar. Es wird aber vermutet, dass Fehler, <strong>die</strong> ohne <strong>die</strong><br />

Verwendung <strong>von</strong> Fast <strong>Feedback</strong> entstehen, frühestens im zweiten Kundengespräch<br />

aufgedeckt werden. Die Durchführung mehrerer Termine zur Anforderungserhebung wäre<br />

deshalb grundlegend, um Messungen bzgl. des Erkennungszeitpunktes durchzuführen. Aus<br />

<strong>die</strong>sem Grund wird im Rahmen <strong>die</strong>ses <strong>Experiment</strong>s auf <strong>die</strong> weitere Untersuchung des<br />

Qualitätsfaktors „Zeitpunkt des Erkennens“ verzichtet.<br />

Der Qualitätsfaktor „Anzahl der erkannten Fehler“ soll im Hinblick auf den <strong>Ein</strong>flussfaktor<br />

„Verwendung <strong>von</strong> Fast <strong>Feedback</strong>“ aber genau untersucht werden. Dazu ergibt sich das<br />

zweiseitige Testproblem mit der folgenden Null- bzw. Alternativhypothese:<br />

Alternativhypothese H1,1 zu Ziel 1.1:<br />

Im ersten Interview gibt es einen Unterschied beim Erkennen <strong>von</strong> Fehlern zwischen der<br />

Anforderungserhebung mit und der ohne der Verwendung <strong>von</strong> Fast <strong>Feedback</strong>.<br />

Nullhypothese H0,1 zu Ziel 1.1:<br />

Im ersten Interview gibt es keinen Unterschied beim Erkennen <strong>von</strong> Fehlern zwischen der<br />

Anforderungserhebung mit und der ohne der Verwendung <strong>von</strong> Fast <strong>Feedback</strong>.<br />

Allerdings gilt es in der Analyse der Ergebnisse zu berücksichtigen, dass natürlich keine<br />

Fehler erkannt werden können, wenn erst gar keine gemacht werden. Es muss diskutiert<br />

werden, was das für <strong>die</strong> Interpretation der Ergebnisse bedeutet.


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 40<br />

Ziel: Dauer der Anforderungserhebungsphase senken<br />

Ziel: Zweck: Qualitätsaspekt: Beobachtungsgegenstand: Perspektive:<br />

1.2 Erhöhe Anzahl der Anforderungserhebung Anforderungsingenieur/<br />

Anforderungen<br />

pro Zeiteinheit<br />

Projektmanager<br />

Qualitätsfaktoren:<br />

<strong>Ein</strong>flussfaktoren:<br />

• Anzahl dokumentierter Anforderungen<br />

pro Zeiteinheit<br />

• Anteil dokumentierter nicht-funktionaler<br />

Anforderungen pro Zeiteinheit<br />

Ausgangshypothesen:<br />

• In einem 30-minütigen Kundengespräch<br />

werden 30 Anforderungen 7 wie oben<br />

definiert erhoben.<br />

• <strong>Ein</strong> Drittel der in dem 30-minütigen<br />

Kundengespräch erhobenen<br />

Anforderungen sind nicht-funktionale<br />

Anforderungen wie oben definiert.<br />

[Hen08]<br />

• Verwendung <strong>von</strong> Fast <strong>Feedback</strong><br />

<strong>Ein</strong>flusshypothesen:<br />

Tabelle 4: Abstraction Sheet zu Hypothese 2<br />

• Unter der Verwendung <strong>von</strong> Fast<br />

<strong>Feedback</strong> werden in einem 30-minütigen<br />

Kundengespräch 30% mehr<br />

Anforderungen wie definiert erhoben.<br />

• Unter der Verwendung <strong>von</strong> Fast<br />

<strong>Feedback</strong> sind unter der Annahme, dass<br />

zwei Drittel der hinzugekommenen<br />

Anforderungen nicht-funktional sind,<br />

40% der in dem 30-minütigen<br />

Kundengespräch erhobenen<br />

Anforderungen nicht-funktional nach<br />

obiger Definition.<br />

Da Fast <strong>Feedback</strong> durch seine Mock-up Funktion sehr gut zur Darstellung nicht-funktionaler<br />

Anforderungen geeignet ist, kann vermutet werden, dass <strong>die</strong> unter der Verwendung <strong>von</strong> Fast<br />

<strong>Feedback</strong> mehr erhobenen Anforderungen zum größten Teil nicht-funktionale sind. Diese<br />

Vermutung wurde bereits im Abstraction Sheet berücksichtigt und soll sich auch in der Null-<br />

bzw. Alternativhypothesen widerspiegeln:<br />

Alternativhypothese H1,2a zu Ziel 1.2:<br />

Es besteht ein Unterschied in der Anzahl der dokumentierten Anforderungen zwischen der<br />

Anforderungserhebung mit und der ohne <strong>die</strong> Verwendung <strong>von</strong> Fast <strong>Feedback</strong>.<br />

Nullhypothese H0,2a zu Ziel 1.2:<br />

Es besteht kein Unterschied in der Anzahl der dokumentierten Anforderungen zwischen der<br />

Anforderungserhebung mit und der ohne <strong>die</strong> Verwendung <strong>von</strong> Fast <strong>Feedback</strong>.<br />

7 Die Annahme, dass durchschnittlich eine Anforderung pro Minute (Zerlegung wie oben definiert<br />

vorausgesetzt) erhoben wird, basiert auf Erfahrungswerten, <strong>die</strong> bei der Beobachtung <strong>von</strong> Kundengesprächen<br />

gesammelt wurden.


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 41<br />

Alternativhypothese H1,2b zu Ziel 1.2:<br />

Es lässt sich ein Unterschied zwischen dem Anteil nicht-funktionaler dokumentierter<br />

Anforderungen mit und ohne Verwendung <strong>von</strong> Fast <strong>Feedback</strong> feststellen.<br />

Nullhypothese H0,2b zu Ziel 1.2:<br />

Es lässt sich kein Unterschied zwischen dem Anteil nicht-funktionaler dokumentierter<br />

Anforderungen mit und ohne Verwendung <strong>von</strong> Fast <strong>Feedback</strong> feststellen.<br />

Ziel: Benutzbarkeit <strong>von</strong> Fast <strong>Feedback</strong> feststellen<br />

Ziel: Zweck: Qualitätsaspekt: Beobachtungsgegenstand: Perspektive:<br />

1.3 Untersuche Benutzbarkeit Werkzeuge<br />

Anforderungs-<br />

(Fast <strong>Feedback</strong> und Word) ingenieur<br />

Qualitätsfaktoren:<br />

<strong>Ein</strong>flussfaktoren:<br />

• Verständlichkeit des Werkzeugs (vgl. Def.<br />

„Werkzeug verstehen“)<br />

⇒ Grundfunktionen werden zu mind. 40%<br />

dokumentiert<br />

⇒ Features werden genutzt<br />

• Beurteilung des Anforderungsingenieurs<br />

⇒ zur Be<strong>die</strong>nung,<br />

⇒ zum zweck<strong>die</strong>nlichen Aufbau und<br />

⇒ zum Gefallen insgesamt<br />

mit der Schulnote „ausreichend“ oder<br />

besser.<br />

Ausgangshypothesen:<br />

• Word ist verständlich nach Def.<br />

• Anforderungsingenieur fühlt sich <strong>von</strong><br />

Word unterstützt, da Beurteilung <strong>von</strong> Word<br />

in der Anforderungserhebung<br />

⇒ zur Be<strong>die</strong>nung „gut“,<br />

⇒ zum zweck<strong>die</strong>nlichen Aufbau<br />

„ausreichend“ und<br />

⇒ zum Gefallen insgesamt „befriedigend“<br />

ausfällt.<br />

Tabelle 5: Abstraction Sheet zu Hypothese 3<br />

• Verwendung des Werkzeugs Fast<br />

<strong>Feedback</strong> oder Word<br />

<strong>Ein</strong>flusshypothesen:<br />

• Fast <strong>Feedback</strong> ist verständlich nach<br />

Def.<br />

• Anforderungsingenieur fühlt sich <strong>von</strong><br />

Fast <strong>Feedback</strong> mehr unterstützt, da<br />

Beurteilung zu Fast <strong>Feedback</strong><br />

⇒ zur Be<strong>die</strong>nung mindestens auch<br />

„gut“,<br />

⇒ zum zweck<strong>die</strong>nlichen Aufbau „gut“<br />

und<br />

⇒ zum Gefallen insgesamt „gut“<br />

ausfällt.


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 42<br />

Alternativhypothese H1,3a zu Ziel 1.3:<br />

Die Benutzbarkeit <strong>von</strong> Fast <strong>Feedback</strong> ist gut, da das Werkzeug mindestens genauso<br />

verständlich ist wie Word.<br />

Nullhypothese H0,3a zu Ziel 1.3:<br />

Die Benutzbarkeit <strong>von</strong> Fast <strong>Feedback</strong> ist schlecht, da das Werkzeug Fast <strong>Feedback</strong> weniger<br />

verständlich ist als Word.<br />

Alternativhypothese H1,3b zu Ziel 1.3:<br />

Die Benutzbarkeit <strong>von</strong> Fast <strong>Feedback</strong> ist gut, da sich der Anforderungsingenieur bei der<br />

Verwendung <strong>von</strong> Fast <strong>Feedback</strong> mehr unterstützt fühlt als bei der Verwendung <strong>von</strong> Word.<br />

Nullhypothese H0,3b zu Ziel 1.3:<br />

Die Benutzbarkeit <strong>von</strong> Fast <strong>Feedback</strong> ist schlecht, da der Anforderungsingenieur sich bei<br />

der Verwendung <strong>von</strong> Fast <strong>Feedback</strong> genauso oder weniger unterstützt fühlt als bei der<br />

Verwendung <strong>von</strong> Word.<br />

3.2.2 GQM-Modell - Ziele, Fragen, Metriken<br />

Mit Hilfe der Abstraction Sheets konnten <strong>die</strong> Hypothesen und damit <strong>die</strong> Ziele deutlich<br />

herausgearbeitet werden und sind nun konkret genug, um <strong>über</strong> Fragen zu Metriken zu<br />

kommen. In der folgenden Tab.6 wurden <strong>die</strong> Ziele, Fragen und Metriken <strong>über</strong>sichtlich in<br />

einer einem GQM-Modell zusammengefasst.


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 43<br />

Ziele<br />

(Ebene 1)<br />

Ziele<br />

(Ebene 2)<br />

Fragen<br />

Metriken<br />

Skalenniveaus<br />

G1.1 Verbessere <strong>die</strong><br />

Erkennung fehlerhaft<br />

dokumentierter<br />

Anforderungen<br />

in der<br />

Anforderungserhebung<br />

aus der<br />

Perspektive des<br />

Anforderungsingenieurs/<br />

Projektmanagers.<br />

Q1.1 Werden unter der<br />

Verwendung <strong>von</strong> Fast<br />

<strong>Feedback</strong> mehr<br />

fehlerhaft<br />

dokumentierte<br />

Anforderungen im<br />

ersten Kundengespräch<br />

erkannt?<br />

M1.1 Miss <strong>die</strong> Anzahl<br />

der erkannten<br />

fehlerhaft<br />

dokumentierten<br />

Anforderung laut<br />

Definition pro<br />

Kundengespräch<br />

(Gesprächsdauer 30<br />

Minuten).<br />

Verhältnisskala<br />

G1 Untersuche <strong>die</strong> Zweck<strong>die</strong>nlichkeit <strong>von</strong> Fast <strong>Feedback</strong><br />

G1.2 Erhöhe <strong>die</strong><br />

Anzahl der Anforderungen pro<br />

Zeiteinheit in der<br />

Anforderungserhebung aus der<br />

Perspektive des Anforderungsingenieurs/<br />

Projektmanagers.<br />

Q1.2.1 Werden<br />

unter der<br />

Verwendung<br />

<strong>von</strong> Fast<br />

<strong>Feedback</strong> mehr<br />

Anforderungen<br />

schon im<br />

ersten Kundengespräch<br />

dokumentiert?<br />

M1.2.1 Miss<br />

<strong>die</strong> Menge<br />

aller dokumentierten<br />

Anforderungen<br />

laut Definition.<br />

Verhältnisskala<br />

Q1.2.2 Werden<br />

unter der<br />

Verwendung<br />

<strong>von</strong> Fast<br />

<strong>Feedback</strong> im<br />

Verhältnis zur<br />

Gesamtmenge<br />

erhobener<br />

Anforderungen<br />

mehr nichtfunktionale<br />

dokumentiert?<br />

M1.2.2 Miss<br />

<strong>die</strong> Menge<br />

aller dokumentierten<br />

Anforderungen<br />

laut Definition<br />

und berechne<br />

das Verhältnis<br />

der nicht-fkt.<br />

Anforderungen<br />

gemessen an<br />

der<br />

Gesamtmenge<br />

der dokumentierten<br />

Anforderungen<br />

Verhältnisskala<br />

Tabelle 6: GQM-Modell<br />

G1.3 Untersuche <strong>die</strong><br />

Benutzbarkeit<br />

<strong>von</strong> Werkzeugen in der<br />

Anforderungserhebung aus der<br />

Perspektive des<br />

Anforderungsingenieurs/<br />

Projektmanagers.<br />

Q1.3.1 Hat der<br />

Anforderungsingenieur<br />

das<br />

Werkzeug<br />

verstanden?<br />

M1.3.1<br />

Überprüfe im<br />

Anschluss an<br />

<strong>die</strong> Erhebung<br />

das<br />

Verständnis<br />

des<br />

Anforderungsingenieurs<br />

für<br />

das jeweilige<br />

Werkzeug<br />

anhand der<br />

Definition<br />

„Werkzeug<br />

verstanden“.<br />

Nominalskala<br />

Q1.3.2 Fühlt<br />

sich der<br />

Anforderungsingenieur<br />

<strong>von</strong><br />

Fast <strong>Feedback</strong><br />

unterstützt?<br />

M1.3.2<br />

Befrage den<br />

Anforderungsingenieur<br />

im<br />

Anschluss an<br />

<strong>die</strong> Erhebung<br />

zur<br />

Benutzbarkeit<br />

des jeweilige<br />

Werkzeugs in<br />

der<br />

Anforderungserhebung<br />

mit Hilfe eines<br />

Fragebogens.<br />

Ordinalskala


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 44<br />

3.3 Mögliche <strong>Ein</strong>flüsse auf <strong>die</strong> Gültigkeit der Ergebnisse (Störvariablen)<br />

Gerade in der Softwareentwicklung sind <strong>Experiment</strong>e und empirische Untersuchungen häufig<br />

schwierig. Wenn Menschen miteinander kommunizieren, können immer viele Faktoren, wie<br />

zum Beispiel das Vorwissen des Kunden, <strong>Ein</strong>fluss auf <strong>die</strong> Ergebnisse des Gesprächs nehmen.<br />

Auch in der Anforderungserhebung sind natürlich einige Variablen zu finden, <strong>die</strong><br />

möglicherweise <strong>Ein</strong>fluss auf <strong>die</strong> Ergebnisse des <strong>Experiment</strong>s haben könnten. Auf der einen<br />

Seite sind da <strong>die</strong> unabhängigen Variablen, <strong>von</strong> denen einige bewusst festgehalten und andere<br />

eingestellt werden. Die festgehaltenen unabhängigen Variablen im durchzuführenden<br />

<strong>Experiment</strong> sind beispielsweise der gleichbleibende Kunde und im gewissen Maße auch sein<br />

Verhalten (Drehbuch) und <strong>die</strong> Erfahrung der Probanden. Die bewusst regulierte unabhängige<br />

Variable soll das Werkzeug sein. Diese unabhängige Variable wird gezielt reguliert, um im<br />

<strong>Experiment</strong> <strong>die</strong> <strong>Auswirkung</strong>en auf <strong>die</strong> abhängigen Variablen beobachten zu können. Zu den<br />

abhängigen Variablen gehören <strong>die</strong> Anzahl der Anforderungen und <strong>die</strong> Anzahl der Fehler in<br />

der Anforderungserhebung. Zur Überprüfung der oben genannten Hypothesen ist es<br />

unbedingt erforderlich, dass möglichst alle Störvariablen vermieden bzw. zumindest<br />

bestmöglich eingegrenzt werden, um sicherzustellen, dass <strong>die</strong> einzige unabhängige Variable,<br />

<strong>die</strong> sich in dem <strong>Experiment</strong> auf <strong>die</strong> abhängigen Variablen auswirkt, das Werkzeug selbst ist.<br />

Es stellt sich zum Beispiel <strong>die</strong> Frage, wie <strong>die</strong> einzelnen Rollen im <strong>Experiment</strong> zu besetzen<br />

sind, damit das Werkzeug <strong>die</strong> einzige regulierbare unabhängige Variable bleibt. So kann<br />

nämlich der Kunde mit seinen Antworten und Entscheidungen im Anforderungsinterview<br />

ganz entschieden <strong>Ein</strong>fluss auf das Ergebnis nehmen. Um zu gewährleisten, dass der <strong>Ein</strong>fluss<br />

auf das Gespräch in allen Anforderungsinterviews der gleiche ist, soll <strong>die</strong> Rolle des Kunden<br />

in allen Interviews mit der gleichen Person besetzt werden, <strong>die</strong> sich dann an eine Art<br />

Drehbuch bzw. an bestimmte Regeln hält, <strong>die</strong> Ihre Aussagen und Reaktionen betreffen. Das<br />

Drehbuch soll bewirken, dass der Kunde keinem Lernprozess unterliegt, in dem er<br />

Erfahrungen aus frühen Interviews in spätere einbringt. Der Kunde soll so jedes der<br />

Anforderungserhebungsgespräche führen können, als wäre es das erste. Unterschiedliche<br />

Personen in <strong>die</strong>ser Rolle wären zwar realistischer und würden nicht Gefahr laufen, in frühen<br />

Interviews Gelerntes später anzuwenden, da sie nur ein Interview durchführen würden. Sie<br />

würden aber wahrscheinlich trotz Drehbuch unterschiedlich (re-)agieren, weil auch ein<br />

Drehbuch unterschiedliche Interpretationen zulässt. Letztendlich würde man nicht mehr sehen<br />

können, ob unterschiedliche Ergebnisse durch <strong>die</strong> Variable Werkzeuge oder <strong>die</strong> Variable<br />

Kunde entstanden sind. Um dem entgegenzuwirken, dass der Kunde mit jedem<br />

durchgeführten Interview im Rahmen des <strong>Experiment</strong>s dazulernt, könnte man <strong>die</strong> ersten<br />

Interviewergebnisse verwerfen. Damit würde man <strong>die</strong> <strong>Experiment</strong>e, in denen <strong>die</strong> Person in<br />

der Rolle des Kunden bzgl. dem <strong>von</strong> ihr gewünschten System noch hinzulernen würde, aus<br />

der Wertung nehmen. Die fehlende Variabilität des Kunden in dem in <strong>die</strong>ser Arbeit<br />

durchgeführten <strong>Experiment</strong> soll dann in der Bewertung der Gültigkeit der Ergebnisse noch<br />

mal aufgegriffen werden.<br />

In der Realität kennen sich <strong>die</strong> Kunden in der Regel selbst nicht mit dem Entwickeln <strong>von</strong><br />

Software aus. Da man aber keine Kenntnisse bzgl. Softwareentwicklung voraussetzen kann,<br />

sollen <strong>die</strong> Ausnahmekunden, <strong>die</strong> Vorkenntnisse mitbringen, in <strong>die</strong>sem <strong>Experiment</strong> nicht<br />

berücksichtigt werden. Die Person, <strong>die</strong> den Kunden in <strong>die</strong>sem <strong>Experiment</strong> darstellt, spielt also<br />

einen Kunden ohne Softwareentwicklungshintergrund. Damit werden mögliche <strong>Ein</strong>flüsse<br />

durch unterschiedlich gute Vorkenntnisse im Bereich Softwareentwicklung <strong>von</strong> vornherein<br />

bestmöglich eingegrenzt.


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 45<br />

Die <strong>Experiment</strong>leiterin wird auch <strong>die</strong> Rolle der Kundin in jedem Anforderungsinterview<br />

einnehmen. Diese Rollenverteilung stellt sicher, dass <strong>die</strong> Voraussetzungen für jedes<br />

Anforderungsinterview <strong>die</strong> gleichen sind und das Werkzeug <strong>die</strong> einzige regulierbare<br />

unabhängige Variable im <strong>Experiment</strong> bleibt. Auf mögliche Konflikte, <strong>die</strong> dadurch entstehen<br />

können, dass <strong>die</strong> <strong>Experiment</strong>leiterin und <strong>die</strong> Kundin ein und <strong>die</strong>selbe Person sind, wird in der<br />

Interpretation der Ergebnisse eingegangen.<br />

Die Rolle des Anforderungsingenieurs muss selbstverständlich mit wechselnden Personen<br />

besetzt werden, da <strong>die</strong> Effekte des Werkzeugs ja unabhängig <strong>von</strong> der (Re-)Aktion des<br />

Anforderungsingenieurs sichtbar werden sollen. Allerdings sollte auch der<br />

Anforderungsingenieur gewisse Vorraussetzungen in das <strong>Experiment</strong> mitbringen, da auch<br />

seine Vorkenntnisse und Erfahrungen bzgl. Anforderungserhebungen <strong>Ein</strong>fluss auf <strong>die</strong><br />

Ergebnisse der Messung haben können. Um dem vorzubeugen, müssen <strong>die</strong><br />

<strong>Experiment</strong>teilnehmer, <strong>die</strong> für <strong>die</strong> Rolle des Anforderungsingenieurs ausgewählt werden<br />

möglichst ähnliche Vorkenntnisse haben. Die Suche nach geeigneten Teilnehmern sollte sich<br />

also an Informatikstudenten richten, <strong>die</strong> bereits Vorlesungen im Bereich des Software<br />

Engineering gehört hatten und damit zumindest theoretisch <strong>über</strong> den Ablauf einer<br />

Anforderungserhebung und <strong>über</strong> den Aufbau <strong>von</strong> Use Cases Bescheid wussten. Allein mit der<br />

Absolvierung eines im Stu<strong>die</strong>nplan eines Informatikers ohnehin vorgesehen<br />

Softwareprojektes hat der Student schon eine zumindest einmalige Erfahrung mit einer<br />

Anforderungserhebung gemacht. Damit <strong>die</strong> Voraussetzungen noch mehr <strong>über</strong>einstimmen, soll<br />

jeder Proband eine einheitliche <strong>Ein</strong>führung zu Beginn des Interviews und auch während des<br />

Interviews jederzeit <strong>die</strong> Möglichkeit für technische Fragen bekommen.<br />

Die spätere Auszählung und Klassifizierung der Anforderungen soll durch <strong>die</strong><br />

<strong>Experiment</strong>leiterin durchgeführt werden. Trotz einer genauen Definition, wie Anforderungen<br />

zu zählen und zu klassifizieren sind, kann es vor allen Dingen in Grenzfällen <strong>Ein</strong>flüsse durch<br />

<strong>die</strong> subjektive <strong>Ein</strong>schätzung der <strong>Experiment</strong>leiterin geben. Dieses Problem kann<br />

beispielsweise durch eine zu ungenaue Definition hervorgerufen werden. Um <strong>die</strong> Definition<br />

zu prüfen und subjektive <strong>Ein</strong>flüsse der <strong>Experiment</strong>leiterin auszuschließen, kann ein Teil der<br />

Auszählung und Klassifizierung <strong>von</strong> einer zweiten Person wiederholt werden. Damit kann<br />

kontrolliert werden, ob ein <strong>Experiment</strong>leitereffekt, indem Anforderungen subjektiv<br />

klassifiziert werden, eingetreten ist. Zur Kontrollzählung steht ein Mitarbeiter des<br />

Fachgebietes Software Engineering zur Verfügung, der ausreichend <strong>über</strong> <strong>die</strong> vorgesehene Art<br />

und Weise der Klassifikation in Kenntnis gesetzt werden muss.<br />

<strong>Ein</strong>flüsse sind auch durch <strong>die</strong> Form der Dokumentation der Anforderungen in den<br />

verschiedenen Gruppen (mit bzw. ohne Fast <strong>Feedback</strong>) möglich. So sollten <strong>die</strong> Teilnehmer<br />

beider Gruppen eine möglichst identische Form der Dokumentation vorgeschrieben<br />

bekommen, um keine zusätzliche Variable im <strong>Experiment</strong> zuzulassen. Alle Teilnehmer sollen<br />

Ihre Notizen elektronisch vornehmen. Das erleichtert <strong>die</strong> Auswertung und schafft gleiche<br />

Voraussetzungen für alle Probanden. Fast <strong>Feedback</strong> muss wegen der Möglichkeit zur<br />

Skizzierung <strong>von</strong> Mock-ups auf einem Tablet PC ausgeführt werden. Dazu stehen <strong>die</strong><br />

automatische Schrifterkennung oder eine Tastatur zur Verfügung und ein Stift zum Klicken<br />

und Zeichnen. Die Kontrollgruppe soll also <strong>die</strong> gleichen Voraussetzungen erhalten und<br />

bekommt deshalb ebenfalls den Tablet PC zur Verfügung gestellt, allerdings nicht mit dem zu<br />

evaluierenden Werkzeug Fast <strong>Feedback</strong>, sondern mit einem leeren Word-Dokument, auf dem<br />

ebenfalls geschrieben und gezeichnet werden darf. So wird <strong>die</strong> Struktur des Werkzeugs bei<br />

dem <strong>Experiment</strong> in den Vordergrund gerückt und nicht zum Beispiel ungewollt <strong>die</strong><br />

automatische Schrifterkennung evaluiert.


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 46<br />

Insgesamt gesehen soll es möglichst nur <strong>die</strong> eine unabhängige Variable „Werkzeug“<br />

geben. Jede weitere regulierbare Variable im <strong>Experiment</strong> kann zur Störvariablen werden und<br />

<strong>die</strong> Ergebnisse beeinflussen. Diese <strong>Ein</strong>flüsse müssen bei der Vorbereitung und der<br />

Vorgehensweise berücksichtigt und gegebenenfalls bei der Analyse und Interpretation der<br />

Ergebnisse diskutiert werden.<br />

3.4 Sonstige Vorbereitungen<br />

3.4.1 Probandensuche<br />

Die Probandensuche fand im universitären Umfeld statt. Um den Studenten oder<br />

Institutsmitarbeitern einen Anreiz zur Teilnahme zu geben, wurde das <strong>Experiment</strong> als<br />

Wettbewerb beworben. Die Studenten sollten als zusätzliche Motivation <strong>die</strong> Möglichkeit<br />

bekommen, gegeneinander anzutreten, indem sie ihr theoretisches Wissen praktisch<br />

anwenden. Die Probanden wurden gezielt in Vorlesungen und unter den Hilfswissenschaftlern<br />

des Fachgebietes Software Engineering gesucht. Der Wettbewerb wurde dar<strong>über</strong> hinaus mit<br />

Hilfe <strong>von</strong> Aushängen und Foreneinträge bekannt gemacht.<br />

3.4.2 Software und Technik<br />

Während der <strong>Experiment</strong>durchführung sollen <strong>von</strong> der <strong>Experiment</strong>leiterin aufgrund ihrer<br />

Doppelrolle keine Formulare oder ähnliches ausgefüllt werden. Die Rolle als Kundin erfordert<br />

seine volle Aufmerksamkeit. Ohne <strong>die</strong> Protokollierung des Anforderungsinterviews würde<br />

damit jegliche Auswertungsgrundlage fehlen. Um das Anforderungsinterview wirklich genau<br />

protokollieren zu können, müssen sowohl der Ton als auch <strong>die</strong> Bildschirmaktivitäten<br />

aufgezeichnet werden. Zur bestmöglichen Ton- und Bildschirmaufnahme müssen <strong>die</strong> dafür<br />

notwendige Software (z.B. Camtasia) und Technik (Mikrofon) zur Verfügung stehen. Beides<br />

muss vor der Durchführung der <strong>Experiment</strong>e ausgiebig getestet werden. In einem ruhigen<br />

Raum muss <strong>die</strong> Tonaufzeichnung ausprobiert und <strong>die</strong> bestmögliche Lautstärkeeinstellung<br />

gefunden werden. Es sollte großen Wert darauf gelegt werden, dass <strong>die</strong> Aufzeichnung optimal<br />

und störungsfrei ist, um eine korrekte Auswertung der Ergebnisse gewährleisten zu können.<br />

<strong>Ein</strong> zusätzlicher Bildschirm sollte eingerichtet werden, um es sowohl dem<br />

Anforderungsingenieur (und Proband) als auch der Kundin (und <strong>Experiment</strong>leiterin) leichter<br />

zu machen, dem jeweils anderen etwas zu zeigen.<br />

Des Weiteren muss sichergestellt werden, dass der Tablet PC zur Durchführung des<br />

<strong>Experiment</strong>s und insbesondere zur Ton- und Bildschirmaufnahme <strong>über</strong> ausreichende<br />

Speicherkapazitäten verfügt. Gegebenenfalls sollte zusätzlich ein externes Speichermedium<br />

bereitgestellt werden.<br />

3.5 Messplan<br />

3.5.1 Schritte vor der Messung<br />

Zunächst muss klar werden, wie viele Probanden für <strong>die</strong> Rolle der Anforderungsingenieurs<br />

benötigt werden und welcher Gruppe jeder Proband zugeteilt wird. Dazu folgen in <strong>die</strong>sem


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 47<br />

Kapitel <strong>die</strong> konkreten Berechnungen des Stichprobenumfangs und <strong>die</strong> Zuteilungen zu den<br />

Gruppen mit Hilfe <strong>von</strong> Zufallsziehungen.<br />

3.5.1.1 Bestimmung des Stichprobenumfangs<br />

Die Bestimmungen des Stichprobenumfangs basieren auf einigen Annahmen (z.B. zur<br />

Verteilung der Zufallsvariable und zum Erwartungswert) und können deshalb nur als<br />

Richtwert gelten. Mit Hilfe <strong>von</strong> statistischen Tests kann dann im Nachhinein festgestellt<br />

werden, ob der Stichprobenumfang tatsächlich ausgereicht hat.<br />

Die Berechnungen sollen im Vorfeld nur zu den GQM-Zielen 1.1 und 1.2 durchgeführt<br />

werden, da Ziel 1.3 nur zur <strong>Ein</strong>schätzung der Gültigkeit der Ergebnisse der ersten beiden<br />

Ziele verfolgt wird und damit <strong>die</strong> Wahl des Stichprobenumfangs im wesentlichen aus den<br />

Berechnungen zu den ersten beiden Zielen basieren sollte.<br />

Das Ergebnis der Berechnungen bezieht sich dabei immer auf <strong>die</strong> <strong>Experiment</strong>gruppe.<br />

Optimalerweise sollte der gleiche Stichprobenumfang auch für <strong>die</strong> Kontrollgruppe gewählt<br />

werden. Geplant ist nämlich, <strong>die</strong> Ergebnisse mit Hilfe eines <strong>Ein</strong>- oder Zweistichproben t-Tests<br />

zu prüfen, wobei <strong>die</strong> Freiheitsgrade den Wert für das Quantil der t-Verteilung beeinflussen.<br />

Wird der Stichprobenumfang für beide Gruppen identisch gewählt, werden <strong>die</strong> n+m-2<br />

Freiheitsgrade maximal und der Wert für das Quantil der t-Verteilung und somit <strong>die</strong> Grenze<br />

zur Signifikanz der Ergebnisse geringer. Der geringere Stichprobenumfang einer Gruppe<br />

könnte also bewirken, dass der Stichprobenumfang insgesamt nicht ausreicht, um eine<br />

Signifikanz der Ergebnisse feststellen zu können.<br />

Alternativhypothese H1,1 zu Ziel 1.1:<br />

Im ersten Interview gibt es einen Unterschied beim Erkennen <strong>von</strong> Fehlern zwischen der<br />

Anforderungserhebung mit und der ohne der Verwendung <strong>von</strong> Fast <strong>Feedback</strong>.<br />

Nullhypothese H0,1 zu Ziel 1.1:<br />

Im ersten Interview gibt es keinen Unterschied beim Erkennen <strong>von</strong> Fehlern zwischen der<br />

Anforderungserhebung mit und der ohne der Verwendung <strong>von</strong> Fast <strong>Feedback</strong>.<br />

Aus Erfahrung nimmt man an, dass im ersten Anforderungsinterview ohne <strong>die</strong> Verwendung<br />

<strong>von</strong> Fast <strong>Feedback</strong> null bis ein Fehler erkannt werden. Dagegen wird vermutet, dass mit dem<br />

<strong>Ein</strong>satz <strong>von</strong> Fast <strong>Feedback</strong> mehr (also mindestens zwei) Fehler im ersten<br />

Anforderungsinterview erkannt werden. Sei Y <strong>die</strong> Zufallsvariable, <strong>die</strong> jeder<br />

Anforderungserhebung der <strong>Experiment</strong>gruppe eine Anzahl <strong>von</strong> Fehlern zuordnet. Es wird<br />

weiter angenommen, dass <strong>die</strong> Zufallsvariable Y normalverteilt ist, was nach Durchführung des<br />

<strong>Experiment</strong>s aber noch zu prüfen wäre. Die Berechnung des Stichprobenumfangs erfolgt <strong>über</strong><br />

den Erwartungswert einer normalverteilten Grundgesamtheit (vgl. Kapitel 2.2.3.1). Die<br />

Abweichungen <strong>von</strong> dem Sollwert sind dabei sowohl nach unten als auch nach oben<br />

unerwünscht bzw. bedeutend, so dass hier eigentlich ein zweiseitiges Testproblem vorliegt.<br />

Für <strong>die</strong> Bestimmung des Stichprobenumfangs soll aber <strong>die</strong> Anwendung des einseitigen


€<br />

€<br />

€<br />

3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 48<br />

Testproblems genügen. Da in der <strong>Experiment</strong>gruppe für <strong>die</strong> Anzahl der Fehler ein Wert<br />

größer als µ 0 = 2 erwartet wird, formuliert man das Testproblem wie folgt.<br />

Sei Y Zufallsvariable wie oben definiert. Testet man <strong>die</strong> Nullhypothese H0,1 : µ ≤ µ 0 mit dem<br />

Erwartungswert µ 0 = 2 , dem unbekanntem Parameter µ ∈ und der geschätzten Varianz<br />

€<br />

σ<br />

€<br />

€<br />

€<br />

2 = 2,25 gegen <strong>die</strong> entsprechende Alternativhypothese H1,1 : µ > µ 0 zum gewählten<br />

Signifikanzniveau und gibt an der Stelle µ 1 = 3,5 eine Wahrscheinlichkeit<br />

für den Fehler 2. Art vor, so muss <strong>die</strong> Stichprobengröße, um beide Fehler<br />

einhalten zu können,<br />

€<br />

€<br />

n ≥ u0,975 + u 2<br />

⎛⎛ ( 0,95)⋅<br />

1,5 ⎞⎞<br />

⎜⎜<br />

⎜⎜<br />

⎟⎟<br />

⎝⎝ 3,5 − 2 ⎟⎟ =<br />

⎠⎠<br />

1,96 +1,645<br />

2<br />

⎛⎛ ( )⋅ 1,5 ⎞⎞<br />

⎜⎜<br />

⎟⎟ =<br />

⎝⎝ 1,5 ⎠⎠<br />

5,408<br />

2<br />

⎛⎛ ⎞⎞<br />

⎜⎜ ⎟⎟ =12,998<br />

⎝⎝ 1,5 ⎠⎠<br />

sein. Als Richtwert sollte zu <strong>die</strong>ser Hypothese also mindestens eine Stichprobe vom Umfang<br />

n=13 für <strong>die</strong> <strong>Experiment</strong>gruppe und optimalerweise auch für <strong>die</strong> Kontrollgruppe gezogen<br />

werden. Man stellt mit dem oben aufgestellten Testproblem sicher, dass man sich höchstens<br />

mit der Wahrscheinlichkeit fälschlicherweise für <strong>die</strong> Alternative H1,1 entscheidet,<br />

obwohl H0,1 vorliegt, und dass man sich höchstens mit der Wahrscheinlichkeit<br />

fälschlicherweise für H0,1 entscheidet , falls in Wirklichkeit der Parameter µ größer als<br />

µ 1 = 3,5 ist.<br />

€<br />

€<br />

€<br />

€<br />

Alternativhypothese H1,2a zu Ziel 1.2:<br />

Es besteht ein Unterschied in der Anzahl der Anforderungen zwischen der<br />

Anforderungserhebung mit bzw. ohne <strong>die</strong> Verwendung <strong>von</strong> Fast <strong>Feedback</strong>.<br />

Nullhypothese H0,2a zu Ziel 1.2:<br />

Es besteht kein Unterschied in der Anzahl der Anforderungen zwischen der<br />

Anforderungserhebung mit bzw. ohne <strong>die</strong> Verwendung <strong>von</strong> Fast <strong>Feedback</strong>.<br />

Man nimmt (aus Erfahrung) an, dass ohne <strong>die</strong> Verwendung <strong>von</strong> Fast <strong>Feedback</strong> in einem<br />

dreißigminütigen Anforderungsinterview dreißig Anforderungen dokumentiert werden.<br />

Dagegen wird vermutet, dass mit dem <strong>Ein</strong>satz <strong>von</strong> Fast <strong>Feedback</strong> dreißig Prozent mehr<br />

Anforderungen erhoben werden. Es wird weiter angenommen, dass <strong>die</strong> Zufallsvariable Y, <strong>die</strong><br />

jeder Anforderungserhebung der <strong>Experiment</strong>gruppe eine Anzahl <strong>von</strong> dokumentierten<br />

Anforderungen zuordnet, normalverteilt ist, was nach Durchführung des <strong>Experiment</strong>s wieder<br />

zu <strong>über</strong>prüfen wäre. Die Berechnung des Stichprobenumfangs erfolgt wieder <strong>über</strong> den<br />

unbekannten Erwartungswert einer normalverteilten Grundgesamtheit. Die Abweichungen<br />

<strong>von</strong> dem Sollwert sind dabei sowohl nach unten als auch nach oben unerwünscht bzw.<br />

bedeutend, so dass hier eigentlich wieder ein zweiseitiges Testproblem vorliegt. Für <strong>die</strong><br />

Bestimmung des Stichprobenumfangs soll aber wiederum <strong>die</strong> Anwendung des einseitigen<br />

Testproblems genügen. Da in der <strong>Experiment</strong>gruppe für <strong>die</strong> Anzahl der dokumentierten<br />

Anforderungen ein Wert größer als µ 0 = 39 erwartet wird, formuliert man das Testproblem<br />

wie folgt.<br />


€<br />

€<br />

€<br />

3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 49<br />

Sei Y Zufallsvariable wie oben definiert. Testet man <strong>die</strong> Nullhypothese H0,2a : µ ≤ µ 0 mit dem<br />

Erwartungswert µ 0 = 39 , dem unbekanntem Parameter µ ∈ und der geschätzten Varianz<br />

σ<br />

€<br />

€<br />

€<br />

2 = 56,25 gegen <strong>die</strong> entsprechende Alternativhypothese H1,1 : µ > µ 0 zum gewählten<br />

Signifikanzniveau und gibt an der Stelle µ 1 = 46 eine Wahrscheinlichkeit<br />

für den Fehler 2. Art vor, so muss <strong>die</strong> Stichprobengröße, um beide Fehler<br />

einhalten zu können,<br />

€<br />

€<br />

n ≥ u0,975 + u 2<br />

⎛⎛ ( 0,95)⋅<br />

7,5⎞⎞<br />

⎜⎜<br />

⎜⎜<br />

⎟⎟<br />

⎝⎝ 46 − 39 ⎟⎟ =<br />

⎠⎠<br />

1,96 +1,645<br />

2<br />

⎛⎛ ( )⋅ 7,5 ⎞⎞<br />

⎜⎜<br />

⎟⎟ =<br />

⎝⎝ 7 ⎠⎠<br />

27,038<br />

2<br />

⎛⎛ ⎞⎞<br />

⎜⎜ ⎟⎟ =14,92<br />

⎝⎝ 7 ⎠⎠<br />

sein. Als Richtwert sollte zu <strong>die</strong>ser Hypothese also mindestens eine Stichprobe vom Umfang<br />

n=15 für <strong>die</strong> <strong>Experiment</strong>gruppe und optimalerweise auch für <strong>die</strong> Kontrollgruppe gezogen<br />

werden. Man stellt mit dem oben aufgestellten Testproblem sicher, dass man sich höchstens<br />

mit der Wahrscheinlichkeit fälschlicherweise für <strong>die</strong> Alternative H1,1 entscheidet,<br />

obwohl H0,1 vorliegt, und dass man sich höchstens mit der Wahrscheinlichkeit<br />

fälschlicherweise für H0,1 entscheidet , falls in Wirklichkeit der Parameter µ größer als<br />

µ 1 = 46 ist.<br />

€<br />

€<br />

€<br />

€<br />

Alternativhypothese H1,2b zu Ziel 1.2:<br />

Es lässt sich ein Unterschied zwischen dem Anteil nicht-funktionaler dokumentierter<br />

Anforderungen mit und ohne Verwendung <strong>von</strong> Fast <strong>Feedback</strong> feststellen.<br />

Nullhypothese H0,2b zu Ziel 1.2:<br />

Es lässt sich kein Unterschied zwischen dem Anteil nicht-funktionaler dokumentierter<br />

Anforderungen mit und ohne Verwendung <strong>von</strong> Fast <strong>Feedback</strong> feststellen.<br />

Man nimmt an, dass ohne <strong>die</strong> Verwendung <strong>von</strong> Fast <strong>Feedback</strong> in einem dreißigminütigen<br />

Anforderungsinterview ein Drittel der dokumentierten Anforderungen nicht-funktional sind.<br />

Dagegen wird vermutet, dass mit dem <strong>Ein</strong>satz <strong>von</strong> Fast <strong>Feedback</strong> vierzig Prozent der<br />

dokumentierten Anforderungen nicht-funktional sind. Es wird erneut angenommen, dass <strong>die</strong><br />

Zufallsvariable Y, <strong>die</strong> jeder Anforderungserhebung der <strong>Experiment</strong>gruppe Anzahl nichtfunktionaler<br />

dokumentierter Anforderungen zuordnet, normalverteilt ist, was nach<br />

Durchführung des <strong>Experiment</strong>s auch wieder zu prüfen wäre. Die Berechnung des<br />

Stichprobenumfangs erfolgt wieder <strong>über</strong> den Erwartungswert einer normalverteilten<br />

Grundgesamtheit. Die Abweichungen <strong>von</strong> dem Sollwert sind dabei wie zuvor sowohl nach<br />

unten als auch nach oben unerwünscht bzw. bedeutend, so dass hier eigentlich wieder ein<br />

zweiseitiges Testproblem vorliegt. Für <strong>die</strong> Bestimmung des Stichprobenumfangs soll aber<br />

wiederum <strong>die</strong> Anwendung des einseitigen Testproblems genügen. Da in der<br />

<strong>Experiment</strong>gruppe für <strong>die</strong> Anzahl der dokumentierten nicht-funktionalen Anforderungen ein<br />

Wert größer als µ 0 =15,6 (40% <strong>von</strong> 39 dokumentierten Anforderungen) erwartet wird,<br />

formuliert man das Testproblem wie folgt.<br />


€<br />

€<br />

€<br />

3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 50<br />

Sei Y Zufallsvariable wie oben definiert. Testet man <strong>die</strong> Nullhypothese H0,2b : µ ≤ µ 0 mit dem<br />

Erwartungswert µ 0 =15,6 , dem unbekanntem Parameter µ ∈ und der geschätzten Varianz<br />

σ<br />

€<br />

€<br />

€<br />

2 = 20,25 gegen <strong>die</strong> entsprechende Alternativhypothese H1,1 : µ > µ 0 zum gewählten<br />

Signifikanzniveau und gibt an der Stelle µ 1 = 20 eine Wahrscheinlichkeit<br />

für den Fehler 2. Art vor, so muss <strong>die</strong> Stichprobengröße, um beide Fehler<br />

einhalten zu können,<br />

€<br />

€<br />

n ≥ u0,975 + u 2<br />

⎛⎛ ( 0,95)⋅<br />

4,5⎞⎞<br />

⎜⎜<br />

⎜⎜<br />

⎟⎟<br />

⎝⎝ 20 −15,6 ⎟⎟ =<br />

⎠⎠<br />

1,96 +1,645<br />

2<br />

⎛⎛ ( )⋅ 4,5⎞⎞<br />

⎜⎜<br />

⎟⎟ =<br />

⎝⎝ 4,4 ⎠⎠<br />

16,223<br />

2<br />

⎛⎛ ⎞⎞<br />

⎜⎜ ⎟⎟ =13,594<br />

⎝⎝ 4,4 ⎠⎠<br />

sein. Als Richtwert sollte zu <strong>die</strong>ser Hypothese also mindestens eine Stichprobe vom Umfang<br />

n=14 für <strong>die</strong> <strong>Experiment</strong>gruppe und optimalerweise auch für <strong>die</strong> Kontrollgruppe gezogen<br />

werden. Man stellt mit dem oben aufgestellten Testproblem sicher, dass man sich höchstens<br />

mit der Wahrscheinlichkeit fälschlicherweise für <strong>die</strong> Alternative H1,1 entscheidet,<br />

obwohl H0,1 vorliegt, und dass man sich höchstens mit der Wahrscheinlichkeit<br />

fälschlicherweise für H0,1 entscheidet , falls in Wirklichkeit der Parameter µ größer als<br />

µ 1 = 20 ist.<br />

€<br />

€<br />

3.5.1.2 Zuteilung € mit Hilfe einer Zufallsziehung<br />

€<br />

Die Probanden sollen durch <strong>die</strong> <strong>von</strong> der <strong>Experiment</strong>leiterin durchgeführte Zufallsziehung den<br />

beiden verschiedenen Gruppen zugeordnet werden. Die Zufallsziehung verhindert eine<br />

subjektive Beeinflussung bei der Zuteilung der Probanden durch <strong>die</strong> <strong>Experiment</strong>leiterin, <strong>die</strong><br />

möglicherweise eine bestimmte Bedingung mit ganz bestimmten Probanden favorisiert und<br />

dadurch (unbewusst) einen <strong>Experiment</strong>leitereffekt produziert. Durchgeführt werden muss eine<br />

Zufallsziehung ohne Zurücklegen, da jeder Proband nur einmal einer Gruppe zugeordnet<br />

werden kann. Dafür ist es vorteilhaft, wenn im Vorfeld genau festgelegt wird, wie viele<br />

Probanden es (maximal) geben wird (vgl. Kapitel 3.5.1.1). Werden letztendlich weniger<br />

Probanden gefunden und werden vielleicht sogar unterschiedlich viele Probanden jeder<br />

Gruppe zugeordnet, so stellt das grundsätzlich erstmal kein Problem dar, wobei beachtet<br />

werden sollte, dass sich ein zu großer Unterschied in der Größe der Gruppen auf <strong>die</strong><br />

Gültigkeit der Ergebnisse auswirken könnte. Kommen umgekehrt nachträglich noch weitere<br />

Probanden hinzu, so können <strong>die</strong>se mit Hilfe einer weiteren Zufallsziehung ganz einfach den<br />

beiden schon bestehenden Gruppen zugeordnet werden. Da <strong>die</strong> geplanten <strong>Experiment</strong>e<br />

zeitlich unabhängig <strong>von</strong>einander durchgeführt werden können, ist es durchaus möglich, dass<br />

später noch Probanden hinzugefügt werden.<br />

Die Zufallsziehung wird zunächst auf einen Stichprobenumfang <strong>von</strong> dreißig Probanden<br />

ausgelegt. Sie wird mit Hilfe <strong>von</strong> Excel simuliert (vgl. Hinweis in Abb.7). Dabei wird <strong>die</strong><br />

erste Hälfte aller gezogenen Nummern der <strong>Experiment</strong>gruppe zugewiesen. Die zweite Hälfte<br />

wird der Kontrollgruppe zugeteilt. Betrachtet man das Beispiel in Abb.5, so würde das<br />

bedeuten, dass der erste Proband der Kontrollgruppe, der zweite der <strong>Experiment</strong>gruppe usw.<br />

zugeteilt würde.


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 51<br />

Aus einem String mit allen Möglichkeiten zu ziehender Zahlen wird sukzessive eine<br />

zufällige Möglichkeit herausgeschnitten. In Abb.3 können <strong>die</strong> Zahlen <strong>von</strong> 1 bis 30 gezogen<br />

werden; der String befindet sich in Zelle B1. Spalte A ermittelt <strong>die</strong> Position Z des<br />

Herausschneidevorgangs, Spalte B das Ergebnis des Herausschneidens. Das Ergebnis steht<br />

für den nächsten Herausschneidevorgang zur Verfügung. <strong>Ein</strong>e schon gezogene Zahl kann<br />

dann nicht wieder gezogen werden. In Spalte C steht jeweils <strong>die</strong> gezogene Zahl. Da <strong>die</strong><br />

Formeln in Excel immer wieder neu berechnet werden, muss das Ergebnis einer Ziehung<br />

eingefroren werden, indem <strong>die</strong> Werte in eine neue Spalte kopiert werden.<br />

Abbildung 5: Hinweis und Beispiel zur Simulation einer Zufallsziehung ohne Zurücklegen mit Excel<br />

3.5.1.3 Erstellen des Fragebogens<br />

Der Fragebogen soll zur besseren Auswertung nur geschlossene Fragen enthalten. Ziel des<br />

Fragebogens soll es sein, etwas <strong>über</strong> <strong>die</strong> Benutzbarkeit des jeweiligen Werkzeugs zu erfahren.<br />

Es müssen also zu jedem der beiden Werkzeuge ein anderer Fragebogen erstellt werden,<br />

wobei aber <strong>die</strong> Fragen, <strong>die</strong> zur Beantwortung der in G1.3 gestellten Fragen <strong>die</strong>nen sollen, für<br />

eine Vergleichbarkeit auf beiden Fragebögen identisch sein müssen. Zusätzlich zu den in<br />

Kapitel 2.3.3 zu berücksichtigenden Qualitätsanforderungen sollte der Fragebogen auch<br />

einige Daten des Probanden (Stu<strong>die</strong>ngang, Semester) erfassen. Diese Informationen können<br />

zur <strong>Ein</strong>schätzung der Gültigkeit der Ergebnisse verwendet werden, da ein ähnliches<br />

Vorwissen der Probanden gefordert war.


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 52<br />

Abbildung 6: Fragebogen für <strong>die</strong> Kontrollgruppe<br />

Abbildung 7: Fragebogen für <strong>die</strong> <strong>Experiment</strong>gruppe


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 53<br />

3.5.2 Schritte während der Messung<br />

Die Messung zu den Zielen 1 und 2 erfolgt durch <strong>die</strong> Ton- und Bildschirmaufnahmen mit<br />

Camtasia. Für <strong>die</strong> korrekte Aufnahme hat <strong>die</strong> <strong>Experiment</strong>leiterin und zugleich Kundin<br />

während jedem Anforderungsinterview Sorge zu tragen. Sie startet <strong>die</strong> Aufnahme vor<br />

Gesprächsbeginn und beendet und speichert sie nach Ablauf der dreißig Minuten<br />

Gesprächszeit.<br />

Die eigentliche Datenerhebung zu den in der Vorbereitung definierten Zielen findet jeweils<br />

im Anschluss an das <strong>Experiment</strong> statt. Dabei werden <strong>die</strong> Kundengespräche anhand der Ton-<br />

und Bildschirmaufnahmen <strong>von</strong> der <strong>Experiment</strong>leiterin analysiert, indem jede dokumentierte<br />

Anforderung in einer Tabelle notiert wird. Außerdem bekommt jede Anforderung ein<br />

Vermerk, ob sie in Form <strong>von</strong> Text oder in Form eines Mock-ups dokumentiert wurde. Des<br />

Weiteren werden bei der Analyse der Ton- und Bildschirmaufnahmen <strong>die</strong> fehlerhaft<br />

dokumentierten Anforderungen gesondert kenntlich gemacht.<br />

Abbildung 8: Auswertungstabelle für Anforderungen<br />

Die Messung zu dem Ziel 3 findet in Form des für jede Gruppe entwickelten Fragebogens<br />

statt, der jeweils im Anschluss an das <strong>Experiment</strong> vom Proband ausgefüllt werden muss. Die<br />

<strong>Experiment</strong>leiterin händigt dem Proband den Fragebogen aus, steht dem Proband beim<br />

Ausfüllen für Rückfragen zur Verfügung und sammelt den Fragebogen anschließend wieder<br />

ein.<br />

3.6 Vorgehensweise im <strong>Experiment</strong> – Prüflisten, Softwarebeispiel, Drehbuch<br />

Zunächst braucht jeder Proband eine <strong>Ein</strong>führung in <strong>die</strong> <strong>Experiment</strong>szenerie und <strong>die</strong> zu<br />

verwendenden Hilfsmittel. Um gleiche Voraussetzungen für alle Probanden zu schaffen und<br />

Störvariablen im <strong>Experiment</strong> zu vermeiden, muss <strong>die</strong> <strong>Ein</strong>führung einheitlich sein. Anhand<br />

einer Prüfliste für <strong>die</strong> <strong>Experiment</strong>leiterin sollen dem Proband einheitliche Informationen<br />

gegeben werden.


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 54<br />

Prüfliste 1<br />

Wir werden eine Anforderungserhebung durchführen.<br />

Dabei spielen Sie den Anforderungsingenieur/ <strong>die</strong> Anforderungsingenieurin und ich<br />

<strong>die</strong> Kundin.<br />

Zur Erhebung <strong>von</strong> Anforderungen haben Sie dreißig Minuten Zeit.<br />

Die Anforderungserhebung muss nach den dreißig Minuten nicht abgeschlossen sein.<br />

Nach dreißig Minuten beende ich das <strong>Experiment</strong> unabhängig da<strong>von</strong>, wie viele<br />

Anforderungen Sie erhoben haben.<br />

Beachten Sie bitte, dass ich <strong>die</strong> Rolle einer Kundin ohne Informatikhintergrund<br />

einnehmen werde.<br />

Zur Anforderungserhebung sollen Sie den Tablet PC und das Werkzeug Fast<br />

<strong>Feedback</strong>/ Word verwenden.<br />

Dabei steht es Ihnen frei, <strong>die</strong> automatische Schrifterkennung oder <strong>die</strong> Tastatur zu<br />

benutzen. Kurze Demonstration zur Benutzung der Schrifterkennung.<br />

Hier mit Prüfliste zum jeweiligen Werkzeug (2a oder 2b) fortfahren!<br />

Es wird eine Ton- und Bildschirmaufnahme <strong>von</strong> dem Anforderungsinterview<br />

gemacht. Sind Sie damit einverstanden?<br />

Technische Fragen dürfen Sie bei Schwierigkeiten auch noch während der<br />

Anforderungserhebung stellen.<br />

Prüfliste 2a<br />

Die Aufnahme starte ich jetzt und damit beginnen <strong>die</strong> dreißig Minuten.<br />

Prüfliste 1: Allgemeine Hinweise<br />

Sie können in <strong>die</strong>sem Word-Dokument notieren und skizzieren, was Sie wollen.<br />

An <strong>die</strong>ser Stelle kurze Demonstration zur Erstellung <strong>von</strong> Skizzen in Word.<br />

Hier mit Prüfliste 1 fortfahren.<br />

Prüfliste 2a: Hinweise zum Werkzeug Word


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 55<br />

Prüfliste 2b<br />

Demonstration zur Verwendung <strong>von</strong> Fast <strong>Feedback</strong> anhand des Use Case „Geld am<br />

Automat abheben“<br />

Erstellen <strong>von</strong> Use Cases<br />

Erstellen <strong>von</strong> Verknüpfungen zwischen Use Cases<br />

Erstellen <strong>von</strong> Mock-ups<br />

Erstellen <strong>von</strong> Verknüpfungen zwischen Mock-ups und Use Case-Schritten<br />

Abspielen der Mock-ups (Demonstrations-Prototypen in chronologischer<br />

Abfolge)<br />

Hier mit Prüfliste 1 fortfahren.<br />

Prüfliste 2b: Hinweise zum Werkzeug Fast <strong>Feedback</strong><br />

Sobald <strong>die</strong> dreißig Minuten Anforderungserhebungszeit mit der Stoppuhr gestartet wurden,<br />

soll <strong>die</strong> Kundin mit einigen einleitenden Sätzen eine kurze Beschreibung zu der gewünschten<br />

Software geben. Auch hier soll sich an eine Prüfliste gehalten werden. Die Anforderungen<br />

sollen zu dem Softwarebeispiel „SE-Bibliothek“ erhoben werden.<br />

Prüfliste 3<br />

„Ich wünsche mir eine elektronische Verwaltung für <strong>die</strong> Fachbibliothek des<br />

Fachgebietes Software Engineering.“<br />

„Derzeit werden <strong>die</strong> Ausleihvorgänge auf Papier dokumentiert.“<br />

„Die Bibliothek enthält zwei Regale mit Büchern.“<br />

Für <strong>die</strong> Ausleihvorgänge wird ein Terminal (regulärer PC) in der Bibliothek zur<br />

Verfügung gestellt.<br />

Prüfliste 3: Softwarebeispiel „SE-Bibliothek“<br />

Die Kundin braucht außerdem ein Drehbuch, an das sie sich während der dreißig Minuten<br />

Gesprächszeit halten kann. Das Drehbuch soll der Kundin helfen, in jedem<br />

Anforderungsinterview nach den gleichen Regeln zu reagieren, um mögliche <strong>Ein</strong>flüsse durch<br />

Lernprozesse der Kundin zu vermeiden. Das Drehbuch enthält <strong>die</strong> Regeln, an <strong>die</strong> sich <strong>die</strong><br />

Kundin beim Reagieren auf Fragen des Anforderungsingenieurs halten muss. Da jeder Kunde<br />

schon einige Ideen in ein Anforderungsinterview mitbringt, sollen auch hier einige typische<br />

Anforderungen vorgegeben werden, <strong>die</strong> aber <strong>von</strong> der Kundin nur auf Nachfragen des<br />

Anforderungsingenieurs erzählt werden. Auch <strong>die</strong>se Antworten finden sich im Drehbuch<br />

wieder.


3 Vorbereitung des <strong>Experiment</strong>s mit der GQM-Methode | 56<br />

Drehbuch<br />

1. Grundsätzlich nur auf Fragen antworten und nicht <strong>von</strong> selbst erzählen. Ausnahme: es<br />

wird ein Fehler entdeckt.<br />

2. Bei speziellen Informatikfragen oder bei Fragen, zu denen keine Anforderungen<br />

vordefiniert wurden: Empfehlung vom Anforderungsingenieur einholen und entweder<br />

zustimmen oder bei verschiedenen Auswahlmöglichkeiten für <strong>die</strong> erste entscheiden.<br />

3. Anforderungen, <strong>die</strong> auf Nachfrage des Anforderungsingenieurs gegeben werden:<br />

a. Benutzer- und Bücherdaten sollen per Formular eingetragen werden können.<br />

b. Die Benutzung des Terminals soll nur mit Zugangsdaten möglich sein.<br />

c. Zugangsdaten sollen automatisch verschickt werden.<br />

d. Derzeit brauchen keine Leihfristen berücksichtigt werden.<br />

e. Es soll für Benutzer <strong>die</strong> Möglichkeit geben, Bücher vorzumerken.<br />

f. Zum Ausleihen soll es eine Suchfunktion nach Stichworten geben.<br />

g. Es soll auch eine Bestandsliste einsehbar sein.<br />

h. Jedes Buch soll einen Standort zugewiesen bekommen können.<br />

Tabelle 7: Drehbuch<br />

Zur Auswertung <strong>von</strong> Ziel 3 ist nun noch notwendig <strong>die</strong> Grundfunktionen des Beispiels SE-<br />

Bibliothek zu definieren. Sie sollen ebenfalls in einer Prüfliste zur Verfügung stehen, um sie<br />

bei der Auswertung mit den Messdaten vergleichen zu können.<br />

Prüfliste 4<br />

Buch ausleihen<br />

Buch zurückbringen<br />

Buch suchen<br />

Authentifizierung/ Log-In<br />

Verwaltertätigkeit<br />

Prüfliste 4: Grundfunktionen „SE-Bibliothek"


4 Durchführung des <strong>Experiment</strong>s | 57<br />

4 Durchführung des <strong>Experiment</strong>s<br />

4.1 Probanden<br />

In <strong>die</strong>sem Kapitel soll ein <strong>Ein</strong>druck da<strong>von</strong> vermittelt werden, wie viele Probanden<br />

letztendlich gefunden wurden und was für Eigenschaften sie haben.<br />

Die Suche nach geeigneten Probanden gestaltete sich grundsätzlich schwierig. Den Studenten<br />

fehlte gerade in ihrer Prüfungszeit <strong>die</strong> Motivation zur Teilnahme an freiwilligen Projekten.<br />

Der im Vorfeld geplante Wettbewerb gab den Studenten aber tatsächlich den Reiz, Wissen<br />

auch mal praktisch anzuwenden, so dass sich letztendlich doch zumindest annährend so viele<br />

Probanden gefunden haben, wie in den Berechnungen zum Stichprobenumfang als Richtwert<br />

ermittelt wurde.<br />

Aus dem universitären Umfeld haben sich insgesamt sechzehn Probanden gefunden, <strong>von</strong><br />

denen mittels Zufallsziehung neun der <strong>Experiment</strong>gruppe und sieben der Kontrollgruppe<br />

zugeordnet wurden. Die Probanden hatten <strong>die</strong> folgenden Eigenschaften:<br />

• Die 16 Probanden teilen sich auf in 4 Frauen (25%) und 12 Männer (75%).<br />

• 12 <strong>von</strong> Ihnen (75%) sind Informatikstudenten, 3 (19%) sind Studenten der Mathematik<br />

mit der Stu<strong>die</strong>nrichtung Informatik und ein Proband (6%) hat sein Studium zum M.Sc.<br />

in Informatik bereits vollendet.<br />

• Die meisten <strong>von</strong> ihnen (56%) haben zuvor 2 Vorlesungen am Fachgebiet Software<br />

Engineering gehört, bei denen da<strong>von</strong> ausgegangen werden kann, dass <strong>über</strong> das Thema<br />

Anforderungserhebung gesprochen wurde.<br />

Abbildung 9: Theoretische Erfahrung der Probanden (Vorlesungen)<br />

• Insbesondere haben 11 <strong>von</strong> Ihnen (69%) bereits mindestens ein Softwareprojekt<br />

mitgemacht und bestanden, wobei Anforderungserhebungen entsprechend durchgeführt<br />

werden mussten.


4 Durchführung des <strong>Experiment</strong>s | 58<br />

Abbildung 10: Praktische Erfahrung der Probanden (Projekte)<br />

• Sogar 14 <strong>von</strong> Ihnen (88%) gaben an, bereits Erfahrungen als Anforderungsingenieur<br />

gemacht zu haben.<br />

•<br />

Abbildung 11: Praktische Erfahrung der Probanden (Anforderungserhebungen)<br />

• 2 Probanden (13%) hatten sich bereits im Vorfeld in einem Softwareprojekt mit dem<br />

Softwarebeispiel „SE-Bibliothek“ befasst.<br />

• Nur 5 Probanden (31%) gaben an, schon mit einem Tablet-PC gearbeitet zu haben.<br />

Abbildung 12: Praktische Erfahrung der Probanden (Tablet-PC)


4 Durchführung des <strong>Experiment</strong>s | 59<br />

• 6 Probanden (38%) haben <strong>die</strong> Anforderungserhebung mit der automatischen<br />

Schrifterkennung begonnen, 2 da<strong>von</strong> hatten bereits Erfahrung mit dem Tablet-PC,<br />

haben aber genauso wie noch 2 weitere der 6 Probanden zur Tastatur gewechselt.<br />

Abbildung 13: Praktische Erfahrung der Probanden (automatische Schrifterkennung)<br />

Außerdem gab es <strong>die</strong> Möglichkeit, das <strong>Experiment</strong> in einer realen Firma, das heißt in einem<br />

industriellen Umfeld, durchzuführen. Die Firma ließ das <strong>Experiment</strong> an zehn ihrer Mitarbeiter<br />

aus der Abteilung für Softwareentwicklung durchführen. Mittels Zufallsziehung wurden <strong>von</strong><br />

ihnen sechs der <strong>Experiment</strong>gruppe und vier der Kontrollgruppe zugeordnet. Die Probanden<br />

hatten <strong>die</strong> folgenden Eigenschaften:<br />

• Die 10 Probanden teilen sich auf in 1 Frau (10%) und 9 Männer (90%).<br />

• 2 Probanden (20%) sind noch Informatikstudenten, 1 Student (10%) kannte bereits das<br />

Beispiel „SE-Bibliothek“.<br />

• 4 Probanden (40%) gaben an, noch keine Erfahrung mit einem Tablet-PC gemacht zu<br />

haben. 2 Probanden (20%) hatten einmalig Erfahrung gesammelt und 3 Probanden<br />

(30%) mehr als einmal, aber selten.<br />

Abbildung 14: Praktische Erfahrung der Probanden (Tablet-PC) (Industrie)<br />

• Nur einer der Probanden (10%) hat zunächst <strong>die</strong> automatische Schrifterkennung<br />

ausprobiert, später dann aber zur Tastatur gewechselt. Alle anderen Probanden (90%)<br />

haben <strong>von</strong> Anfang an <strong>die</strong> Tastatur verwendet.<br />

• Die 6 der <strong>Experiment</strong>gruppe zugeteilten Probanden haben alle bereits mehrmalige<br />

Erfahrung mit Use Cases gesammelt.


4 Durchführung des <strong>Experiment</strong>s | 60<br />

Die Auswertung zu <strong>die</strong>sem Teil des <strong>Experiment</strong>s wird in dem Kapitel 6.3 gesondert<br />

vorgestellt, um anhand <strong>die</strong>ser Ergebnisse <strong>die</strong> Übertragbarkeit der im universitären Umfeld<br />

gewonnenen Erkenntnisse in ein industrielles Umfeld beurteilen zu können.<br />

4.2 Zusammenfassung des <strong>Experiment</strong>ablaufs<br />

Jedes <strong>Experiment</strong> fand in einem separaten Raum statt, in dem keine Störungen möglich<br />

waren, und begann jedes Mal mit der Vorbereitung der notwendigen Software und Technik.<br />

Es wurde zur Durchführung ein Tablet-PC mit der folgenden Software benutzt: Word, Fast<br />

<strong>Feedback</strong>, Camtasia. Für jeden Proband wurde je nachdem, in welcher Gruppe er war, ein<br />

leeres Word- oder Fast-<strong>Feedback</strong>-Dokument vorbereitet. Außerdem wurde ein zusätzlicher<br />

Bildschirm an den Tablet-PC angeschlossen.<br />

Unabhängig da<strong>von</strong>, welcher Gruppe der jeweilige Proband angehört, bekam er <strong>die</strong><br />

entsprechende <strong>Ein</strong>führung in das <strong>Experiment</strong> und <strong>die</strong> zu verwendenden Hilfsmittel mit Hilfe<br />

der Prüflisten 1 und 2a/2b (vgl. Kapitel 3.6). Wie geplant waren bei jedem <strong>Experiment</strong> nur der<br />

Proband und <strong>die</strong> <strong>Experiment</strong>leiterin/Kundin anwesend. Mit dem Start der Ton- und<br />

Bildschirmaufzeichnung begann <strong>die</strong> <strong>Experiment</strong>zeit, <strong>die</strong> mit Hilfe einer Uhr gestoppt wurde.<br />

Das Anforderungsinterview wurde dann mit den in Prüfliste 3 festgelegten Sätzen eingeleitet.<br />

Ab dem Zeitpunkt war der Proband dann auf sich gestellt, durfte aber bei Schwierigkeiten mit<br />

der Technik Zwischenfragen stellen. Die Anforderungserhebungszeit wurde für <strong>die</strong><br />

technischen Fragen gestoppt und <strong>die</strong> für <strong>die</strong> Anforderungserhebung „verlorene“ Zeit<br />

sozusagen hinten angehängt, so dass am Ende tatsächlich dreißig Minuten reine<br />

Anforderungserhebungszeit absolviert wurde. Nach Ablauf der dreißig Minuten<br />

<strong>Experiment</strong>zeit wurde das Gespräch beendet. Die Aufnahme wurde angehalten und genauso<br />

wie auch das Word- oder Fast-<strong>Feedback</strong>-Dokument doppelt (auf internem und externem<br />

Speichermedium) abgespeichert. Der Proband bekam den für <strong>die</strong> entsprechende Gruppe<br />

vorbereiteten Fragebogen, auch hier waren Rückfragen erlaubt. Mit der Abgabe des<br />

Fragebogens war das <strong>Experiment</strong> beendet.<br />

4.3 Was hat geklappt und wo kann verbessert werden<br />

Zusammenfassend lässt sich sagen, dass <strong>die</strong> <strong>Experiment</strong>e weitestgehend nach Plan verlaufen<br />

sind. Es gab nur zu einer Unregelmäßigkeit, <strong>die</strong> hier aufgeführt werden und noch zusätzlich<br />

zu den schon in der Planung des <strong>Experiment</strong>s angesprochenen <strong>Ein</strong>schränkungen und<br />

<strong>Ein</strong>flüssen in <strong>die</strong> spätere Bewertung der Ergebnisse einfließen soll.<br />

Die Unregelmäßigkeit entstand dadurch, dass dem Probanden freigestellt wurde, <strong>die</strong> Tastatur<br />

oder <strong>die</strong> automatische Schrifterkennung des Tablet-PC zu benutzen. Sechs Probanden wollten<br />

<strong>die</strong> Schrifterkennung ausprobieren, kamen dann aber teilweise doch nicht gut mit ihr zurecht.<br />

Vier wechselten dann rechtzeitig <strong>über</strong> zur Tastatur, aber <strong>die</strong> anderen zwei versuchten es<br />

weiter und verloren dadurch kostbare Anforderungserhebungszeit. Diese Störvariable muss in<br />

der Bewertung der Ergebnisse berücksichtigt werden. Natürlich wäre es der<br />

<strong>Experiment</strong>leiterin möglich gewesen, einzugreifen, aber da dem Proband <strong>die</strong> Art des<br />

Schreibens explizit freigestellt wurde, hätte es ihn verunsichern können, unterbrochen und<br />

doch in seiner eigenen Entscheidung korrigiert zu werden, weshalb letztendlich nicht<br />

eingeschritten wurde. Für zukünftige <strong>Experiment</strong>e sollte gelten, dass alle bekannten<br />

unabhängigen Variablen festgehalten werden, auch wenn sie einem im Vorfeld unwesentlich<br />

erscheinen. Diese Regel muss gerade dann beachtet werden, wenn Menschen am


4 Durchführung des <strong>Experiment</strong>s | 61<br />

<strong>Experiment</strong>aufbau beteiligt sind. Hier waren es wahrscheinlich der Reiz, etwas Neues<br />

auszuprobieren, und der Ehrgeiz, <strong>die</strong> Herausforderung „Schrifterkennung“ auch zu<br />

bewältigen, <strong>die</strong> den Probanden verleitet haben, <strong>die</strong> automatische Schrifterkennung trotz<br />

Zeiteinbußen und ohne Vorerfahrung zu verwenden.


€<br />

€<br />

€<br />

5 Datensammlung und Vali<strong>die</strong>rung | 62<br />

5 Datensammlung und Vali<strong>die</strong>rung<br />

5.1 Messergebnisse aus dem universitären Umfeld<br />

5.1.1 Messergebnisse zu den GQM-Zielen<br />

In der Datensammlung sollen alle Messdaten dargestellt werden, <strong>die</strong> Antworten zu den mit<br />

der GQM-Methode erarbeiteten Zielen liefern können. Dabei wird konkret auf <strong>die</strong> Ziele der<br />

zweiten Ebene eingegangen. Das <strong>über</strong>geordnete Ziel der ersten Ebene soll dann im Anschluss<br />

an <strong>die</strong> Analyse der Ergebnisse in einem Fazit wieder aufgegriffen werden.<br />

Vorweg ist festzustellen, dass ein Proband <strong>die</strong> Bedingung, spätestens nach fünf Minuten<br />

Anforderungserhebungszeit mit der Verwendung des Werkzeugs zu beginnen, nicht erfüllt<br />

hat. Stellt sich der Proband als Ausreißer nach Grubbs (vgl. Kapitel 2.2.5.2) dar, so muss<br />

<strong>über</strong>legt werden, ihn beim Zusammentragen der Ergebnisse nicht zu berücksichtigen.<br />

Zumindest sollte in dem Fall aber geprüft werden, in wie weit <strong>die</strong> Ergebnisse des besagten<br />

Probanden das Gesamtergebnis beeinflussen könnten. Sei X Zufallsvariable einer<br />

normalverteilten Grundgesamtheit mit den Werten x1,...,x 9 , <strong>die</strong> jeder Anforderungserhebung<br />

der <strong>Experiment</strong>gruppe eine Anzahl <strong>von</strong> Fehlern zuordnet, wobei x1 der kleinste Wert ist. Prüft<br />

man mit dem Ausreißer-Test <strong>von</strong> Grubbs <strong>die</strong> Hypothese H0 : (x1 ist kein Ausreißer) zum<br />

Signifikanzniveau α = 0,05 gegen <strong>die</strong> Alternativhypothese H<br />

€<br />

1 : (x1 ist ein Ausreißer) bezogen<br />

auf <strong>die</strong> Anzahl der entdeckten Fehler, so ist mit dem Mittelwert x =1,429, der Anzahl der<br />

€<br />

Fehler des zu untersuchenden Probanden x1 =1, der Standardabweichung s =1,225 und dem<br />

€<br />

Stichprobenumfang n = 9<br />

€<br />

€<br />

1,429 −1<br />

T1 = €<br />

1,225<br />

€<br />

= 0,35 < 2,11 = T9;0,95. Die Nullhypothese kann zum gewählten Signifikanzniveau α nicht verworfen werden. In<br />

Bezug auf <strong>die</strong> Menge der erkannten Fehler ist der Proband kein Ausreißer nach Grubbs.<br />

Basierend auf der <strong>Ein</strong>schätzung durch den Test <strong>von</strong> Grubbs wird deshalb entschieden, bei den<br />

Ergebnissen zu G1.1 keine <strong>Ein</strong>schränkungen zu machen und den Datenpunkt des Probanden<br />

€<br />

zu der Stichprobe zu zählen. Prüft man unter den oben genannten Voraussetzungen <strong>die</strong><br />

gleiche Hypothese bezogen auf <strong>die</strong> Menge der dokumentierten Anforderungen, so erhält man<br />

mit dem Mittelwert x = 23,571, der Anzahl der dokumentierten Anforderungen des zu<br />

prüfenden Probanden x1 = 9, der Standardabweichung s = 8,307 und dem Stichprobenumfang<br />

n = 9<br />

23,571−<br />

€<br />

9<br />

T1 = € =1,754 < 2,11 = T<br />

8,307<br />

9;0,95.<br />

€<br />

Auch hier kann <strong>die</strong> Nullhypothese, der Proband sei kein Ausreißer, nicht verworfen werden<br />

und der Datenpunkt des geprüften Probanden wird deshalb auch beim Zusammentragen der<br />

Ergebnisse zu G1.2 nicht gesondert betrachtet. Gegebenenfalls stellt sich bei der Analyse zu<br />

G1.3 heraus, dass der Proband das Werkzeug nicht verstanden hat bzw. dass das Werkzeug<br />

Fast <strong>Feedback</strong> im Allgemeinen nicht besonders gut verständlich im Sinne der in der Planung<br />

des <strong>Experiment</strong>s aufgestellten Definition ist. In dem Fall müsste <strong>die</strong> Gültigkeit der Ergebnisse<br />

ohnehin eingeschränkt werden. Nun werden aber <strong>die</strong> Ergebnisse zu den drei Zielen der<br />

€<br />


5 Datensammlung und Vali<strong>die</strong>rung | 63<br />

zweiten GQM-Ebene dargestellt, ohne dass ein Datenpunkt der Stichprobe entfernt wird.<br />

Dabei ist es sinnvoll, zuerst <strong>die</strong> Ergebnisse zu Ziel G1.3 zu untersuchen, da <strong>die</strong> Benutzbarkeit<br />

<strong>Ein</strong>fluss auf <strong>die</strong> Ziele G1.1 und G1.2 haben könnte.<br />

G1.3 Untersuche <strong>die</strong> Benutzbarkeit <strong>von</strong> Werkzeugen (Fast <strong>Feedback</strong>, Word) in der<br />

Anforderungserhebung aus der Perspektive des Anforderungsingenieurs/Projektmanagers.<br />

Als erstes soll dargestellt werden, in welchem Umfang <strong>die</strong> sogenannten Features <strong>von</strong> Fast<br />

<strong>Feedback</strong> und Word, wie sie in Kapitel 3.1.1.3 definiert wurden, in den<br />

Anforderungsinterviews genutzt wurden.<br />

Mit der Verwendung <strong>von</strong> Word wurden kaum weniger Mock-ups erstellt als mit dem <strong>Ein</strong>satz<br />

<strong>von</strong> Fast <strong>Feedback</strong>. Verknüpfungen zwischen Use Cases und das Vorzeigen des<br />

Demonstrations-Prototyps fallen, wenn man den Mittelwert <strong>über</strong> alle Probanden der<br />

<strong>Experiment</strong>gruppe betrachtet, kaum ins Gewicht (vgl. Abb.15).<br />

Abbildung 15: Häufigkeit, mit der Features durchschnittlich benutzt wurden<br />

Schaut man sich <strong>die</strong> Stichproben getrennt <strong>von</strong>einander an, so stellt man fest, dass ein Proband<br />

der <strong>Experiment</strong>gruppe (vgl. Proband 9 in Abb.16) nicht <strong>über</strong> das Erstellen <strong>von</strong> Use Cases<br />

hinaus gekommen ist und ein weiterer (vgl. Proband 2 in Abb.16) sich auf Use Cases mit der<br />

Erstellung eines Mock-ups beschränkt hat. Wie zu Beginn <strong>die</strong>ses Kapitels gesagt, gab es nur<br />

einen Probanden (vgl. Proband 4 in Abb.16), der sich mehr als fünf Minuten Zeit gelassen<br />

hat, ehe er Fast <strong>Feedback</strong> eingesetzt hat. Dieser hat aber trotzdem mehr Features genutzt als<br />

<strong>die</strong> beiden oben genannten, <strong>die</strong> vergleichsweise wenig Features benutzt haben.


5 Datensammlung und Vali<strong>die</strong>rung | 64<br />

Abbildung 16: Anzahl der eingesetzten Features pro Proband der <strong>Experiment</strong>gruppe<br />

Geht man nun da<strong>von</strong> aus, dass <strong>die</strong> Features bei Fast <strong>Feedback</strong> nacheinander in der<br />

Reihenfolge Use Cases (A), Mock-ups (B), Verknüpfungen zwischen Use Case Schritten (C)<br />

und Mock-ups, Verknüpfungen zwischen Use Cases (D) und Abspielen des Demonstrations-<br />

Prototyps (E) eingesetzt werden, weil das eine ohne das andere eher wenig Sinn macht, so ist<br />

es noch interessant, <strong>die</strong> Ergebnisse in Abb.17 zu betrachten. Für jede Betrachtung einer<br />

Kombination <strong>von</strong> Features wurden wieder alle neun Probanden einbezogen, so dass, wenn ein<br />

bestimmter Proband in einer der Kombinationen <strong>von</strong> Features auftritt, er auch in allen<br />

darunter liegenden Kombinationen zu finden ist. Dabei stellt man fest, dass nur ein Proband,<br />

alle zur Verfügung stehenden Features des Werkzeugs Fast <strong>Feedback</strong> nutzte, wogegen<br />

zumindest noch <strong>die</strong> Use Cases <strong>von</strong> allen Probanden eingesetzt wurden, wenn auch nicht <strong>von</strong><br />

allen Probanden in gleichem Maße.<br />

Abbildung 17: Häufigkeit eingesetzter Features mit eingeschränkten Kombinationsmöglichkeiten<br />

Betrachtet man nicht nur <strong>die</strong> oben festgelegten sondern alle Kombinationen <strong>von</strong> Features und<br />

teilt jeden Probanden nur einer Kombination zu, so erkennt man, dass <strong>die</strong> 56% der Probanden<br />

insgesamt vier Features genutzt haben (vgl. Abb.18).


5 Datensammlung und Vali<strong>die</strong>rung | 65<br />

Abbildung 18: Häufigkeit eingesetzter Features mit allen Kombinationsmöglichkeiten<br />

Die Probanden der Kontrollgruppe konnten ebenfalls ein Feature, nämlich das Erstellen <strong>von</strong><br />

Mock-ups einsetzen. Darauf verzichtete nur ein einziger Proband. Alle anderen erstellten<br />

mindestens ein, aber sogar bis zu sieben Mock-ups (vgl. Abb.19). Vergleicht man <strong>die</strong><br />

Verteilung der Zufallsvariablen der Kontroll- mit der <strong>Experiment</strong>gruppe, so stellt man sogar<br />

fest, dass der Median <strong>über</strong> <strong>die</strong> Werte der Kontrollgruppe sogar <strong>über</strong> dem der<br />

<strong>Experiment</strong>gruppe liegt, dafür aber das obere Quartil tiefer liegt (vgl. Abb.20).<br />

Abbildung 19: Mock-ups pro Proband der Kontrollgruppe


5 Datensammlung und Vali<strong>die</strong>rung | 66<br />

Abbildung 20: Boxplot zur Anzahl <strong>von</strong> Mock-ups<br />

Nun soll gezeigt werden, wie <strong>die</strong> Probanden Word und Fast <strong>Feedback</strong> als Werkzeug in der<br />

Anforderungserhebung mit Hilfe <strong>von</strong> Schulnoten (vgl. Tab.8) beurteilt haben. Beide<br />

Werkzeuge wurden, wenn man den Mittelwert <strong>über</strong> <strong>die</strong> Beurteilung aller Probanden<br />

betrachtet, unter allen drei untersuchten Aspekten (Be<strong>die</strong>nung, Aufbau und Beurteilung<br />

insgesamt) mit der Schulnote „2“ bewertet (vgl. Tab.9). Auch hier soll vergleichend der<br />

jeweilige Median betrachtet werden. So erhält man für den Aufbau des Werkzeugs Word nur<br />

noch <strong>die</strong> Schulnote „3“ (vgl. Tab.10). In beiden Tabellen wurden <strong>die</strong> auf volle Noten<br />

gerundeten und <strong>die</strong> auf eine Dezimalstelle genau berechneten Werte dargestellt.<br />

Bezeichnung Notenskala<br />

sehr gut 1<br />

gut 2<br />

befriedigend 3<br />

ausreichend 4<br />

mangelhaft 5<br />

schlecht 6<br />

Tabelle 8: Ordinalskala für Schulnoten<br />

Werkzeug<br />

Beurteilung<br />

Word Fast <strong>Feedback</strong><br />

Be<strong>die</strong>nung 2 (2,1) 2 (2,1)<br />

Aufbau 2 (2,3) 2 (2,0)<br />

insgesamt 2 (2,1) 2 (2,1)<br />

Tabelle 9: Beurteilung der Werkzeuge in Schulnoten per Mittelwert<br />

Werkzeug<br />

Beurteilung<br />

Word Fast <strong>Feedback</strong><br />

Be<strong>die</strong>nung 2 (2,0) 2 (2,0)<br />

Aufbau 3 (2,5) 2 (2,0)<br />

insgesamt 2 (2,0) 2 (2,0)<br />

Tabelle 10: Beurteilung der Werkzeuge in Schulnoten per Median


5 Datensammlung und Vali<strong>die</strong>rung | 67<br />

Bei der Beurteilung per Median lässt sich feststellen, dass der Unterschied zwischen dem<br />

Aufbau <strong>von</strong> Word und dem <strong>von</strong> Fast <strong>Feedback</strong> etwas deutlicher ist als der, der mit Hilfe des<br />

Mittelwerts ermittelt wurde. Bei der Beurteilung der Be<strong>die</strong>nung und der Beurteilung<br />

insgesamt ist kein Unterschied festzustellen. Zur Veranschaulichung soll <strong>die</strong> Verteilung der<br />

Beurteilungen nun grafisch in einem Boxplot-Diagramm dargestellt werden. Dargestellt<br />

werden der Median, das obere Quartil, das Maximum, das Minimum und das untere Quartil<br />

der Werte.<br />

Abbildung 21: Boxplots zur Beurteilung der Werkzeuge mit Schulnoten<br />

Der aus den Betrachtungen des Mittelwerts bzw. des Medians entstandene <strong>Ein</strong>druck, dass Fast<br />

<strong>Feedback</strong> im Vergleich zu Word etwas besser abgeschnitten hat, lässt sich nach einem Blick<br />

auf <strong>die</strong> Boxplot-Diagramme bestätigen. In allen drei Bereichen (Be<strong>die</strong>nung, Aufbau und<br />

Beurteilung insgesamt) liegen <strong>die</strong> Werte zu Fast <strong>Feedback</strong> in einem besseren<br />

Schulnotenbereich als <strong>die</strong> zu Word, wobei <strong>die</strong> oberen Quartil bei der Be<strong>die</strong>nung und der<br />

Beurteilung insgesamt bei Fast <strong>Feedback</strong> allerdings deutlich höher liegen als bei Word.<br />

In Prüfliste 4 (vgl. Kapitel 3.6) wurden Grundfunktionen zum Softwarebeispiel „SE-<br />

Bibliothek“ definiert. Alle Probanden, sowohl <strong>die</strong> aus der <strong>Experiment</strong>- als auch <strong>die</strong> aus der<br />

Kontrollgruppe, haben <strong>die</strong> Bedingung, dass zumindest 40% der Grundfunktionen (das heißt<br />

zwei <strong>von</strong> fünf) in der Dokumentation der Anforderungen berücksichtigt werden, erfüllt.


5 Datensammlung und Vali<strong>die</strong>rung | 68<br />

Abbildung 22: Häufigkeit, mit der Probanden eine bestimmte Anzahl Grundfunktionen dokumentierten<br />

Der Median bzgl. der Anzahl der dokumentierten Anforderungen liegt bei den Probanden der<br />

<strong>Experiment</strong>gruppe etwas höher als bei den Probanden der Kontrollgruppe. Dafür liegt<br />

allerdings auch das untere Quartil der Werte aus der <strong>Experiment</strong>gruppe in einem niedrigeren<br />

Bereich als bei denen aus der Kontrollgruppe.<br />

Abbildung 23: Boxplot zur Anzahl dokumentierter Grundfunktionen<br />

Zusammenfassend soll hier gesagt sein, dass das Werkzeug Fast <strong>Feedback</strong> bei einem Blick<br />

auf <strong>die</strong> dargestellten Ergebnisse ähnlich verständlich scheint wie Word. Damit kann zwar ein<br />

möglicher <strong>Ein</strong>fluss auf <strong>die</strong> Ziele 1.1 und 1.2 nicht ausgeschlossen werden, aber es ist<br />

anzunehmen, dass der <strong>Ein</strong>fluss eher gering ist und <strong>die</strong> Ziele 1.1 und 1.2 erstmal unabhängig<br />

<strong>von</strong> der Benutzbarkeit des Werkzeugs untersucht werden können. <strong>Ein</strong>e umfangreichere<br />

Auswertung der Ergebnisse zu G1.3 folgt noch im Kapitel zur Analyse und Interpretation.<br />

G1.1 Verbessere <strong>die</strong> Erkennung fehlerhaft dokumentierter Anforderungen in der<br />

Anforderungserhebung aus der Perspektive des Anforderungsingenieurs/Projektmanagers<br />

In der <strong>Experiment</strong>gruppe wurden, wie in der Hypothese angenommen, mehr Fehler erkannt.<br />

Während 44% der Probanden der <strong>Experiment</strong>gruppe mehr als einen Fehler erkannt haben,<br />

haben nur 14% Probanden der Kontrollgruppe mehr als einen Fehler erkannt (vgl. auch <strong>die</strong><br />

absoluten Werte in Abb.15). Insbesondere hat es aus der Kontrollgruppe kein Proband<br />

geschafft, mehr als zwei Fehler in der vorgegebenen Anforderungserhebungszeit zu erkennen<br />

(vgl. Abb.16).


5 Datensammlung und Vali<strong>die</strong>rung | 69<br />

Abbildung 24: Häufigkeit, mit der <strong>die</strong> Probanden Fehler erkannt haben oder nicht<br />

Abbildung 25: Häufigkeit, mit der eine bestimmte Anzahl <strong>von</strong> Fehlern erkannt wurde<br />

Vergleicht man <strong>die</strong> Ergebnisse mit der Bildung des Medians für jede Gruppe, so kommt man<br />

bei der <strong>Experiment</strong>gruppe auf einen Fehler und bei der Kontrollgruppe auf null Fehler. Zur<br />

Veranschaulichung der Verteilung der erhobenen Daten zur Anzahl <strong>von</strong> erkannten Fehlern<br />

sollen wieder der Median, das obere Quartil, das Maximum, das Minimum und das untere<br />

Quartil der Werte in einem Boxplot-Diagramm dargestellt werden (vgl. Abb.17). Die Werte,<br />

auf denen das Boxplot-Diagramm basiert, wurden in Tab.11 zusammengefasst.<br />

Median oberes Maximum Minimum unteres<br />

Quartil<br />

Quartil<br />

<strong>Experiment</strong>gruppe 1 2 3 0 0<br />

Kontrollgruppe 0 0,5 2 0 0<br />

Tabelle 11: Werte für das Boxplot-Diagramm


€<br />

€<br />

5 Datensammlung und Vali<strong>die</strong>rung | 70<br />

Abbildung 26: Boxplots zur Anzahl erkannter Fehler<br />

Die Hypothese, dass im ersten Anforderungsinterview mit der Verwendung <strong>von</strong> Fast<br />

<strong>Feedback</strong> mehr Fehler erkannt werden, kann zwar bestätigt werden, nur muss jetzt geprüft<br />

werden, ob der Unterschied signifikant ist. Dazu folgen jetzt <strong>die</strong> entsprechenden<br />

Berechnungen, wobei der zweiseitige Zweistichproben-t-Test für zwei unabhängige<br />

Stichproben angewendet wird (vgl. Kapitel 2.2.1). Zur Erinnerung hier <strong>die</strong> für einen<br />

zweiseitigen Test aufgestellte Alternativ- und Nullhypothese:<br />

Alternativhypothese H1,1 zu Ziel 1.1:<br />

Im ersten Interview gibt es einen Unterschied beim Erkennen <strong>von</strong> Fehlern zwischen der<br />

Anforderungserhebung mit und der ohne der Verwendung <strong>von</strong> Fast <strong>Feedback</strong>.<br />

Nullhypothese H0,1 zu Ziel 1.1:<br />

Im ersten Interview gibt es keinen Unterschied beim Erkennen <strong>von</strong> Fehlern zwischen der<br />

Anforderungserhebung mit und der ohne der Verwendung <strong>von</strong> Fast <strong>Feedback</strong>.<br />

Sei X <strong>die</strong> Zufallsvariable mit Werten , <strong>die</strong> jeder Anforderungserhebung der<br />

Kontrollgruppe eine Anzahl <strong>von</strong> Fehlern zuordnet, und Y <strong>die</strong> Zufallsvariable mit Werten<br />

, <strong>die</strong> jeder Anforderungserhebung der <strong>Experiment</strong>gruppe eine Anzahl <strong>von</strong> Fehlern<br />

zuordnet. Es wird weiter angenommen, dass <strong>die</strong> Zufallsvariablen X und Y normalverteilt sind.<br />

Sind µ x,µ y ∈ unbekannte Erwartungswerte. Die Nullhypothese soll gegen <strong>die</strong><br />

Alternativhypothese getestet werden. Die Mittelwerte sind und<br />

dann<br />

. Die Stichprobenvarianzen sind<br />

s €<br />

2 ( 7 −1)⋅<br />

0,62 + ( 9 −1)⋅<br />

1,5<br />

= =1,123.<br />

7 + 9 − 2<br />

2<br />

sx = 0,62 und<br />

€<br />

2<br />

sy =1,5. Die gewichtete Varianz ist


€<br />

€<br />

€<br />

€<br />

5 Datensammlung und Vali<strong>die</strong>rung | 71<br />

Für <strong>die</strong> Prüfgröße t ergibt sich dann<br />

t =<br />

7⋅ 9 0,43 −1,43<br />

⋅ =1,984⋅ ( −0,943)<br />

= −1,871.<br />

7 + 9 1,06<br />

kann zum Signifikanzniveau nicht verworfen werden, da der Wert für<br />

t kleiner ist als das 0,975-Quantil der t-Verteilung mit Freiheitsgraden:<br />

t =1,871 < 2,145 = t( 14; 0,975).<br />

Gibt es tatsächlich einen signifikanten Unterschied zwischen der Erkennung fehlerhaft<br />

dokumentierter Anforderungen mit und der ohne Fast <strong>Feedback</strong>, so reicht der hier getestete<br />

Stichprobenumfang nicht aus, um ihn zu belegen. Der im Vorfeld des <strong>Experiment</strong>s geschätzte<br />

Stichprobenumfang <strong>von</strong> n=13 Probanden pro Gruppe liegt <strong>über</strong> dem tatsächlichen<br />

Stichprobenumfang (<strong>Experiment</strong>gruppe n=9, Kontrollgruppe n=7). Zusätzlich ist der Effekt<br />

zwischen den beiden Gruppen einen halben Punkt kleiner ausgefallen als er bei den<br />

Berechnungen zum Stichprobenumfang geschätzt wurde. Je kleiner der Effekt, desto größer<br />

muss wiederum der Stichprobenumfang sein, um <strong>die</strong> Signifikanz eines Unterschieds zeigen zu<br />

können.<br />

Testet man wegen des schwächeren Effekts alternativ <strong>die</strong> einseitige Hypothese<br />

gegen , so kann <strong>die</strong> Nullhypothese H0,1 zum vorgegebenen Signifikanzniveau<br />

nicht verworfen werden, da<br />

t = −1,871


5 Datensammlung und Vali<strong>die</strong>rung | 72<br />

Abbildung 27: Mittelwerte <strong>über</strong> <strong>die</strong> Anzahl dokumentierter Anforderungen je Gruppe<br />

Der Anteil der nicht-funktionalen Anforderungen gemessen an der Gesamtmenge<br />

dokumentierter Anforderungen ist bei der <strong>Experiment</strong>gruppe (36,0%) kaum höher als bei der<br />

Kontrollgruppe (35,4%) (vgl. Abb.19). Auf den ersten Blick scheint das Werkzeug Fast<br />

<strong>Feedback</strong> also keine <strong>Auswirkung</strong>en auf das Verhältnis funktionaler zu nicht-funktionaler zu<br />

haben.<br />

Abbildung 28: Verhältnis funktionaler zu nicht-funktionaler Anforderungen<br />

Sowohl zu dem Ziel, mit Fast <strong>Feedback</strong> mehr Anforderungen dokumentieren zu können, als<br />

auch zu dem, das Verhältnis funktionaler zu nicht-funktionaler Anforderungen zugunsten der<br />

nicht-funktionalen mit Hilfe <strong>von</strong> Fast <strong>Feedback</strong> verändern zu können, stellt sich nun wieder<br />

<strong>die</strong> Frage nach der Signifikanz der Ergebnisse. Auch hier folgen deshalb <strong>die</strong> entsprechenden<br />

Berechnungen mit Hilfe des zweiseitigen Zweistichproben-t-Tests für zwei unabhängige<br />

Stichproben.<br />

Alternativhypothese H1,2a zu Ziel 1.2:<br />

Es besteht ein Unterschied in der Anzahl der dokumentierten Anforderungen zwischen der<br />

Anforderungserhebung mit und der ohne <strong>die</strong> Verwendung <strong>von</strong> Fast <strong>Feedback</strong>.


€<br />

€<br />

€<br />

€<br />

5 Datensammlung und Vali<strong>die</strong>rung | 73<br />

Nullhypothese H0,2a zu Ziel 1.2:<br />

Es besteht kein Unterschied in der Anzahl der dokumentierten Anforderungen zwischen der<br />

Anforderungserhebung mit und der ohne <strong>die</strong> Verwendung <strong>von</strong> Fast <strong>Feedback</strong>.<br />

Sei X <strong>die</strong> Zufallsvariable mit Werten , <strong>die</strong> jeder Anforderungserhebung der<br />

Kontrollgruppe eine Anzahl <strong>von</strong> dokumentierten Anforderungen zuordnet, und Y <strong>die</strong><br />

Zufallsvariable mit Werten , <strong>die</strong> jeder Anforderungserhebung der <strong>Experiment</strong>gruppe<br />

eine Anzahl <strong>von</strong> dokumentierten Anforderungen zuordnet. Es wird weiter angenommen, dass<br />

<strong>die</strong> Zufallsvariablen X und Y normalverteilt sind. Seien µ x ,µ y ∈ unbekannte<br />

Erwartungswerte. Die Nullhypothese H0,2a : µ = µ 0 soll gegen <strong>die</strong> Alternativhypothese<br />

H1,2a : µ ≠ µ 0 getestet werden. Die Mittelwerte sind und . Die<br />

2 2<br />

Stichprobenvarianzen sind sx = 35,48 und sy = 69,0. Die gewichtete € Varianz ist dann<br />

€<br />

s<br />

€<br />

€<br />

2 ( 7 −1)⋅<br />

35,48 + ( 9 −1)⋅<br />

69<br />

= = 54,63.<br />

7 + 9 − 2<br />

Für <strong>die</strong> Prüfgröße t ergibt sich dann<br />

t =<br />

7⋅ 9 33,86 − 22,57<br />

⋅ =1,984⋅ 1,528 = 3,032.<br />

7 + 9 7,391<br />

kann zum Signifikanzniveau verworfen werden, da der Wert für<br />

größer ist als das 0,975-Quantil der t-Verteilung mit Freiheitsgraden:<br />

t = 3,032 > 2,145 = t( 14; 0,975).<br />

Es gibt tatsächlich einen signifikanten Unterschied zwischen der Anzahl dokumentierter<br />

Anforderungen mit und der ohne Fast <strong>Feedback</strong>. Allerdings spricht <strong>die</strong>ser signifikante<br />

Unterschied aufgrund der Ergebnisse dafür, dass in der Kontrollgruppe mit Word mehr<br />

Anforderungen dokumentiert wurden als in der <strong>Experiment</strong>gruppe, <strong>die</strong> mit Fast <strong>Feedback</strong><br />

gearbeitet hat. Die zugrundeliegende Hypothese, dass der Anforderungsingenieur mit Fast<br />

<strong>Feedback</strong> mehr Informationen in Form <strong>von</strong> dokumentierten Anforderungen erhält, kann durch<br />

<strong>die</strong> vorliegenden Ergebnisse nicht unterstützt werden.<br />

Alternativhypothese H1,2b zu Ziel 1.2:<br />

Es lässt sich ein Unterschied zwischen dem Anteil nicht-funktionaler dokumentierter<br />

Anforderungen mit und ohne Verwendung <strong>von</strong> Fast <strong>Feedback</strong> feststellen.<br />

€<br />

t


€<br />

€<br />

€<br />

€<br />

€<br />

€<br />

€<br />

5 Datensammlung und Vali<strong>die</strong>rung | 74<br />

Nullhypothese H0,2b zu Ziel 1.2:<br />

Es lässt sich kein Unterschied zwischen dem Anteil nicht-funktionaler dokumentierter<br />

Anforderungen mit und ohne Verwendung <strong>von</strong> Fast <strong>Feedback</strong> feststellen.<br />

Auf den ersten Blick lässt sich kein wesentlicher Unterschied zwischen dem Anteil nichtfunktionaler<br />

Anforderungen mit und ohne Fast <strong>Feedback</strong> feststellen, was hier wieder mit<br />

Hilfe eines zweiseitigen Zweistichproben-t-Tests zu prüfen ist. Sei X <strong>die</strong> Zufallsvariable mit<br />

Werten , <strong>die</strong> jeder Anforderungserhebung der Kontrollgruppe eine Zahl zuordnet, <strong>die</strong><br />

den Anteil der nicht-funktionalen dokumentierten Anforderungen gemessen an allen<br />

dokumentierten Anforderungen beschreibt, und Y <strong>die</strong> Zufallsvariable mit Werten , <strong>die</strong><br />

jeder Anforderungserhebung der <strong>Experiment</strong>gruppe eine Zahl zuordnet, <strong>die</strong> den Anteil der<br />

nicht-funktionalen dokumentierten Anforderungen gemessen an allen dokumentierten<br />

Anforderungen beschreibt. Es wird weiter angenommen, dass <strong>die</strong> Zufallsvariablen X und Y<br />

normalverteilt sind. Seien µ x ,µ y ∈ unbekannte Erwartungswerte. Die Nullhypothese<br />

H0,2b : µ = µ 0 soll gegen <strong>die</strong> Alternativhypothese H1,2b : µ ≠ µ 0 getestet werden. Die<br />

2<br />

Mittelwerte sind x = 36,47 und y = 32,21. Die Stichprobenvarianzen sind sx = 92,16 und<br />

2<br />

sy = 234,74 . Die gewichtete € Varianz ist dann<br />

€<br />

s<br />

€<br />

€<br />

€<br />

2 ( 7 −1)⋅<br />

92,16 + ( 9 −1)⋅<br />

234,74<br />

= =173,634 .<br />

7 + 9 − 2<br />

Für <strong>die</strong> Prüfgröße t ergibt sich dann<br />

t =<br />

7⋅ 9 36,47 − 32,21<br />

⋅ =1,984⋅ 0,323 = 0,641.<br />

7 + 9 13,177<br />

H0,2b : µ = µ 0 kann zum Signifikanzniveau nicht verworfen werden, da der Wert für<br />

t kleiner ist als das 0,975-Quantil der t-Verteilung mit Freiheitsgraden:<br />

t = 0,641 < 2,145 = t( 14; 0,975).<br />

Gibt es tatsächlich einen signifikanten Unterschied zwischen der Erkennung fehlerhaft<br />

dokumentierter Anforderungen mit und der ohne Fast <strong>Feedback</strong>, so reicht der hier getestete<br />

Stichprobenumfang nicht aus, um ihn zu belegen. Der im Vorfeld des <strong>Experiment</strong>s geschätzte<br />

Stichprobenumfang <strong>von</strong> n=14 Probanden pro Gruppe liegt <strong>über</strong> dem tatsächlichen<br />

Stichprobenumfang (<strong>Experiment</strong>gruppe n=9, Kontrollgruppe n=7). Allerdings hat man schon<br />

nach einem ersten Blick auf <strong>die</strong> Ergebnisse der einzelnen Stichprobenwerte feststellen<br />

müssen, dass kein wesentlicher Unterschied erkennbar ist. Deshalb wird möglicherweise auch<br />

ein größerer Stichprobenumfang kein anderes Ergebnis liefern.<br />

5.1.2 Messergebnisse außerhalb <strong>von</strong> GQM<br />

<strong>Ein</strong>ige für <strong>die</strong> Bewertung der Ergebnisse möglicherweise interessante Messdaten, <strong>die</strong> als<br />

Nebenprodukt zur eigentlich geplanten Messung entstanden sind, sollen nicht vorenthalten<br />

werden.


€<br />

€<br />

€<br />

5 Datensammlung und Vali<strong>die</strong>rung | 75<br />

Zur Selbsteinschätzung der Probanden<br />

Zusätzlich zu dem Nutzen <strong>von</strong> Fast <strong>Feedback</strong> in der Anforderungserhebung sollten <strong>die</strong><br />

Probanden auch selbst einschätzen, ob sie mehr oder weniger Anforderungen mit der<br />

Verwendung <strong>von</strong> Fast <strong>Feedback</strong> erhalten haben. Die Frage ist also, ob <strong>die</strong> <strong>Ein</strong>schätzung des<br />

Probanden mit dem wahren Wert <strong>über</strong>einstimmt. Dazu soll der für <strong>die</strong> Anforderungserhebung<br />

mit Word geschätzte und auf Erfahrungen basierende Wert <strong>von</strong> dreißig Anforderungen (in<br />

dreißig Minuten) als Richtwert <strong>die</strong>nen. Nur ein Proband hat knapp mehr als dreißig<br />

Anforderungen mit der Verwendung <strong>von</strong> Fast <strong>Feedback</strong> dokumentiert. Sein Wert lag drei<br />

Punkte <strong>über</strong> dem definierten Richtwert. Der Proband selbst hat nicht vermutet, mehr<br />

Anforderungen erhoben zu haben. Die übrigen Probanden der <strong>Experiment</strong>gruppe vermuteten<br />

je zur Hälfte, dass sie mehr bzw. gleich viel oder weniger Anforderungen bekommen haben.<br />

Dabei lag der bzgl. der Anforderungsanzahl stärkste Proband noch drei Punkte hinter dem<br />

Erwartungswert, der schwächste sogar acht Punkte. Es schätzten sich fünf der neun<br />

Probanden falsch ein.<br />

Abhängigkeiten verschiedener Merkmale<br />

Um besser einschätzen zu können, welchen <strong>Ein</strong>fluss <strong>die</strong> Erfahrung, <strong>die</strong> jeder Proband in der<br />

Rolle des Anforderungsingenieurs mit in das <strong>Experiment</strong> bringt, auf <strong>die</strong> Ergebnisse haben<br />

könnte, kann es hilfreich sein, <strong>die</strong> mögliche lineare Abhängigkeit des Merkmals „Erfahrung<br />

der Probanden“ zu einem anderen Merkmal („Anzahl dokumentierter Anforderungen“ oder<br />

„Anzahl der erkannten Fehler“) zu betrachten.<br />

Zunächst betrachten wir <strong>die</strong> mögliche lineare Abhängigkeit zwischen der Erfahrung des<br />

Anforderungsingenieurs und der Anzahl der dokumentierten Anforderungen. Mittels<br />

Fragebogen wurden <strong>die</strong> Probanden zu ihren Erfahrungen mit Anforderungsinterviews befragt.<br />

Ihnen standen drei Antwortmöglichkeiten zur Auswahl: keine, einmalige und mehrmalige<br />

Erfahrung. Mit Hilfe einer definierten Bewertungsskala (vgl. Tab.12) für <strong>die</strong> drei<br />

Antwortmöglichkeiten soll geprüft werden, ob <strong>die</strong> Erfahrung des Probanden mit der Anzahl<br />

der dokumentierten Anforderungen korreliert.<br />

Antwortmöglichkeit Bewertung in<br />

Punkten<br />

keine Erfahrung 0<br />

einmalige Erfahrung 1<br />

mehrmalige Erfahrung 2<br />

Tabelle 12: Bewertungsskala zur Erfahrung der Probanden<br />

Sei X mit den Werten x1 ,...,x n Zufallsvariable der zugrundeliegenden normalverteilten<br />

Grundgesamtheit, <strong>die</strong> jedem Proband eine Erfahrungsbewertung in Punkten (vgl. Tab.12)<br />

zuordnet, und Y mit den Werten y1 ,..., yn Zufallsvariable der normalverteilten<br />

Grundgesamtheit, <strong>die</strong> jedem Proband eine Anzahl <strong>von</strong> dokumentierten Anforderungen<br />

€<br />

zuordnet, wobei <strong>die</strong> Werte der Zufallsvariablen paarweise erhoben wurden. Sei <strong>die</strong> Varianz<br />

<strong>von</strong> X und Y positiv. Dann schätzt man <strong>die</strong> Korrelation anhand der Stichprobe vom Umfang<br />

n =16 aus <strong>die</strong>ser normalverteilten € Grundgesamtheit mit dem Pearsonschen<br />

Korrelationskoeffizienten (vgl. Kapitel 2.2.6) und erhält für ρXY ∈[ −1,+1]<br />

mit x Mittelwert<br />

<strong>von</strong> x1,...,x n und y Mittelwert <strong>von</strong> y1,..., yn einen Wert für den Korrelationskoeffizienten <strong>von</strong><br />

ρXY = 0,053. Der Wert liegt so nahe bei Null, dass man mit hoher Wahrscheinlichkeit da<strong>von</strong><br />

€<br />

€<br />

€<br />


€<br />

5 Datensammlung und Vali<strong>die</strong>rung | 76<br />

ausgehen kann, dass <strong>die</strong> beiden Merkmale zumindest in linearer Weise nicht <strong>von</strong>einander<br />

abhängen.<br />

Überprüft man <strong>die</strong> mögliche lineare Abhängigkeit zwischen der Anzahl erkannter Fehler und<br />

der Erfahrung des Probanden, wobei nun X mit den Werten x1 ,..., xn wieder <strong>die</strong><br />

Zufallsvariable der zugrundeliegenden normalverteilten Grundgesamtheit sei, <strong>die</strong> jedem<br />

Proband eine Erfahrungsbewertung in Punkten zuordnet, und Y mit den Werten y1 ,..., yn <strong>die</strong><br />

Zufallsvariable der normalverteilten Grundgesamtheit sei, <strong>die</strong> jedem Proband eine Anzahl <strong>von</strong><br />

€<br />

erkannten Fehlern zuordnet, wobei <strong>die</strong> Werte der Zufallsvariablen paarweise erhoben wurden.<br />

Ihre Varianz sei jeweils positiv. So erhält man für <strong>die</strong> Korrelation einen<br />

Korrelationskoeffizienten <strong>von</strong> ρ<br />

€<br />

XY = 0,444. Es besteht also auf den ersten Blick ein in etwa<br />

mittlerer linearer Zusammenhang zwischen den beiden Merkmalen. Nun prüft man <strong>die</strong><br />

Signifikanz <strong>die</strong>ses Wertes mit Hilfe des zweiseitigen Zweistichproben-t-Tests zu einem<br />

gewählten Signifikanzniveau α ∈( 0,1).<br />

Dazu formuliert man zu den oben gegebenen<br />

€<br />

Zufallsvariablen das zweiseitige Testproblem, bei dem man <strong>die</strong> Nullhypothese H0 : ρ = 0<br />

gegen <strong>die</strong> Alternativhypothese H1 : ρ ≠ 0 zum gewähltem Signifikanzniveau α = 0,05 testet.<br />

Die Nullhypothese wird nicht verworfen, da gilt<br />

€<br />

€<br />

0,444⋅ 14 1,661<br />

t < 2,145 = t €<br />

€<br />

14; 0,975 mit t = =<br />

2<br />

1 − 0,444 0,896 =1,854.<br />

Der errechnete Korrelationskoeffizient ist damit zum gewählten Signifikanzniveau α nicht<br />

signifikant <strong>von</strong> Null verschieden. Der möglicherweise bestehende lineare Zusammenhang der<br />

beiden betrachteten € Merkmale kann mit dem Test nicht gestützt werden.<br />


6 Analyse und Interpretation | 77<br />

6 Analyse und Interpretation<br />

6.1 Analyse und Interpretation der Ergebnisse aus dem universitären Umfeld<br />

In <strong>die</strong>sem Kapitel sollen <strong>die</strong> Ergebnisse aus dem universitären Umfeld bzgl. der mit GQM<br />

konkretisierten Hypothesen analysiert und interpretiert werden. Dazu werden jeweils noch<br />

einmal das Ziel und <strong>die</strong> aufgestellte Hypothese genannt.<br />

G1.1 Verbessere <strong>die</strong> Erkennung fehlerhaft dokumentierter Anforderungen in der<br />

Anforderungserhebung aus der Perspektive des Anforderungsingenieurs/Projektmanagers<br />

Zu der Hypothese, der Anforderungsingenieur würde mit der Verwendung <strong>von</strong> Fast <strong>Feedback</strong><br />

mehr Missverständnisse, Widersprüche, Unvollständigkeiten und Inkonsistenzen schon im<br />

ersten Anforderungsinterview mit dem Kunden aufdecken können, lässt sich nach<br />

Betrachtung der Messergebnisse sagen, dass zwar ein Unterschied zugunsten <strong>von</strong> Fast<br />

<strong>Feedback</strong> festgestellt werden konnte, <strong>die</strong>ser aber geringer ausgefallen ist als erwartet. Der<br />

zuvor abgeschätzte Stichprobenumfang konnte nicht erreicht werden. Er reicht deshalb nicht<br />

aus, um einen statistisch signifikanten Unterschied festzustellen. Führt man <strong>die</strong> Berechnungen<br />

zum benötigten Stichprobenumfang mit dem neuen Wert für den erwarteten Effekt durch, so<br />

kommt man auf einen entsprechend höheren benötigten Stichprobenumfang <strong>von</strong> etwa dreißig<br />

Probanden allein für <strong>die</strong> <strong>Experiment</strong>gruppe. Zusammenfassend kann man also sagen, dass der<br />

Effekt beim Erkennen <strong>von</strong> Fehlern zwischen der Anforderungserhebung mit Word und der<br />

mit Fast <strong>Feedback</strong> so gering ausfällt, dass ein kleiner Stichprobenumfang noch nicht<br />

ausreicht, um eine mögliche Signifikanz des Ergebnisses zeigen zu können.<br />

Nun soll diskutiert werden, wie der geringere Effekt entstanden sein könnte. Zum einen spielt<br />

sicherlich <strong>die</strong> im <strong>Experiment</strong> eingeschränkte Anforderungserhebungszeit eine Rolle. Das<br />

Erkennen <strong>von</strong> Fehlern wurde gerade für den Zeitpunkt im Anforderungsinterview erwartet, zu<br />

dem der Demonstrations-Prototyp mit Hilfe der hintereinander gereihten Mock-ups gezeigt<br />

wird. Allerdings konnten sich innerhalb der vorgegebenen dreißig Minuten nur zwei der<br />

Probanden <strong>über</strong>haupt bis zu <strong>die</strong>sem Teil der Anforderungserhebung mit Fast <strong>Feedback</strong><br />

vorarbeiten, so dass man da<strong>von</strong> ausgehen muss, dass das vollständige Potenzial, das Fast<br />

<strong>Feedback</strong> zur Erkennung <strong>von</strong> Fehlern mitbringt, nicht in vollem Umfang ausgenutzt werden<br />

konnte. Zum anderen könnte <strong>die</strong> Ursache aber auch sein, dass <strong>die</strong> Benutzbarkeit des<br />

Werkzeugs Fast <strong>Feedback</strong> höher eingeschätzt wurde, als sie tatsächlich ist. Das Maß der<br />

Benutzbarkeit <strong>von</strong> Fast <strong>Feedback</strong> kann sich, genauso wie der vorgegebene Zeitrahmen auch,<br />

darauf auswirken, wie gut oder schlecht <strong>die</strong> Vorteile des Werkzeugs ausgenutzt werden<br />

können. Da <strong>die</strong> Benutzbarkeit des Werkzeugs Fast <strong>Feedback</strong> <strong>von</strong> den Probanden eher für gut<br />

beurteilt wurde, wird möglicherweise der enge Zeitrahmen, der für jede<br />

Anforderungserhebung gesteckt wurde, auschlaggebend <strong>Ein</strong>fluss auf den Effekt genommen<br />

haben.<br />

Das Ergebnis kann für <strong>die</strong> Stichprobe zugunsten des Werkzeugs Fast <strong>Feedback</strong> interpretiert<br />

werden. Auf <strong>die</strong> Grundgesamtheit kann man aber nicht schließen, da keine Signifikanz der<br />

Ergebnisse gezeigt werden konnte. Bei richtiger Ausnutzung der Vorteile <strong>von</strong> Fast <strong>Feedback</strong><br />

würde man aber wahrscheinlich einen deutlicheren Effekt zwischen den <strong>Auswirkung</strong>en der<br />

Werkzeuge erwarten können. Für eine abschließende Bewertung sollte auf jeden Fall <strong>die</strong>


6 Analyse und Interpretation | 78<br />

Anforderungserhebungszeit, <strong>die</strong> Benutzbarkeit <strong>von</strong> Fast <strong>Feedback</strong> und in dem Zuge auch <strong>die</strong><br />

Vorbereitung der Probanden auf den Umgang mit dem Werkzeug berücksichtigt werden.<br />

G1.2.1 Erhöhe <strong>die</strong> Anzahl der Anforderungen pro Zeiteinheit in der Anforderungserhebung<br />

aus der Perspektive des Anforderungsingenieurs/Projektmanagers.<br />

Es konnte ein Unterschied in der Anzahl der dokumentierten Anforderungen zwischen der<br />

<strong>Experiment</strong>- und der Kontrollgruppe festgestellt werden. Allerdings fiel das Ergebnis nicht in<br />

<strong>die</strong> erwartete Richtung aus. Man kann <strong>die</strong> ursprüngliche Hypothese, dass der<br />

Anforderungsingenieur mit der Verwendung <strong>von</strong> Fast <strong>Feedback</strong> mehr Informationen in Form<br />

<strong>von</strong> Anforderungen erhält nicht bestätigen. Stattdessen lässt sich behaupten, dass mit Fast<br />

<strong>Feedback</strong> weniger Anforderungen dokumentiert wurden, und man muss sich fragen, was der<br />

Grund dafür sein könnte. Auch hier spielen sicherlich wieder <strong>die</strong> Aspekte<br />

Anforderungserhebungszeit und Benutzbarkeit <strong>von</strong> Fast <strong>Feedback</strong> eine Rolle. Während sich<br />

<strong>die</strong> Probanden mit Fast <strong>Feedback</strong> innerhalb ihrer Anforderungserhebungszeit noch in das<br />

Werkzeug einarbeiten mussten, waren <strong>die</strong> Probanden der Kontrollgruppe mit Ihrem Werkzeug<br />

Word schon vertraut. Die Beurteilung der Benutzbarkeit <strong>von</strong> Fast <strong>Feedback</strong> ist zwar „gut“ im<br />

Sinne <strong>von</strong> Schulnoten ausgefallen, aber mit einer „sehr guten“ Beurteilung hätte <strong>die</strong>ser<br />

Nachteil noch geringer ausgefallen können. Möglicherweise wurde dadurch der durch <strong>die</strong><br />

notwendige <strong>Ein</strong>arbeitungszeit entstandene Nachteil etwas verstärkt. <strong>Ein</strong> weiterer Grund dafür,<br />

dass <strong>die</strong> Probanden der Kontrollgruppe mehr Anforderungen dokumentiert haben, könnte<br />

sein, dass <strong>die</strong> festgelegte Use Case Struktur <strong>die</strong> Probanden eingeschränkt hat. Tatsächlich hat<br />

sich in kurzen Nachgesprächen gezeigt, dass es für einige Probanden schwierig war, in Fast<br />

<strong>Feedback</strong> für alle Anforderungen das passende Feld zum <strong>Ein</strong>tragen zu finden. Dieses Problem<br />

könnte wiederum für <strong>die</strong> Notenabzüge in der Bewertung der Benutzbarkeit <strong>von</strong> Fast <strong>Feedback</strong><br />

verantwortlich sein. Es ist auch möglich, dass einige Abzüge in der Schulnote dadurch<br />

entstanden sind, dass sich einige Probanden bei der Benutzung <strong>von</strong> Fast <strong>Feedback</strong> zur<br />

Dokumentation <strong>von</strong> Anforderungen zu eingeschränkt gefühlt haben. Auch deshalb sollte das<br />

Ergebnis zu G1.3 unbedingt in das Fazit einfließen.<br />

G1.2.2 Erhöhe den Anteil der nicht-funktionalen dokumentierten Anforderungen pro<br />

Zeiteinheit in der Anforderungserhebung aus der Perspektive des<br />

Anforderungsingenieurs/Projektmanagers.<br />

Die Gesamtanzahl der dokumentierten Anforderungen bei den Probanden der Kontrollgruppe<br />

lag bei der Betrachtung des Mittelwerts je Gruppe höher als bei der <strong>Experiment</strong>gruppe. Bei<br />

denselben Probanden konnte jedoch bei Betrachtung des Mittelwerts <strong>über</strong> den Anteil nichtfunktionaler<br />

Anforderungen kein Unterschied festgestellt werden. Das entspricht den<br />

Erwartungen, <strong>die</strong> darauf gestützt waren, dass <strong>die</strong> Möglichkeit besteht, mit Fast <strong>Feedback</strong><br />

einen Demonstrations-Prototyp erstellen zu können. Bei der Darstellung der Ergebnisse<br />

konnte man sehen, dass zwar acht <strong>von</strong> neun Probanden der <strong>Experiment</strong>gruppe Mock-ups<br />

erstellt haben, allerdings wurde auch <strong>die</strong>ses Feature teilweise in einem nur sehr geringem<br />

Maße verwendet, woran wieder <strong>die</strong> knapp angelegte Anforderungserhebungszeit ihren Anteil<br />

haben mag. Man könnte sich aber auch vorstellen, dass den Kunden im ersten Gespräch<br />

vielleicht noch gar nicht wichtig ist, wie <strong>die</strong> Oberfläche der gewünschten Software genau<br />

aussehen soll. Es ist vielleicht interessanter, doch erstmal <strong>über</strong> konkrete Funktionen zu<br />

sprechen, als z.B. dar<strong>über</strong>, wo genau welches <strong>Ein</strong>gabefeld platziert werden soll. Es wäre<br />

sicherlich auch hier interessant, <strong>die</strong> <strong>Auswirkung</strong>en <strong>über</strong> eine längere


6 Analyse und Interpretation | 79<br />

Anforderungserhebungszeit oder sogar <strong>über</strong> zwei Anforderungsinterviews hinweg zu<br />

betrachten.<br />

G1.3 Untersuche <strong>die</strong> Benutzbarkeit <strong>von</strong> Werkzeugen (Word und Fast <strong>Feedback</strong>) in der<br />

Anforderungserhebung aus der Perspektive des Anforderungsingenieurs/Projektmanagers.<br />

Geprüft werden sollte <strong>die</strong> Hypothese, dass <strong>die</strong> Benutzbarkeit <strong>von</strong> Fast <strong>Feedback</strong> mindestens<br />

so gut ist, wie <strong>die</strong> <strong>von</strong> Word.<br />

Die dazu zunächst aufgestellte Vermutung, dass Fast <strong>Feedback</strong> im Hinblick auf <strong>die</strong><br />

Durchführung einer Anforderungserhebung mindestens genauso verständlich ist wie Word,<br />

kann bestätigt werden. Die Definition „Werkzeug verstanden“ enthielt als erste Bedingung <strong>die</strong><br />

Voraussetzung, dass <strong>die</strong> Probanden beider Gruppen maximal fünf Minuten verstreichen<br />

lassen, ehe sie das jeweilige Werkzeug zum <strong>Ein</strong>satz bringen. Nur ein Proband der<br />

<strong>Experiment</strong>gruppe ließ sich mehr (nämlich gut zehn Minuten) Zeit, ehe er Anforderungen mit<br />

Hilfe des Werkzeugs (Fast <strong>Feedback</strong>) dokumentierte. Allerdings stellen seine Ergebnisse<br />

nicht <strong>die</strong> eines statistischen Ausreißers dar, so dass man dem Probanden zugestehen kann,<br />

einfach mit einer anderen Zeiteinteilung innerhalb des vorgegebenen Zeitrahmens<br />

vorgegangen zu sein. Die zweite Bedingung, dass <strong>die</strong> vorher definierten Grundfunktionen mit<br />

Hilfe dokumentierter Anforderungen zu mindestens 40% berücksichtigt wurden, wurde<br />

ebenfalls <strong>von</strong> den Probanden beider Gruppen erfüllt. Die Features der Werkzeuge wurden<br />

allerdings nicht <strong>von</strong> allen Probanden gleichermaßen eingesetzt. Nimmt man zum Vergleich<br />

unter den Gruppen <strong>die</strong> Anzahl der erstellten Mock-ups, so erkennt man bei den Probanden der<br />

<strong>Experiment</strong>gruppe eine stärkere Variation als bei den Probanden der Kontrollgruppe. Das<br />

könnte beispielsweise daran liegen, dass einige Probanden der <strong>Experiment</strong>gruppe sich<br />

schneller in das für sie neue Werkzeug Fast <strong>Feedback</strong> einarbeiten konnten als <strong>die</strong> anderen und<br />

der Umgang mit Word im allgemeinen schon vertraut ist. Damit stellt auch wieder <strong>die</strong><br />

kalkulierte Anforderungserhebungszeit einen <strong>Ein</strong>fluss dar. Mit einem größeren Zeitrahmen<br />

hätte <strong>die</strong> Probanden der <strong>Experiment</strong>gruppe vielleicht alle eine Möglichkeit zur <strong>Ein</strong>arbeitung<br />

gehabt. Letztlich kann man also sagen, dass Fast <strong>Feedback</strong> zumindest so verständlich ist wie<br />

Word, aber durch seinen Unbekanntheitsfaktor eine längere <strong>Ein</strong>arbeitungszeit bezüglich der<br />

Verwendung in einer Anforderungserhebung erfordert.<br />

Des Weiteren sollte geprüft werden, ob sich der Anforderungsingenieur durch das jeweilige<br />

Werkzeug in seiner Anforderungserhebung unterstützt fühlt das heißt wie er den <strong>Ein</strong>satz des<br />

Werkzeugs im Rahmen einer Anforderungserhebung beurteilt. Die Be<strong>die</strong>nung betreffend<br />

wurde bei beiden Werkzeugen <strong>die</strong> Schulnote „2“ erwartet und genauso wurden <strong>die</strong><br />

Werkzeuge im Rahmen der Befragung auch beurteilt, wobei <strong>die</strong> Tendenz bei Fast <strong>Feedback</strong><br />

etwas besser ist wie ein Blick auf <strong>die</strong> Verteilungen der Zufallsvariablen gezeigt hat. Der<br />

Aufbau der Werkzeuge bezogen auf <strong>die</strong> Verwendung in einem Anforderungsinterview wurde<br />

im Vorfeld des <strong>Experiment</strong>s bei Fast <strong>Feedback</strong> besser (Schulnote „2“) als bei Word<br />

(Schulnote „4“) eingeschätzt. Der Unterschied stellt sich nun nicht ganz so deutlich dar,<br />

dennoch kann hier ein kleiner Vorteil für Fast <strong>Feedback</strong> verzeichnet werden. Betrachtet man<br />

<strong>die</strong> Beurteilung des Werkzeugs insgesamt, so kann zwischen den Werkzeugen wiederum kein<br />

wesentlicher Unterschied mehr festgestellt werden. Die Spanne zwischen der besten und der<br />

schlechtesten Beurteilung ist bei Fast <strong>Feedback</strong> wieder größer. Es lässt sich sagen, dass Fast<br />

<strong>Feedback</strong> zumindest nicht schlechter abgeschnitten hat als Word. Die Beurteilung der<br />

Werkzeuge bestätigt vielmehr <strong>die</strong> Theorie, dass einige Probanden mit der kurzen<br />

<strong>Ein</strong>arbeitungszeit zurechtgekommen sind und andere nicht. Letztere sind wahrscheinlich<br />

genau <strong>die</strong> Probanden, <strong>die</strong> <strong>die</strong> Benutzbarkeit weniger gut eingeschätzt haben.


6 Analyse und Interpretation | 80<br />

Insgesamt wurde das Werkzeug Fast <strong>Feedback</strong> ähnlich gut verstanden wie Word und <strong>die</strong><br />

Probanden fühlten sich größtenteilt unterstützt.<br />

6.2 Ergebnisaufbereitung durch Bewertung der Gültigkeit<br />

Das hier zugrundeliegende <strong>Experiment</strong> soll in Anlehnung an <strong>die</strong> Aufteilung der<br />

Validitätsarten nach [Woh+99] bewertet werden. Demnach gibt es <strong>die</strong> folgenden vier<br />

Validitätsarten in der <strong>Experiment</strong>planung: „conclusion validity“, „internal validity“, „external<br />

validity“ und „construct validity“. Sie sollen hier zunächst kurz mit Hilfe <strong>von</strong> repräsentativen<br />

Fragen beschrieben werden und dann als Grundlage für <strong>die</strong> abschließende Bewertung <strong>die</strong>nen.<br />

1. „Conclusion validity“ (Gültigkeit der Schlussfolgerungen):<br />

Besteht ein statistisch nachweisbarer Zusammenhang zwischen der unabhängigen und der<br />

abhängigen Variable? Ist der Unterschied signifikant?<br />

2. „Construct validity“ (Gültigkeit der Konstrukte):<br />

Sind <strong>die</strong> unabhängige und <strong>die</strong> abhängige Variable in zuverlässiger Weise messbar<br />

gemacht worden? Entspricht das im <strong>Experiment</strong> aufgestellte Konstrukt <strong>von</strong> unabhängiger<br />

und abhängiger Variable tatsächlich dem theoretisch zugrundeliegenden Konstrukt?<br />

3. „Internal validity“ (interne Gültigkeit):<br />

Lässt sich <strong>die</strong> Variation der abhängigen Variable auf <strong>die</strong> Variation in der unabhängigen<br />

Variable zurückführen? Gibt es Störvariablen, <strong>die</strong> für <strong>die</strong> Variation der abhängigen<br />

Variablen verantwortlich sein können?<br />

4. „External validity“ (externe Gültigkeit):<br />

Lässt sich das Ergebnis generalisieren (z.B. auf anderes Umfeld, andere Werkzeuge)?<br />

6.2.1 Bewertung der Schlussfolgerungen<br />

Keinem Ergebnis konnte eine statistische Signifikanz nachgewiesen werden. Der Effekt, der<br />

sich zu der Hypothese <strong>über</strong> <strong>die</strong> Erkennung <strong>von</strong> Fehlern zeigt, ist nicht groß genug, um eine<br />

Signifikanz schon mit einem kleinen Stichprobenumfang zu zeigen. Die Ergebnisse zu der<br />

Hypothese <strong>über</strong> <strong>die</strong> Anzahl <strong>von</strong> dokumentierten Anforderungen und das Verhältnis ihrer<br />

Klassen zeigen genau das Gegenteil <strong>von</strong> dem, was erwartet wurde, aber auch hier bleibt <strong>die</strong><br />

Prüfung auf Signifikanz ohne Erfolg. Letztendlich muss für ein signifikantes Resultat und<br />

eine höhere Gültigkeit der Ergebnisse der Stichprobenumfang vergrößert werden. Dies gilt<br />

zumindest dann, wenn <strong>die</strong> bisher gegebenen <strong>Experiment</strong>bedingungen erhalten bleiben. <strong>Ein</strong>e<br />

andere Möglichkeit, <strong>die</strong> statistische Signifikanz nachzuweisen, ist, alles daran zu setzen,<br />

potenzielle Störvariablen zu vermeiden, um den durch <strong>die</strong> Störvariablen möglicherweise<br />

„versteckten“ Effekt sichtbarer zu machen. Dazu können <strong>die</strong> aus <strong>die</strong>sem <strong>Experiment</strong><br />

gewonnenen Erfahrungen nützlich sein. Um was für Störvariablen es sich dabei handelt, soll<br />

im Kapitel <strong>über</strong> <strong>die</strong> interne Validität zusammengefasst werden.


6 Analyse und Interpretation | 81<br />

6.2.2 Bewertung des Konstrukts<br />

Beurteilt man nun den <strong>Ein</strong>fluss der Metriken auf <strong>die</strong> Ergebnisse, so entdeckt man auch dort<br />

eine Auffälligkeit. Man muss bei der Hypothese, wie sie aufgestellt wurde, da<strong>von</strong> ausgehen,<br />

dass auch tatsächlich Fehler gemacht werden, denn ansonsten könnte der<br />

Anforderungsingenieur mit Hilfe des jeweiligen Werkzeugs auch keine finden. Wie<br />

wahrscheinlich ist es also, dass keine Fehler gemacht werden? In einer<br />

Anforderungserhebung, wie in <strong>die</strong>sem <strong>Experiment</strong>, durchgeführt sind zwei Menschen<br />

beteiligt. Menschen machen Fehler und je komplexer der Kontext desto mehr Fehler werden<br />

gemacht. Die Entwicklung <strong>von</strong> Software an sich ist immer komplex, auch wenn an<br />

<strong>über</strong>schaubaren Szenarien gearbeitet wird. Die Möglichkeiten der Umsetzung sind vielfältig<br />

und <strong>die</strong> entsprechenden Anforderungen an <strong>die</strong> Software können ebenso vielfältig<br />

dokumentiert werden. Jeder Mensch bringt zudem andere Kenntnisse und seine eigene<br />

Persönlichkeit mit in das Gespräch zwischen Anforderungsingenieur und Kunde. Es ist also<br />

höchst unwahrscheinlich, dass keine Fehler gemacht werden, wie auch in den Ergebnissen zu<br />

der Hypothese <strong>über</strong> <strong>die</strong> Erkennung <strong>von</strong> Fehlern sichtbar wird. Hier liegt kein großes Risiko<br />

für <strong>die</strong> Gültigkeit der Ergebnisse vor. Allenfalls könnte man, um sicher zu gehen, wiederum<br />

einen größeren Stichprobenumfang wählen.<br />

Das Konstrukt des <strong>Experiment</strong>s entspricht dennoch nicht ganz dem theoretischen Konstrukt<br />

einer Anforderungserhebung. Im <strong>Experiment</strong> wurde <strong>die</strong> Variabilität des Kunden nicht<br />

berücksichtigt, um den möglichen Effekt des Werkzeugs deutlicher erkennen zu können. Nun<br />

muss man sich fragen, was <strong>die</strong> fehlende Variabilität des Kunden für <strong>Auswirkung</strong>en auf <strong>die</strong><br />

Ergebnisse haben könnte. Viele Kunden kennen sich im Bereich der Softwareentwicklung<br />

selbst nicht aus. Er lässt sich deshalb bei der Umsetzung seiner Wünsche <strong>von</strong> dem<br />

Anforderungsingenieur beraten. Der Anforderungsingenieur nimmt <strong>Ein</strong>fluss auf <strong>die</strong><br />

Gesprächsentwicklung und <strong>die</strong> vom Kunden zu treffenden Entscheidungen bzgl. der <strong>von</strong> ihm<br />

gewünschten Software. In umgekehrter Richtung ist ein <strong>Ein</strong>fluss <strong>die</strong>ser Stärke eher nicht<br />

gegeben. Der Kunde beschreibt dem Anforderungsingenieur, wie er sich <strong>die</strong> zu entwickelnde<br />

Software vorstellt. Das hat aber wahrscheinlich kaum <strong>Auswirkung</strong>en darauf, was der<br />

Anforderungsingenieur <strong>von</strong> den Informationen des Kunden für wichtig hält und welche er in<br />

Form <strong>von</strong> Anforderungen, Use Cases oder Mock-ups dokumentiert. Der Kunde ist zwar auch<br />

gefragt, was das Aufdecken <strong>von</strong> Fehlern angeht, nur ist er auch dabei wieder mehr auf den<br />

Anforderungsingenieur angewiesen als umgekehrt. Der Anforderungsingenieur muss dem<br />

Kunden erstmal dokumentierte Anforderungen zeigen, damit er als Kunde <strong>über</strong>haupt Fehler<br />

aufdecken kann, und das ist oft schon nicht gegeben. In <strong>die</strong>sem <strong>Experiment</strong> <strong>die</strong> Variabilität<br />

des Kunden nicht zu berücksichtigen, war in sofern <strong>die</strong> richtige Entscheidung, als dass der<br />

<strong>Ein</strong>fluss des Anforderungsingenieurs auf den Kunden letztendlich stärker einzuschätzen ist als<br />

umgekehrt, <strong>die</strong> Ergebnisse wahrscheinlich nur gering durch <strong>die</strong>se Entscheidung beeinflusst<br />

werden und es wichtiger war, den Effekt des Werkzeugs nicht durch Störvariablen zu<br />

bedecken.<br />

In <strong>die</strong>ser Arbeit wurde mehrfach <strong>die</strong> Annahme gemacht, dass eine Zufallsvariable<br />

normalverteilt ist. Für eine „Anzahl“ ist eine Annahme auf Normalverteilung streng<br />

mathematisch gesehen eigentlich nicht üblich, für Anwender (hier aus dem Bereich der<br />

Softwareentwicklung) aber trotzdem machbar. Die Annahmen auf Normalverteilung in <strong>die</strong>ser<br />

Arbeit wurden mit Hilfe des Kolmogoroff-Smirnov-Anpassungstests in „R“<br />

(Statistikprogramm) abgeschätzt. Es konnten keine wesentlichen Abweichungen <strong>von</strong> der<br />

Normalverteilung festgestellt werden, so dass hier vermutlich nur ein geringes Risiko für <strong>die</strong>


6 Analyse und Interpretation | 82<br />

Gültigkeit der Ergebnisse besteht. Trotzdem gibt es sicherlich andere Möglichkeiten als <strong>die</strong>,<br />

eine „Anzahl“ als normalverteilt anzunehmen, <strong>die</strong> aber nicht Teil <strong>die</strong>ser Arbeit sein sollen.<br />

6.2.3 Bewertung der internen Validität<br />

In <strong>die</strong>ser Arbeit war es ein Anliegen, möglichst nur <strong>die</strong> eine unabhängige Variable<br />

„Werkzeug“ zuzulassen. Alle anderen unabhängigen Variablen könnten sich als Störvariablen<br />

herausstellen und <strong>die</strong> Gültigkeit der Ergebnisse negativ beeinflussen. Es soll nun aufgezeigt<br />

werden, in wie weit es geglückt ist, den <strong>Ein</strong>fluss <strong>von</strong> Störvariablen zu minimieren.<br />

Als erstes soll <strong>die</strong> Doppelrolle <strong>Experiment</strong>leiterin/Kundin betrachtet werden. Die Kundin<br />

hatte (<strong>die</strong> Ziele der <strong>Experiment</strong>leiterin im Hinterkopf) <strong>die</strong> Möglichkeit, mit ihren Antworten<br />

und (Re-)Aktionen das Gespräch in einem gewissen Maße zu lenken. Diesem Rollenkonflikt<br />

wurde entgegengewirkt, indem für <strong>die</strong> Kundin ein Drehbuch und somit bestimmte<br />

Verhaltensregeln im Vorfeld des <strong>Experiment</strong>s erstellt wurden. Letztendlich hat das Drehbuch<br />

seinen Nutzen zufriedenstellend erfüllt, so dass <strong>die</strong> Doppelrolle an sich kein Risiko für <strong>die</strong><br />

Gültigkeit der Ergebnisse darstellt.<br />

Schaut man aber separat auf <strong>die</strong> Rolle der Kundin, so kann man schon sagen, dass <strong>die</strong> ersten<br />

<strong>Experiment</strong>e trotz Drehbuch noch einer gewissen Unsicherheit unterlagen. Die Kundin hat<br />

sich zwar an definierte Richtlinien halten können, allerdings gehört auch grundsätzlichen zum<br />

Simulieren <strong>von</strong> Szenarien etwas Übung. Es entstand also in den ersten <strong>Experiment</strong>en ein<br />

Lerneffekt bei der Kundin, das heißt sie übte sich sozusagen in ihrer Rolle. Um dem <strong>Ein</strong>fluss<br />

<strong>die</strong>ser Störvariablen entgegenzuwirken sollten gegebenenfalls <strong>die</strong> ersten (beispielsweise vier)<br />

<strong>Experiment</strong>e verworfen werden. Dies war hier aufgrund des ohnehin schon sehr geringen<br />

Stichprobenumfangs nicht möglich. Dennoch sind <strong>die</strong> <strong>Auswirkung</strong>en eines Lerneffekts<br />

<strong>über</strong>schaubar. Die Antworten der Kundin auf Fragen des Anforderungsingenieurs wurden<br />

innerhalb der ersten <strong>Experiment</strong>e bezogen auf <strong>die</strong> gewünschte Software (Beispiel „SE-<br />

Bibliothek“) etwas gezielter und <strong>die</strong> Kundin bekam auch ein besseres Gefühl dafür, welche<br />

Fragen sie als Kundin, <strong>die</strong> in ihrer Rolle nicht aus dem Fachbereich der Informatik stammt,<br />

beantworten kann und welche so fachspezifisch sind, dass sie, wie im Drehbuch definiert,<br />

Rückfragen an den Anforderungsingenieur stellt. Es handelt sich also bei dem möglichen<br />

Lerneffekt der Kundin um ein eher kleines Risiko für <strong>die</strong> Ergebnisse <strong>die</strong>ser Arbeit.<br />

Für <strong>die</strong> Rolle der <strong>Experiment</strong>leiterin bestand <strong>die</strong> Gefahr, <strong>die</strong> Klassifizierung so<br />

durchzuführen, dass <strong>die</strong> Wiederholbarkeit des <strong>Experiment</strong>s nicht gegeben sein könnte. Die<br />

Art der Klassifizierung wurde aber im Vorfeld wieder genau festgelegt, um mögliche<br />

Abweichungen zwischen den <strong>von</strong> unterschiedlichen Personen durchgeführten<br />

Klassifizierungen zu vermeiden. Um <strong>die</strong> Robustheit der entsprechenden Definitionen<br />

gegen<strong>über</strong> anderen klassifizierenden Personen und damit <strong>die</strong> Wiederholbarkeit des<br />

<strong>Experiment</strong>s zu prüfen, wurde aus jeder Gruppe eine Anforderungserhebung zufällig<br />

herausgesucht und noch <strong>von</strong> einer zweiten Person ausgewertet. Die Auswertung beinhaltete<br />

wieder das Herausschreiben der Anforderungen anhand der vorhandenen Ton- und<br />

Bildschirmaufzeichnungen, das Aufteilen und das Klassifizieren der Anforderungen. Die<br />

Ergebnisse der Erstauswertung und der Kontrollauswertung liegen dabei nah beieinander. Nur<br />

bei der Klassifizierung in funktionale und nicht-funktionale Anforderungen zeigen sich<br />

auffällige Unterschiede (vgl. Abb.29).


6 Analyse und Interpretation | 83<br />

Abbildung 29: Prüfung der Anforderungs-Definitionen auf Robustheit<br />

Die entsprechenden Definitionen für funktionale und nicht-funktionale Anforderungen<br />

entstammen im Gegensatz zu den anderen Anforderungs-Definitionen, <strong>die</strong> erst im Rahmen<br />

<strong>die</strong>ser Arbeit aufgestellt wurden, der Literatur. Vermutlich hätten sie im Rahmen <strong>die</strong>ser<br />

Arbeit noch etwas spezifischer formuliert werden müssen, da Klassifizierung in funktional<br />

oder nicht-funktional in der Softwareentwicklung ohnehin schon als schwierig und nicht<br />

immer eindeutig gilt. Da <strong>die</strong> Abweichung bei der Anzahl der nicht-funktionalen<br />

Anforderungen zwischen den Erfassern bei beiden Proben ähnlich ausfällt, kann man<br />

vermuten, dass der Kontrollerfasser, hätte er alle Anforderungserhebungen ausgewertet, zu<br />

einem vergleichbaren Ergebnis gekommen wäre wie <strong>die</strong> Erfasserin der in <strong>die</strong>ser Arbeit<br />

vorgestellten Ergebnisse. Vergleichbare Ergebnisse können deshalb angenommen werden,<br />

weil gleichmäßige Abweichungen bei der Auswertung jedes Probanden am betrachteten<br />

Verhältnis <strong>von</strong> funktionalen zu nicht-funktionalen Anforderungen nichts geändert hätten.<br />

Nun soll auch noch <strong>die</strong> Rolle des Anforderungsingenieurs beleuchtet werden. Die Probanden<br />

<strong>die</strong>ses <strong>Experiment</strong>s bringen ganz ähnliche Voraussetzungen mit, denn darauf wurde bei der<br />

Auswahl geachtet. Alle stammen aus dem universitären Umfeld und haben insbesondere<br />

einen durch ihren Stu<strong>die</strong>ngang bedingten Bezug zum Fachbereich Software Engineering.<br />

Nichts desto trotz gibt es Voraussetzungen, <strong>die</strong> sich nur schwer kontrollieren lassen. Dazu<br />

gehört beispielsweise, wie schnell sich ein Proband in das ungewohnte <strong>Experiment</strong>umfeld und<br />

natürlich in das unbekannte Werkzeug Fast <strong>Feedback</strong> einarbeiten kann. Das wiederum hängt<br />

entschieden da<strong>von</strong> ab, wie <strong>die</strong> Benutzbarkeit des Werkzeugs zu beurteilen ist. In <strong>die</strong>sem<br />

<strong>Experiment</strong> hat das Werkzeug ausreichend gut abgeschnitten, um den <strong>Ein</strong>fluss auf <strong>die</strong><br />

anderen Ziele als gering einstufen zu können. Allerdings basieren <strong>die</strong> Erkenntnisse zu der<br />

Benutzbarkeit des Werkzeugs auf persönlichen Erfahrungen und <strong>Ein</strong>schätzungen weniger<br />

Probanden, weshalb ein <strong>Ein</strong>fluss auch nicht völlig ausgeschlossen werden kann.<br />

Blickt man nun <strong>von</strong> den an dem <strong>Experiment</strong> beteiligten Personen r<strong>über</strong> zu dem Gerüst des<br />

<strong>Experiment</strong>s, so war es rückblickend gut für <strong>die</strong> Gültigkeit der Ergebnisse, dass <strong>die</strong> Art der<br />

Hilfsmittel in beiden Gruppen so identisch wie möglich gehalten wurden. Beide Gruppen<br />

hatten <strong>die</strong> gleiche Technik, nämlich den Tablet-PC zur Verfügung. Jeder Proband<br />

dokumentierte <strong>die</strong> erhobenen Anforderungen in elektronischer Form. Allerdings hätte <strong>die</strong><br />

Tastatur zum Schreiben nicht als Alternative zur automatischen Schrifterkennung freigestellt,<br />

sondern zur einzigen Möglichkeit erklärt werden sollen. Hier wurde nicht berücksichtigt, dass<br />

sich <strong>die</strong> Probanden der <strong>Experiment</strong>gruppe gegebenenfalls in zweifacher Weise einarbeiten<br />

müssen – in <strong>die</strong> automatische Schrifterkennung und Fast <strong>Feedback</strong>. Da sich allerdings nicht<br />

viele Probanden ausschließlich an der automatischen Schrifterkennung versucht haben, bleibt<br />

der <strong>Ein</strong>fluss auf <strong>die</strong> Gültigkeit der Ergebnisse, wenn auch vorhanden, gering.


6 Analyse und Interpretation | 84<br />

6.2.4 Externe Validität<br />

Bei Beurteilung der externen Validität stellt sich einerseits <strong>die</strong> Frage, ob sich <strong>die</strong> in <strong>die</strong>ser<br />

Arbeit beobachteten <strong>Auswirkung</strong>en <strong>von</strong> Fast <strong>Feedback</strong> in der Anforderungserhebung auf<br />

andere Werkzeuge <strong>über</strong>tragen lassen, und andererseits, ob sich das universitäre Umfeld auf<br />

ein reales <strong>über</strong>tragen lässt.<br />

Werkzeuge zur Verbesserung der Anforderungserhebung haben alle unterschiedliche<br />

Eigenschaften und Ziele, aber sie lassen sich in Kategorien einteilen. Fast <strong>Feedback</strong> soll<br />

vorrangig <strong>die</strong> Vali<strong>die</strong>rung zu einem frühen Zeitpunkt der Anforderungserhebung möglich<br />

machen, indem <strong>die</strong> Fehlererkennung erleichtert wird. Außerdem soll das Werkzeug dem<br />

Anforderungsingenieur helfen, mehr Informationen dadurch zu bekommen, dass es dem<br />

Kunden möglich gemacht wird, genauere Vorstellungen zu dem gewünschten Produkt zu<br />

entwickeln. Das sind ganz typische Ziele für <strong>die</strong> Verbesserung <strong>von</strong> Anforderungserhebungen.<br />

Deshalb gibt es dort ein breites Spektrum an erfolgversprechenden Werkzeugen. Der in<br />

Kapitel 2.1.2.1 vorgestellte Vision Catcher gehört beispielsweise auch dazu. Diese<br />

Werkzeuge zielen auf eine ähnliche Art der Verbesserung ab und gehören deshalb einer<br />

Kategorie an. Das Prinzip <strong>die</strong>ser Werkzeuge ist dann meist auch ganz ähnlich. Fast <strong>Feedback</strong><br />

und Vision Catcher arbeiten etwa beide mit einem Demonstrationsprototyp, wenn <strong>die</strong>ser auch<br />

anders umgesetzt wurde. Die Erkenntnisse <strong>die</strong>ser Arbeit lassen sich gewiss auf Werkzeuge<br />

der gleichen Kategorie <strong>über</strong>tragen. Wenn der Demonstrationsprototyp, wie auch immer er<br />

umgesetzt wurde, in Fast <strong>Feedback</strong> <strong>die</strong> Anforderungserhebung verbessert, dann wird es mit<br />

großer Wahrscheinlichkeit auch der im Vision Catcher - natürlich immer eine ausreichend<br />

hohe Benutzbarkeit vorausgesetzt. Allerdings sagen <strong>die</strong> Ergebnisse <strong>die</strong>ser Arbeit nichts <strong>über</strong><br />

Werkzeuge aus, <strong>die</strong> eine Anforderungserhebung unter ganz anderen Aspekten verbessern<br />

sollen das heißt <strong>die</strong> einer anderen Kategorie angehören.<br />

Ob sich <strong>die</strong> Ergebnisse aus dem universitären auch in ein reales Umfeld <strong>über</strong>tragen lassen, hat<br />

ganz explizit das <strong>Experiment</strong> im industriellen Umfeld gezeigt. Dies soll nun vor dem<br />

abschließenden Fazit noch im nächsten Kapitel vorgestellt werden. Dort wird dann auch<br />

abschließend Stellung zur Übertragbarkeit der Ergebnisse in ein industrielles Umfeld<br />

genommen.<br />

6.3 Ergebnisse aus dem industriellen Umfeld<br />

Vorweg sei gesagt, dass der Umfang der aus dem industriellen Umfeld gezogenen Stichprobe<br />

mit einer Anzahl <strong>von</strong> sechs Probanden für <strong>die</strong> <strong>Experiment</strong>- und vier Probanden für <strong>die</strong><br />

Kontrollgruppe sehr gering ist. Deshalb soll mit den hier vorgestellten Ergebnissen zunächst<br />

lediglich eine <strong>Ein</strong>schätzung dar<strong>über</strong> abgegeben werden, ob <strong>die</strong> zuvor aus dem universitären<br />

Umfeld eventuell auf ein industrielles Umfeld <strong>über</strong>tragbar sind. Fällt <strong>die</strong> <strong>Ein</strong>schätzung so aus,<br />

dass eine Übertragbarkeit denkbar ist, so kann dann noch entschieden werden, ob es Sinn<br />

macht, <strong>die</strong> Stichproben aus den beiden verschiedenen Bereichen zu einer Stichprobe<br />

zusammenzufügen und auf <strong>die</strong>se Stichprobe wieder <strong>die</strong> statistischen Tests zur Prüfung der<br />

Signifikanz der Ergebnisse anzuwenden.<br />

Zunächst soll <strong>die</strong> Frage nach einer verbesserten Fehlererkennung mit der Verwendung Fast<br />

<strong>Feedback</strong> betrachtet werden. Die Ergebnisse der im industriellen Umfeld durchgeführten<br />

Anforderungserhebungen weisen einen Unterschied zu den Ergebnissen der im universitären<br />

Umfeld durchgeführten Anforderungserhebungen auf. Im industriellen Umfeld hat nur ein<br />

Proband der <strong>Experiment</strong>gruppe einen Fehler erkannt, <strong>die</strong> übrigen Probanden <strong>die</strong>ser Gruppe


6 Analyse und Interpretation | 85<br />

haben keinen Fehler erkannt. <strong>Ein</strong> Proband der Kontrollgruppe hat zwei Fehler erkannt und<br />

alle anderen Probanden <strong>die</strong>ser Gruppe haben wiederum keinen Fehler aufgedeckt (vgl.<br />

Abb.30).<br />

Abbildung 30: Häufigkeit, mit der eine bestimmte Anzahl <strong>von</strong> Fehlern erkannt wurde (Industrie)<br />

Vergleicht man <strong>die</strong> Ergebnisse aus dem universitären und dem industriellen Umfeld<br />

miteinander, so stellt man fest, dass im universitären Umfeld <strong>die</strong> <strong>Experiment</strong>gruppe 80% der<br />

<strong>von</strong> <strong>die</strong>ser Stichprobe insgesamt erkannten Fehler aufgedeckt hat, <strong>die</strong> <strong>Experiment</strong>gruppe aus<br />

dem industriellen Umfeld aber nur 33% (vgl. Abb.31). Das heißt, im universitären Umfeld hat<br />

<strong>die</strong> <strong>Experiment</strong>gruppe <strong>die</strong> meisten Fehler erkannt, aber im industriellen Umfeld war es <strong>die</strong><br />

Kontrollgruppe.<br />

Abbildung 31: Verhältnis zwischen den Gruppen eines Umfelds bzgl. der Anzahl der erkannten Fehler<br />

Natürlich muss man berücksichtigen, dass <strong>die</strong> 33% der <strong>Experiment</strong>gruppe aus dem<br />

industriellen Umfeld aus einer Gesamtanzahl <strong>von</strong> nur drei erkannten Fehlern resultieren, aber<br />

dennoch ist hier einfach nicht <strong>die</strong> gleiche Tendenz bzgl. einer möglichen Verbesserung der<br />

Fehlererkennung durch Fast <strong>Feedback</strong> erkennbar. Aus <strong>die</strong>sem Grund wird bei <strong>die</strong>ser<br />

Fragestellung da<strong>von</strong> abgesehen, <strong>die</strong> Stichproben der unterschiedlichen Bereiche zu einer<br />

Stichprobe zusammenzufügen.<br />

Nun soll <strong>die</strong> Anzahl der dokumentierten Anforderungen der Stichprobe aus dem industriellen<br />

Umfeld untersucht werden. Wieder wird der Mittelwert <strong>über</strong> <strong>die</strong> jeweilige Art der<br />

Anforderungen betrachtet. Die Probanden der Kontrollgruppe haben mehr Anforderungen in


6 Analyse und Interpretation | 86<br />

Text und auch mehr insgesamt dokumentiert (vgl. Abb.32). Dabei haben sie aber auch nicht<br />

wesentlich weniger Anforderungen in Mock-ups dokumentiert als <strong>die</strong> <strong>Experiment</strong>gruppe.<br />

Man würde auf den ersten Blick sogar sagen, dass beide Gruppen sehr wenige Anforderungen<br />

in Mock-ups dokumentiert haben.<br />

Abbildung 32: Mittelwerte <strong>über</strong> <strong>die</strong> Anzahl dokumentierter Anforderungen je Gruppe (Industrie)<br />

Gemessen an der Gesamtanzahl der dokumentierten Anforderungen sieht es aber etwas anders<br />

aus. Die <strong>Experiment</strong>gruppe hat 27% der Anforderungen in Mock-ups dokumentiert, <strong>die</strong><br />

Kontrollgruppe dagegen nur 4%. Dabei wurden <strong>die</strong> doppelt dokumentierten Anforderungen<br />

der <strong>Experiment</strong>gruppe nicht berücksichtigt. Das ist der einzige wesentliche Unterschied, der<br />

sich im Vergleich zu den Ergebnissen der Stichprobe aus dem universitären Umfeld zeigt. Bei<br />

einem Vergleich der beiden Stichproben aus den unterschiedlichen Bereichen Universität und<br />

Industrie zeigt sich bezogen auf <strong>die</strong> in Text und insgesamt dokumentierten Anforderungen<br />

sonst ein ganz ähnliches Bild (vgl. Abb.33).<br />

Abbildung 33: Anzahl der dokumentierten Anforderungen je Stichprobe und Gruppe<br />

Bezogen auf <strong>die</strong> Fragestellung, ob mit Fast <strong>Feedback</strong> mehr Anforderungen dokumentiert<br />

werden, könnte man sicherlich <strong>über</strong>legen, <strong>die</strong> beiden Stichproben aus den unterschiedlichen


€<br />

€<br />

€<br />

€<br />

6 Analyse und Interpretation | 87<br />

Bereichen zu einer Stichprobe zusammenzufassen und <strong>die</strong> Gültigkeit der Aussage durch<br />

Anwenden eines statistischen Tests erneut abschätzen.<br />

Sei X <strong>die</strong> Zufallsvariable mit Werten x1 ,..., x11 , <strong>die</strong> jeder Anforderungserhebung der<br />

Kontrollgruppe (jetzt Universität und Industrie) eine Anzahl <strong>von</strong> dokumentierten<br />

Anforderungen zuordnet, und Y <strong>die</strong> Zufallsvariable mit Werten y1 ,...,y15 , <strong>die</strong> jeder<br />

Anforderungserhebung der <strong>Experiment</strong>gruppe (jetzt Universität und Industrie) eine Anzahl<br />

€<br />

<strong>von</strong> dokumentierten Anforderungen zuordnet. Es wird weiter angenommen, dass <strong>die</strong><br />

Zufallsvariablen X und Y normalverteilt sind. Seien µ x ,µ y ∈ unbekannte Erwartungswerte.<br />

€<br />

Die Nullhypothese H0,2a : µ = µ 0 soll gegen <strong>die</strong> Alternativhypothese H1,2a : µ ≠ µ 0 getestet<br />

werden. Die Mittelwerte sind x = 30,18 und y =16,53. Die Stichprobenvarianzen sind<br />

2 2<br />

sx = 73,16 und sy = 78,98. Die gewichtete € Varianz ist dann<br />

€<br />

s<br />

€<br />

€<br />

€<br />

€<br />

2 = 11−1 ( )⋅ 73,16 + ( 15 −1)⋅<br />

78,98<br />

= 76,56.<br />

11+15 − 2<br />

Für <strong>die</strong> Prüfgröße t ergibt sich dann<br />

t =<br />

11⋅ 15 30,18 −16,53<br />

⋅ = 2,519⋅ 1,56 = 3,930.<br />

11+15 8,750<br />

kann zum Signifikanzniveau verworfen werden, da der Wert für<br />

größer ist als das 0,975-Quantil der t-Verteilung mit 11+15 − 2 = 24 Freiheitsgraden:<br />

t = 3,930 > 2,064 = t( 24; 0,975).<br />

€<br />

€<br />

Legt man <strong>die</strong> Kontroll- und <strong>Experiment</strong>gruppe der Stichproben aus den verschiedenen<br />

Bereichen Universität und Industrie jeweils zusammen und testet, ob es bzgl. der insgesamt<br />

(in Text und in Mock-ups) dokumentierten Anforderungen einen Unterschied zwischen den<br />

Gruppen gibt, dann kann man durch <strong>die</strong> Anwendung des zweiseitigen Zweistichproben-t-<br />

Tests <strong>die</strong> Hypothese, dass es einen Unterschied gibt, stützen. Es ist anzunehmen, dass man<br />

mit Word mehr Anforderungen dokumentiert als mit Fast <strong>Feedback</strong>.<br />

Schaut man nun auf das Verhältnis <strong>von</strong> funktionalen zu nicht-funktionalen dokumentierten<br />

Anforderungen innerhalb der Ergebnisse aus der Industrie und vergleicht sie mit denen aus<br />

dem universitären Umfeld, dann zeigen sich auch dabei ganz ähnliche Ergebnisse.<br />

Abbildung 34: Verhältnis funktionaler zu nicht-funktionaler Anforderungen (Industrie)<br />

t


6 Analyse und Interpretation | 88<br />

Auch hier wäre <strong>die</strong> erneute Anwendung eines statischen Tests auf <strong>die</strong> zusammengefasste<br />

Stichprobe sicherlich möglich und sinnvoll. Da allerdings kein Unterschied zwischen den<br />

Ergebnissen der beiden Gruppen zu erwarten ist, den man mit einem statistischen Test<br />

unterstreichen wollen würde, soll hier auf <strong>die</strong> Anwendung verzichtet werden.<br />

Zuletzt sollen <strong>die</strong> Ergebnisse zu der Frage der Benutzbarkeit <strong>von</strong> Fast <strong>Feedback</strong><br />

zusammengetragen werden. Wieder kann man erkennen, dass nicht alle Features genutzt<br />

wurden. Nur ein Proband der <strong>Experiment</strong>gruppe hat <strong>über</strong>haupt Use Cases untereinander<br />

verknüpft. Seine (zwei) Verknüpfungen fallen bei Betrachtung des Mittelwerts <strong>über</strong> alle sechs<br />

Probanden <strong>die</strong>ser Gruppe aber nicht ins Gewicht, so dass hier durchschnittlich null Use Cases<br />

miteinander verknüpft wurden. Tatsächlich hat aus <strong>die</strong>ser <strong>Experiment</strong>gruppe kein Proband<br />

einen Demonstrations-Prototyp gezeigt (vgl. Abb.35).<br />

Abbildung 35: Häufigkeit, mit der Features durchschnittlich eingesetzt wurden (Industrie)<br />

Es soll nun gezeigt werden, wie <strong>die</strong> Probanden aus dem industriellen Umfeld Word und Fast<br />

<strong>Feedback</strong> als Werkzeug in der Anforderungserhebung mit Hilfe <strong>von</strong> Schulnoten (vgl. Tab.8)<br />

bewertet haben. Die Beurteilung für Fast <strong>Feedback</strong> ist ganz ähnlich der, <strong>die</strong> sich schon bei der<br />

Betrachtung der Ergebnisse aus dem universitären Umfeld gezeigt hat (vgl. Tab.9/10 und Tab.<br />

13/14). Die Be<strong>die</strong>nung <strong>von</strong> Word schneidet bei den Probanden aus der Industrie zwar besser<br />

ab, der Aufbau <strong>von</strong> Word und Word insgesamt schneiden für den <strong>Ein</strong>satz in einer<br />

Anforderungserhebung jedoch schlechter ab als bei den Probanden der Universität. In beiden<br />

Tabellen wurden sowohl <strong>die</strong> auf volle Noten gerundeten als auch <strong>die</strong> auf eine Dezimalstelle<br />

genau berechneten Werte dargestellt.<br />

Werkzeug<br />

Beurteilung<br />

Word Fast <strong>Feedback</strong><br />

Be<strong>die</strong>nung 2 (1,8) 2 (2,3)<br />

Aufbau 3 (3,0) 2 (2,0)<br />

insgesamt 3 (3,0) 2 (2,0)<br />

Tabelle 13: Bewertung der Werkzeuge in Schulnoten per Mittelwert (Industrie)


6 Analyse und Interpretation | 89<br />

Werkzeug<br />

Beurteilung<br />

Word Fast <strong>Feedback</strong><br />

Be<strong>die</strong>nung 1 (1,0) 2 (2,0)<br />

Aufbau 3 (2,5) 2 (2,0)<br />

insgesamt 3 (2,5) 2 (2,0)<br />

Tabelle 14: Bewertung der Werkzeuge in Schulnoten per Median (Industrie)<br />

Letztendlich kann man sagen, dass <strong>die</strong> Be<strong>die</strong>nung <strong>von</strong> Fast <strong>Feedback</strong> im Hinblick auf den<br />

<strong>Ein</strong>satz des Werkzeugs in einer Anforderungserhebung zwar schlechter scheint als <strong>die</strong> <strong>von</strong><br />

Word, das Werkzeug aber trotzdem in allen Bereichen für „gut“ im Sinne einer Schulnote<br />

beurteilt wurde.<br />

Der Vergleich der Anforderungserhebungen aus den Bereichen der Industrie und der<br />

Universität zeigt, dass es Unterschiede bzgl. der Anzahl erkannten Fehler gibt. Dass in der<br />

Industrie weniger Fehler erkannt werden, kann eventuell damit zusammenhängen, dass <strong>die</strong><br />

Anforderungsingenieure der Industrie durch ihre Berufserfahrung weniger Fehler machen.<br />

Fehler <strong>die</strong> nicht gemacht werden, können auch nicht erkannt werden. Dieses mögliche<br />

Problem wurde ja schon in Kapitel 6.2 bei der Bewertung der Metriken diskutiert. Bei der<br />

Stichprobe aus dem universitären Umfeld schien das kein Problem zu sein, aber eventuell ist<br />

es das in der Industrie. Diese Frage kann hier nicht abschließend geklärt werden.<br />

Naheliegender ist aber, dass ganz einfach der Umfang der Stichprobe aus der Industrie zu<br />

klein ist. Obwohl der Umfang der Stichprobe aus dem universitären etwas größer ist, reicht<br />

der schon nicht aus, um eine Signifikanz der zugehörigen Ergebnisse zeigen zu können. Da<br />

<strong>die</strong> beiden Stichproben aber auch unterschiedliche Tendenzen bzgl. Ihrer Ergebnisse<br />

aufweisen, können sie auch nicht zusammengelegt werden. Vergleicht man <strong>die</strong><br />

Anforderungserhebungen aus den Bereichen der Industrie und der Universität bzgl. der<br />

Anzahl der dokumentierten Anforderungen, so stellt man fest, dass <strong>die</strong> Ergebnisse ähnlich<br />

sind. Das Zusammenlegen der Stichproben und <strong>die</strong> erneute Anwendung des zweiseitigen<br />

Zweistichproben-t-Tests auf <strong>die</strong> zusammengelegt Stichprobe zeigte, dass mit Word mehr<br />

Anforderungen dokumentiert wurden. Das spricht dafür, dass <strong>die</strong> eingeschränkte<br />

Anforderungserhebungszeit sich auch hier ausgewirkt hat. Kostbare Zeit zum Dokumentieren<br />

<strong>von</strong> Anforderungen ging wahrscheinlich dadurch verloren, dass <strong>die</strong> Probanden sich in das<br />

Werkzeug Fast <strong>Feedback</strong> erst einarbeiten mussten. Dass <strong>die</strong> Bewertung für Fast <strong>Feedback</strong><br />

trotzdem gut ausgefallen ist, kann darin begründet liegen, dass das Problem, sich in das<br />

Werkzeug einarbeiten zu müssen, bei einer Anwendung des Werkzeugs außerhalb <strong>die</strong>ses<br />

<strong>Experiment</strong>s nicht bestehen würde. Natürlich würde sich jeder Anforderungsingenieur schon<br />

im Vorfeld einer Anforderungserhebung ausreichend mit den Funktionen des Werkzeugs<br />

vertraut machen. Niemand würde unvorbereitet das Werkzeug anwenden.<br />

Mit den Ergebnissen aus dem industriellen Umfeld lässt sich den Ergebnissen aus dem<br />

universitären Umfeld schon eine gewisse Übertragbarkeit zusprechen. Diese Aussage muss<br />

gegebenenfalls deshalb eingeschränkt werden, weil <strong>die</strong> Erfahrung des<br />

Anforderungsingenieurs <strong>Ein</strong>fluss auf <strong>die</strong> Qualität einer Anforderungserhebung haben kann<br />

und dabei ist es wahrscheinlich unerheblich, ob <strong>die</strong>se mit oder ohne <strong>die</strong> Hilfe eines<br />

Werkzeugs durchgeführt wurde. Die Erfahrung im Bereich Anforderungserhebung, <strong>die</strong> jeder<br />

Proband mitbringt, kann als Störvariable ausschlaggebend dafür sein, dass der Effekt des<br />

Werkzeugs <strong>über</strong>deckt wird.


6 Analyse und Interpretation | 90<br />

6.4 Fazit und Ausblick<br />

In <strong>die</strong>sem Kapitel soll abschließend zusammengefasst werden, wie <strong>die</strong> Zweck<strong>die</strong>nlichkeit <strong>von</strong><br />

Fast <strong>Feedback</strong> mit den Ergebnissen des durchgeführten <strong>Experiment</strong>s einzuschätzen ist, was<br />

für Erkenntnisse <strong>über</strong> das Evaluieren <strong>von</strong> Werkzeugen gewonnen werden konnten und was<br />

für Fragestellungen sich aus dem in <strong>die</strong>ser Arbeit durchgeführten <strong>Experiment</strong> für zukünftige<br />

Projekte ergeben haben.<br />

Das Werkzeug Fast <strong>Feedback</strong> hat den <strong>über</strong>geordneten Zweck, als Anforderungsingenieur<br />

schon im ersten Kundengespräch möglichst viele korrekte Informationen vom Kunden in<br />

Form <strong>von</strong> dokumentierten Anforderungen zu bekommen. <strong>Ein</strong>e Tendenz, dass das Werkzeug<br />

Fast <strong>Feedback</strong> genau <strong>die</strong> dafür erforderlichen Eigenschaften mitbringt, lässt sich nach<br />

Betrachtung der Ergebnisse zwar durchaus erkennen, allerdings konnten <strong>die</strong> gewonnen<br />

Erkenntnisse nicht alle mit den Hilfsmitteln der Mathematik bestärkt werden. Die Funktionen<br />

<strong>von</strong> Fast <strong>Feedback</strong> sind zwar insofern zweckmäßig, als dass das Werkzeug den<br />

Anforderungsingenieur bei der Verbesserung der Fehlererkennung wie erwartet unterstützen<br />

kann, um späte und teure Änderungen der zu entwickelnden Software zu vermeiden, aber ein<br />

signifikanter Unterschied zu dem in der Anforderungserhebung und dar<strong>über</strong> hinaus weit<br />

verbreiteten aber unspezialisierten Werkzeug Word konnte nicht festgestellt werden. <strong>Ein</strong>e<br />

Verbesserung bei der Dokumentation <strong>von</strong> Anforderungen zur Reduzierung der Termine bis<br />

zur Vervollständigung der Anforderungserhebung, um <strong>die</strong> Anforderungserhebungsphase<br />

insgesamt zu verkürzen, konnte mit der Verwendung <strong>von</strong> Fast <strong>Feedback</strong> gar nicht festgestellt<br />

werden. Es ist anzunehmen, dass einige Unregelmäßigkeiten im <strong>Experiment</strong>aufbau dazu<br />

geführt haben, dass <strong>die</strong> Vorteile <strong>von</strong> Fast <strong>Feedback</strong> nicht in ihrem ganzen Umfang<br />

ausgeschöpft werden konnten. Außerdem wird vermutet, dass der Effekt, der durch den<br />

<strong>Ein</strong>satz <strong>von</strong> Fast <strong>Feedback</strong> in der Anforderungserhebung erwartet wurde, durch einige geringe<br />

<strong>Ein</strong>flüsse, <strong>die</strong> sich aber in der Summe doch bemerkbar gemacht haben, teilweise <strong>über</strong>deckt<br />

wurde.<br />

Mit dem durchgeführten <strong>Experiment</strong> sind einige Aspekte klar geworden, <strong>die</strong> beim<br />

grundsätzlichen Evaluieren <strong>von</strong> Werkzeugen zur Unterstützung der Anforderungserhebung<br />

berücksichtigt werden sollten. Da verschiedene Personen an einer Anforderungserhebung<br />

beteiligt sind, <strong>die</strong> alle ihre persönlichen (Re-)Aktionseigenschaften mit sich bringen, ist es<br />

schwierig, alle <strong>Ein</strong>flüsse zu kontrollieren, um den möglichen Effekt des Werkzeugs auch<br />

tatsächlich erkennen zu können. Aber gerade <strong>die</strong> <strong>Ein</strong>flüsse, <strong>die</strong> nicht direkt etwas mit den der<br />

(Re-)Aktion der beteiligten Personen zu tun haben, lassen sich doch relativ gut einschränken.<br />

Da wäre zunächst <strong>die</strong> Technik zu erwähnen, <strong>die</strong>, wenn <strong>die</strong> Probanden mit ihr nicht alle<br />

gleichermaßen vertraut sind, immer zum Hindernis werden kann. In <strong>die</strong>sem <strong>Experiment</strong> war<br />

das <strong>die</strong> automatische Schrifterkennung. Solche <strong>Ein</strong>flüsse können eingeschränkt werden, in<br />

dem dafür gesorgt wird, dass alle Probanden <strong>die</strong> gleichen Vorraussetzungen bekommen. Sie<br />

sollen nicht eine Technikvariante frei wählen können, um mögliche persönliche Ziele des<br />

Probanden (wie z.B. „Das will ich mal ausprobieren.“) nicht zu provozieren. Gegebenenfalls<br />

muss es auch bei der einen Technikvariante dann noch eine kurze <strong>Ein</strong>führung geben, da man<br />

nicht da<strong>von</strong> ausgehen kann, dass alle Probanden ähnliche Vorkenntnisse mitbringen. Auch <strong>die</strong><br />

Be<strong>die</strong>nung des zu evaluierenden Werkzeugs sollte mit den Probanden geübt werden. Es ist<br />

unrealistisch, jemanden eine Anforderungserhebung mit einem Werkzeug durchführen zu<br />

lassen, mit dem er nicht vertraut ist. Auch eine mehrjährige Berufserfahrung kann nicht<br />

ausreichen, um ohne Übung alle Vorteile eines Werkzeugs ausnutzen zu können. Ohne<br />

<strong>Ein</strong>arbeitungszeit bliebe wahrscheinlich nur <strong>die</strong> Möglichkeit, jedem Probanden mehr<br />

Anforderungserhebungszeit zur Verfügung zu stellen, was aber natürlich schnell den Rahmen<br />

eines solchen <strong>Experiment</strong>s sprengen kann. Des Weiteren ist es ratsam, <strong>die</strong> Benutzbarkeit eines


6 Analyse und Interpretation | 91<br />

Werkzeugs vor dem eigentlich <strong>Experiment</strong> zu untersuchen. Denn stellt sich das Werkzeug als<br />

ungenügend benutzbar heraus, dann kann das starke <strong>Auswirkung</strong>en auf <strong>die</strong> Ergebnisse haben<br />

und der Aufwand, der zur Beantwortung anderer Untersuchungsziele betrieben wurde, könnte<br />

nutzlos gewesen sein. <strong>Ein</strong>e unzureichende Benutzbarkeit verursacht zudem Verunsicherung<br />

bei den Probanden während der durchzuführenden Anforderungserhebung. Das wiederum<br />

kann sich in den Ergebnisse des einzelnen Probanden widerspiegeln. Gerade bei Werkzeugen<br />

mit aufeinander aufbauenden Funktionen sollte für jede Anforderungserhebung ausreichend<br />

<strong>Experiment</strong>zeit eingeplant werden, um sicher zu gehen, dass auch alle Features, <strong>die</strong> zur<br />

Zweckerfüllung des Werkzeugs wesentlich sind, vom Probanden verwendet werden können.<br />

Dann sind noch einige Aspekte zusammenzutragen, <strong>die</strong> wieder <strong>die</strong> Rollen im <strong>Experiment</strong><br />

betreffen. Es ist möglich, ein und <strong>die</strong>selbe Person mit zwei Rollen im <strong>Experiment</strong> zu<br />

besetzten. <strong>Ein</strong> Drehbuch kann hier helfen. Wenn der <strong>Experiment</strong>leiter noch eine zweite Rolle<br />

<strong>über</strong>nimmt, ist aber zu beachten, dass <strong>die</strong> Auswertung erst erfolgt, wenn alle <strong>Experiment</strong>e<br />

durchgeführt wurden. Das soll einen möglichen <strong>Experiment</strong>leitereffekt gering halten oder<br />

sogar vermeiden. Sofern <strong>die</strong> Rolle des Kunden <strong>von</strong> nur einer Person <strong>über</strong>nommen wird,<br />

sollten <strong>die</strong> ersten <strong>Experiment</strong>e, sofern der Stichprobenumfang dafür ausreicht, verworfen<br />

werden. Die in <strong>die</strong>ser Arbeit gewonnenen Erfahrungen haben gezeigt, dass <strong>die</strong><br />

Softwarewünsche des Kunden in den ersten drei bis vier <strong>Experiment</strong>en noch „reifen“<br />

(Lerneffekt). <strong>Ein</strong>e andere Möglichkeit ist natürlich, auch Rolle des Kunden variabel zu<br />

machen. Dabei besteht aber in jedem Fall <strong>die</strong> Gefahr, dass dem Kunden zuzuordnende<br />

Effekte dem Werkzeug zugesprochen werden. Wenn man aber alle anderen <strong>Ein</strong>flüsse auf den<br />

Effekt bestmöglich eingeschränkt hat, kann man natürlich <strong>über</strong>legen, ob es nicht sinnvoller<br />

ist, den <strong>Experiment</strong>aufbau realistisch mit variablen Kunden zu gestalten als auch noch den<br />

„letzten“ <strong>Ein</strong>fluss einzugrenzen. Solche Vorraussetzung wird es für den <strong>Ein</strong>satz des<br />

Werkzeugs in der Realität nie geben. Die abschließende Lösung könnte ein deutlich höherer<br />

Stichprobenumfang sein als er in dem <strong>Experiment</strong> <strong>die</strong>ser Arbeit zur Verfügung stand, aber<br />

natürlich ist das schwierig umzusetzen.<br />

Letztendlich haben sich <strong>die</strong> Fragen in <strong>die</strong>ser Arbeit immer wieder mit den verschiedenen<br />

Rollen in einer Anforderungserhebung befasst. Insbesondere ergab sich nach der Betrachtung<br />

der Ergebnisse aus dem industriellen Umfeld <strong>die</strong> Frage, welchen <strong>Ein</strong>fluss <strong>die</strong> Erfahrung der<br />

Probanden das heißt welchen <strong>Ein</strong>fluss <strong>die</strong> Erfahrung des Anforderungsingenieurs im Bereich<br />

Anforderungserhebung/Softwareentwicklung hat. An <strong>die</strong>ser Stelle könnte ein weiterführendes<br />

<strong>Experiment</strong> ansetzen.


€<br />

€<br />

7 Anhang | 92<br />

7 Anhang<br />

Quantile der Normalverteilung<br />

γ uγ 0,8 0,84162<br />

0,9 1,28155<br />

0,95<br />

€<br />

0,975<br />

1,64485<br />

1,95996<br />

0,98 2,05375<br />

0,99 2,32635<br />

0,995 2,57583<br />

0,9975 2,80703<br />

0,998 2,87816<br />

0,999 3,09023<br />

0,9995 3,29053<br />

Tabelle 15: γ -Quantil uγ der Normalverteilung<br />

Quantile der t-Verteilung<br />

€ €<br />

γ 0,975 0,950<br />

n<br />

11 2,201 1,796<br />

12 2,179 1,782<br />

13 2,160 1,771<br />

14 2,145 1,761<br />

15 2,131 1,753<br />

16 1,120 1,746<br />

17 2,110 1,740<br />

18 2,101 1,734<br />

19 2,093 1,729<br />

20 2,086 1,725<br />

21 2,080 1,721<br />

22 2,074 1,717<br />

23 2,069 1,714<br />

24 2,064 1,711<br />

25 2,060 1,708<br />

26 2,056 1,706<br />

27 2,052 1,703<br />

28 2,048 1,701<br />

29 2,045 1,699<br />

30 2,042 1,697<br />

Tabelle 16: Auszug der Quantile<br />

€<br />

t n;γ der t-Verteilung


7 Anhang | 93<br />

Kritische Werte des Grubbs-Tests<br />

T n;0,95<br />

T n;0,99<br />

n<br />

3 1,15 1,16<br />

4 1,46 1,49<br />

€<br />

5<br />

6<br />

1,67<br />

€<br />

1,82<br />

1,75<br />

1,94<br />

7 1,94 2,10<br />

8 2,03 2,22<br />

9 2,11 2,32<br />

10 2,18 2,41<br />

12 2,29 2,55<br />

15 2,41 2,71<br />

20 2,56 2,88<br />

30 2,75 3,10<br />

40 2,87 3,24<br />

50 2,96 3,34<br />

100 3,21 3,60<br />

Tabelle 17: Auszug der kritischen Werte<br />

€<br />

T n;γ des Grubbs-Tests [Har+05, S.345]


Abbildungsverzeichnis | 94<br />

Abbildungsverzeichnis<br />

Abbildung 1: Wasserfallmodell [Schn05] nach [Roy70] ...........................................................8<br />

Abbildung 2: Effektivität verschiedener Kommunikationsformen [Coc02] ............................11<br />

Abbildung 3: Fast <strong>Feedback</strong> mit Use Case und Mock Up zum Beispiel "Geldautomat" ........12<br />

Abbildung 4: Verteilungs- und Dichtefunktion der Normalverteilung [UniM].......................17<br />

Abbildung 5: Hinweis und Beispiel zur Simulation einer Zufallsziehung ohne Zurücklegen<br />

mit Excel...........................................................................................................................51<br />

Abbildung 6: Fragebogen für <strong>die</strong> Kontrollgruppe....................................................................52<br />

Abbildung 7: Fragebogen für <strong>die</strong> <strong>Experiment</strong>gruppe...............................................................52<br />

Abbildung 8: Auswertungstabelle für Anforderungen .............................................................53<br />

Abbildung 9: Theoretische Erfahrung der Probanden (Vorlesungen)......................................57<br />

Abbildung 10: Praktische Erfahrung der Probanden (Projekte)...............................................58<br />

Abbildung 11: Praktische Erfahrung der Probanden (Anforderungserhebungen) ...................58<br />

Abbildung 12: Praktische Erfahrung der Probanden (Tablet-PC)............................................58<br />

Abbildung 13: Praktische Erfahrung der Probanden (automatische Schrifterkennung) ..........59<br />

Abbildung 14: Praktische Erfahrung der Probanden (Tablet-PC) (Industrie)..........................59<br />

Abbildung 15: Häufigkeit, mit der Features durchschnittlich benutzt wurden ........................63<br />

Abbildung 16: Anzahl der eingesetzten Features pro Proband der <strong>Experiment</strong>gruppe ...........64<br />

Abbildung 17: Häufigkeit eingesetzter Features mit eingeschränkten<br />

Kombinationsmöglichkeiten.............................................................................................64<br />

Abbildung 18: Häufigkeit eingesetzter Features mit allen Kombinationsmöglichkeiten ........65<br />

Abbildung 19: Mock-ups pro Proband der Kontrollgruppe .....................................................65<br />

Abbildung 20: Boxplot zur Anzahl <strong>von</strong> Mock-ups ..................................................................66<br />

Abbildung 21: Boxplots zur Beurteilung der Werkzeuge mit Schulnoten...............................67<br />

Abbildung 22: Häufigkeit, mit der Probanden eine bestimmte Anzahl Grundfunktionen<br />

dokumentierten.................................................................................................................68<br />

Abbildung 23: Boxplot zur Anzahl dokumentierter Grundfunktionen ....................................68<br />

Abbildung 24: Häufigkeit, mit der <strong>die</strong> Probanden Fehler erkannt haben oder nicht ...............69<br />

Abbildung 25: Häufigkeit, mit der eine bestimmte Anzahl <strong>von</strong> Fehlern erkannt wurde .........69<br />

Abbildung 26: Boxplots zur Anzahl erkannter Fehler .............................................................70<br />

Abbildung 27: Mittelwerte <strong>über</strong> <strong>die</strong> Anzahl dokumentierter Anforderungen je Gruppe.........72<br />

Abbildung 28: Verhältnis funktionaler zu nicht-funktionaler Anforderungen.........................72<br />

Abbildung 29: Prüfung der Anforderungs-Definitionen auf Robustheit..................................83<br />

Abbildung 30: Häufigkeit, mit der eine bestimmte Anzahl <strong>von</strong> Fehlern erkannt wurde<br />

(Industrie) .........................................................................................................................85<br />

Abbildung 31: Verhältnis zwischen den Gruppen eines Umfelds bzgl. der Anzahl der<br />

erkannten Fehler ...............................................................................................................85<br />

Abbildung 32: Mittelwerte <strong>über</strong> <strong>die</strong> Anzahl dokumentierter Anforderungen je Gruppe<br />

(Industrie) .........................................................................................................................86<br />

Abbildung 33: Anzahl der dokumentierten Anforderungen je Stichprobe und Gruppe ..........86<br />

Abbildung 34: Verhältnis funktionaler zu nicht-funktionaler Anforderungen (Industrie).......87<br />

Abbildung 35: Häufigkeit, mit der Features durchschnittlich eingesetzt wurden (Industrie) ..88


Tabellenverzeichnis | 95<br />

Tabellenverzeichnis<br />

Tabelle 1: Fehlerarten beim Testen [Har+05, S.133]...............................................................18<br />

Tabelle 2: Skalenniveaus..........................................................................................................25<br />

Tabelle 3: Abstraction Sheet zu Hypothese 1...........................................................................38<br />

Tabelle 4: Abstraction Sheet zu Hypothese 2...........................................................................40<br />

Tabelle 5: Abstraction Sheet zu Hypothese 3...........................................................................41<br />

Tabelle 6: GQM-Modell...........................................................................................................43<br />

Tabelle 7: Drehbuch .................................................................................................................56<br />

Tabelle 8: Ordinalskala für Schulnoten....................................................................................66<br />

Tabelle 9: Beurteilung der Werkzeuge in Schulnoten per Mittelwert......................................66<br />

Tabelle 10: Beurteilung der Werkzeuge in Schulnoten per Median ........................................66<br />

Tabelle 11: Werte für das Boxplot-Diagramm.........................................................................69<br />

Tabelle 12: Bewertungsskala zur Erfahrung der Probanden ....................................................75<br />

Tabelle 13: Bewertung der Werkzeuge in Schulnoten per Mittelwert (Industrie) ...................88<br />

Tabelle 14: Bewertung der Werkzeuge in Schulnoten per Median (Industrie)........................89<br />

Tabelle 15: γ -Quantil uγ der Normalverteilung.......................................................................92<br />

Tabelle 16: Auszug der Quantile tn;γ der t-Verteilung .............................................................92<br />

Tabelle 17: Auszug der kritischen Werte Tn;γ des Grubbs-Tests [Har+05, S.345] ..................93<br />

€<br />

€<br />

€<br />


Quellenverzeichnis | 96<br />

Quellenverzeichnis<br />

[Bou08] Christian El Boustani (2008), Bachelorarbeit: Quantitative und qualitative<br />

Messung <strong>von</strong> Software-Anforderungen<br />

[Coc02] Alistair Cockburn (2002), Agile software development, 4. Auflage, Addison-<br />

Wesley<br />

[Har+05] Joachim Hartung, Bärbel Elpelt und Karl-Heinz Klösener (2005), Statistik,<br />

Oldenbourg<br />

[Hen08] Melanie Hennemann (2008), Stu<strong>die</strong>narbeit: Quantitativer und qualitativer<br />

Vergleich <strong>von</strong> Anforderungen bei agilen und konventionellen<br />

Softwareprojekten<br />

[Kit09] Ingo Kitzmann (2009), Masterarbeit: Konzept und Implementierung eines<br />

Werkzeugs für multimediale Anforderungserhebung- und vali<strong>die</strong>rung<br />

[Kre00] Ulrich Krengel (2000), <strong>Ein</strong>führung in <strong>die</strong> Wahrscheinlichkeitstheorie und<br />

Statistik, 5. Auflage, Vieweg<br />

[Pfla+01] Peter Pflaumer, Barbara Heine und Joachim Hartung (2001), Statistik für<br />

Wirtschafts- und Sozialwissenschaften, Induktive Statistik, Oldenbourg<br />

[Poh08] Klaus Pohl (2008), Requirements Engineering – Grundlagen, Prinzipien,<br />

Techniken, dpunkt Verlag<br />

[Rup06] Chris Rupp (2007), Requirements-Engineering und Management, 4. Auflage,<br />

Hanser<br />

[Roy70] Dr. Winston W. Royce (1970), Managing the Development of Large Software<br />

Systems Proceedings of IEEE WESCON<br />

http://www.cs.umd.edu/class/spring2003/cmsc838p/Process/waterfall.pdf,<br />

letzter Zugriff: 02.05.2010<br />

[Schn98] Berthold Schneider (1998), Bestimmung des Stichprobenumfangs bei<br />

biomedizinischen <strong>Experiment</strong>en<br />

[Schn05] Prof. Dr. Kurt Schneider (2005), Vorlesung: Softwaretechnik WS 2005/2006<br />

[Schn07a] Prof. Dr. Kurt Schneider (2007), Abenteuer Software Qualität, dpunkt Verlag<br />

[Schn07b] Prof. Dr. Kurt Schneider (2007), Generating Fast <strong>Feedback</strong> in Requirements<br />

Elicitation<br />

[Schn08] Prof. Dr. Kurt Schneider (2008), Improving <strong>Feedback</strong> on Requirements<br />

through Heuristics<br />

[Schn09] Prof. Dr. Kurt Schneider (2009), Vorlesung: Software-Anforderungen und<br />

Entwurf SS 2009<br />

[Schu+08] Martin Schumacher und Gabriele Schulgen-Kristiansen (2008), Methodik<br />

klinischer Stu<strong>die</strong>n: Methodische Grundlagen der Planung, Durchführung und<br />

Auswertung, 3. Auflage, Springer<br />

[UniM] Uni Münster, Übungen zur medizinischen Biometrie<br />

http://campus.unimuenster.de/fileadmin/einrichtung/imib/lehre/skripte/biomathe/bio/script7.html<br />

, letzter Zugriff: 02.05.2010<br />

[WikiM] Wikipedia, Median, http://de.wikipedia.org/wiki/Median, letzter Zugriff<br />

02.05.2010<br />

[Woh+99] Claes Wohlin, Per Runeson, Martin Höst, Anneliese <strong>von</strong> Mayrhauser, Björn<br />

Regnell, Anders Wesslén, Magnus C. Ohlsson (1999), <strong>Experiment</strong>ation in<br />

Software Engineering: An Introduction, 1. Auflage, Springer<br />

[Zus+04] Wolfgang Zuser, Thomas Grechenig und Monika Köhle (2004), Software<br />

Engineering mit UML und dem Unified Process, Pearson Studium

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!