Diplomarbeit Christian Srbeny - EDV-Postkorb

Der computergestützte Postkorb KI.BOX 

- eine Validierungsstudie. 

Als Diplomarbeit vorgelegt dem Vorsitzenden des Prüfungsausschusses 

für die Diplomprüfung im Fach Psychologie 

an der Universität zu Köln 

von 

Christian Srbeny 

angefertigt bei Dr. W. Follmann 

Köln, November 2008

Danksagung 

An dieser Stelle möchte ich mich ganz herzlich bei all jenen bedanken, die das 

Entstehen dieser Arbeit unterstützt und ermöglicht haben. 

Ganz besonders danken möchte ich zunächst meinem Betreuer an der Universität zu 

Köln, Dr. Wilfried Follmann. Er gab mir stets wertvolle Rückmeldungen zu meiner 

Arbeit, stand mir bei aufkommenden Problemen schnell und hilfreich zur Seite und 

gewährte mir dabei den gewünschten Freiraum, den ich aufgrund anderer neben 

dieser Arbeit laufender Projekte benötigt habe. Eine solche Betreuung ist sicherlich 

nicht selbstverständlich. 

Weiterhin großen Dank möchte ich an die kibit GmbH und das Kölner Institut für 

Managementberatung (KIM) richten, die mich so freundlich in ihr Team aufgenommen 

haben und ohne die die Realisierung dieser Arbeit nicht möglich gewesen wäre. Hier 

ist insbesondere Stephan Holtmeier zu nennen, der mir die KI.BOX sowie neueste 

Technik für meine Untersuchung zur Verfügung stellte, sich besonders in der 

Konzeptionsphase viel Zeit für mein Projekt nahm, mit mir an Publikationen für die 

Fachpresse schrieb und mich bei theoretischen und methodischen Fragestellungen 

immer voll und ganz unterstützte. 

Ebenso danke ich Prof. Dr. Stephan und dem Lehrstuhl für Diagnostik und 

Intervention der Universität zu Köln für die Übernahme der Lizenzgebühren für die 

Testauswertung sowie die Bereitstellung von Laborräumen. Dabei gilt mein Dank 

insbesondere Joachim Radt für seine freundliche Unterstützung und seine Fähigkeit, 

jede Hürde mit einem Lächeln aus der Welt zu schaffen. 

Ein großes Dankeschön geht außerdem raus an meine Freunde, die nicht nur bei der 

Korrektur dieser Arbeit geholfen haben, sondern auch für physischen und psychischen 

Ausgleich sorgten, wenn meine Motivation nachließ. Besonders hervorheben möchte 

ich dabei Sonja Cremer für fachliche und konzeptionelle Diskussionen und Franziska 

Brandt für ihren emotionalen Beistand. 

Nicht zuletzt möchte ich ganz besonders meiner Mutter dafür danken, dass sie an 

mich glaubt und mich stets dabei unterstützt, meine Ziele im Studium wie im Leben zu 

erreichen. 

Vielen Dank!

Inhaltsverzeichnis 

1 Einleitung ....................................................................................................8 

2 Theoretischer Hintergrund ......................................................................11 

2.1 Testtheorien im Überblick .................................................................................11 

2.1.1 Klassische Testtheorie .............................................................................11 

2.1.1.1 Objektivität ...............................................................................13 

2.1.1.2 Reliabilität.................................................................................14 

2.1.1.3 Validität ....................................................................................15 

2.1.1.4 Nebengütekriterien ...................................................................18 

2.1.2 Kritik an der klassischen Testtheorie ........................................................19 

2.1.3 Kriteriumsorientierten Leistungsmessung .................................................22 

2.2 Das Assessment Center als eignungsdiagnostisches Instrument.................26 

2.2.1 Definition des Assessment Centers..........................................................26 

2.2.2 Ablauf eines Assessment Centers............................................................28 

2.2.3 Zentrale Komponenten des Assessment Centers.....................................29 

2.2.3.1 Anforderungsanalyse ...............................................................29 

2.2.3.2 Simulation ................................................................................30 

2.2.3.3 Methodenvielfalt .......................................................................31 

2.2.3.4 Mehrfachbeurteilungen.............................................................32 

2.2.3.5 Transparenz.............................................................................33 

2.2.4 Bedeutung von Reihenfolgeeffekten im Assessment Center ....................34 

2.2.5 Methodenüberblick ...................................................................................36 

2.2.5.1 Interview...................................................................................36 

2.2.5.2 Rollenspiel................................................................................37 

2.2.5.3 Gruppendiskussion...................................................................37 

2.2.5.4 Präsentation .............................................................................39 

2.2.5.5 Psychologische Testverfahren..................................................40 

2.2.5.6 Planspiele.................................................................................42 

2.2.5.7 Fallstudien................................................................................43 

2.2.5.8 Postkörbe.................................................................................45 

2.3 Der klassische Postkorb....................................................................................46 

2.3.1 Was ist eine Postkorb-Übung?..............................................................46 

2.3.2 Durchführung .........................................................................................47 

2.3.3 Auswertung ............................................................................................49 

2.3.4 Gemessene Kriterien..............................................................................51 

2.3.5 Empirische Ergebnisse..........................................................................52 

2.3.5.1 Demographische Daten............................................................52 

2.3.5.2 Objektivität ...............................................................................53 

2.3.5.3 Reliabilität.................................................................................54 

2.3.5.4 Validität ....................................................................................54 

2.3.5.5 Zusammenfassung...................................................................56 

2.3.6 Kritische Betrachtung ............................................................................57

2.4 Der computergestützte Postkorb......................................................................60 

2.4.1 Was ist ein computergestützter Postkorb? ..........................................60 

2.4.1.1 Vorteile.....................................................................................61 

2.4.1.2 Nachteile ..................................................................................64 

2.4.2 Interaktion von Mensch und Computer ................................................65 

2.4.3 Verfahren im Überblick ..........................................................................67 

2.4.3.1 Mailbox’90 ................................................................................68 

2.4.3.2 PC-Office..................................................................................72 

2.4.3.3 PC-Postkorb "Seeblick“ ............................................................75 

2.4.3.4 Zusammenfassung...................................................................79 

3 Der computergestützte Postkorb KI.BOX...............................................81 

3.1 Beschreibung des Verfahrens...........................................................................81 

3.2 Instruktion ..........................................................................................................82 

3.3 Durchführung .....................................................................................................84 

3.4 Erfasste Kriterien ...............................................................................................89 

3.5 Auswertung ........................................................................................................89 

4 Fragestellung und Hypothesen...............................................................93 

4.1 Hypothesen zur Validitätsprüfung ....................................................................93 

4.2 Hypothesen zum Zusammenhang von Computererfahrung und 

Leistung in der KI.BOX ......................................................................................98 

4.3 Hypothese zur Wirkung von Reihenfolgeeffekten .........................................100 

4.4 Hypothesen zum Zusammenhang der demographischen Daten und 

Leistung in der KI.BOX ....................................................................................101 

5 Methodik..................................................................................................104 

5.1 Stichprobe ........................................................................................................104 

5.2 Übersicht über die verwendeten Verfahren und Prüfkriterien ......................105 

5.2.1 AZUBI-BK...............................................................................................106 

5.2.2 BIP .........................................................................................................107 

5.2.3 SUCA / VECA.........................................................................................108 

5.2.4 Abiturnote und letzte Schulnoten in Deutsch und Mathematik ................109 

5.2.5 Selbsteinschätzung und Vorerfahrung....................................................110 

5.2.6 Demographischer Fragebogen ...............................................................111 

5.3 Durchführung der Untersuchung....................................................................112 

5.4 Zusammenfassung ..........................................................................................114 

6 Ergebnisse ..............................................................................................115 

6.1 Deskriptive Statistik.........................................................................................115 

6.2 Tests der Hypothesen zur Validitätsprüfung .................................................118 

6.2.1 Zusammenfassung...............................................................................127 

6.3 Tests der Hypothesen zum Zusammenhang von Computererfahrung 

und Leistung in der KI.BOX.............................................................................128 

6.3.1 Zusammenfassung...............................................................................134

6.4 Test der Hypothese zur Wirkung von Reihenfolgeeffekten...........................134 


6.5 Test der Hypothesen zum Zusammenhang von demographischen 

Daten und Leistung in der KI.BOX..................................................................137 


7 Diskussion ..............................................................................................147 

7.1 Gütekriterien der KI.BOX.................................................................................147 

7.1.1 Objektivität............................................................................................148 

7.1.2 Reliabilität .............................................................................................150 

7.1.3 Validität .................................................................................................150 

7.1.3.1 Äußere Validität......................................................................151 

7.1.3.2 Innere Validität .......................................................................155 

7.1.4 Nebengütekriterien...............................................................................157 

7.2 Zusammenhang von Computererfahrung und Leistung in der KI.BOX .......158 

7.3 Auswirkung von Reihefolgeeffekten...............................................................161 

7.4 Einfluss der demographischen Daten ............................................................162 

7.5 Fazit und Ausblick ...........................................................................................167 

8 Literaturverzeichnis ...............................................................................173 

9 Anhang ....................................................................................................184

Abbildungsverzeichnis 

Abbildung 1: Display des Schreibtisches der Mailbox'90 .............................................68 

Abbildung 2: Desktop des PC-Postkorbes „Seeblick“. .................................................76 

Abbildung 3: Startseite der KI.BOX..............................................................................82 

Abbildung 4: Erläuterungsseite zum Posteingang der KI.BOX.....................................83 

Abbildung 5: Posteingang der KI.BOX.........................................................................85 

Abbildung 6: Excel-Funktion der KI.BOX .....................................................................86 

Abbildung 7: Kalender der KI.BOX ..............................................................................87 

Abbildung 8: Prioritätenliste der KI.BOX ......................................................................88 

Abbildung 9: automatisch generierter Ergebnisbericht des KI.BOX Reporters.............90 

Abbildung 10: Auswertungstabelle des KI.BOX Reporters...........................................91 

Abbildung 11: Darstellung der Rohwerte im KI.BOX-Reporter.....................................92 

Abbildung 12: Ablauf der Untersuchung. ...................................................................113 

Abbildung 13: Verteilung der Häufigkeiten zu den erzielten Punkten bzgl. 

Analytischer Fähigkeiten. ..........................................................................................117 

Abbildung 14: Verteilung der Häufigkeiten zu den erzielten Punkten bzgl. 

Organisatorisch-konzeptioneller Fähigkeiten. ............................................................118 

Abbildung 15: Zusammenhang von Alter und Punktzahlen in der KI.BOX. ................163

Tabellenverzeichnis 

Tabelle 1: Zuordnung der häufigsten AC-Übungen zu einer Auswahl möglicher 

Beurteilungskriterien....................................................................................................32 

Tabelle 2: Typologie von Fallstudien ...........................................................................44 

Tabelle 3: Erfassbare Kriterien durch Postkorb-Übungen............................................51 

Tabelle 4: Ergebnisse in der KI.BOX .........................................................................116 

Tabelle 5: Korrelationen von Abiturnote und KI.BOX-Ergebnissen ............................119 

Tabelle 6: Korrelationen der letzten Schulnote in Mathematik und KI.BOX- 

Ergebnissen ..............................................................................................................120 

Tabelle 7: Korrelationen der letzten Schulnote in Mathematik und KI.BOX- 

Ergebnissen im Kriterium Analytische Fähigkeiten ....................................................120 

Tabelle 8: Korrelationen von Selbsteinschätzungen der eigenen analytischen 

Fähigkeiten und KI.BOX-Ergebnissen im Kriterium Analytische Fähigkeiten .............121 

Tabelle 9: Korrelationen von Selbsteinschätzungen der eigenen organisatorischkonzeptionellen 

Fähigkeiten und KI.BOX-Ergebnissen im Kriterium 

Organisatorisch-konzeptionelle Fähigkeiten ..............................................................122 

Tabelle 10: Korrelationen des Gesamttestwertes der AZUBI-BK und KI.BOX- 

Ergebnissen ..............................................................................................................123 

Tabelle 11: Korrelationen des Grundmoduls der AZUBI-BK und KI.BOX- 

Ergebnissen zum Kriterium Analytische Fähigkeiten .................................................123 

Tabelle 12: Korrelationen des Postmoduls der AZUBI-BK und KI.BOX- 

Ergebnissen zum Kriterium Organisatorisch-konzeptionelle Fähigkeiten...................124 

Tabelle 13a: Korrelationen der durchschnittlichen Bearbeitungsgeschwindigkeit in 

der AZUBI-BK und der bearbeiteten Items in der KI.BOX.........................................125 

Tabelle 13b: bedeutende Korrelationen der einzelnen 

Bearbeitungsgeschwindigkeiten in der AZUBI-BK und der bearbeiteten Items in 

der KI.BOX für beide Kriterien. ..................................................................................126 

Tabelle 14: Korrelationen der Subskala zur Gewissenhaftigkeit aus dem BIP und 

der Ergebnisse in der KI.BOX für beide Kriterien.......................................................127 

Tabelle 15a: Korrelationen des SUCA und den Ergebnissen in der KI.BOX für 

beide Kriterien. ..........................................................................................................129 

Tabelle 15b: Auswirkungen der Auspartialisierung der Sicherheit im Umgang mit 

Computern und Computeranwendungen auf die Korrelationen der Ergebnisse 

von KI.BOX zu AZUBI-BK .........................................................................................130 

Tabelle 15c: Auswirkungen der Auspartialisierung der Sicherheit im Umgang mit 

Computern und Computeranwendungen auf die Korrelation der 

Bearbeitungsgeschwindigkeiten in KI.BOX und AZUBI-BK........................................130

Tabelle 16a: Korrelationen des VECA und den Ergebnissen in der KI.BOX für 

beide Kriterien. ..........................................................................................................131 

Tabelle 16b: Auswirkungen der Auspartialisierung der Vertrautheit der 

Teilnehmer mit verschiedenen Computeranwendungen auf die Korrelationen der 

Ergebnisse von KI.BOX zu AZUBI-BK.......................................................................132 

Tabelle 16c: Auswirkungen der Auspartialisierung der Vertrautheit der 

Teilnehmer mit verschiedenen Computeranwendungen auf die Korrelation der 

Bearbeitungsgeschwindigkeiten in KI.BOX und AZUBI-BK........................................132 

Tabelle 17: Korrelationen der drei für die KI.BOX bedeutsamsten Icons des 

VECA und den Ergebnissen in der KI.BOX für beide Kriterien...................................133 

Tabelle 18: T-Test für die Bedingung Reihenfolge der Verfahren bei den 

Analytischen Fähigkeiten in der KI.BOX ....................................................................135 

Tabelle 19: T-Test für die Bedingung Reihenfolge der Verfahren bei den 

Organisatorisch-konzeptionellen Fähigkeiten in der KI.BOX......................................136 

Tabelle 20: T-Test für die Variable Geschlecht bei den Ergebnissen der KI.BOX......138 

Tabelle 21: Korrelationen des Alters der Teilnehmer mit den Ergebnissen in der 

KI.BOX für beide Kriterien .........................................................................................139 

Tabelle 22: Varianzanalyse für die Variable Studienfach und die Ergebnisse in 

der KI.BOX für beide Kriterien ...................................................................................140 

Tabelle 23: Korrelationen der Semesterzahl der Teilnehmer mit den Ergebnissen 

in der KI.BOX für beide Kriterien ...............................................................................141 

Tabelle 24: Varianzanalyse für die Variable Deutschkenntnisse und die 

Ergebnisse in der KI.BOX für beide Kriterien.............................................................142 

Tabelle 25: Varianzanalyse für die Variable Berufserfahrung und die Ergebnisse 

in der KI.BOX für beide Kriterien ...............................................................................143 

Tabelle 26: Korrelationen der theoretischen und praktischen Vorerfahrungen der 

Teilnehmer mit Postkörben und Assessment Centern und den Ergebnissen in der 

KI.BOX für beide Kriterien .........................................................................................145

Einleitung 

1 Einleitung 

Die Identifikation geeigneter Mitarbeiter für einen Arbeitsplatz und die 

zielgerichtete Entwicklung ihrer Fähigkeiten und Fertigkeiten sind heutzutage 

die erfolgsentscheidenden Kriterien für Unternehmen (Sarges, 2000). Es gilt 

also, eine optimale Passung zwischen den Kompetenzen eines Mitarbeiters und 

den Anforderungen einer Arbeitsstelle zu erreichen. Die diagnostische Qualität 

von Instrumenten zur Auswahl, Beurteilung und Weiterentwicklung von 

Personal ist daher von zentraler Bedeutung. 

Das nicht mehr nur ausschließlich in Großunternehmen eingesetzte 

Assessment Center (AC) stellt zwar „eines der kostenintensivsten Verfahren der 

Personalauswahl und Personalentwicklung“ (Fisseni & Preusser, 2007, S. 236) 

dar, bietet aber eine methodisch weitgehend gesicherte und anerkannte 

Beurteilung des Potentials von Mitarbeitern (Kupka, 2005). Diese Beurteilung 

erfolgt anhand verschiedener Übungen, welche die beruflichen Anforderungen 

der Zielposition simulieren sollen und eine Kombination vielfältiger Methoden 

darstellen (Höft & Funke, 2006). 

Die Postkorb-Übung ist eines der bekanntesten und am häufigsten 

angewandten Verfahren in Assessment Centern. Es handelt sich dabei um eine 

Mischform aus kognitiven Fähigkeitstests und situativer Arbeitsprobe (Höft, 

2003), wodurch Kriterien wie Organisationskompetenz, analytische Fähigkeiten 

oder Entscheidungsvermögen erfasst werden sollen. Über die diagnostische 

Güte der Verfahren können jedoch kaum generell gültige Aussagen getroffen 

werden. Oft entwickeln Organisationen ein auf ihre spezifischen Bedürfnisse 

zugeschnittenes Postkorb-Verfahren, das der wissenschaftlichen Analyse nicht 

zugänglich gemacht wird. Andere wiederum verwenden auf dem Markt 

erhältliche vorgefertigte Übungen, deren Validierungen jedoch meist als 

unzureichend angesehen werden müssen (Funke, 1993, a). 

Mit dem enormen technischen Fortschritt sowohl im Software- als auch im 

Hardwarebereich werden zunehmend auch computergestützte 

Auswahlverfahren im Rahmen der Eignungsdiagnostik angewendet, nicht 

zuletzt auch aus Effizienzgründen. Computergestützte Verfahren haben unter 

anderem den Vorteil einer objektiveren Durchführung und Auswertung, ihre 

Ergebnisse sind schneller verfügbar und eine separate Dateneingabe für 

8

Einleitung 

spätere Analysen entfällt (Schuler, Funke, Moser & Donat, 1995). Zudem kann 

die Übung selbst durch die vielfältigen technischen Möglichkeiten deutlich 

dynamischer und somit realitätsnäher gestaltet werden. Nichts desto trotz 

stehen computergestützte Postkorb-Übungen vor ähnlichen Problemen wie ihre 

Paper-Pencil-Vorgänger. Eine hohe Augenscheinvalidität reicht offenbar vielen 

Testentwicklern und -anwendern aus, um auf vergleichsweise aufwändige 

Validierungsstudien zu verzichten (Obermann, 2006). Zudem weisen manche 

dieser Verfahren immer noch Mängel in Form einer unzureichenden 

Standardisierung, einer nicht anwenderfreundlichen Bedienung oder der 

fehlenden Explikation eines normativen Bezugssystems auf. 

Die Unternehmensberatung „kibit GmbH“ hat als Reaktion auf diese 

Problematik den computergestützten Postkorb KI.BOX entwickelt, welcher 

besonders zur Auswahl von Hochschulabsolventen und 

Führungskräftenachwuchs eingesetzt werden soll. Die Neuentwicklung des 

Verfahrens verfolgt das Ziel, die bestehenden Lücken anderer Verfahren zu 

schließen und zugleich den wissenschaftlichen Anforderungen Rechnung zu 

tragen. 

Die vorliegende Diplomarbeit soll als erste Validierungsstudie dieses 

Verfahrens zu diesen Zielen beitragen. Zu diesem Zweck wurde eine 

Untersuchung durchgeführt, mittels derer beurteilt werden soll, ob die KI.BOX 

die zu erfassenden Kriterien valide misst, ihre Softwareergonomie 

computererfahrenen Benutzern Vorteile bringt und ob die Ergebnisse durch 

Reihenfolgeeffekte verfälscht werden, welche durch die Positionierung des 

Verfahrens innerhalb einer Sequenz von Auswahlübungen entstehen können. 

Der theoretische Hintergrund dieser Thematik wird im zweiten Kapitel 

dargestellt und erfolgt zunächst als Überblick über verschiedene Testtheorien 

und ihre Gütekriterien, um herauszustellen, welche Aspekte bei der Validierung 

einer AC-Übung bedeutsam sind. Anschließend wird auf das Assessment 

Center im Allgemeinen eingegangen, um damit die Postkorb-Übung thematisch 

einzuordnen, bevor dann der klassische Paper-Pencil-Postkorb als Vorläufer 

des computergestützten Postkorbes dargestellt wird. Auf letzteren wird im 

Anschluss eingegangen. Im Vergleich dazu wird im dritten Kapitel die KI.BOX 

beschrieben, was aufgrund eines bisher noch nicht publizierten 

9

Einleitung 

Testhandbuches ausführlicher erfolgt. In Kapitel 4 werden die zu untersuchende 

Fragestellung sowie die Ziele der Untersuchung formuliert. Die Erläuterung der 

methodischen Vorgehensweise dieser Studie erfolgt im fünften Kapitel. Im 

sechsten Kapitel werden die Ergebnisse der Untersuchung dargestellt und im 

Anschluss daran im siebten Kapitel diskutiert. Die Arbeit schließt mit 

Vorschlägen an die Testentwickler, wie das Verfahren weiter verbessert werden 

und zukünftige Validierungsstudien erfolgen könnten. 

10

Theoretischer Hintergrund 

2 Theoretischer Hintergrund 

2.1 Testtheorien im Überblick 

Psychologische Tests und andere Instrumente zur Messung psychischer 

Merkmale und deren Ausprägung können auf verschiedenen Messmodellen 

basieren. Die klassische Testtheorie (Kapitel 2.1.1) ist sicher das 

traditionsreichste und am weitesten verbreitete Modell für die Konstruktion von 

Tests. Allerdings sieht sie sich inzwischen vermehrter Kritik (Kapitel 2.1.2) 

ausgesetzt, besonders aus Reihen der Eignungsdiagnostiker. Für neuere und in 

der Praxis weit verbreitete Methoden, wie beispielsweise dem Assessment 

Center, wird sich deshalb zunehmend auf den Ansatz der kriteriumsorientierten 

Leistungsmessung (Kapitel 2.1.3) verlassen. Diese Entwicklung soll im 

folgenden Kapitel detaillierter dargestellt werden. 

2.1.1 Klassische Testtheorie 

Der Schwerpunkt des Modells der klassischen Testtheorie liegt auf der 

Genauigkeit einer Messung bzw. auf der Größe des jeweiligen Messfehlers. 

Daher wird sie auch als „Messfehlertheorie“ bezeichnet (Schuler, 1996). Sie 

versucht, ausgehend von einem Testwert einer Versuchsperson, zu klären, wie 

auf die wahre Ausprägung des zu messenden Persönlichkeitsmerkmals 

geschlossen werden kann (Fisseni, 1990). Die meisten Tests, die heutzutage in 

der psychologischen Eignungsdiagnostik eingesetzt werden, sind nach den 

Regeln der klassischen Testtheorie konzipiert worden (Bortz & Döring, 2002). 

Die Konstruktion von psychologischen Tests orientiert sich dabei seit Beginn 

des 20. Jahrhunderts an klar definierten syntaktischen Aussagen und 

Richtlinien (ausführlich zu den Axiomen der klassischen Testtheorie: Lienert, 

1969; Fisseni, 1990; Bortz & Döring, 2002). Lienert (1969) definiert einen Test 

demnach als: 

„wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer 

abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst 

quantitativen Aussage über den relativen Grad der individuellen 

Merkmalsausprägung“ (S.7). 

11


Etwas umfangreicher ist die Definition von Grubitzsch (1999), der mehrere 

gängige Definitionen von Tests auf einen Nenner zu bringen versucht: 

„Ein psychologischer Test ist ein 

• wissenschaftliches Routineverfahren für die objektive und zuverlässige 

Entnahme 

• einer gültigen Stichprobe aus dem Verhalten und Erleben eines 

Menschen unter Standardbedingungen (die Wiederholbarkeit und 

Vergleichbarkeit garantieren), 

• um vor dem Hintergrund einer Norm einen wissenschaftlich begründeten 

Rückschluss auf die individuelle Ausprägung eines oder mehrerer 

empirisch abgrenzbarer Persönlichkeitsmerkmale, die dem beobachteten 

Verhalten als zugrunde liegend angenommen werden, ziehen zu können 

• mit dem Ziel der Unterscheidung und zweckgerichteten Vorhersage 

individueller Verhaltensmöglichkeiten auch für künftige Situationen“ 

(S.21). 

Eine entscheidende Neuerung in der Definition ist hierbei der Aspekt der 

Normstichprobe. So geht die klassische Testtheorie von relativ stabilen 

Persönlichkeitsmerkmalen aus, die über unterschiedliche Situation und Zeiten 

hinweg verhältnismäßig konstant bleiben und deren individuelle Ausprägungen 

sich durch Tests erfassen lassen (Obermann, 2006). Dies geschieht dadurch, 

dass die Testleistung eines einzelnen Probanden mit einer Normstichprobe 

verglichen wird, d.h. einer möglichst großen Probandenzahl, die repräsentativ 

für die Gesamtpopulation stehen soll (Fisseni, 1990). 

Des Weiteren entstammen der klassischen Testtheorie drei Haupt- und vier 

Nebengütekriterien, die als zu erfüllende Forderung an einen guten Test gestellt 

werden sollen (Lienert, 1969). Als Hauptgütekriterien gelten Objektivität, 

Reliabilität und Validität, als Nebengütekriterien wird gefordert, dass der Test 

normiert, vergleichbar, ökonomisch und nützlich ist. Hierauf wird im Folgenden 

näher eingegangen, da die Validierung des computergestützten Postkorb 

KI.BOX (siehe Kapitel 3) Hauptanliegen der vorliegenden Arbeit ist. 

12


2.1.1.1 Objektivität 

Als Objektivität bezeichnet Lienert (1969) den Grad, mit dem das Ergebnis 

eines Testes unabhängig vom Untersucher ist. Das bedeutet, dass ein Test 

dann als objektiv einzustufen ist, wenn das gleiche Verhalten eines Probanden 

von unterschiedlichen Beurteilern immer in der gleichen Weise quantifiziert wird 

(Fisseni, 1990). Die Objektivität gibt somit Aufschluss darüber, in wieweit die 

Standardisierung eines Tests gelungen ist. Dabei werden drei Stufen der 

Objektivität unterschieden: 

• Die Durchführungsobjektivität bezeichnet die Unabhängigkeit der 

Testergebnisse von zufälliger oder systematischer Variation des 

Versuchsleiterverhaltens sowie der Situationsparameter. Sie ist umso 

höher, je standardisierter die Testsituation ist, was beispielsweise zur 

Folge hat, dass die Instruktionen den Teilnehmern in schriftlicher Form 

ausgegeben werden, Raum- und Zeitfaktoren gleichzuhalten sowie 

soziale Interaktionen mit dem Versuchsleiter generell möglichst zu 

minimieren sind (Jeserich, 1981). 

• Die Auswertungsobjektivität ist gegeben, wenn gleichen Itemantworten 

die gleichen numerischen Werte zugeordnet werden bzw. wenn 

verschiedene Auswerter dasselbe Testverhalten identisch auswerten 

(Fisseni, 1990). Sie gilt nach Lienert (1969) bei Aufgaben mit 

festgelegtem Antwortenschlüssel als erfüllt, d.h. bei Ja-Nein-Fragen oder 

bei Tests, in denen der Proband aus mehreren vorgegebenen Lösungen 

die Antwort ankreuzen soll, die ihm richtig erscheint. Bei offenen Fragen 

oder projektiven Verfahren ist die Auswertungsobjektivität kaum 

einzuhalten. 

• Die Interpretationsobjektivität gibt die Unabhängigkeit der Interpretation 

der Testergebnisse vom Interpretierenden ab, d.h. dass verschiedene 

Versuchsleiter aufgrund der Testauswertung zu den gleichen Schlüssen 

kommen. Lienert (1969) nimmt die Interpretationsobjektivität als 

vollkommen gegeben an, wenn die Testauswertung einen numerischen 

Wert liefert, der die Position eines Probanden innerhalb einer Testskala 

angibt. 

13


2.1.1.2 Reliabilität 

Mit Reliabilität ist das Maß an Messgenauigkeit bzw. Zuverlässigkeit gemeint, 

mit dem ein Test ein bestimmtes Merkmal misst. Dies gilt unabhängig davon, ob 

der Test auch das misst, was er messen soll, d.h. ob er auch valide ist 

(Obermann, 2006). Ein Test ist demnach gemäß den Axiomen der klassischen 

Testtheorie vollkommen reliabel, wenn der Messfehler gleich null ist, d.h. die 

Ergebnisse des Tests den Probanden in seiner Merkmalsausprägung fehlerfrei 

beschreiben (Fisseni, 1990; Schuler, 1996). Zur Bestimmung dessen wird ein 

Reliabilitätskoeffizient ermittelt, der angibt, wie sehr das Testergebnis mit 

demselben Probanden unter gleichen Bedingungen reproduzierbar ist (Lienert, 

1969). Die folgenden Methoden ermöglichen die Bestimmung dieses 

Reliabilitätskoeffizenten: 

• Paralleltest-Methode: Einer Stichprobe von Probanden werden zwei 

einander ähnliche und vergleichbare Tests vorgelegt und deren 

Ergebnisse korreliert (Fisseni, 1990). Zu diesem Zweck entwickeln 

Testautoren oft eine Form A und eine Form B des jeweiligen Instruments. 

• Retest-Methode: Dieselbe Stichprobe bearbeitet einen Test zweimal, so 

dass die Korrelation der beiden Ergebnisreihen berechnet werden kann. 

Nach Schuler (1996) erhalten die Messwerte durch die 

Messwiederholung Stabilität. Diese Methode kann jedoch je nach Test 

sehr zeitaufwändig sein sowie Übungs- und Transfereffekte erzeugen. 

• Split-Half-Methode: Nach der Bearbeitung durch eine Stichprobe wird der 

Test in zwei gleichwertige Hälften geteilt, und das Testergebnis jedes 

Probanden für jede Hälfte einzeln ermittelt. Anschließend werden die 

Testergebnisse beider Hälften korreliert. Diese Methode ist jedoch nur 

bei sehr homogenen Tests sinnvoll (Lienert, 1969), beispielsweise dem 

Aufmerksamkeits-Belastungs-Test d2 von Brickenkamp oder dem 

Konzentrations-Leistungs-Test von Düker und Lienert (vgl. Sarges & 

Wottawa, 2001; Brickenkamp, 2002). Besonders bei situativen oder 

dynamischen Verfahren wie z.B. einem Postkorb oder einem Planspiel ist 

diese Methode nicht anwendbar, da die einzelnen Items nicht 

unabhängig voneinander sind (Schuler, 1996). 

14


• Konsistenzanalyse: Die Konsistenzanalyse kann als Verallgemeinerung 

oder Weiterentwicklung der Split-Half-Methode angesehen werden 

(Fisseni, 1990). Dabei wird der Test nicht nur in zwei Teile zerlegt, 

sondern in so viele, wie er Items hat. Nun kann entweder die Korrelation 

zwischen den Items oder mittels Varianzanalysen 

Konsistenzkoeffizienten aufgrund von Itemschwierigkeit, Trennschärfe 

oder Standardabweichung berechnet werden (Lienert, 1969). Allerdings 

dürften hier ähnliche Einschränkungen wie für die Split-Half-Methode 

gelten. Hinzu kommt, dass die Konsistenzmethode nur Aussagen über 

Kennwerte macht, die auf Testscores basieren, welche aus der Summe 

der Itemscores bestimmt werden. Testscores wie Bearbeitungsmenge 

bzw. -geschwindigkeit oder Bearbeitungsgüte, bei der richtige und 

falsche Antworten verrechnet werden, basieren jedoch nur teilweise auf 

der Summe der Itemscores (Will, 2006). 

2.1.1.3 Validität 

Die Validität eines Tests gibt Auskunft über seine Gültigkeit. Das bedeutet, dass 

ein Test dann valide ist, wenn er die Merkmale oder die Verhaltensweisen, die 

er messen soll, auch tatsächlich misst (Lienert, 1969). Erst dann lassen seine 

Ergebnisse einen fehlerfreien Rückschluss auf den Ausprägungsgrad des 

Merkmals oder des Verhaltens zu. Allerdings gibt es nicht die eine Validität 

(Obermann, 2006), sondern bezogen auf die jeweilige Fragestellung muss 

zwischen verschiedenen Validitätsaspekten unterschieden werden. Die 

wichtigsten Validitätsarten sind nach Schuler (1996) Augenscheinvalidität, 

Inhaltsvalidität, Kriteriumsvalidität und Konstruktvalidität, zu deren Ermittlung 

jeweils unterschiedliche Methoden entwickelt wurden. 

• Augenscheinvalidität: Ein Aspekt der Validität betrifft die Gültigkeit, die 

ein bestimmtes Verfahren in den Augen der Getesteten und der 

Testanwender hat. Diese Augenscheinvalidität ist wichtig für die 

Akzeptanz eines Verfahrens und damit auch für seine Gültigkeit, da eine 

geringe Augenscheinvalidität unter anderem dazu führen kann, dass die 

15


Kandidaten den Test nicht ernst nehmen und deshalb nicht ihre optimale 

Leistung zeigen (Kersting, 2003). Erhöht werden kann sie beispielsweise 

durch gezielte Informationen über den Sinn des Tests oder eine 

Realitätsnähe zum zu erfassenden Merkmal. Assessment Centern und 

deren Übungen wird im Allgemeinen eine hohe Augenscheinvalidität 

zugesprochen (Schuler & Moser, 1995; Kersting, 2003). Dabei ist jedoch 

zu beachten, dass die Augenscheinvalidität nicht über wissenschaftliche 

Verfahren und Kennwerte ermittelt wird, sondern eher als gegeben oder 

nicht gegeben angenommen wird und nicht fälschlicherweise mit der 

wissenschaftlich fundierteren inhaltlichen Validität gleichgesetzt werden 

darf (Kersting, 2003). 

• Inhaltsvalidität: Die inhaltliche Validität oder Kontentvalidität gibt das 

Ausmaß an, mit dem die Test-Items geeignet sind, das Zielmerkmal zu 

erfassen und hinreichend genau zu definieren (Fisseni, 1990). Bei 

vollkommener inhaltlichen Validität stellt ein Test somit selbst das 

optimale Kriterium für das zu erfassende Merkmal dar (Lienert, 1969). 

Dies wäre etwa bei einer Klassenarbeit der Fall, die den behandelten 

Unterrichtsstoff abfragt, oder der Führerscheinprüfung, bei der sowohl 

der theoretische als auch der praktische Teil der Fahreignung getestet 

wird. Zur Bestimmung der inhaltlichen Validität wird auf einen 

numerischen Kennwert verzichtet. Stattdessen befragt man Experten, die 

mit dem jeweiligen Merkmal vertraut sind, über den Grad der Validität 

und lässt sie entscheiden, ob der Test diesbezüglich akzeptiert oder 

verworfen wird (Fisseni, 1990). Allerdings wäre es aufgrund dieser 

subjektiven und meist qualitativen Beurteilung noch immer unzureichend, 

bei der Konstruktion von Tests und Auswahlverfahren allein auf die 

Inhaltsvalidität zurückzugreifen (Schuler, 1996). 

• Kriteriumsvalidität: Die Bestimmung der Kriteriumsvalidität gilt gemeinhin 

als wichtigste Validierungsstrategie (Schuler, 1996). Ermittelt wird sie 

durch einen Vergleich von Testscore und Kriterien-Score, d.h. es wird ein 

Korrelationskoeffizient für den Zusammenhang von den empirisch 

gemessenen Testergebnissen und den Messungen eines für sinnvoll 

16


erachteten Kriteriums bestimmt (Fisseni, 1990). Nach Bortz und Döring 

(2002) gilt eine Validität von .4 bis .6 als mittelmäßig, über .6 hinaus wird 

sie als hoch eingeschätzt. Häufig wird die Kriteriumsvalidität nach 

Vorhersagevalidität und Übereinstimmungsvalidität unterschieden: 

o Vorhersagevalidität: Man spricht von Vorhersagevalidität, wenn 

ein psychologischer Test Vorhersagen über zukünftiges Verhalten 

macht, d.h. bestimmte Merkmale prognostizieren soll (Lienert, 

1969). Sie wird daher auch prognostische Validität genannt. Die 

zur Validierung herangezogenen Kriterien werden somit erst 

deutlich später als der Testscore erfasst (Fisseni, 1990). 

o Übereinstimmungsvalidität: Bei der Übereinstimmungsvalidität 

stehen keine zeitlichen Vorhersagen, sondern diagnostische 

Gesichtspunkte im Mittelpunkt. Vom Testscore soll dabei auf das 

Verhalten außerhalb der Testsituation geschlossen werden, was 

beispielsweise in der Eignungsdiagnostik von größter Wichtigkeit 

ist (Lienert, 1969). Die Kriterien-Scores werden zu diesem Zweck 

zeitgleich mit den Test-Scores erhoben. Dies ist beispielsweise 

der Fall, wenn zur Validierung eines Intelligenztest die Probanden 

an einem Tag den zu validierenden und einen anderen bereits 

bewährten Intelligenztest mit ähnlichen Dimensionen bearbeiten 

würden. Dadurch lägen von jedem Probanden zwei zeitgleiche 

Messwertreihen vor, aus denen der Korrelationskoeffizient 

errechnet würde. (Fisseni, 1990) 

Des Weiteren kann nach äußerer und innerer (Kriteriums-)Validität 

differenziert werden: 

o Äußere Validität: Bei der äußeren Validität wird zur Berechnung 

des Validitätskoeffizienten ein äußeres Kriterium verwendet, also 

ein Kriterium, das außerhalb der Testpsychologie liegt (Lienert, 

1969). Gemeint ist dabei beispielsweise eine objektiv bewertbare 

Kriteriumsleistung wie etwa die gezählten Anschläge auf der 

Schreibmaschine pro Minute, oder aber Schätzurteile wie 

17


Vorgesetzten- oder Lehrerbeurteilungen und Schulnoten. 

o Innere Validität: Bei der inneren Validierung wird der Test-Score 

mit dem eines bereits bestehenden Tests, der dasselbe Merkmal 

misst, korreliert (Lienert, 1969). Auch hier trifft das Beispiel zu, in 

dem der Test-Score eines Intelligenztests mit dem eines anderen 

Intelligenztests mit ähnlichen Dimensionen korreliert werden 

würde. Wichtig ist dabei jedoch, dass der Test, der das Kriterium 

darstellt, bereits ausreichend an einem oder mehreren 

Außenkriterien validiert wurde. 

• Konstruktvalidität: Als Konstrukt bezeichnet man ein postuliertes 

Persönlichkeitsmerkmal, welches im Sinne der klassischen Testtheorie 

als relativ stabil gilt und über unterschiedliche Situation und Zeiten 

hinweg verhältnismäßig konstant bleibt (Obermann, 2006). Als Beispiel 

sind etwa Konstrukte wie Intelligenz oder soziale Kompetenz zu nennen. 

Diese sind jedoch unmöglich direkt und objektiv beobachtbar, im 

Gegensatz etwa zu Rechtschreibefähigkeit oder dem schnellen und 

fehlerfreien Tippen auf der Schreibmaschine. Dies wiederum hat zur 

Folge, dass ein Konstrukt durch bestimmte messbare oder beobachtbare 

Indikatoren repräsentiert werden muss (Lienert, 1969). Bei der 

Konstruktvalidität geht es also um die Frage, inwieweit ein Test und sein 

Test-Score in ein derartiges nicht klar operationalisierbares Konstrukt 

eingebettet werden kann. Nach Lienert (1969) liegt ihre Bedeutung somit 

weniger in einer unmittelbaren praktischen Verwertbarkeit, weshalb zu 

ihrer Bestimmung auch kein eindeutiges Maß angegeben werden kann, 

sondern vielmehr in der theoretischen Aufklärung der psychologischen 

Faktoren, die hinter einem Test stehen. Erheblich bedeutsamer für die 

Praxis sei jedoch eher die Bestimmung der Kriteriumsvalidität. 

2.1.1.4 Nebengütekriterien 

Im Folgenden sollen die Nebengütekriterien zur Beurteilung eines Tests 

beschrieben werden. Diese lassen sich nicht mit einem numerischen Kennwert 

18


ausdrücken, sondern sind eher Indikator für die Anwendbarkeit eines Tests in 

der Praxis. 

• Normierung: Mit Hilfe der Normierung kann ein individuelles 

Testergebnis in ein Bezugssystem von Vergleichswerten eingeordnet 

werden, um zu sehen, welche Position ein Proband hinsichtlich eines 

Merkmals im Vergleich zu den Testergebnissen anderer Probanden 

einnimmt (Fisseni, 1990). 

• Vergleichbarkeit: Ein Test sollte mit sich selbst oder ähnlichen Tests 

vergleichbar sein. Dies geschieht entweder durch die Paralleltest- 

Methode im Sinne einer intraindividuellen Reliabilitätskontrolle oder 

durch eine innere Validierung des Tests mit einem verwandten Test, der 

dasselbe Merkmal misst, als intraindividuelle Validitätskontrolle (Lienert, 

1969). 

• Ökonomie: Als ökonomisch wird ein Test dann bezeichnet, wenn die 

Testvorbereitung, -durchführung und -auswertung insgesamt wenig Zeit 

sowie finanzielle Ressourcen und Personal beansprucht, er einfach zu 

handhaben ist, wenig Material verbraucht und als Gruppentest 

durchführbar ist (Lienert, 1969). 

• Nützlichkeit: Ein Test gilt dann als nützlich, wenn er ein Merkmal erfasst, 

für dessen Untersuchung es noch keinen anderen Test gibt, der dieses 

Merkmal ebenso gut oder besser erfassen könnte (Lienert, 1969). 

• Weitere Kriterien: Zusätzlich zu den bereits erwähnten Haupt- und 

Nebengütekriterien werden in der Literatur noch weitere Aspekte wie 

ethische Rahmenbedingungen oder rechtliche Richtlinien erwähnt 

(Obermann, 2006). Auf diese wird in der vorliegenden Arbeit jedoch nicht 

weiter eingegangen. 

2.1.2 Kritik an der klassischen Testtheorie 

Es steht außer Frage, dass sich psychologische Tests, die auf der Grundlage 

der klassischen Testtheorie konstruiert wurden, in der 

Berufseignungsdiagnostik längst bewährt haben (Fisseni, 1990). Als besonders 

19


beliebt und wissenschaftlich fundiert gelten dabei Intelligenztests wie 

beispielsweise der Intelligenz-Struktur-Test von Amthauer oder der Wilde- 

Intelligenz-Test von Kersting, Althoff und Jäger sowie Leistungstests wie etwa 

der Aufmerksamkeits-Belastungs-Test d2 von Brickenkamp zur Erfassung der 

Konzentrationsleistung (vgl. Sarges & Wottawa, 2001; Brickenkamp, 2002). 

Dennoch gibt es auch Kritik an derartigen Instrumenten, insbesondere zur 

Anwendung im Rahmen von Assessment Centern (siehe Kapitel 2.2.5.5). Diese 

Kritik liegt nach Obermann (2006) in den Grundansätzen der Testtheorie 

begründet. Psychologische Tests sollen Merkmale wie Problemlösefähigkeit, 

Intelligenzaspekte, Gedächtnisleistung oder Aufmerksamkeit erfassen, wobei in 

der klassischen Testtheorie davon ausgegangen wird, dass diese Merkmale 

zeitlich sowie über unterschiedliche Situationen hinweg stabil sind und sich 

somit durch standardisierte, meist sehr homogene Verfahren messen lassen. 

Variabilitäten in den Messwerten werden gemäß dem Stabilitätsaxiom als 

Fehlervarianz betrachtet. Diese Annahmen sind jedoch mit dem situativen 

Ansatz der zum Teil komplexen sozialen Simulationen des Assessment Center 

unvereinbar. Hier wird davon ausgegangen, dass Verhalten, beispielsweise 

Teamführung oder Kundenorientierung, neben den individuellen 

Persönlichkeitsdispositionen immer auch auf Einflussfaktoren der Situation 

zurückzuführen ist, und diese Dispositionen je nach Situation unterschiedlich 

stark eingebracht werden. Die zu erfassenden Kriterien im AC werden also 

keinesfalls als stabil betrachtet. Diese Ansicht entspricht nach Obermann 

(2006) auch dem Ansatz der Sozialpsychologie, welche mit einer Vielzahl von 

Experimenten diese Interaktion von Person und Situation belegt hat. Hinzu 

kommt, dass AC-Übungen, besonders Rollenspiele und Gruppendiskussionen, 

nur schwer zu standardisieren sind. Dies ist jedoch auch gar nicht die Absicht 

von situativen Übungen, da ja gerade das individuelle Verhalten in diesen 

komplexen kritischen Situationen im Mittelpunkt des Interesses steht. Einzig 

beobachterunabhängige Übungen, wie bestimmte Planspiele oder Postkörbe, 

können trotz des Simulationsprinzips die Standardisierungsforderung 

weitgehend erfüllen. Insgesamt wird also deutlich, dass die klassische 

Testtheorie nicht für situative Übungen, wie sie in Assessement Centern zum 

Einsatz kommen, geeignet ist. 

20


Ein weiterer Kritikpunkt an der klassischen Testtheorie ist, dass alle ihre 

Messwerte stichproben- oder populationsabhängig sind (Fisseni, 1990; 

Obermann, 2006). Nach Meinung der Autoren ist es deswegen fraglich, 

inwieweit sich die gefundenen Ergebnisse generalisieren lassen, da es 

innerhalb von Populationen auch stets Teil-Populationen gibt, auf die sich die 

Test-Kennwerte nicht übertragen lassen. Obermann (2006) sieht als 

hypothetische Lösung, möglichst viele homogene Teilgruppen von Prädiktoren 

und Subpopulationen zu ermitteln und für diese Validitätskennwerte zu 

berechnen. Allerdings, so der Autor, wird dies nur eine theoretische Forderung 

bleiben, da es für die Praxis viel zu aufwändig wäre. 

Des Weiteren führt die Abhängigkeit der Messwerte von Normstichproben dazu, 

dass die Höhe der ermittelten Koeffizienten nicht nur über die Validität und 

Reliabilität eines Tests Auskunft gibt, sondern durch bestimmte Aspekte 

künstlich beeinflusst werden kann (Fisseni, 1990; Obermann, 2006): 

• Die Reliabilität wird dadurch erhöht, dass ein Verfahren einer Gruppe 

vorgelegt wird, die bzgl. des zu erfassenden Merkmals sehr heterogen 

ist. Die Reliabilität wird gesenkt, wenn die Gruppe sehr homogen ist. 

• Eine hohe Streuung der Testwerte, also bei vielen „schlechten“ und 

vielen „guten“ Probanden, führt zu einer Erhöhung der Korrelations- 

Kennziffern. 

• Je länger ein Test ist, d.h. je mehr Items er hat, desto höher ist die 

interne Konsistenz. 

• Die interne Konsistenz wird ebenfalls erhöht, wenn der Test aus vielen 

Items besteht, die eine mittlere Schwierigkeit, d.h. eine 

Lösungswahrscheinlichkeit um die 50 Prozent aufweisen. 

Weitere Kritikpunkte an der klassischen Testtheorie finden sich bei Fisseni 

(1990, S.101). Im Anschluss soll nun eine diagnostische Modellvorstellung 

vorgestellt werden, die mit dem AC-Ansatz und dem Thema der vorliegenden 

Arbeit eher zu vereinbaren ist. 

21


2.1.3 Kriteriumsorientierten Leistungsmessung 

Die kriteriumsorientierte Leistungsmessung wird als eine Erweiterung der 

klassischen Testtheorie verstanden. Hierbei werden die Leistungen des 

Probanden nicht mit stichprobenbezogenen Durchschnittsnormen, wie in der 

klassischen Testtheorie, sondern mit inhaltlich definierten Zielen, d.h. Kriterien 

verglichen (Fisseni, 1990). Das Kriterium wird in diesem Kontext als 

Leistungskontinuum definiert, auf dem unterschiedlich „tüchtige“ Probanden 

entsprechend ihrer Leistung positioniert werden. Alternativ kann es für einen 

Leistungsstandard stehen, an dem sich Vorhersagen bestätigen oder 

widerlegen lassen (Klauer, 1987). 

Ein bekanntes Beispiel für einen kriteriumsorientierten Test stellt die 

Führerscheinsprüfung dar. Hierbei wären die Kriterien beispielsweise das 

Kennen und Anwenden können der Verkehrregeln, das sichere Steuern eines 

Kraftfahrzeugs durch den Straßenverkehr, Kenntnisse um bestimmte 

technische Fakten, etc. Diese Kriterien werden durch exakte Beobachtung und 

Beschreibung menschlichen Verhaltens bewertet, in diesem Fall vom 

Fahrlehrer und dem Fahrprüfer. Ähnlich verhält es sich beim Assessment 

Center und dessen Übungen. Bei einem Postkorb wird beispielsweise das 

Kriterium Analytische Fähigkeiten erfasst. Dieses könnte wiederum 

folgendermaßen definiert werden: „Der Teilnehmer arbeitet sich in neue 

Themen ein, er durchdringt komplexe Sachverhalte, fokussiert relevante 

Themen, analysiert Informationen und strukturiert diese, findet neue 

Lösungsansätze und wendet diese erfolgreich an.“ Auch hierbei wird die 

Leistung bzw. das Verhalten eines Teilnehmers durch geschulte Beobachter 

beurteilt. Je genauer die Kriterien dabei definiert sind, d.h. je mehr die 

Operationalisierungen des Kriteriums den jeweiligen Sachverhalt in seiner 

Gesamtheit erfassen und repräsentieren, desto aussagekräftiger ist der Test 

bzw. das Messverfahren (Fisseni, 1990). 

Zur Bestimmung der Leistung eines Probanden wird nicht wie in der 

klassischen Testtheorie der Test-Score mit einer Normstichprobe verglichen 

und das Ergebnis daraufhin beispielsweise als unterdurchschnittlich, 

durchschnittlich oder überdurchschnittlich eingestuft. Bei der 

kriteriumsorientierten Leistungsmessung wird der individuelle Test-Score einer 

22


Person durch die Nähe zum Kriterium charakterisiert (Fisseni, 1990). Dazu wird 

entweder ein kritischer Punktwert oder Cut-off-point bestimmt oder alternativ ein 

Vertrauensbereich. Beim Cut-off-point gilt das Kriterium als erreicht, wenn der 

Proband diesen kritischen Punktwert erzielt. Bleibt der Proband unterhalb 

dieses Punktwerts gilt das Kriterium als nicht erreicht. Auf diese Art wird 

beispielsweise bei Schulzeugnissen verfahren: Als Cut-off-point ist hier die Note 

„Ausreichend“ festgelegt. Bessere oder gleiche Noten besagen „Ziel erreicht“, 

schlechtere Noten signalisieren „Ziel nicht erreicht“. Bei der Bestimmung des 

Vertrauensbereiches wird ähnlich verfahren. Hierbei wird anstatt eines 

kritischen Wertes ein Bereich festgelegt, innerhalb dessen die Leistung des 

Probanden liegen muss, um das Ziel zu erreichen, also beispielsweise 

zwischen 50 und 75 Prozent der Punkte. Beim Assessment Center wird ebenso 

vorgegangen: Je nach Unternehmen wird ein Cut-off-Point oder ein 

Vertrauensbereich festgelegt, der wiederum zwischen den Hierarchiestufen der 

Managementebenen variieren kann. Die quantifizierten Beurteilungen der 

Beobachter ergeben entsprechende Punktwerte für die einzelnen Übungen, die 

dann summiert Aussagen über die Nähe zum Kriterium zulassen. 

Nach Fricke (1974) können von der klassischen Testtheorie die wichtigsten 

Testgütekriterien wie Objektivität Reliabilität und Validität in die 

kriteriumsorientierte Leistungsmessung übernommen werden. Der Autor äußert 

sich dazu wie folgt: 

„Wir verlangen erstens, dass ein kriteriumsorientierter Test auch das misst, was 

er zu messen vorgibt, dass zweitens verschiedene Beurteiler bei Einsatz des 

gleichen kriteriumsorientierten Tests zu gleichen Ergebnissen kommen und 

dass drittens die erhaltenen Testwerte nur mit einem geringen Messfehler 

behaftet sind“ (S.19). 

Zu den drei Hauptgütekriterien ist darüber hinaus ist folgendes festzustellen: 

• Validität: Nach Klauer (1987) und Fricke (1974) definieren sich 

kriteriumsorientierte Tests über ihren Inhalt, d.h. ein Test ist dann valide, 

wenn seine Items die Inhalte des Kriteriums vollständig enthalten oder 

repräsentativ abbilden. Aus diesem Grund ist nach Meinung der Autoren 

die Inhaltsvalidität der entscheidende Validitätsaspekt bei diesem 

23


diagnostischen Modell und reicht vollkommen aus, wenn diese durch 

eine theoriegeleitete Präzisierung der benötigten Konstrukte oder 

Expertenbefragungen sichergestellt wird. Andere Validitätsaspekte 

hätten erst Bedeutung, wenn gefragt würde, welche Konstrukte dem 

Verfahren zugrunde liegen, oder welche Entscheidungsrelevanz einem 

Instrument innewohnt, so dass Kriterien- und Konstruktvalidität zwar 

auch geprüft werden sollten, jedoch eher von untergeordneter Rolle 

seien. Diese Meinung widerspricht jedoch neueren Ansichten in der 

Literatur. Nach Schuler (1996) genügt die Berufung auf Inhaltsvalidität 

keineswegs zur Konzeption von AC-Übungen, die, wie bereits 

festgestellt, Charakteristika der kriteriumsorientierten Testtheorie 

aufweisen. Als in diesem Zusammenhang wichtiger gilt die 

Kriteriumsvalidität. Dieser Meinung ist auch Obermann (2006), der 

hinzufügt, dass besonders die Vorhersagevalidität als Teil der 

Kriteriumsvalidität in der Eignungsdiagnostik den wichtigsten Stellenwert 

besitzt, da mit dem AC ja gerade externe Faktoren wie beruflicher Erfolg 

prognostiziert werden sollen. Konstruktvalidität hat jedoch auch nach 

Obermann (2006) einen geringeren Stellenwert. Die Tatsache, dass viele 

Studien zur Konstruktvalidität von Assessment Centern unzureichende 

Ergebnisse liefern (Sackett & Dreher, 1982; vgl. auch Jeserich, 1995, 

Schuler, 1996, Nienaber, 1997, Obermann, 2006), wird damit begründet, 

dass diese ein Modell der klassischen Testtheorie ist. Als Konstrukt gilt 

demnach ein postuliertes Persönlichkeitsmerkmal, welches als relativ 

stabil gilt und über unterschiedliche Situationen und Zeiten hinweg 

verhältnismäßig konstant bleibt. Wie bereits herausgestellt, soll das AC 

aber gerade das individuelle Verhalten in verschiedenen Situationen 

erfassen. 

• Reliabilität: Die Anforderungen an die Reliabilität von 

kriteriumsorientierten Verfahren sind grundsätzlich analog zu denen der 

klassischen Testtheorie (Fisseni, 1990). Allerdings ist zu beachten, dass 

ihre Bestimmung deutlich schwieriger ist, da man beispielsweise in 

situativen Test nicht ohne Probleme die Split-half-Methode oder 

Konsistenzanalyse anwenden kann (Schuler, 1996). Was man also 

24


genau unter der Reliabilität eines kriteriumsorientierten Tests zu 

verstehen hat, ist nach Klauer (1987) nicht völlig klar auszumachen. 

• Objektivität: Auch für die Objektivität gelten gleiche Anforderungen wie in 

der klassischen Testtheorie. Fisseni (1990) befasst sich in Bezug auf die 

kriteriumsorientierte Leistungsmessung lediglich mit der 

Auswertungsobjektivität, jedoch dürften auch die Durchführungs- sowie 

Interpretationsobjektivität in diesem Messmodell Gültigkeit besitzen. 

Die beiden Messmodelle der klassischen Testtheorie und der 

kriteriumsorientierten Leistungsmessung haben samt ihrer Gütekriterien eine 

entscheidende Bedeutung für das Thema der vorliegenden Arbeit, da es sich 

um eine Validierungsstudie handelt. Das zu validierende Instrument ist ein 

computergestützter Postkorb, welcher eine Mischform aus situativer Übung und 

Leistungstest darstellt (Höft, 2003) und der als ein Teil des AC eingesetzt wird. 

Deshalb soll im nachfolgenden Kapitel auf das Assessment Center allgemein 

eingegangen werden, um die vorliegende Studie thematisch einzuordnen. 

25


2.2 Das Assessment Center als eignungsdiagnostisches 

Instrument 

Um eine thematische Einordnung des Gegenstands der vorliegenden Arbeit zu 

schaffen, wird im Folgenden Kapitel auf das Assessment Center (AC) genauer 

Bezug genommen. Zunächst erfolgt eine Begriffsklärung und Definition (2.2.1). 

Daran anschließend folgt die Darstellung eines typischen AC-Ablaufs (2.2.2) 

sowie der zentralen Komponenten, die bei der Konzeption des AC unbedingt 

beachtet werden sollten (2.2.3). In Kapitel 2.2.4 wird schließlich ein Überblick 

über die wichtigsten AC-Übungen gegeben, bevor dann in Kapitel 2.3 der 

Postkorb herausgegriffen und detaillierter beschrieben wird. 

2.2.1 Definition des Assessment Centers 

Aufgrund der Breite an theoretisch beschriebenen und praktisch angewandten 

Assessment Center (AC) Varianten hat sich bis heute keine allgemein gültige 

Definition des Verfahrens durchgesetzt (Jeserich, 1995; Paschen, Weidemann, 

Turck & Stöwe, 2005). Obermann (2006) definiert das AC wie folgt: 

„Ein Assessment Center ist ein ein- bis dreitägiges Seminar mit acht bis zwölf 

Mitarbeitern oder Bewerbern, die von Führungskräften und Personalfachleuten 

in Rollenübungen und Fallstudien beobachtet und beurteilt werden. Diese 

Rollenübungen und Fallstudien sind charakteristisch für bestehende zukünftige 

Arbeitssituationen und Aufgabenfelder“ (S.12). 

Diese Beschreibung kann jedoch als zu eingeschränkt betrachtet werden. So 

findet eine Vielzahl abgewandelter Formen inzwischen Verwendung, wozu 

beispielsweise das Reality-Assessment Center oder das Lernpotential- 

Assessment Center zählen (Jerusalem, 2003; Paschen et al., 2005). 

Hinsichtlich seiner Merkmale, wie der Dauer des Verfahrens, Anzahl der 

Teilnehmer, Menge und Auswahl der festgelegten Anforderungen sowie der Art 

der eingesetzten Übungen (siehe Kapitel 2.2.5) differieren Assessment Center 

innerhalb Deutschlands und im internationalen Vergleich teils erheblich (Krause 

& Gebert, 2005). 

26


Angesichts dessen scheint eine generellere Umschreibung angebrachter. 

Jeserich (1981) definiert das Assessment Center als: 

„systematisches Verfahren zur qualifizierten Feststellung von 

Verhaltensleistungen und -defiziten, das von mehreren Beobachtenden 

gleichzeitig für mehrere Teilnehmende in Bezug auf vorher definierte 

Anforderungen angewandt wird“ (S. 33). 

Es handelt sich demnach um ein eignungsdiagnostisches Instrument, dessen 

zentrale Funktion in der Beurteilung der aktuellen oder zukünftigen Eignung für 

eine berufliche Tätigkeit liegt (Jerusalem, 2003). 

Bereits Mitte der 1920er Jahre wurde ein AC-ähnliches Instrument zur Auswahl 

von Offizieren in der deutschen Wehrmacht eingesetzt (Schuler & Moser, 

1995). Nachdem es ab dem zweiten Weltkrieg auch in Großbritannien und den 

USA Verwendung fand, ebenfalls zur Auswahl geeigneter Offiziersanwärter, 

gelangte das Assessment Center über amerikanische Universitäten und 

Unternehmen wie IBM, AT&T und General Electrics zurück in die 

Bundesrepublik, wo es erstmalig im Jahr 1969 bei IBM Deutschland eingesetzt 

wurde (Jeserich, 1995). Seit Anfang der 1980er Jahre steigt die Verwendung 

von Assessment Centern in der deutschen Wirtschaft nun kontinuierlich an 

(Obermann, 2006). Inzwischen wird das AC von mehr als 50 Prozent der 

Unternehmen in Deutschland eingesetzt (Neubauer, 2005; ausführlich zur 

Geschichte des AC: Domsch & Jochum, 1989; Jeserich, 1995; Schuler & 

Moser, 1995) 

Verwendet wird das Instrument für vielfältige Zwecke, die zum größten Teil der 

internen und externen Führungs- und Personalauswahl oder der 

Personalentwicklung, wie beispielsweise im Rahmen von Potentialanalysen, 

zuzuordnen sind (Fisseni & Preusser, 2007; Obermann, 2006; Schuler, 1996, 

Jeserich, 1981). 

27


2.2.2 Ablauf eines Assessment Centers 

Wie bereits beschrieben, wird in der Praxis eine Reihe verschiedener 

Ausgestaltungen des Assessment Centers angewandt. Grundsätzlich 

gemeinsam sind den verschiedenen Verfahrensarten jedoch die Phasen der 

Vorbereitung, Durchführung und Nachbereitung (Jeserich, 1981). Im Folgenden 

soll dieser zeitliche Ablauf exemplarisch dargestellt werden. 

Im Rahmen der Vorbereitung eines Assessment Centers werden zunächst die 

Ziele seines Einsatzes definiert und die Zielgruppe bestimmt, die das Verfahren 

durchlaufen soll (Obermann, 2006). So haben Studien gezeigt, dass man 

beispielsweise ausschließlich Teilnehmer gleicher Hierarchiestufen zusammen 

ein AC durchlaufen lässt, um Effekte in Gruppenübungen und andere 

Verzerrungen zu verhindern (Jeserich, 1995). Weiterhin erfolgen in dieser 

Vorbereitungsphase die Auswahl der Beobachter und die Ermittlung des 

Anforderungsprofils (Jerusalem, 2003; Jeserich, 1981), indem durch eine 

Tätigkeitsanalyse Aufgabenstellungen und erfolgskritische Anforderungen der 

Zielstelle erfasst werden (siehe Kapitel 2.2.3.1). Aus diesem Profil werden die 

zu beurteilenden Kriterien abgeleitet und die passenden Übungen konzipiert 

bzw. ausgewählt (siehe Kapitel 2.2.3.3). Hierbei ist empfehlenswert, diese 

sinnvoll in einen fiktiven Kontext einzubetten und mithilfe einer 

Rahmenhandlung eine allgemeine Ausgangslage zu schaffen (Paschen et al., 

2005). Den Abschluss der Vorbereitungsphase bilden organisatorische 

Vorbereitungen, wie etwa Buchung von Seminarräumen oder die Einladung und 

Vorinformation der Teilnehmer. 

Die Phase der Durchführung beginnt mit einer Schulung der Beobachter, in der 

diese auf die anstehenden Aufgaben vorbereitet werden (Jeserich, 1981; siehe 

Kapitel 2.2.3.4). Anschließend werden die Teilnehmer empfangen und über 

Organisatorisches sowie Ziele und Inhalte des Verfahrens informiert (siehe Kap. 

2.2.3.5). Danach durchlaufen die Kandidaten die einzelnen Übungen und 

werden dabei von den Assessoren hinsichtlich der vorgegeben 

Anforderungsdimensionen beobachtet und bewertet (Jeserich, 1981). Während 

der Durchführungsphase übernimmt ein Moderator zum einen organisatorische 

und koordinierende Aufgaben und supervidiert zum anderen den 

Beurteilungsprozess im Sinne der einzuhaltenden Qualitätsstandards (Höft & 

28


Funke, 2006; Obermann, 2006). 

In der letzten Phase des Verfahrens werden die abgegebenen Bewertungen 

aller Kandidaten im Rahmen einer Beobachterkonferenz zu einem Gesamturteil 

zusammengetragen und ggf. in Form schriftlicher Ergebnisberichte bzw. 

Gutachten festgehalten, welche wiederum für die zukünftige 

Personalentwicklungsplanung des Unternehmens von großer Bedeutung sind 

(Paschen et al., 2005). In Abhängigkeit von der Zielsetzung des Verfahrens 

werden dabei Empfehlungen bzgl. der Auswahlentscheidungen und/oder 

weiterer Entwicklungsmaßnahmen getroffen (Jeserich, 1995). Abschließend 

erfolgt die Information der Kandidaten über die entsprechenden Ergebnisse im 

Rahmen eines Feedbackgesprächs, welches je nach Unternehmen und 

Bewerberzusammensetzung unterschiedlich ausführlich ausfallen kann 

(Jeserich, 1981; Jerusalem, 2003). 

2.2.3 Zentrale Komponenten des Assessment Centers 

Wegen der Vielfältigkeit der in der Praxis angewandten Verfahren fällt es 

schwer, allgemeingültige Aussagen über Assessment Center zu treffen. Die 

folgenden Ausführungen fokussieren daher auf die Darstellung der zentralen 

Komponenten, aus denen jedes AC bestehen sollte (Arbeitskreis Assessment 

Center e.V., 2004; Obermann, 2006). 

2.2.3.1 Anforderungsanalyse 

Ein Assessment Center ist durch das Grundprinzip der Anforderungsanalyse 

charakterisiert (Jerusalem, 2003; Obermann, 2006). Nach diesem Prinzip 

werden die Inhalte des AC auf die interessierende berufliche Position 

zugeschnitten, indem im Vorfeld der Konzeption eine Analyse der konkreten 

Stellenanforderungen erfolgt und das Verfahren diesbezüglich operationalisiert 

wird (Arbeitskreis Assessment Center e.V., 2004). Oft wird dafür die Strategie 

der Critical Incidents angewandt, d.h. es wird nach typischen, aber auch 

besonders herausfordernden Ereignissen und Vorfällen auf der angestrebten 

Zielposition oder -ebene gefragt und anschließend ermittelt, mit welchen 

29


Verhaltensweisen erfolgreiche sowie weniger erfolgreiche Führungskräfte diese 

Situationen bewältigen (Jeserich, 1995). Fachliche Kompetenzen spielen in 

diesem Kontext eine untergeordnete Rolle, vielmehr geht es dabei um 

Dimensionen wie soziale Kompetenzen, Denk- und Planungsfähigkeit oder 

Führungskompetenz. Allerdings weisen in der AC-Praxis fast alle 

Anforderungsprofile unterschiedliche Dimensionen auf. Dies ist sicherlich zum 

einen durch Uneinigkeiten in den Definitionen psychologischer Begrifflichkeiten 

begründet, zum anderen aber auch durch subjektive Einfärbungen der 

jeweiligen Unternehmenskulturen oder -beratungen erklärbar (Jeserich, 1981). 

Umso wichtiger ist eine genaue Definition und Operationalisierung der 

Verhaltenskategorien in der Anforderungsanalyse. Je genauer die Zielposition 

erfasst und deren Anforderungen in den Übungen des AC umgesetzt wird, 

desto höher ist die Genauigkeit von Prognosen über das spätere 

Arbeitsverhalten (Obermann, 2006). 

2.2.3.2 Simulation 

Die so ermittelten eignungsrelevanten Aufgaben werden im Rahmen 

verschiedener AC-Übungen umgesetzt, die den beruflichen Alltag der 

Zielposition möglichst realistisch simulieren sollen (Sünderhauf, Stumpf & Höft, 

2005). Kernidee dieses Simulationsprinzips ist, dass die Teilnehmer des 

Assessment Centers relevante Anforderungen und Aufgaben praktisch 

erfahren, anstatt beispielsweise in einem Interview lediglich darüber zu 

sprechen (Fisseni & Preusser, 2007). Deshalb wird in den Übungen das 

realisiert, was später auch vom potenziellen Inhaber der angestrebten Position 

erwartet wird: Ein Verkäufer durchläuft beispielsweise Verkaufs-Rollenspiele, 

ein zukünftiger Vorgesetzter soll Mitarbeitergespräche führen, ein Administrator 

bearbeitet eine Postkorb-Übung und ein Bewerber um eine verhandelnde 

Position leitet eine simulierte Konferenz. Je ähnlicher diese Arbeitssimulationen 

den tatsächlichen Aufgaben der Zielstelle sind, desto genauer ist die 

Eignungsaussage bezüglich zukünftigen Arbeitsverhaltens (Obermann, 2006). 

30


2.2.3.3 Methodenvielfalt 

Im Sinne der Methodenvielfalt handelt es sich bei AC-Übungen um eine 

Kombination verschiedenster Methoden, welche die erfolgskritischen 

Leistungen der Teilnehmer auf unterschiedliche Weise erfassen sollen (Höft & 

Funke, 2006). Wichtig dabei ist, dass jedes der in der Anforderungsanalyse 

ermittelten Kriterien in unterschiedlichen Übungen mehrfach und unabhängig 

voneinander beobachtet werden muss (Obermann, 2006). So werden im 

Assessment Center mit den beschriebenen Arbeitssimulationen zum 

überwiegenden Teil Übungen wie Rollenspiele, Gruppendiskussionen und 

Präsentationen eingesetzt (Fisseni & Preusser, 2007). Ergänzt werden sie 

durch weitere Methoden wie Postkörbe, Fallstudien, Planspiele, Leistungs- und 

Persönlichkeitstests sowie Interviews (siehe Kapitel 2.2.5). Am häufigsten 

erfasst werden dabei Beurteilungsdimensionen oder -kriterien wie 

Kommunikationsfähigkeit, Durchsetzungsfähigkeit, Kooperations- und 

Konfliktfähigkeit, Führungskompetenzen sowie systematisches Denken und 

Problemlösefähigkeit (Krause, Meyer zu Kniendorf & Gebert, 2001). Eine grobe 

Übersicht ohne Anspruch auf Vollständigkeit stellt dabei Tabelle 1 in Anlehnung 

an Obermann (2006) dar: 

31


Tabelle 1: Zuordnung der häufigsten AC-Übungen zu einer Auswahl möglicher 

Beurteilungskriterien, in Anlehnung an Obermann (2006). Siehe dazu auch Kapitel 2.2.5. 

Zwischenmenschliches Verhalten Leistungsverhalten Intellekt. 

Fähigkeiten 

Delegation 

Kontrolle 

Motivationsfähigkeit 

Sensibilität 

Durchsetzung 

Teamfähigkeit 

Kommunikationsfähigkeit 

Entscheidungsverhalten 

Überzeugungsfähigkeit 

Ausdauer 

Zielsetzung 

Energie 

Belastbarkeit 

Leistungsmotivation 

Analytisches Denken 

Kreativität 

Organisation / Systematik 

Werte / Interessen 

Selbstbild 

AC-Simulationen 

Gruppendiskussionen X X X X X X X X X X X 

Präsentationen X X X X X X 

Rollenspiele X X X X X X X X X X X X X X 

Fallstudien X X X X X X X X X X X X X X X 

Planspiele X X X X X X X X X X X X X X 

Postkörbe X X X X X X X X X 

Psychologische Tests 

Intelligenztests X X X 

Leistungstests X X X X X 

Persönlichkeitstests X X X X X X 

2.2.3.4 Mehrfachbeurteilungen 

In diesen vielfältigen Simulationen dient die Beobachtung durch mehrere 

Assessoren als zentrales Mittel der Datenerhebung (Arbeitskreis Assessment 

Center e. V., 2004). 

Die Teilnehmer werden dabei von mehreren Beobachtern und in 

unterschiedlichen Übungen beurteilt, um Verzerrungseffekte sowie 

unterschiedliche Wahrnehmungen auszugleichen und Subjektivität zu 

32


vermindern (Jeserich, 1995; Obermann, 2006). 

Als weitere Maßnahme der Qualitätssicherung sollte sich das Beobachterteam 

sowohl aus Vertretern der Personalabteilung und Führungskräften des 

Unternehmens als auch aus externen Beratern zusammensetzen (Fisseni & 

Preusser, 2007). So können die unternehmensinternen Beobachter besonders 

gut die Passung von Bewerbern bzw. Mitarbeitern in die Unternehmenskultur 

beurteilen, da sie als Führungskräfte diese Kultur mitprägen und selbst 

jahrelang von ihr geprägt wurden. Auf der anderen Seite verfügen externe 

Berater meist über tieferes psychologisches und diagnostisches Know-how und 

sind mit der Verfahrensdurchführung besser vertraut (Obermann, 2006). Diese 

Kombination von Beobachtern mit verschiedenen fachlichen Hintergründen 

empfiehlt sich, um eine möglichst adäquate Eignungsaussage treffen zu können 

(Neubauer & Volkmann, 1995). Als notwendige Bedingung dafür gilt jedoch, 

dass alle Beobachter, besonders diejenigen ohne psychologische 

Fachausrichtung, in einer Beobachterschulung angemessen trainiert werden 

(Schuler, 1987). Dabei soll besonders die Trennung von Beobachten und 

Bewerten bewusst gemacht sowie intensiv auf potenzielle Fehlerquellen bei der 

Beurteilung, beispielsweise Attributionsfehler, Halo-Effekt, Erwartungseffekt 

oder Kontrasteffekt, hingewiesen werden (Obermann, 2006; Jeserich, 1981). 

Zudem sollen die Beobachter mit den vorliegenden Verhaltenskriterien und ggf. 

durchzuführenden Rollenspielen vertraut gemacht werden. Nur durch eine 

solche Beobachterschulung kann eine hinreichende Urteilshomogenität und ein 

gewisses Maß an Standardisierung gewährleistet werden (Jeserich, 1995). 

2.2.3.5 Transparenz 

Gemäß dem Transparenzprinzip sollen die beobachteten Kriterien, 

Zielsetzungen und Inhalte der Übungen allen Beteiligten, also auch den 

Teilnehmern, offen gelegt werden (Arbeitskreis Assessment Center e.V., 2004; 

Jerusalem, 2003; Jeserich, 1981). Dadurch wird gewährleistet, dass das 

Verfahren für die Kandidaten nachvollziehbar wird und sie sich in den Übungen 

adäquat verhalten können (Bolte & Sünderhauf, 2005). Auch soll den 

Teilnehmern nach dem Verfahren ein ausführliches, am Anforderungsprofil 

33


orientiertes Feedback über ihre Stärken und Verbesserungsmöglichkeiten 

gegeben werden. Dadurch bekommt der Bewerber die Möglichkeit, an seinen 

indizierten Schwächen zu arbeiten und ggf. Förderangebote in Anspruch zu 

nehmen, so dass auch im AC gescheiterte Teilnehmer ihre Vorteile daraus 

ziehen können (Jeserich, 1995; Obermann, 2006). Durch diese Maßnamen 

trägt die Transparenz dazu bei, dass die Akzeptanz des Assessment Centers 

im Vergleich zu anderen eignungsdiagnostischen Instrumenten, wie etwa der 

ausschließlichen Verwendung eines Interviews oder Testverfahren, als sehr 

hoch einzustufen ist (Obermann, 2006). 

2.2.4 Bedeutung von Reihenfolgeeffekten im Assessment Center 

Die bisherige Forschung zum Assessment Center beschäftigt sich überwiegend 

mit Fragen zur Validität oder Akzeptanz des Verfahrens, zum 

Beobachterverhalten oder weiteren methodischen Fragestellungen. Der 

möglichen Auswirkung von Reihenfolgeeffekten durch die unterschiedliche 

Abfolge der Aufgaben wurde bislang kaum Beachtung geschenkt (Fruhner, 

2005). Dennoch wird oft von AC-Teilnehmern berichtet, dass sie zu Beginn des 

AC noch stark verunsichert und nervös seien und die Art der gestellten 

Aufgaben und die damit verbundene Bewertungssituation für sie neu sei 

(Nienaber, 1997). Für Aufgaben, die im ersten Teil des AC durchgeführt 

werden, bedeutet dies, dass die tatsächliche Leistung eines Teilnehmers durch 

die eigene Unsicherheit und Nervosität stärker beeinflusst werden könnte als 

später durchgeführte Aufgaben. So könnte die Bewältigung der eigenen 

Nervosität in einer frühen AC-Aufgabe für den Teilnehmer eher im Vordergrund 

stehen als die eigentlichen Aufgabenmerkmale, wie beispielsweise analytische 

Anforderungen. Hinzu kommt, dass die Erfahrung, die ein Teilnehmer in einer 

vorherigen Übung gemacht hat, einen Einfluss auf sein weiteres Verhalten und 

damit auf sein Gesamtergebnis haben kann (Fruhner, 2005). Diese Vermutung 

liegt besonders bei AC-Übungen nahe, deren Anforderungen ähnlich sind, z.B. 

bei einem Intelligenztest, einem Postkorb, einem Planspiel und einer Fallstudie 

(siehe Kapitel 2.2.5). Aufgrund der Verwandtschaft bestimmter Übungen 

könnten folglich durchaus Übungseffekte auftreten. 

34


Entgegen all diesen Überlegungen deuten die wenigen empirischen Befunde 

jedoch darauf hin, dass sich Reihenfolgeeffekte im AC nicht auf die Ergebnisse 

eines Teilnehmers auswirken. Nienaber (1997) untersuchte die Auswirkung 

solcher Effekte auf die Gesamtbeanspruchung des Teilnehmers, auf 

analytische, psychische und verhaltensbezogene Anforderungen sowie auf 

physiologische Indikatoren wie Herzratenveränderungen. Dabei fand er jedoch 

keine nennenswerten Positionseffekte über die verschiedenen Übungen 

hinweg, so dass die Hypothese, dass sich durch zurückgehende Nervosität im 

Laufe des AC die auftretende Beanspruchung verringern und somit die 

tatsächliche Leistung erhöhen würde, abgelehnt wurde. Bezüglich der 

Leistungsverzerrung durch die eigene Unsicherheit und Nervosität eines 

Teilnehmers spielt die Positionierung einer Übung im Assessment Center 

demnach keine Rolle. In einer weiteren Studie, die im Rahmen von mehrtägigen 

Assessment Centern stattfand, untersuchte Fruhner (2005), ob die 

unterschiedliche Abfolge von Aufgaben einen Einfluss auf das individuelle 

Abschneiden der Teilnehmer hat. Das Ergebnis war, dass sich die Leistungen 

der vier Teilnehmergruppen trotz variierender Übungsreihenfolge nur in der 

Übung Vortrag unterschied. Genauer gesagt unterschied sich lediglich eine 

Gruppe (Gruppe 3) von den Ergebnissen der anderen drei Gruppen in der 

Übung Vortrag. Der Autor begründet dieses Ergebnis jedoch durch einen 

eigenen Konzeptionsfehler, da die Gruppe 3 laut Zeitplan als einzige Gruppe 

den Vortrag noch vor dem gemeinsamen Abendessen hielt. Somit konnten die 

anderen Teilnehmergruppen von den Erfahrungen der Gruppe 3 profitieren, 

beispielsweise bzgl. der Visualisierungsmöglichkeiten. Zudem seien die 

Beobachter möglicherweise nach dem Abendessen bei den anderen drei 

Gruppen wohlwollender in der Beurteilung des Vortrages gewesen. Unter 

gleichen Durchführungsbedingungen für alle Gruppen in allen Übungen geht 

Fruhler (2005) deshalb davon aus, dass keine Reihenfolgeeffekte im AC durch 

die Positionierung der Übungen ausgelöst werden, so wie die Ergebnisse der 

anderen Übungen in seiner Studie es zeigen würden. Dennoch weist er darauf 

hin, dass zukünftige Studien die Auswirkungen dieser methodischen 

Veränderung, d.h. wenn alle Gruppen den Vortrag nach dem Abendessen 

halten würden, untersuchen müssten. Auch Nienaber (1997) schließt sein Fazit 

35


damit, dass trotz der vorliegenden Ergebnisse bei der Konzeption eines AC auf 

Positionseffekte geachtet werden müsse und diese nie ganz ausgeschlossen 

werden könnten. 

2.2.5 Methodenüberblick 

Nach der Begriffsklärung zum Assessment Center und der geschichtlichen 

Einordnung sind ein typischer zeitlicher Ablauf, seine zentralen Komponenten 

und Qualitätsanforderungen und die Bedeutung von Reihenfolgeeffekten 

dargestellt worden. Im Folgenden soll nun ein kurzer Überblick über die in der 

Praxis am häufigsten eingesetzten Methoden gegeben werden. Hierbei soll der 

Fokus auf den psychologischen Testverfahren, dem Planspiel und der 

Fallstudie liegen, da diese in Beziehung zu dem in dieser Arbeit untersuchten 

Konstrukt stehen. 

2.2.5.1 Interview 

Interviews gehören in der Personalauswahl und -beurteilung zu den am 

weitesten verbreiteten Instrumenten (Sarges, 1995; Jeserich, 1981). In der 

Praxis liegen jedoch unterschiedlichste Variationen vor, da Interviewformen 

besonders bzgl. des Strukturierungsgrades, ihrer Teilnehmerzahl und ihrem 

Durchführungsmodus variieren können (Hösch, 1995). Generell lässt sich das 

Interview jedoch als eine zielgerichtete mündliche Kommunikation zwischen 

einem oder mehreren Befragern und einem oder mehreren Befragten 

beschreiben, bei der eine Informationssammlung über das Verhalten und 

Erleben der zu befragenden Person(en) im Vordergrund steht (Sarges, 1995). 

In der Eignungsdiagnostik soll das Interview also dem Zweck dienen, Fragen 

zur Eignung eines Kandidaten zu beantworten. Außerdem soll auch die 

Passung eines Bewerbers zum Unternehmen geprüft werden, ebenso wie der 

Bewerber die Möglichkeit hat herauszufinden, ob er sich selbst mit der 

jeweiligen Unternehmenskultur identifizieren kann (Hösch, 1995). Zur 

prognostischen Validität des Interviews gibt es in der Literatur jedoch geteilte 

Ansichten: Verschiedenen Metaanalysen zufolge liegt die Vorhersagekraft von 

36


Interviews für den Berufserfolg zwischen .38 und .63 (ausführlich zur Validität 

des Interviews und den Möglichkeiten seiner Qualitätssicherung: Sarges, 1995). 

Die in der Praxis am häufigsten anzutreffende Variante ist das halbstrukturierte 

Interview in dyadischer Form, d.h. ein Interviewer befragt einen Kandidaten. 

Dass dabei durch die subjektive Beurteilung erhebliche Verzerrungseffekte 

auftreten können, scheint die Anwender nicht zu stören (Jeserich, 1981). 

2.2.5.2 Rollenspiel 

Rollenspiele bilden zumeist das Herzstück eines jeden Assessment Centers. 

Dabei handelt es sich um Dialogsituationen mit einem „Als-Ob-Charakter“, d.h. 

dass beispielsweise eine Verhandlung, ein Mitarbeitergespräch oder ein 

Zielvereinbarungsgespräch simuliert wird (Jung, 1995; Fisseni & Preusser, 

2007). Die Teilnehmer interagieren dabei mit geschulten Rollenspielern, die 

sich möglichst nah an die schriftlichen Verhaltensinstruktionen halten sollen, die 

sich aus der vorher erfolgten Anforderungsanalyse (siehe Kapitel 2.2.3.1) 

ergeben haben (Obermann, 2006). Nur wenn die Simulation sowohl typisch als 

auch bedeutsam für die angestrebte Position ist und sich der Rollenspieler bei 

allen Durchführungen ähnlich verhält, wobei natürlich bestimmte 

Handlungsspielräume gegeben sein müssen, kann das Rollenspiel als 

möglichst standardisiert und aussagekräftig angesehen werden (Jung, 1995). 

Anschließend erfolgt anhand der definierten Anforderungskriterien eine 

Bewertung, ob das gezeigte Verhalten für die zugrunde liegende kritische 

Situation adäquat war oder nicht (Jeserich, 1981). Die Nützlichkeit von 

Rollenspielen ergibt sich aus den recht „weichen“ Kriterien, die durch sie erfasst 

werden sollen und die durch andere Methoden nur sehr schwer greifbar 

gemacht werden, so z.B. Kooperationsfähigkeit, Motivationsfähigkeit oder 

Überzeugungskraft (Obermann, 2006). 

2.2.5.3 Gruppendiskussion 

Die Teilnehmer werden in dieser Übung aufgefordert, als Gruppe ein 

bestimmtes Thema zu diskutieren, wobei die Strukturierung und 

37


Vorgehensweise in der Diskussion den Teilnehmern selbst überlassen bleibt 

(Fisseni & Preusser, 2007). Nach Reiter (1995) gelten hierbei als häufigste 

Kriterien vor allem Aktivität, Initiative, Durchsetzungsvermögen, 

Lösungsorientierung, Kommunikationsfähigkeit, Urteilsvermögen, emotionale 

Stabilität, soziale Sensibilität, Teamfähigkeit und Kooperationsfähigkeit. Diese 

seien besonders in führerlosen Gruppendiskussionen ohne fachbezogene 

Problemstellung und Lösungszwang auch von nicht psychologisch geschulten 

Beobachtern sehr gut zu beurteilen. Während der Diskussion sitzen die 

Beobachter abseits der Gruppe und beteiligen sich nicht aktiv am 

Gesprächsverlauf, da sonst die Objektivität des Verfahrens gestört würde und 

sich die Teilnehmer nach einer Beobachteräußerung in den meisten Fällen nur 

noch sozial angepasst verhalten würden (Reiter, 1995). 

Die Vorteile der Gruppendiskussion liegen besonders in ihrer hohen 

Augenscheinvalidität für Teilnehmer und Beobachter, da entsprechende 

Meetings und Arbeitsgruppen auch im realen Arbeitsalltag oft vorkommen. 

Zusätzlich ist sie sehr ökonomisch, da nach nur etwa einer Stunde Aussagen 

über alle Teilnehmer möglich sind (Fisseni & Preusser, 2007). Allerdings 

werden bei Obermann (2006) auch zwei entscheidende Nachteile dargestellt, 

die am Nutzen der häufigen Verwendung der Gruppendiskussion im AC 

zweifeln lassen. Zum einen gibt es oft Teilnehmer, die aufgrund von 

ausgeprägter Introversion oder einfach Nervosität fast die ganze Diskussion 

über gar nichts sagen und höchstens gegen Ende etwas „auftauen“. Hier 

besteht die Gefahr, dass diese Teilnehmer fälschlicherweise in allen Kriterien 

von den Beobachtern abgewertet werden oder das hervorstechendste Merkmal 

der wenigen Wortbeiträge, wie z.B. Eloquenz, die anderen Dimensionen 

überstrahlt. Die zweite nach Obermann (2006) genannte Problematik liegt in der 

generellen Laborhaftigkeit und Reaktivität von AC-Übungen begründet. In 

Gruppendiskussionen mit bis zu zwölf Teilnehmern sind die Redeanteile des 

einzelnen deutlich geringer als bei einem Rollenspiel mit einem Teilnehmer und 

einem Rollenspieler. Dadurch besteht in der Gruppendiskussion für jeden 

Teilnehmer mehr Zeit, sich zu überlegen, was wohl das von den Beobachtern 

gewünschte Verhalten sei. Dies hat naturgemäß großen Einfluss auf das 

Verhalten des Teilnehmers, da zum einen seine Authentizität verloren geht, und 

38


er zum anderen das gewünschte Verhalten in den seltensten Fällen aufgrund 

variierender Unternehmenskulturen antizipieren kann. 

2.2.5.4 Präsentation 

Nach Obermann (2006) sollen die Teilnehmer in Präsentationsübungen ein 

bestimmtes Thema oder vorgegebenes Material aufbereiten, strukturieren und 

dann vor einer Gruppe von Beobachtern vortragen. Oft schließt sich an den 

reinen Vortrag noch ein Frageteil an, bei dem der Teilnehmer seine 

Ausführungen begründen und gegen Einwände der Beobachter verteidigen soll. 

Häufig erfasste Kriterien in Präsentationen sind systematisches Denken, 

sprachlicher Ausdruck, Überzeugungskraft und selbstsicheres Auftreten 

(Jeserich, 1981). 

Analog zur Gruppendiskussion gibt es auch beim Einsatz von Präsentationen 

im AC kritische Aspekte zu bedenken. Das hier ebenfalls starke 

Reaktivitätseffekte wirken können, belegt eine Studie von Bungard (1987, zit. n. 

Eggers & Oetting, 1995), in der er die Hypothesen der Teilnehmer über die 

Zielsetzung der Präsentationsübung erfasste. Je nach Vermutung über die Ziele 

und Absichten der Beobachter richteten sich die Selbstdarstellungsstrategien 

der Teilnehmer danach und es wurden diejenigen Präsentatoren über alle 

Kriterien hinweg günstiger beurteilt, deren Hypothesen mit den tatsächlich 

geprüften Beurteilungsdimensionen übereinstimmten. Ein weiterer 

Verzerrungseffekt kann zum Tragen kommen, wenn eine nur ungenügend 

differenzierte Unterscheidung seitens der Beobachter getroffen wird zwischen 

Merkmalen der Kommunikation (Rhetorik, Argumentationstechniken, Einflüssen 

des Gesprächinhaltes oder Verständlichkeit) und Merkmalen des 

Kommunikators, insbesondere Glaubwürdigkeit und Beliebtheit (Frey, 1979). 

Sprachliche Ausdrucksfähigkeit wird demnach oft mit intellektuellen Aspekten 

gleichgesetzt, genauso wie beispielsweise ein gelungener oder misslungener 

Einsatz von Präsentationsmedien die Beurteilung verzerren kann (Eggers & 

Oetting, 1995; Obermann, 2006). 

39


2.2.5.5 Psychologische Testverfahren 

Psychologische Tests sind zum Großteil auf der Basis der klassischen 

Testtheorie konstruiert und somit nicht optimal für den Einsatz innerhalb eines 

Assessment Centers geeignet (siehe Kapitel 2.1.2). Zur Klassifikation lassen sie 

sich unterteilen in Intelligenz-, Leistungs- und Persönlichkeitstests (Fisseni & 

Preusser, 2007; Hösch, 1995; Jeserich, 1981). Die beiden ersten Gruppen 

lassen sich meist als „Power“-Tests kategorisieren, d.h. dass möglichst viele 

Aufgaben in vorgegebener Zeit zu lösen sind und damit in der 

Eignungsdiagnostik besonders Kriterien wie sprachliche oder rechnerische 

Intelligenz, Gedächtnis, Problemlösefähigkeit oder Konzentration gemessen 

werden sollen (Obermann, 2006). Persönlichkeitstests dagegen sollen die 

Ausprägung von bestimmten emotionalen, motivationalen oder 

zwischenmenschlichen Neigungen und Einstellungen erfassen, beispielsweise 

Extraversion oder Dominanz (Hösch, 1995). In einer umfangreichen Befragung 

verschiedener Unternehmen und Behörden zur Anwendungshäufigkeit 

psychologischer Testverfahren hat Brambring (1983, zit. n. Obermann, 2006) 

als häufigste eingesetzte Verfahren den Intelligenz-Struktur-Test (IST), das 

Leistungsprüfsystem (LPS), den Aufmerksamkeits-Belastungs-Test (d2), den 

Mechanisch-Technischen Verständnistest (MTVT), das Freiburger 

Persönlichkeitsinventar (FPI) und den Berufs-Interessen-Test (BIT) ermittelt 

(vgl. Sarges & Wottawa, 2001; Brickenkamp, 2002). Zudem bestehe ein Trend 

zur Entwicklung von Tests zur speziellen Fähigkeitsmessung für bestimmte 

Berufe, beispielsweise die Eignungsuntersuchungsbatterie (EUB) der 

Bundesagentur für Arbeit. Als weiteres Beispiel kann die Arbeitsprobe zur 

berufsbezogenen Intelligenz für büro- und kaufmännische Tätigkeiten (AZUBI- 

BK) von Schuler und Klingner (2005, siehe Kapitel 2.5.1) gelten. Auf eine 

detaillierte Auflistung der in der Praxis verwendeten Verfahren sei an dieser 

Stelle verzichtet und stattdessen auf Sarges & Wottawa (2001) sowie 

Brickenkamp (2002) verwiesen. 

Psychologische Testverfahren werden im Rahmen von Assessment Centern 

immer wieder eingesetzt, obwohl Validitätsprüfungen oft zeigen, dass ihr 

Nutzen in diesem Kontext vergleichsweise gering ist (Daumenlang, 1995; 

Jeserich, 1995). Eine Begründung dafür ist sicherlich, dass die Tests nicht für 

40


die speziellen Anforderungsdimensionen des jeweiligen AC konstruiert wurden 

und somit nur bedingt homogene Ergebnisse im Vergleich mit anderen AC- 

Methoden liefern können (Jeserich, 1981). Der Arbeitskreis Assessment Center 

e.V. (2004) zählt ihren Gebrauch deshalb sogar zu den Verstößen gegen die 

Standards des AC, da sie weder situativ sind (siehe Kapitel 2.2.3.2) noch einer 

genauen Anforderungsanalyse der jeweiligen Zielposition entstammen (siehe 

Kapitel 2.2.3.1). Ein weiteres Argument dafür, dass psychologische Tests im 

Assessment Center bestenfalls als Ergänzung zu anderen Methoden 

angesehen werden können, liefert die von Wernimont und Campbell (1968) 

schon früh postulierte Unterscheidung von signs und samples. Unter dem 

Begriff signs werden sämtliche Tests, Fragebögen und andere Verfahren 

zusammengefasst, die allgemeine Prädispositionen für bestimmte 

Verhaltensweisen, oder anders gesagt situationsübergreifende, grundlegende 

psychologische Dimensionen messen sollen (Fisseni & Preusser, 2007). Dabei 

kann das Verhalten, in dem sich ein solches sign, also Zeichen, ausdrückt, im 

kritischsten Fall nur das Ankreuzen einer Antwort auf dem Papier sein. 

Wermington und Campbell (1968) empfehlen für die Personaldiagnostik 

dagegen eher samples, also Arbeitsproben, womit komplexe 

Verhaltenssequenzen, in die gleich mehrere Fähigkeits- oder 

Persönlichkeitsdimensionen hineinwirken, gemeint sind. Welche Dimensionen 

in diesem Zusammenhang genau gemessen werden, ist dabei sekundär. Viel 

wichtiger ist die Situation selbst und ihre adäquate Bewältigung durch den 

Bewerber (Obermann, 2006). Diese bereits in den 1960er Jahren vorgebrachte 

Forderung nach samples statt signs steht im Einklang mit der heutigen 

Qualitätsanforderung an Assessment Center nach Simulation (siehe Kapitel 

2.2.3.2). Erschwerend hinzu kommt noch, dass die meisten Tests nicht an den 

für ein AC typischen Teilnehmergruppen geeicht sind (Jeserich, 1995). 

Besonders bei Intelligenztests wie dem Hamburg-Wechsler-Intelligenztest für 

Erwachsene (HAWIE) oder dem Intelligenz-Struktur-Test (IST) (vgl. Sarges & 

Wottawa, 2001; Brickenkamp, 2002) wird oft für die kriterienbezogene Validität 

nur ein Zusammenhang mit Schulnoten und Lehrerurteilen angegeben. Bei der 

Testung von Auszubildenden und allenfalls noch Hochschulabsolventen mag 

dies noch zulässig sein, für eine Diagnostik von erwachsenen Bewerbern für 

41


komplexe und anspruchsvolle Tätigkeiten wird dieser Validitätsbereich 

allerdings verlassen (Daumenlang, 1995; Hösch, 1995). Augrund all dessen 

prognostiziert Obermann (2006) für die Zukunft einen eher rückläufigen Einsatz 

von psychologischen Testverfahren in Assessment Centern. 

2.2.5.6 Planspiele 

Das herkömmliche Planspiel wird häufig als Gruppenübung durchgeführt, bei 

der eine Situation simuliert wird, in der die Teilnehmer die Positionen von 

Führungskräften in miteinander konkurrierenden Unternehmen übernehmen. In 

einer vorgegebenen Zeit muss jeder Teilnehmer Entscheidungen bzgl. einer 

vorgegeben Thematik und vorliegenden Informationen treffen. Dafür müssen 

die aktuelle Situation analysiert und Lösungsvorschläge ausgearbeitet werden, 

welche im Anschluss in der Gruppe diskutiert und gegen die anderen 

Teilnehmer durchgesetzt werden sollen (Friedrich & Schwarz, 1989; Obermann, 

2006). Diese Entscheidungen werden periodenweise von der Spielleitung oder 

einem EDV-Programm ausgewertet und die Resultate an die Teilnehmer 

rückgemeldet, was wiederum die Informationsgrundlage für die nächste Periode 

darstellt (Fassheber, 1995). Die Teilnehmer beeinflussen sich also durch ihre 

Entscheidungen gegenseitig, da diese den vernetzten simulierten Markt 

verändern. Die vorgegebenen Fragestellungen haben dabei meist realitäts- und 

unternehmensnahen Charakter, wie etwa Themen der Preis-, Produkt- und 

Kommunikationspolitik oder Personalangelegenheiten (Obermann, 2006). 

Dadurch soll das Planspiel eine geraffte Simulation der Realität darstellen, in 

der man Kriterien wie Entscheidungsverhalten, analytische Fähigkeiten, 

Problemlösefähigkeit oder Durchsetzungsvermögen besonders präzise und 

realitätsnäher als in anderen Methoden beobachten kann (Friedrich & Schwarz, 

1989; Fassheber, 1995). 

Besonderer Beliebtheit erfreuen sich inzwischen zahlreiche EDV-Versionen 

solcher Planspiele, wobei das Prinzip des Planspiels für eine Bearbeitung per 

Computer implementiert worden ist (Kluwe, 1995). Somit kann das Instrument 

auch als Einzelverfahren verwendet werden, da die Reaktionen des Marktes 

durch den Computer simuliert werden. Solche „computergestützten 

42


Simulationen“, wie sie in der Literatur häufig betitelt werden (Funke & Rasche, 

1992; Fassheber, 1995; Hösch, 1995; Kluwe, 1995; Kersting, 2001; Obermann, 

2006), basieren grundsätzlich auf den Arbeiten von Dörner et al. aus den 

1970er und 80er Jahren, wie beispielsweise der Lohhausen-Simulation (Hösch, 

1995). Ihre Vorteile werden in einem noch dynamischeren und somit 

realitätsnäheren Übungsaufbau, der dadurch resultierenden Akzeptanz durch 

die hohe Augenscheinvalidität und einer ausschließlich computergestützten und 

dadurch objektiveren Auswertung gesehen (Funke & Rasche, 1992; Kluwe, 

1995). Allerdings bleibt zu bemängeln, dass bisher kaum wissenschaftliche 

Evaluationen derartiger Verfahren vorliegen, und zudem die wenigen 

veröffentlichten Arbeiten insbesondere hinsichtlich ihrer Validität enttäuschende 

Ergebnisse zeigen. So ergeben beispielsweise Studien von Kersting (2001), 

dass sich der Großteil der kriterienbezogenen Varianz der 

Simulationsergebnisse durch Intelligenz- und Wissensindikatoren empirisch 

abbilden lässt. Zudem wiesen Wolfe und Roberts (1986, zit. n. Kluwe, 1995) 

durch Längstschnittstudien nach, dass die Leistung in solchen „Business 

Games“ nicht bzw. nur gering mit dem späteren Karriereerfolg der 

Versuchspersonen zusammenhängt. Eine solch unbefriedigende 

Evaluationslage scheint verwunderlich angesichts der explosionsartigen 

Verbreitung solcher Instrumente in den 1990er Jahren. Allerdings befindet sich 

die wissenschaftliche Auseinandersetzung mit computergestützten 

Simulationen damit auf einem ähnlichen Stand wie die Forschung zu 

computergestützten Postkorbübungen (siehe Kapitel 2.4). 

2.2.5.7 Fallstudien 

Als Fallstudie wird die Beschreibung einer Problemsituation verstanden. Diese 

wird von den Teilnehmern eigenständig bearbeitet und mit dem Ziel des 

Herausfilterns von relevanten Informationen analysiert, so dass anschließend 

die entwickelte Lösungsstrategie dem Beobachterteam oder den anderen 

Teilnehmern des AC vorgestellt und darüber diskutiert werden kann (Domsch, 

1995; Fisseni & Preusser, 2007). Im Gegensatz zum Planspiel erhält der 

43


Teilnehmer jedoch während der Bearbeitung kein Feedback über die 

Auswirkungen seiner Lösungsstrategie (Obermann, 2006). Je nach 

Anforderungsprofil sollte bei der Fallstudie darauf geachtet werden, dass es 

mehr als eine mögliche Lösung gibt, da die Lösungsstrategie und 

Verhaltensmerkmale im Fokus der Beobachtung stehen sollen, und nicht eine 

Bewertung im Sinne von richtig oder falsch, wie es z.B. bei der Erfassung von 

fachspezifischen Fähigkeiten der Fall wäre (Domsch, 1995). Als 

Problemstellung eignen sich des Realitätsbezugs wegen besonders Themen 

aus dem Marketing oder Vertrieb, der Personalentwicklung, Führungsprobleme 

oder zwischenmenschliche Konflikte (Obermann, 2006). Häufig beobachtete 

Kriterien sind beispielsweise systematisches Denken und Handeln, 

Planungsfähigkeit, Entscheidungsverhalten, Unternehmerisches Denken oder 

Überzeugungskraft. 

Unter dem Begriff „Fallstudie“ werden diverse Varianten zusammengefasst. 

Domsch (1995) gibt ein Beispiel einer Typologie von Fallstudien, die in Tabelle 

2 dargestellt wird. 

Tabelle 2: Typologie von Fallstudien, nach Domsch (1995, S.605) 

Fallstudientyp 

Case-Problem-Method 

Incident-Method 

In-Basket-Exercise-Method 

(Postkorb) 

Case-Study-Method 

Kurzbeschreibung 

Kurze und vereinfachte Darstellung einer 

Problemsituation, die so zurechtgeschnitten ist, dass 

nur eine einzige Antwort bzw. Lösung möglich ist. 

Nur ein „Fall-Torso“ wird vorgegeben. Um den Fall 

lösen zu können, müssen erst die relevanten Daten 

ermittelt werden. 

Fallbearbeiter wird in eine Rollensituation 

hineinversetzt und muss Entscheidungen unter 

Zeitdruck über Problemstellungen treffen, die er in 

seinem Postkorb vorfindet. 

Umfangreiche (häufig 20 – 50 Seiten) 

wirklichkeitsgetreue Wiedergabe eines sich 

entwickelnden (Geschäfts-/Problem-) Ablaufs, der 

dann an dem Punkt unterbrochen wird, an dem 

Entscheidungen zu treffen sind. 

44


Die typischste Variante der Fallstudie ist wohl die umfangreiche Case-Study- 

Method. Aber auch der Postkorb (engl. In-Basket-Exercise) kann als Variante 

der Fallstudie gesehen werden und ist eine der am häufigsten verwendeten AC- 

Übungen. 

2.2.5.8 Postkörbe 

Der Postkorb ist eine der klassischen Übungen in Assessment Centern 

(Obermann, 2006) und eine spezielle Version der Fallstudie. Dabei geht es um 

einen Fall, der, verglichen mit einer typischen Fallstudie, noch mehr Flexibilität, 

mehr Realitätsnähe und einen leichteren Transfer des gelernten Verhaltens 

produziert (Güllich, 1992). Auf die Postkorb-Übung wird in den folgenden 

Kapiteln dieser Arbeit detaillierter eingegangen. 

45


2.3 Der klassische Postkorb 

Eine der gängigsten AC-Übungen stellt der klassische Paper-Pencil-Postkorb 

dar. Im nachfolgenden Kapitel soll diese Übung zunächst definiert werden 

(2.3.1), anschließend wird seine Durchführung (2.3.2) und Auswertung (2.3.3) 

beschrieben. Darauf folgen eine Darstellung der erfassten Kriterien (2.3.4) 

sowie ein Überblick über empirische Ergebnisse zu den Gütekriterien des 

Postkorbes (2.3.5). Im Anschluss erfolgt eine kritische Betrachtung des 

Verfahrens (2.3.6), bevor dann in Kapitel 2.4 auf den computergestützten 

Postkorb eingegangen wird. 

2.3.1 Was ist eine Postkorb-Übung? 

Der Postkorb (engl. in-basket) ist eines der beliebtesten Instrumente innerhalb 

von Assessment Centern (Didi, 2002). In der Einsatzhäufigkeit haben nur 

Gruppendiskussionen, Interviews und (andere Arten von) Fallstudien (siehe 

Kapitel 2.2.5) eine ähnliche Bedeutung (Obermann, 2006). Nach einer Zählung 

von Thornton und Byham im Jahre 1982 wurde eine solche Postkorb-Übung in 

mehr als 95% der Assessment Center eingesetzt, über die ein publizierter 

Bericht vorlag. Die Entwicklung des Postkorbes wird Frederiksen, Saunders und 

Wand im Jahr 1957 zugeschrieben, obwohl diese Errungenschaft nicht nur der 

amerikanischen Forschung, sondern auch dem Einfluss von praktischen 

Arbeitsproben aus dem deutschsprachigen Raum zu dieser Zeit sowie der 

Psychodiagnostik der 1920er Jahre angerechnet werden muss (Funke, 1993, 

a). Rein methodisch stellt der Postkorb eine Mischung aus kognitiven 

Fähigkeitstests und situativen Arbeitsproben für manuelle Tätigkeiten dar (Höft, 

2003). Genauer gesagt handelt es sich um ein situatives Verfahren zur 

Erfassung von analytisch-konzeptionellen Managementfähigkeiten (Paschen et 

al., 2005). Zu diesem Zweck werden die Teilnehmer aufgefordert, komplexe 

Sachverhalte unter Zeitdruck zu analysieren und aufbauend auf ihren 

Ergebnissen sinnvolle Maßnahmen, Strategien und Pläne für ein weiteres 

Vorgehen zu entwickeln. Der Fokus kann dabei entweder vermehrt auf dem 

analytischen oder dem konzeptionellen Part liegen. Generell ist jedoch 

anzumerken, dass sich dieses Instrument von Situation zu Situation und von 

46


Organisation zu Organisation unterscheiden kann, da es, ähnlich wie das AC 

selbst, auf das jeweilige Anforderungsprofil zugeschnitten sein sollte (siehe 

Kapitel 2.2.3.1) und somit unterschiedlichste Ziele und Messintentionen verfolgt 

werden können (Dommel, 1995). Der Postkorb eines Automobilkonzerns enthält 

also andere Vorgänge als der eines Dienstleistungsunternehmens. 

2.3.2 Durchführung 

Der Grundgedanke des Postkorbes ist, eine möglichst realistische Situation zu 

schaffen, die dem Berufsalltag der angestrebten (Führungs-)Position 

entstammen könnte und die vom Teilnehmer ein entsprechendes Verhalten 

verlangt (Dommel, 1995). Zu diesem Zweck wird der Teilnehmer vor 

Übungsbeginn mit einer entsprechenden Rahmenhandlung vertraut gemacht 

(Obermann, 2006). So übernimmt er beispielsweise die Rolle eines 

stellvertretenden Geschäftsführers, der kurzfristig den auf unbestimmte Zeit 

erkrankten Geschäftsstellenleiter vertreten und aus diesem Grund dessen 

Posteingang bearbeiten muss. Meist steht daraufhin ein wichtiger 

Anschlusstermin an, so dass dem Teilnehmer ein gewisser Zeitdruck bzw. eine 

zur Verfügung stehende Arbeitszeit von meist 45 bis 120 Minuten vermittelt wird 

(Thornton & Byham, 1982). Durch diese realitätsnahe Situationsgestaltung 

entspricht der Postkorb dem Prinzip der Simulation im Assessment Center 

(siehe Kapitel 2.2.3.2). Es sollte jedoch darauf hingewiesen werden, dass der 

Teilnehmer keine Rolle zu schauspielern hat, sondern dass er so handeln soll, 

wie er es für richtig hält und wie er es in der tatsächlichen Situation auch tun 

würde (Güllich, 1992). 

Nach der Einführung in die Rahmenhandlung findet der Teilnehmer einen 

Posteingang vor, der je nach Organisation ca. 15 bis 30 verschiedene 

Dokumente enthält, welche ihm die nötigen Informationen liefern. Diese können 

sich in Dringlichkeit, Komplexität und ihrer Bedeutsamkeit für die Firma 

erheblich unterscheiden, teilweise in Zusammenhang miteinander stehen und 

sich darüber hinaus gegenseitig widersprechen (Paschen et al., 2005). Die 

Aufgabe besteht darin, wichtige von unwichtigen Informationen zu 

unterscheiden, die Dokumente dementsprechend zu bearbeiten und daraus 

47


organisatorische Entscheidungen abzuleiten. Obermann (2006) beschreibt als 

mögliche Themenstellungen für einzelne Postkorb-Vorgänge etwa die Analyse 

von betriebswirtschaftlichen Zahlentabellen, eine Terminplanung und 

Koordination von Terminkollisionen, das Erkennen von Prioritäten von 

Schriftstücken oder die Delegation von Vorgängen und Personal, sowie das 

Herausfiltern von Hinweise zwischen den Zeilen, z.B. zur Kundenzufriedenheit 

oder das Koordinieren von Meetings und Problemfälle, in denen entschlossenes 

eigenes Handeln gefordert ist. Für Didi (2002) besteht der Charme der Übung 

darin, dass es sich bei diesen Vorgängen um besonders realistische 

Dokumente handeln kann, beispielsweise um Notizen auf firmeneigenen 

Formularen in unterschiedlicher Handschrift und Papiergröße oder um 

Geschäftspost auf realistisch wirkenden Briefbögen mit Briefköpfen, Stempeln 

oder Firmenlogos. Weitere potenzielle Informationsquellen können nach 

Obermann (2006) etwa Geschäftsberichte, Statistiken oder Budgetplanungen 

sein, darüber hinaus Kundenbriefe oder -verträge, Telefonnotizen, 

Zeitungsausschnitte, Artikel, Rechnungen, Mahnungen, Termine oder 

Einladungen. Zusätzliche Hintergrundinformationen wie Organigramme, 

Firmenbeschreibungen oder Briefings zu den wichtigsten Kollegen und 

Mitarbeitern erleichtern dem Bearbeiter den Zugang zu seiner Rolle und 

unterstützen dadurch die Simulation (Didi, 2002). Güllich (1992) weist jedoch 

darauf hin, dass es keine Eins-zu-eins-Beziehung zwischen den zu lösenden 

Problemen und Dokumenten gibt. Ein Thema könnte beispielsweise nur durch 

die Kombination mehrerer Dokumente korrekt bearbeitet werden; in anderen 

Fällen ist es möglich, dass ein Problem nicht ausdrücklich genannt wird, 

sondern der Teilnehmer indirekte Andeutungen erkennen und zwischen den 

Zeilen lesen muss. 

Der Postkorb wird jedem Teilnehmer als Einzelübung vorgelegt. Dabei sollten in 

den Instruktionen alle Informationen so enthalten sein, dass keine Rückfragen 

mehr nötig sind (Dommel, 1995). Die Dokumente des Postkorbs sollten nur lose 

geheftet sein, damit der Teilnehmer sie bei Bedarf auseinander nehmen und 

neu sortieren kann, um sich einen besseren Überblick zu verschaffen. Da dies 

gewöhnlich viel Platz in Anspruch nimmt, sollte jedem Teilnehmer ein 

Einzelzimmer zugewiesen werden oder alternativ ein ausreichend großer 

48


Gruppenraum zur Verfügung stehen. Äußere Störungen sind generell zu 

vermeiden, weil sie den gerade in dieser AC-Übung sehr hohen Stressfaktor 

noch zusätzlich erhöhen würden (Jeserich, 1981). Jedoch sollten innere 

Störungen, wie sie in der Realität auch vorkommen könnten, durchaus zu 

einem gewissen Maße eingebaut werden, in dem beispielsweise einzelne 

Schriftstücke erst zu einem späteren Zeitpunkt der Bearbeitung nachgereicht 

werden (Obermann, 2006). 

2.3.3 Auswertung 

Zum Ende der Bearbeitungszeit hinterlässt jeder Teilnehmer einen Stapel von 

bearbeiteten Notizen, Briefen, Memoranden und anderen Dokumenten, die 

seine Lösungen der Themen und Probleme beinhalten. Im Optimalfall steht 

dem Teilnehmer jedoch ein gesonderter Lösungsbogen zur Verfügung, in dem 

er die jeweiligen Verhaltensmöglichkeiten für die einzelnen Probleme 

ankreuzen und in einem Textfeld begründen kann. Somit ist für die Auswertung 

weitaus mehr Übersichtlichkeit gegeben und schon ein erster Schritt in Richtung 

Auswertungsobjektivität gemacht (Obermann, 2006). Für die Auswertung gibt 

es nach Meyer (1970) drei Möglichkeiten. 

Ein Fokus liegt auf dem Verhaltensinhalt, also den spezifischen, vom 

Teilnehmer ausgeführten Reaktionen. Dazu wird der ausgefüllte Lösungsbogen 

des Teilnehmers schablonenartig ausgewertet und für korrekte Lösungen und 

Entscheidungen eine gewisse Anzahl an Punkten für die beobachteten Kriterien 

wie z.B. analytische Fähigkeiten oder Entscheidungsverhalten gegeben 

(Obermann, 2006). Rein ökonomisch betrachtet macht diese quantitative 

Auswertungsart Sinn, da es hierfür keines geschulten Beobachters bedarf, 

sondern die Auswertung auch von einer AC-Assistenz durchgeführt werden 

kann. 

Ergänzend dazu schlägt Meyer (1970) die Betrachtung des Verhaltsstils vor. 

Dazu findet nach der Übung noch ein ausführliches Interview durch einen oder 

mehrere geschulte Beobachter statt, um die Vorgehensweisen und 

Lösungsstrategien des Teilnehmers für jedes Item qualitativ beleuchten zu 

können (Dommel, 1995). Darauf basierend nehmen die Beobachter analog zu 

49


anderen AC-Übungen ihre Bewertung hinsichtlich der zu erfassenden Kriterien 

vor. Hierbei spielt jedoch die Subjektivität der Beobachter eine besonders große 

Rolle, da die Postkorbergebnisse im Interview durch verschiedenste 

Beurteilungseffekte wie beispielsweise globale Eindrucksbildung über alle AC- 

Übungen hinweg, Attributionsfehler, Halo-Effekt oder Erwartungseffekte verzerrt 

werden können (siehe Kapitel 2.2.5.1). Dieser Aspekt wird in der Praxis oft 

aufgrund mangelnder Fachkenntnisse der Anwender oder Kosteneinsparungen 

bei der Konzeption nicht beachtet, was einer der Hauptkritikpunkte an 

klassischen Postkörben darstellt (Dommel, 1995; Musch & Lieberei, 1997; Höft, 

2003; Obermann, 2006). Aus diesem Grund wurde vielfach eine objektivere 

Auswertungsform des Postkorbs angestrebt (Musch & Lieberei, 1997). Zum 

einen bezieht sich das auf eine Schulung der Beobachter (Dommel, 1995), wie 

sie ohnehin vor jedem Assessment Center erfolgen sollte (siehe Kapitel 

2.2.3.4). Zum anderen kann die Auswertungsobjektivität aber auch dadurch 

erhöht werden, dass eine möglichst weitgehende Standardisierung des 

Bewertungsmaßstabes durch eine eindeutige Festlegung der als korrekt zu 

bewertenden Handlungsalternativen vorab sichergestellt wird (Musch & 

Lieberei, 1997). Dies könnte beispielsweise durch eine Checkliste mit Soll- 

Lösungen und definierten Bewertungen realisiert werden, die den Beobachtern 

während des Interviews zur Verfügung steht (Höft, 2003). Ausschlaggebend für 

die Bewertung ist allerdings nicht die vollständige Übereinstimmung mit der 

Musterlösung, sondern die logische Nachvollziehbarkeit der Lösungen. 

Trotz aller Bemühungen können die genannten Maßnahmen nur Annäherungen 

an eine potenzielle Auswertungsobjektivität darstellen, da sich, sobald 

menschliche Beurteiler an der qualitativen Datengenerierung beteiligt sind, ein 

Mindestmaß an Subjektivität niemals ausschließen lässt (Dommel, 1995). 

Daher empfiehlt Meyer (1970) als dritte Variante die Auswertung per „over-allperformance“ 

(S.300) vorzunehmen, was bedeutet, sowohl quantitative als auch 

qualitative Aspekte mit einzubeziehen. Zum einen bleibt jedoch auch dann noch 

eine gewisse Subjektivität vorhanden, zum anderen dürfte sich eine derart 

umfangreiche und sowohl zeit- als auch personalaufwändige Auswertung in der 

Praxis kaum noch rechnen. 

50


2.3.4 Gemessene Kriterien 

Analog zu anderen AC-Übungen unterscheiden sich die in den verschiedenen 

Postkorb-Übungen gemessenen Kriterien zum Teil erheblich (Dommel, 1995). 

Auch in der Literatur existieren unterschiedliche Ansichten über die 

Dimensionalität eines Postkorbes. Tabelle 3 soll dazu einen Überblick 

verschaffen. 

Tabelle 3: Erfassbare Kriterien durch Postkorb-Übungen, nach Weiss (2006) 

Dommel 

(1995, S.583) 

Schuler 

(1996, S.12) 

Musch & Lieberei 

(1997, S.12) 

Obermann 

(2006, S. 124) 

• Problemanalyse 

• Mündliche 


• Schriftliche 


• Stressbewältigung 

• Kreativität 

• Sensibilität 

• Flexibilität 

• Initiative 

• Planung und 

Organisation 

• Delegation 

• Kontrolle 

• Entscheidungsfähigkeit 

• Problemanalyse 

• Informationsverarbeitung 

• Entscheiden 

• Denken und 

Handeln in 

Zusammenhängen 

• Analyseverhalten 

• Organisation und 

Planung 

• Entscheidungsverhalten 

• Stressbewältigung 

• Delegation 

• Kontrolle 

• Entscheidungsverhalten 

• Ausdauer 

• Energie 

• Belastbarkeit 

• Konvergentes Denken 

(Analyse) 

• Divergentes Denken 

(Kreativität) 

• Organisation / 

Systematik 

Es wird deutlich, dass die verschiedenen Autoren dem Verfahren 

unterschiedliche Messdimensionen zuschreiben. Zum einen liegt dies ähnlich 

wie bei der Anforderungsanalyse des AC an den unterschiedlichen Definitionen 

psychologischer Begrifflichkeiten (siehe Kapitel 2.2.3.1), zum anderen aber 

auch an den jeweiligen Zielsetzungen des Postkorbes abhängig von dem 

Unternehmen, in dem er eingesetzt wird (Jeserich, 1981; Obermann, 2006). Die 

wichtigsten Kriterien, die der Postkorb erfassen soll, und über die sich die 

genannten Autoren trotz unterschiedlicher Benennungen (siehe oben) einig 

sind, sind analytische Fähigkeiten (in Tabelle 3 blau markiert), Planung und 

Organisation (in Tabelle 3 rot markiert) und Entscheidungsverhalten (in Tabelle 

3 grün markiert). 

51


2.3.5 Empirische Ergebnisse 

Die Tatsache, dass es starke Parallelen gibt zwischen den Anforderungen, die 

der Postkorb an den Bearbeiter und der Berufsalltag an den Manager stellen, ist 

augenscheinlich (Musch und Lieberei, 1997). So fand Mintzberg (1973, zit. n. 

Musch & Lieberei, 1997), dass Topmanagern pro Tag durchschnittlich 36 

Schriftstücke zur Bearbeitung vorgelegt wurden. Diese hohe 

Augenscheinvalidität war sicherlich der Hauptgrund für die weite Verbreitung 

des Postkorbes (Meyer, 1970). Allerdings könnte sie auch der Grund dafür sein, 

dass bisher vergleichsweise wenige Validierungsstudien durchgeführt wurden, 

zumindest im deutschsprachigen Raum (Didi, 2002; Obermann, 2006). Weitere 

Gründe für das Fehlen von neueren Studien, insbesondere nach einer ersten 

Reihe erfolgreicher Studien in den 1960er Jahren (Güllich, 1992), ist das 

zeitaufwändige und schwierige Bewerten von Postkörben, das die Anwender 

vom Durchführen adäquater Studien abhält (Thornton und Byham, 1982). Für 

Schippmann, Prien und Katz (1990) wurde die Postkorb-Übung immer nur im 

Gesamtzusammenhang des AC erforscht und als eigenständiges Instrument oft 

übersehen. Zwar existieren inzwischen einige Validitätsstudien für Postkörbe 

vor allem aus dem angloamerikanischen Raum, jedoch berichten diese 

teilweise von völlig unterschiedlichen Ergebnissen. Ein neuerer Überblick 

(Schippmann et al., 1990) ergab, dass die Validitätskoeffizienten je nach Studie 

von .40 bis .75 schwanken. Eine systematische Untersuchung der 

Zusammenhänge zwischen einzelnen Postkorb-Variablen und Kriterien steht 

zudem ebenfalls noch aus (Obermann, 2006). Dennoch sollen hier die 

wichtigsten Ergebnisse dargestellt werden, wobei sich hinsichtlich der 

klassischen Gütekriterien besonders auf eines der im deutschsprachigen Raum 

am häufigsten untersuchten Verfahren, den Bonner Postkorb Modulen von 

Musch, Rahn und Lieberei (2001) bezogen werden soll. 

2.3.5.1 Demographische Daten 

Zunächst ist die schon früh untersuchte Beziehung der Postkorbergebnisse zu 

den demographischen Daten zu nennen. Nach Thornton und Byham (1982) 

52


korreliert die Variable Alter negativ mit den Postkorbwerten, die Autoren 

berichten einen gefundenen Zusammenhang von -.49. Bildung weist hingegen 

einen positiven Zusammenhang von .56 auf (Meyer, 1970), was auch den 

Ergebnissen von Frederiksen (1962, zit. n. Güllich, 1992) bzgl. einer Korrelation 

von .41 zwischen Postkorbergebnissen und Punkten im Wortschatztest 

entspricht. Die Autoren merken jedoch an, dass die Bildungsvariable 

unabhängig von der beruflichen Erfahrung sei. Meyer (1970) konnte 

nachweisen, dass zwischen Erfahrungen im Managementbereich und den 

einzelnen Werten im Postkorb kein Zusammenhang besteht. Neuere 

Untersuchungen zu den Bonner Postkorb Modulen ergaben weder einen 

negativen noch positiven Zusammenhang der Postkorbergebnisse, weder mit 

dem Alter noch dem Geschlecht (Höft, 2003). 

2.3.5.2 Objektivität 

Bezüglich der Objektivität von Postkorb-Verfahren stellten Schippmann et al. 

(1990) erhebliche Schwankungen von -.20 bis .97 in der Übereinstimmung der 

Auswerter fest. Musch und Lieberei (1997) begründen diese Variationen durch 

die bereits angesprochene häufig unstandardisierte Auswertung sowie 

ungeschulte Beobachter (siehe Kapitel 2.3.3). Schippmann et al. (1990) 

bewerten die Objektivität jedoch als zufrieden stellend, sofern die zuvor 

beschrieben Maßnahmen ergriffen werden, um eine möglichst hohe 

Auswertungsobjektivität zu gewährleisten (siehe Kapitel 2.3.3). Zudem ist nach 

Musch und Lieberei (1997) die Durchführungsobjektivität aufgrund der 

fehlenden Interdependenzen zwischen den Teilnehmern hoch, im Gegensatz 

etwa zur typischen Fallstudie mit anschließender Diskussion (siehe Kapitel 

2.2.5.7). Dies entspricht auch den Ergebnissen der Bonner Postkorb Module. 

Hier ist eine weitgehende Objektivität durch die Auswertung mittels 

strukturierter Checklisten gegeben, die Testautoren berichten von 

Bewertungsübereinstimmungen von .81 bis zu 1. (Musch et al., 2001). 

53


2.3.5.3 Reliabilität 

Die in der Literatur für die Postkorb-Methode berechneten 

Reliabilitätskoeffizienten schwanken je nach gewählter Methode zum Teil 

erheblich, und die Resultate zur internen Konsistenz sind generell nicht 

zufrieden stellend (Schippmann et al., 1990). Für die Evaluation kommt 

erschwerend hinzu, dass sich durch die Interdependenzstruktur der Einzelitems 

des Postkorbs einfache Konsistenz- und Split-Half-Reliabilitätsschätzungen 

verbieten (Höft, 2003). Für Thornton und Byham (1982) steht aber fest, dass die 

Reliabilität im Laufe der Jahrzehnte durch die bereits beschriebenen neuen 

Bewertungsprozeduren gesteigert werden konnte. Auch Schippmann et al. 

(1990) deuten an, dass eine höhere Reliabilität erzielt werden kann, wenn bei 

der Konstruktion des Testes strukturiert vorgegangen wird und systematischere 

und objektivere Bewertungsmassstäbe verwendet werden. In den 

Untersuchungen zu den Bonner Postkorb Modulen, die diesen Anforderungen 

weitgehend entsprechen, werden somit Cronbachs Alpha-Koeffizienten 

berichtet, die mit Werten zwischen .82 und .91 die hohe Interkorrelation der 

Dimensionen bestätigen (Musch et al., 2001). Höft (2003) weist jedoch darauf 

hin, dass bisher keine annäherungsweise gültigen Realibilitätsinformationen 

vorliegen, die mittels Retest-Methode gewonnen wurden. 

2.3.5.4 Validität 

Die Inhaltsvalidität von Postkörben wird oft mit der hohen Augenscheinvalidität 

des Verfahrens begründet, auf konkrete Expertenratings wird daher weitgehend 

verzichtet (Meyer, 1970; Obermann, 2006). Aus ökonomischen Gründen ist dies 

jedoch nur zu vertreten, wenn die Verfahrenskonstruktion auf einer 

unternehmensspezifischen Anforderungsanalyse basiert. Der Einsatz der 

Bonner Postkorb Module beispielsweise ist deshalb auch nicht überall 

uneingeschränkt sinnvoll. Um den Simulationscharakter des Verfahrens zu 

gewährleisten, muss vor einem Einsatz genau geprüft werden, ob die 

Anforderungen der hausinternen Zielposition hinreichend gut operationalisiert 

sind (Höft, 2003; siehe Kapitel 2.2.3.1). 

54


Aus früheren Untersuchungen zur Kriteriumsvalidität wurde angenommen, dass 

die Validität des Postkorbs gesichert sei (Thornton und Byham, 1982). Wie 

erwähnt konnten Schippmann et al. (1990) in einer Überblicksstudie jedoch 

variierende Validitätskoeffizienten von .40 bis .75 aufzeigen. Darüber hinaus 

konnten Schuler, Funke, Moser und Donat (1995) nachweisen, dass die 

Korrelation der Postkorbergebnisse mit den Ergebnissen anderer AC-Übungen 

relativ gering ausfällt. Überraschenderweise kann diese geringe Korrelation 

auch nicht mit den unterschiedlichen Messdimensionen der einzelnen Übungen 

erklärt werden. Musch und Lieberei (1997) fanden beim Vergleich ihrer 

Postkorb-Übung mit der schriftlichen Fallstudie eine negative Korrelation von 

r=-.22, obwohl die Übungen in drei von vier Kriterien (Analyseverhalten, 

Organisation & Planung und Entscheidungsverhalten) identisch sind. Ähnlich 

enttäuschende Ergebnisse liefern die Bonner Postkorb Module. Deren Modul 

„CaterTrans“ wurde von 47 Personen freiwillig parallel zu einem internen 

Auswahl-AC bearbeitet und die Ergebnisse verglichen (Musch et al., 2001). Am 

höchsten korrelierte der Postkorb mit der Präsentation (r=.51), gefolgt von der 

Gruppendiskussion (r=.43), der schriftlichen Fallstudie (r=.31) und dem 

Mitarbeitergespräch (r=.30). Für Höft (2003) sind diese Ergebnisse 

verwunderlich, da eigentlich der höchste Zusammenhang mit der schriftlichen 

Fallstudie zu erwarten gewesen wäre, zumal diese fast die gleichen 

Anforderungsdimensionen erfassen soll. Zusätzlich zum Modul „CaterTrans“ 

wurde das Modul „Chronos“ von 54 Personen im gleichen Unternehmen 

bearbeitet. Hier korreliert der Postkorb sogar negativ mit allen anderen AC- 

Übungen, inklusive der Fallstudie (-.22). Für die Testautoren zeigen die 

Resultate, dass der Postkorb „Chronos“ im Gegensatz zum Postkorb 

„CaterTrans“ spezifische, von anderen AC-Verfahren nicht abgedeckte 

Varianzanteile erfasst (Musch et al., 2001). Höft (2003) bezeichnet diese 

Auslegung jedoch als „elegante Formulierung“, die kaschiert, dass mangels 

weiterer Kriteriumsdaten offen bleibt, was denn der Postkorb genau erfasst, so 

dass weitere Forschungen dazu dringend nötig seien. 

Frühe Untersuchungen von Meyer (1970) zur Vorhersagevalidität fanden 

signifikante Korrelationen zwischen Dimensionen der Postkorb-Übung und Job- 

Performance. Besonders Führungsqualitäten sowie Verwaltungs- und 

55


Planungsfähigkeiten korrelierten im mittelstarken Bereich mit den Postkorb- 

Ergebnissen. Zudem konnte er belegen, dass die Vorhersagevalidität des 

Postkorbs hinsichtlich analytischer Fähigkeiten besser sei als in Bezug auf 

menschliche Führungsqualitäten. In der Studie zu den Bonner Postkorb 

Modulen konnte von 39 der 47 Personen, die das Modul „CaterTrans“ 

bearbeitet hatten, ein konkurrentes Vorgesetztenurteil eingeholt werden. Musch 

et al. (2001) berichten von (nicht näher genannten) positiven Zusammenhängen 

zu den Postkorbergebnissen, jedoch bezweifelt Höft (2003), dass dieser Befund 

angesichts der geringen Stichprobengröße von n=47 einer Kreuzvalidierung 

standhalten würde. 

2.3.5.5 Zusammenfassung 

Insgesamt lässt sich feststellen, dass bei einer möglichst standardisierten 

Auswertung mittels Checklisten und festgelegten Bezugssystemen sowohl 

Objektivität als auch Reliabilität als gesichert angesehen werden können, was 

die Studien von Schippmann et al. (1990) und Untersuchungen der Bonner 

Postkorb Module (Musch et al., 2001) nahe legen. Die eher intuitive 

Augenscheinvalidierung des Postkorbs, welche in der Praxis oft die einzige 

Validierung darstellt, lässt sich zumindest mit der zufrieden stellenden und in 

der Eignungsdiagnostik wichtigen Vorhersagevalidität rechtfertigen. Die 

empirische Befundlage zur Kriteriums- sowie Konstruktvalidität gilt jedoch als 

unzureichend und lückenhaft, so dass noch ein hoher Forschungsbedarf zu 

diesem Thema besteht. Höft (2003) stellt abschließend die Frage, wie es denn 

erst um die Güte der vielen in der Praxis ungeprüft eingesetzten Postkörbe 

bestellt sei, wenn bereits bei den sorgfältig konstruierten Bonner Postkorb 

Modulen solch deutliche Validitätsprobleme auftauchen. 

56


2.3.6 Kritische Betrachtung 

Der potentielle Einsatzbereich von Postkörben ist sehr umfassend. So kann er 

aufgrund seiner Anpassbarkeit an das jeweilige Anforderungsprofil sowohl zur 

Eignungsdiagnostik auf nahezu allen Hierarchieebenen einer Organisation 

eingesetzt werden, zum anderen bieten sich auch Einsätze in der 

Personalentwicklung zur gezielten Indizierung von Stärken und 

Verbesserungsmöglichkeiten von Mitarbeitern an. Das Bearbeiten von 

Schriftstücken und Vorgängen ist in so gut wie jedem Arbeitsumfeld 

erforderlich, weshalb sich der Postkorb besonders aufgrund der 

augenscheinlichen Validität großer Akzeptanz erfreut (Dommel, 1995; Weiss, 

2006). 

Für Höft (2003) weist der Postkorb als simulationsorientiertes 

Diagnoseverfahren mit testähnlicher Grundstruktur allerdings eine schwierige 

Mischcharakteristik auf, die Grundprinzipien der klassischen Testtheorie sind 

nur bedingt auf diese Verfahrensklasse übertragbar (Kubinger, 1993). Durch die 

inhaltlichen Wechselbeziehungen der einzelnen Vorgänge und Dokumente ist 

keine stochastische Unabhängigkeit der Bewertungen gegeben. Dies deckt sich 

mit der häufigen Kritik an der klassischen Testtheorie (siehe Kap 2.1.2) seitens 

der Eignungsdiagnostiker, so dass, wie für das Assessment Center allgemein, 

dem Ansatz der kriteriumsorientierten Leistungsmessung der Vorzug zu geben 

ist. Nach Musch und Lieberei (1997) kommt der Postkorb aber zumindest in 

seiner Durchführung dem Ideal eines kontrollierten psychologischen Tests im 

Vergleich mit anderen AC-Übungen noch am nächsten. Da das Instrument in 

Einzelarbeit bearbeitet wird, hängt die Leistung des Teilnehmers hierbei nicht 

von anderen Teilnehmern ab. Zudem erlaubt der Postkorb als eine der wenigen 

AC-Übungen zumindest eine ansatzweise objektive, beobachterunabhängige 

Auswertung und Interpretation der Performance. 

Diese unter wissenschaftlichen Aspekten korrekte Anwendung des Verfahrens, 

unter Berücksichtigung der gestellten Anforderungen zur Standardisierung und 

zur Anpassung an ein Anforderungsprofil, ist jedoch sehr zeit- und 

kostenaufwändig. Bei mehreren Teilnehmern nimmt der Postkorb mit einer 

Durchführungszeit von etwa 90 Minuten und einem anschließenden Interview 

von je 30 bis 60 Minuten schon mehr als einen halben Seminartag in Anspruch. 

57


(Roest, Scherzer, Urban, Gangl & Brandstätter, 1989). Die Methode bietet sich 

daher eher bei Auswahlverfahren mit begrenzter Teilnehmerzahl an. 

Andernfalls besteht schnell die Gefahr, dass die Standardisierung zugunsten 

der Ökonomie leidet und die Beurteiler zu globalen und verfälschten Urteilen 

kommen. (Musch & Lieberei, 1997). 

Weiterhin wird kritisiert, dass sich die Postkorb-Items oft durch ein hohes Maß 

an Uneindeutigkeit und Unklarheit auszeichnen, um genügend Spielraum für 

differentielle Bearbeitungsmuster zu lassen (Musch & Lieberei, 1997). Diese 

Vorgabe zur Konstruktion von Postkörben, die auf Lopez (1966, zit. n. Musch & 

Lieberei, 1997) zurückgeht, ist jedoch nach Meinung der Autoren mit der 

Konstruktion auswertungsobjektiver Postkörbe unvereinbar. Die für ein valides 

diagnostisches Instrument erforderliche Auswertungsobjektivität sei sogar 

notwendig an eine eindeutige Festlegung der Angemessenheit möglicher 

Antwortalternativen geknüpft. In den Postkorb-Modulen von Musch et al. (2001) 

werden deshalb ausschließlich solche Handlungsalternativen bewertet, die 

sachlogisch zwingend aus den zur Verfügung gestellten Informationen 

abgeleitet sind. Auf eine normative Bewertung von Handlungen in mehrdeutigen 

Situationen wurde hingegen verzichtet (Höft, 2003). 

Die weitgehende Standardisierung der Auswertung hat demzufolge das 

Weglassen von mehrdeutigen, offenen Items zur Folge, die breiteren Raum für 

eine Projektion individueller Stile lassen würden (Musch und Lieberei, 1997). 

Dadurch können kreative und originelle Lösungsvorschläge nicht mehr 

ausreichend gewürdigt werden (Obermann, 2006). 

Hinzu kommt, dass die Forderung nach Unklarheiten zwischen den Items in der 

Praxis häufig übertrieben wird. Wenn das Übersehen eines Zusammenhangs 

den Teilnehmer daran hindert, weitere Items zu lösen, ist die 

Differenzierungsfähigkeit der Übung stark eingeschränkt (Obermann, 2006). 

Roest et al. (1989) sehen ein weiteres Defizit klassischer Postkorb-Verfahren 

darin, dass keine Daten über den Ablauf der Bearbeitung vorliegen. Dies hat 

zur Konsequenz, dass anfänglich richtige oder falsche Entscheidungen auf dem 

Weg der Lösungsfindung, die dem Teilnehmer im anschließenden Interview 

vielleicht gar nicht mehr bewusst sind, nicht dokumentiert werden. Auch der 

zeitliche Ablauf der Vorgehensweise bleibt hierbei unberücksichtigt. 

58


Zwei weitere potenzielle Probleme sieht Obermann (2006) in der Entwicklung 

des Bearbeitungsmaterials. Demnach besteht bei der Konzeption des 

Postkorbs die Gefahr, zu leichte oder zu schwere Items einzubauen, die von 

fast allen oder fast keinem gelöst werden, was die Aussagekraft des 

Instruments schmälert. Gleiches gilt, wenn keine Variation der Anforderungen 

über mehrere Vorgänge mit unterschiedlichen Schwierigkeitsgraden hinweg 

besteht. Eine Überprüfung der Schwierigkeitsgrade der Postkorb-Items als 

Rangreihenbildung gestaltet sich jedoch durch die Vernetztheit der Items sehr 

schwierig. 

Für Dommel (1995) beziehen sich die grundsätzlichen Probleme von 

Postkörben auf die Übertragbarkeit der gewonnenen Erkenntnisse auf die 

Realsituation, auf Fehler im Beurteilungsprozess und auf die 

Zusammensetzung der Postkorbaufgaben. Diese Schwierigkeiten weisen für 

ihn darauf hin, dass eine weitere Objektivierung und Standardisierung des 

Verfahrens erfolgen muss. Eine potenzielle Lösung wird in den technischen 

Neuerungen der letzten Jahre gesehen, besonders in der EDV-Umsetzung von 

Postkorbverfahren für den Computer. Hierauf wird im folgenden Kapitel näher 

eingegangen. 

59


2.4 Der computergestützte Postkorb 

Aufbauend auf Kapitel 2.3 soll nun der computergestützte Postkorb dargestellt 

werden. Zunächst erfolgt eine generelle Beschreibung des Verfahrens (2.4.1), 

inklusive einer Gegenüberstellung von Vor- und Nachteilen. Darauf folgt eine 

Diskussion zur potenziellen Problematik in der Interaktion von Mensch und 

Computer (2.4.2). In Kapitel 2.4.3 wird schließlich ein Überblick über die 

gängigsten Verfahren dieser Art gegeben, dargestellt werden Mailbox’90, PC- 

Office und der PC-Postkorb „Seeblick“. Nach einer Zusammenfassung der 

auffälligsten Vor- und Nachteile dieser Verfahren (2.4.4) wird dann im nächsten 

Kapitel auf den neuen computergestützten Postkorb KI.BOX eingegangen, 

welcher mit den bestehenden Verfahren verglichen wird. 

2.4.1 Was ist ein computergestützter Postkorb? 

Die computergestützte Postkorb-Übung oder EDV-Postkorb ist eine 

Weiterentwicklung des klassischen Paper-Pencil-Postkorbs (Hartung & 

Schneider, 1995). Grundsätzlich werden dieselben eignungsdiagnostischen 

Ziele verfolgt und es gelten die gleichen wissenschaftlichen und methodischen 

Anforderungen bei der Konzeption. Auch der Inhalt der Übung ist äquivalent. So 

wird der Teilnehmer in dieser situativen Übung ebenfalls in die Rolle eines 

Managers oder einer Führungskraft hineinversetzt, die mit verschiedensten 

Schriftstücken konfrontiert wird. Der Teilnehmer soll die Probleme erkennen 

und bearbeiten, woraufhin er entsprechend den in der Anforderungsanalyse 

festgelegten Kriterien bewertet wird (Funke, 1993, a; Riediger & Rolfs, 1998; 

Obermann, 2006; vgl. Kapitel 2.3). Der einzige, aber bedeutende Unterschied 

der beiden Versionen liegt in der Methode. So muss bei EDV-Verfahren im 

Rahmen der Instruktion eine zusätzliche Einführung über die Funktionsweisen 

von Computer und Programm erfolgen, besonders bei älteren oder 

computerunerfahrenen Mitarbeitern (Obermann, 2006). Insgesamt gesehen 

ermöglicht die inzwischen weite Verbreitung leistungsfähiger Computertechnik 

jedoch vielfältige Verbesserungen und Variationen des Verfahrens (Wottawa & 

Hossiep, 1997), so dass besonders bzgl. der Punkte, die beim klassischen 

60


Postkorb kritisiert wurden (siehe Kapitel 2.3.6), Innovationen zu verzeichnen 

sind. Der computergestützte Postkorb kann dadurch einen so hohen 

Realitätscharakter aufweisen, dass in der Literatur weniger von einem Test als 

viel mehr von einer computergestützten Arbeitsprobe (Funke, 1993, a) die Rede 

ist. Allerdings bringt eine Umsetzung des Instruments für den Computer auch 

neue Probleme mit sich. Aus diesem Grund werden die Vor- und Nachteile der 

EDV-Darbietung im Folgenden näher erläutert. 

2.4.1.1 Vorteile 

Einer der Hauptvorteile computergestützter Postkörbe ist besonders aus 

testtheoretischer Sicht wichtig. Der Computer bietet nämlich die Möglichkeit 

einer sekundenschnellen Auswertung der Ergebnisse direkt im Anschluss an 

die Durchführung. Die Auswertung ist somit von menschlichen Beobachtern 

vollkommen unabhängig und erfolgt für alle Teilnehmer gleichermaßen anhand 

zuvor festgelegter Musterlösungen bzw. operationalisierter Regelsysteme. 

Dadurch werden Verzerrungen der Testergebnisse durch Beurteilungsfehler 

gänzlich verhindert und eine maximale Auswertungsobjektivität gewährleistet 

(Hartung & Schneider, 1995; Riediger & Rolfs, 1998). Der Computer errechnet 

dazu Punktwerte aus den vom Teilnehmer gegeben Lösungen und bestimmt 

daraus einen quantitativen Wert für die Ausprägung des Teilnehmers 

hinsichtlich eines bestimmten Kriteriums in dieser Übung (siehe Kapitel 2.1.1.1). 

Im herkömmlichen Postkorb-Verfahren würde diese Beurteilung durch einen 

Beobachter geschehen, dessen Subjektivität jedoch trotz des Einsatzes von 

Checklisten nie ganz ausgeschlossen werden kann. Der von Dommel (1995) 

gestellten Forderung nach einer weiteren Objektivierung und Standardisierung 

von Postkörben wird also durch den Einsatz einer computergestützten 

Auswertung entsprochen. 

Eine Kritik, die jedoch gegenüber sehr standardisierten Postkorb-Auswertungen 

häufig formuliert wird, und die somit auch an den EDV-Postkorb adressiert sein 

dürfte, ist die Tatsache, dass hierbei offene oder projektive Items und originelle 

Lösungsstrategien keine Berücksichtigung mehr finden. Auf diese Weise fließt 

nur das „was“ und nicht das „wie“ einer Lösung in die Beurteilung ein (Roest et 

61


al., 1989; Obermann, 2006). Bei klassischen Postkorb-Auswertungen besteht 

für den Beobachter die Möglichkeit, im anschließenden Interview auf diese 

Lösungswege einzugehen und sie ggf. zu hinterfragen. Beim 

computergestützten Postkorb gibt es dagegen fast ausschließlich vorgegebene 

Antwortalternativen, die nur noch anzuklicken sind. Dem ist jedoch 

entgegenzuhalten, dass gerade bei einer computergestützten Bearbeitung 

sämtliche Prozessvariablen fortlaufend registriert werden können, ohne dass 

der Teilnehmer davon beeinflusst wird (Riediger & Rolfs, 1998). Je nach 

Wunsch können also sekundengenaue Informationen über die Bearbeitungsoder 

Reaktionszeit einzelner Items oder die Reihenfolge ihrer Bearbeitung 

angezeigt werden, sogar wie lange und wie oft jedes einzelne Dokument 

aufgerufen wurde (Obermann, 2006). Eine derartig detaillierte Erfassung 

wirklich objektiver Daten bzgl. der Lösungswege ist bei Paper-Pencil-Verfahren 

nicht möglich und somit als wesentliche Verbesserung der EDV-Postkörbe zu 

werten (Riediger & Rolfs, 1998). Die Nachbesprechung im anschließenden 

Interview wird dadurch unnötig, zumal in der Face to Face Situation der 

Teilnehmer seine Begründungen entsprechend dem Aufforderungscharakter 

der Fragen des Beobachters anpassen kann, was wiederum zu 

Ergebnisverzerrungen führen würde (Roest & Horn, 1990). Die Auswertung 

solcher Prozessvariablen kann also zu deutlich realistischeren Ergebnissen und 

somit auch einem adäquateren Feedback bzgl. der eingesetzten 

Lösungsstrategie führen (Hartung & Schneider, 1995; Pearson, Barnes & 

Onken, 2006). 

Mit den computergestützten Postkörben wurde zudem ein weiterer qualitativer 

Sprung im Vergleich zu den klassischen Verfahren gemacht, da nun eine 

wesentlich höhere Dynamik realisierbar ist (Obermann, 2006). Während zuvor 

höchstens zusätzliche Dokumente zu einem späteren Zeitpunkt der 

Bearbeitung nachgereicht werden konnten, eröffnen sich mit Hilfe der Technik 

völlig neue Möglichkeiten. So können beispielsweise mehrere E-Mails im Laufe 

der Bearbeitungszeit eintreffen oder ein Anruf oder eine andere interne Störung 

simuliert werden (Riediger & Rolfs, 1998). Außerdem können direkt Graphiken, 

Diagramme oder Tabellen erstellt werden, die dem Teilnehmer als Ergebnis 

beispielsweise seiner Berechnungen dargeboten und somit als weiterer Input 

62


dienen können (Pearson et al, 2006). Darüber hinaus hat man Aspekte 

komplexer computergestützter Problemlösesimulationen (vgl. Funke & Rasche, 

1992; Hösch, 1995; Hartung & Schneider, 1995; siehe Kapitel 2.2.5.6) 

übernommen, so dass auch im computergestützten Postkorb der Teilnehmer 

mit Konsequenzen seiner Tätigkeit konfrontiert werden kann. So können die 

Entscheidungen und Handlungen des Teilnehmers nun Rückwirkungen auf den 

Testverlauf haben, beispielsweise dass es Beschwerden oder Probleme im 

zeitlichen Ablauf aufgrund einer nicht sachgemäßen Delegation gibt 

(Obermann, 2006). Diese größere Dynamik trägt maßgeblich zur Realitätsnähe 

bei, was wiederum die Validität des Verfahrens steigert. 

Nicht nur die Validität, auch die Akzeptanz wird durch den Einsatz von 

computergestützten Verfahren im Vergleich zu Paper-Pencil-Übungen deutlich 

gesteigert. Nach Hartung und Schneider (1995) ergaben Fragebogenstudien 

bei großen Teilnehmergruppen, dass der inhaltliche Schwierigkeitsgrad von 

EDV-Aufgaben gegenüber anderen AC-Übungen zwar als überdurchschnittlich 

anspruchsvoll eingeschätzt wurde (72%), die Übungen aber auch für 

Computerlaien einfach und sicher zu bedienen waren (91%) (siehe Kapitel 

2.4.2). Ganze 96% der Befragten gaben sogar an, Spaß bei der Bearbeitung 

der Aufgaben zu haben. Ähnlich hohe Akzeptanzwerte berichten die Autoren 

auch auf Seiten der Beobachter, die während des Beobachtertrainings mit den 

PC-Übungen vertraut gemacht wurden. Auch Scharley und Partner (2007) 

berichten von hohen Akzeptanzwerten der Teilnehmer bzgl. des von ihnen 

entwickelten PC-Postkorbes „Seeblick“ (siehe Kapitel 2.4.3.3). 

Ein letzter Mehrwert computergestützter Verfahren betrifft die Ökonomie. Wie 

bereits angesprochen ist die Durchführung sowie die personal- und 

arbeitsintensive Auswertung und Nachbereitung von klassischen Postkorb- 

Verfahren sehr aufwändig (Roest et al., 1989; Funke, 1993, a). Der Einsatz von 

EDV-Postkörben ist dagegen zumindest vom zeitlichen Gesichtspunkt her 

weitaus ökonomischer, was vor allem in der rechnergestützten Auswertung und 

dem Wegfallen des nachfolgenden Interviews begründet liegt (Hartung & 

Schneider, 1995; Riediger & Rolfs, 1998). Aus diesem Grund eignet sich das 

Instrument auch für einen Einsatz im AC mit mehreren Teilnehmern, sofern 

genügend Laptops zur Verfügung stehen. 

63


2.4.1.2 Nachteile 

Die zuvor angesprochene Ökonomie des computergestützten Postkorbes mag 

für zeitliche und personelle Aspekte während des Assessment Centers 

gegeben sein, für die Konzeption des Instruments ist sie es jedoch nicht 

(Obermann, 2006). Die Neuentwicklung eines EDV-Postkorbes ist deutlich 

aufwändiger und somit kostenintensiver als bei einem herkömmlichen 

Verfahren, da neben der inhaltlichen Konzeption noch zusätzliche 

Programmierungsarbeiten zu verrichten sind (Riediger & Rolfs, 1998). 

Allerdings kann eine Anpassung des Verfahrens an ein neues Unternehmen 

bzw. Anforderungsprofil in der Folgezeit auf digitalem Wege wiederum schneller 

geschehen. Dennoch bleibt eine eventuelle Neuanschaffung von Laptops 

kostspielig, sofern diese nicht von einer externen Beratungsfirma zur Verfügung 

gestellt werden. Aus diesem Grund dürfte zumindest die Neukonzeption eines 

EDV-Postkorbes eher von größeren Unternehmen in Auftrag gegeben werden. 

Trotz aller Vorteile, die die Computerumsetzung des Postkorbes mit sich bringt, 

können nicht alle Kritikpunkte am klassischen Postkorb (siehe Kapitel 2.3.6) 

generell als beseitigt angesehen werden. Auch bei EDV-Versionen besteht 

beispielsweise die Gefahr, die Items zu unklar zu gestalten, so dass einzelne 

Zusammenhänge und Lösungen nicht mehr erkennbar sind, oder den 

Schwierigkeitsgrad der Items zu undifferenziert festzulegen (Obermann, 2006). 

Weitaus wichtiger ist jedoch auch bei EDV-Postkörben die Frage nach der 

Validität. Durch die computergestützte Realisierung der Übung ist eine völlig 

neue Verfahrensgruppe entstanden, auf die sich die vorliegenden Ergebnisse 

zu Paper-Pencil-Postkörben nicht ohne weiteres übertragen lassen (Fisseni, 

1990; Riediger & Rolfs, 1998). Allerdings sind wissenschaftliche Studien dazu 

gerade im deutschsprachigen Raum sehr rar, nur über einige wenige Verfahren 

liegen derzeit publizierte Untersuchungen vor (siehe Kapitel 2.4.3). Dem 

gegenüber steht aber ein stetig wachsendes Angebot unvalidierter 

computergestützter Postkörbe durch die verschiedenen 

Beratungsunternehmen, deren prognostische Güte eher fragwürdig bleibt. 

Bezüglich der Validität kommt ein weiterer Aspekt hinzu, der die Interaktion von 

Mensch und Computer betrifft. Obermann (2006) stellt die Frage, ob bei einem 

EDV-Verfahren die computerspezifischen Erfahrungen eines Teilnehmers 

64


mitentscheidend sind, d.h. ob diese Fertigkeiten das Ergebnis positiv oder 

negativ verzerren können. Auf diese Thematik wird im nachfolgenden Kapitel 

genauer eingegangen. 

2.4.2 Interaktion von Mensch und Computer 

In der zuvor genannten Studie von Hartung und Schneider (1995) gaben 91% 

der befragten AC-Teilnehmer in einer Fragebogenuntersuchung an, dass die 

eingesetzten computergestützten AC-Übungen auch für Computerlaien einfach 

und sicher zu bedienen seien. Leider geben die Autoren aber keine detaillierten 

Informationen darüber, um welche Verfahren es sich dabei genau gehandelt 

hat. Es wird lediglich gesagt, dass sowohl eine computergestützte Simulation 

als auch ein EDV-Postkorb eingesetzt wurden. Zudem muss bei 

Fragebogenuntersuchungen gerade im Rahmen von Assessment Centern 

immer der Aspekt der sozialen Erwünschtheit berücksichtigt werden. So 

könnten die Teilnehmer etwa gedacht haben, der Fragebogen sei noch Teil des 

Beurteilungsprozesses, so dass sie ihre eigenen Computerkenntnisse größer 

erscheinen lassen wollten als sie womöglich tatsächlich waren. Auch fehlen 

Informationen über die untersuchte Stichprobe. So dürfte klar sein, dass 

beispielsweise Mitarbeiter von Computer-Firmen höchstwahrscheinlich weniger 

Probleme bei der Bedienung der EDV-Verfahren haben als Teilnehmer gänzlich 

ohne Computererfahrung. Genau hierin liegt aber der entscheidende Punkt. 

So hat der Teilnehmer bei der Bearbeitung computergestützter Verfahren zwei 

Probleme zu überwinden (Kleinmann & Strauß, 1995): Einerseits soll das 

Sachproblem gelöst werden, womit der eigentliche Inhalt der Übung gemeint ist, 

z.B. das Bearbeiten von verschieden Schriftstücken und Erstellen eines 

Terminkalenders in einem Postkorb. Diese Probleme sind gekennzeichnet 

durch einen Anfangszustand, einen oder mehrere gewünschte Zielzustände 

und die dazwischen liegenden Barrieren. Zum Überwinden dieser Barrieren hat 

der Teilnehmer in der Regel zahlreiche Handlungsalternativen im Postkorb, 

etwa Tätigkeiten priorisieren oder delegieren, Termine wahrnehmen, absagen 

oder verlegen, etc. Diese Sachprobleme sind für alle Teilnehmer gleichermaßen 

definiert und setzen keine Vorkenntnisse voraus. 

65


Auf der anderen Seite steht bei computergestützten Übungen jedoch das 

Interaktionsproblem, womit gemeint ist, dass die Teilnehmer das Sachproblem 

mit Hilfe von Computern bearbeiten müssen und zunächst einmal die damit 

verbundenen Hürden in der Bedienung bewältigen müssen. So müssen 

zunächst derartige Fragen beantwortet werden wie „Wo finde ich was auf dem 

Bildschirm?“, „Wie bediene ich die Maus?“ oder „Was muss ich tun, um eine 

bestimmte Information aufzurufen?“ (Obermann, 2006). Der Anfangszustand 

bei diesem Problem ist also, dass der Teilnehmer weder das Programm noch 

seine Funktionsweise kennt. Der Endzustand soll sein, dass der Teilnehmer mit 

dem Programm vertraut ist. Die Verwendung des Computers kann also gerade 

bei computerunerfahrenen Teilnehmern zu einem zusätzlichen Problem 

werden, da durch die Lösung des Interaktionsproblems Kapazitäten in 

Anspruch genommen werden, die für die Lösung des Sachproblems fehlen. Bei 

erfahrenen Computeranwendern ist die Nutzung längst zu einem Automatismus 

geworden, d.h. der Endzustand ist von Anfang an vorhanden, so dass das 

Interaktionsproblem minimiert wird und mehr Kapazität für das Sachproblem zur 

Verfügung steht. Die computerspezifischen Fertigkeiten können also das 

Ergebnis in solchen Übungen verzerren (Kleinmann & Strauß, 1995). Dabei 

helfen den Computerlaien laut Obermann (2006) auch die von den 

Programmieren gut gemeinten Hilfefunktionen nicht weiter, da diese mit der 

Praxis nichts zu tun haben und ggf. sogar Zusatzstress erzeugen können. Auch 

die Instruktionen sind nicht immer für alle gleichermaßen verständlich. 

Tatsächlich gibt es zahlreiche Studien, die bezüglich des Interaktionsproblems 

große Differenzen zwischen Experten und Novizen aufweisen (Wandmacher, 

1993). Diese Unterschiede sind zum einen durch die Vorerfahrung mit 

Computern und Computeranwendungen begründet, zum anderen aber auch 

entscheidend durch die Gestaltung der jeweiligen Software, d.h. der 

Softwareergonomie geprägt (Wandmacher, 1993; Kleinmann & Strauß, 1995; 

Obermann, 2006). 

Die Vorerfahrung mit Computern ist im AC nicht beeinflussbar. Dennoch sollte 

sie beim Einsatz computergestützter Übungen mit erhoben werden, da sich nur 

so die Leistung eines Teilnehmers bei der Bearbeitung des Sachproblems 

adäquat beurteilen lässt (Kleinmann & Strauß, 1995). 

66


Hinsichtlich der Softwareergonomie gibt es jedoch verschiedene Möglichkeiten, 

diese während der Konzeptionsphase einer computergestützten Übung zu 

erhöhen. Je höher die Softwareergonomie, desto geringer ist der jeweilige 

Zusammenhang von Computererfahrung und Testleistung (Kleinmann & 

Strauß, 1995). Ein wesentlicher Punkt ist hierbei die Präsentation des 

Softwareprogramms. Wenn Vorwissen die Performance in der Übung durch die 

Überwindung des Interaktionsproblems adäquater macht, ist es sinnvoll, das 

Programm so zu gestallten, dass möglichst viele Teilnehmer über ähnliches 

Vorwissen verfügen. In diesem Sinne könnte das Programm beispielsweise an 

die Windows-Benutzeroberfläche oder gängige E-Mail-Programme wie 

Microsoft Outlook angepasst werden. Auch Usability-Tests im Rahmen der 

Konzeptions- und Programmierungsphase können helfen, die Unterschiede 

zwischen Experten und Novizen zu minimieren (ausführlich zur 

Softwaregestaltung bei computergestützten AV-Verfahren: Kleinmann & Strauß, 

1995) Zusammenfassend ist festzuhalten, dass es das Ziel einer jeden 

Softwaregestaltung, inklusive der von computergestützten Postkörben, sein 

sollte, dass selbst ungeübte Benutzer nach wenigen Probedurchläufen bzw. 

einer kurzen Einarbeitungszeit ähnlich mit dem Programm umgehen können 

wie erfahrene Nutzer (Kleinmann & Strauß, 1995; Obermann, 2006). 

2.4.3 Verfahren im Überblick 

Nachdem nun Vor- und Nachteile von EDV-Postkörben sowie mögliche 

Probleme bei der Interaktion von Mensch und Computer dargestellt wurden, soll 

nun ein Überblick über die gängigsten bereits bestehenden computergestützten 

Postkörbe gegeben werden. Hierbei ist zu betonen, dass in der Praxis eine 

Vielzahl solcher Verfahren existieren, diese jedoch meist von Beratungsfirmen 

entwickelt und an deren Kunden verkauft werden, ohne dass eine 

wissenschaftliche Untersuchung sowie publizierte Studien dazu stattgefunden 

haben (Riediger & Rolfs, 1998). Die drei hier dargestellten Verfahren haben 

sich jedoch dem Anspruch auf Überprüfbarkeit gestellt. Im Folgenden sollen 

daher die Mailbox’90 (2.4.3.1), PC-Office (2.4.3.2) und der PC-Postkorb 

„Seeblick“ (2.4.3.3) dargestellt werden. 

67


2.4.3.1 Mailbox’90 

• Autoren: F. Roest, A. Scherzer, E. Urban, H. Gangl & C. Brandstätter 

(1989) 

• Aufgabenbeschreibung: Die Mailbox'90 ist ein Verfahren zur 

psychologischen Berufseignungsdiagnostik vor allem im Rahmen von 

Assessment Centern und Potenzialanalysen von Führungskräften 

(Brickenkamp, 2002). Der Teilnehmer wird bei diesem Postkorb in die 

Position des Direktors eines Versicherungsunternehmens hineinversetzt. 

Im Posteingang findet er neun Dokumente vor, die er innerhalb von 32 

Minuten bearbeiten soll, wobei in dieser Zeit noch mehrere Telefonate 

und Postzugänge eingehen (Roest et al., 1989). Dem Proband stehen 

dabei auf dem Bildschirm ein Rechner, ein Notizblock und ein Kalender 

zur Verfügung. Zusätzliche Informationen kann er aus einer Kundenliste 

sowie einem Organigramm des Unternehmens entnehmen. Neben dem 

Eingangskorb stehen auf dem Bildschirm zwei weitere Ablagekörbe zur 

Verfügung (Funke, 1993, siehe Abbildung 1). 

Abbildung 1: Display des Schreibtisches der Mailbox’90. Die verschiedenen Körbe sind groß in 

der Mitte dargestellt, oben in der Kopfzeile finden sich die Hilfsmittel. Rechts sind die 

Eingriffsmöglichkeiten aufgelistet (Funke, 1993, b). 

68


Die Bedienung erfolgt mausgesteuert. Einige Dokumente erfordern die 

Antwortauswahl aus einer Multiple-Choice-Vorgabe, in anderen Fällen ist 

die freie Antwortformulierung in einem Textfeld möglich, und andere 

Schriftstücke ermöglichen eine freie Multiple-Choice-Auswahl 

beispielsweise aus Delegieren, Ablegen, Termin festlegen, Versenden, 

etc. Der ausgewählte Umgang mit einem Dokument kann entsprechende 

Konsequenzen haben, so dass z.B. delegierte Dokumente bei falscher 

Zuständigkeit der Abteilung nur unvollständig bearbeitet zurückkommen 

(Riediger & Rolfs, 1998). Bei Bedienungsproblemen steht zusätzlich eine 

Hilfefunktion zur Verfügung. 

• Auswertung: Die Beurteilung der Testleistung erfolgt anhand der vier 

aufgabenorientierten Skalen Arbeitszeit, Arbeitseinteilung, 

Zielorientierung und Arbeitsgüte. Hinzu kommen die drei 

verlaufsorientierten Skalen Aktivität, Delegation und Ordnen (Roest & 

Horn, 1990). Zu diesen Kriterien lassen sich unterschiedlich stark 

differenzierte Ergebnisprotokolle ausgeben, die Roh- und Staninewerte 

zu den sieben Skalen beinhalten, aber auch die prozessorientierten 

Daten als Verlaufsprotokoll anzeigen können, in denen jeder einzelne 

Bearbeitungsschritt dokumentiert ist (Riediger & Rolfs, 1998). Die vom 

Teilnehmer vorgenommen Kalendereinträge, die als offene Testeingabe 

erfolgen, können vom Programm jedoch nicht ausgewertet werden, 

sondern werden dem Testleiter lediglich auf dem Ergebnisausdruck zur 

manuellen Auswertung mitgeliefert (Funke, 1993, b). 

• Güte des Verfahrens: Durch seine vollständige Darbietung per Computer 

und die rechnergestützte Ablaufkontrolle wird die 

Durchführungsobjektivität des Verfahrens als hoch angesehen, obwohl 

Einschränkungen durch eine zu hohe Dynamik erfolgen könnten (siehe 

unten). Auch die Auswertung unterliegt, abgesehen von der 

Terminplanauswertung, vollständig der Kontrolle des Programms und 

bezieht sich auf die von der Testperson angelegte Protokolldatei. Somit 

kann zumindest weitgehend von einer Auswertungsobjektivität 

ausgegangen werden (Funke, 1993, b). Zur Überprüfung der Reliabilität 

und Validität des Verfahrens wurden Erhebungen an 105 Grazer 

69


Psychologiestudenten sowie 193 Bewerbern für Trainee-Positionen 

vorgenommen (Roest & Horn, 1990). Den Ergebnissen zufolge besteht 

nur eine niedrige bis mittlere Reliabilität für die Skalen Arbeitseinteilung, 

Zielorientierung und Arbeitsgüte. Angaben zur Reliabilität der weiteren 

Skalen werden von den Testautoren nicht gegeben. Zur 

Validitätsbestimmung wurden Korrelationen zwischen den Mailbox’90- 

Skalen und verschiedenen Intelligenz- und Persönlichkeitstests ermittelt 

(Roest et al., 1989; Güllich, 1992) Die Auswahl der Tests ist jedoch nicht 

begründet, so dass nicht erkennbar ist, an welchen Stellen die Autoren 

Kriteriumsvalidität oder diskriminante Validität erwarten (Riediger & 

Rolfs, 1998). Von insgesamt 392 mitgeteilten Korrelationen erweisen 

sich nur 41 als statistisch bedeutsam, obwohl bei der zugrunde gelegten 

Irrtumswahrscheinlichkeit von α=.05 alleine schon 20 der 392 Korrelation 

per Zufall signifikant sein sollten (Funke, 1993, b). Die höchste, jedoch 

eher fragwürdige Korrelation von r=.41 (17% gemeinsame Varianz) 

besteht zwischen der Skala Zielorientierung der Mailbox’90 und der 

Skala Selbstbeschuldigung aus einem Stressverarbeitungsbogen. 

Daraus schlussfolgern Roest et al. (1989), dass die Mailbox’90 ein von 

anderen Verfahren nicht erfasstes Verhalten misst. Was der Test aber 

genau misst bzw. ob die angestrebten Verhaltensdimensionen 

tatsächlich erfasst werden, bleibt unbeantwortet (Fritz & Funke, 1995). 

Auch die Aussage der Autoren, dass die Ähnlichkeiten zu Ergebnissen 

anderer Postkorb-Validierungen darauf hindeutet, dass die 

Computerversion ähnliche Verhaltensmerkmale misst wie die Papier- 

Bleistift-Version, wird von anderen Autoren nicht geteilt (Funke, 1993, b; 

Riediger und Rolfs, 1998). Ergebnisse zur prädiktiven Validität des 

Verfahrens liegen bislang nicht vor. 

• Bewertung: Positiv zu bewerten ist, dass den Testautoren schon Anfang 

der 1990er Jahre ein Instrument gelungen ist, dessen Durchführung und 

Auswertung vollkommen objektiv von anderen Teilnehmern sowie 

Beobachtern vonstatten geht. Zudem hat die Mailbox’90 eine überaus 

gelungene Anpassung an das Medium des Computers vollzogen, was 

eine besonders hohe Dynamik erzeugt (Funke, 1993, b). So können die 

70


verschiedenartigen Störungen im Arbeitsablauf oder die Kooperation mit 

anderen Abteilungen hier höchst realistisch simuliert werden. 

Anzumerken ist hierbei jedoch, dass eine zu hohe Störungsquote die 

Durchführungsobjektivität beeinflussen kann, besonders wenn 

verschiedene Störungen die Teilnehmer während unterschiedlicher 

Arbeitsprozesse unterbrechen, wozu weitere Untersuchungen erfolgen 

sollten. Weiterhin positiv ist, dass in der Auswertung eine hohe 

Transparenz bezogen auf eine Musterlösung gegeben wird (Riediger und 

Rolfs, 1998). 

Die Ergebnisse zur Reliabilität und Validierung der Mailbox’90 können 

jedoch generell als unzureichend betrachtet werden (Funke, 1993, b). 

Auch die Benutzerfreundlichkeit lässt nach Meinung von Riediger und 

Rolfs (1998) zu wünschen übrig. Trotz Einführung und Instruktion hat der 

Teilnehmer ein recht komplexes Programm zu bewältigen, das bezüglich 

der Handhabung mit der wirklichen Arbeitswelt wenig gemein hat. Auch 

der mausgesteuerte Abruf der Funktionen ist wenig intuitiv, so dass 

computerunerfahrene Teilnehmer wohl Probleme damit haben dürften 

(siehe Kapitel 2.4.2). Auch hierzu wären weitere Forschungen 

wünschenswert. Hinzu kommt, dass die Interpretierbarkeit besonders der 

verlaufsorientierten Skalen trotz Interpretationshilfen der Autoren eher 

fraglich erscheint. So werden beispielsweise keine Belege dafür 

gegeben, warum die Häufigkeit, mit der ein Teilnehmer die Umblätter- 

Funktion genutzt hat, etwas mit Aktivität im Sinne einer 

Führungseigenschaft zu tun haben soll (Funke, 1993, b; Fritz & Funke, 

1995). Auch die noch manuell auszuführende Auswertung der 

Kalendereinträge beeinträchtigt die ansonsten hohe Objektivität und 

bedarf einer Verbesserung. Insgesamt gesehen kann die Mailbox’90 

aber als sinnvolles Instrument der Personalauswahl betrachtet werden, 

sofern noch weitere Forschungen zu ihrer Güte sowie eine Verbesserung 

bzw. Modernisierung der Softwareergonomie vorgenommen werden. 

71


2.4.3.2 PC-Office 

• Autor: G. Fennekels (1995) 

• Aufgabenbeschreibung: PC-Office stellt zwei Postkorbverfahren zur 

Verfügung: Polybon wurde für Zielpositionen im höheren Management 

konzipiert, Domobon für Abteilungs- und Gruppenleiter (Fennekels, 

1995). Beide Postkörbe sind bzgl. Durchführung und Auswertung 

äquivalent und unterscheiden sich lediglich im Inhalt der Dokumente 

(Sarges & Wottawa, 2001). Bei der Bearbeitung von Polybon nimmt der 

Proband die Position eines Werksleiters ein, der einen neuen 

Produktionsstandort übernommen hat. Domobon inszeniert dagegen die 

Arbeitssituation eines Gruppenleiters im Vertrieb, der den erkrankten 

Abteilungsleiter zu vertreten hat (Riediger & Rolfs, 1998). In beiden 

Postkörben sollen 17 Schriftstücke mit 26 Problemen innerhalb einer 

Stunde (Polybon) bzw. 45 Minuten (Domobon) erkannt und bearbeitet 

werden. Zur Lösung eines Problems können eine oder mehrere 

gegebene Antwortvorgaben ausgewählt werden. Termine können 

gelöscht, verschoben oder gekürzt werden. Neben einem 

Terminkalender stehen als weitere Hilfsmittel eine Uhr und ein 

Organigramm zur Verfügung. Die Handhabung beider Postkörbe erfolgt 

über die Tastatur, durch Betätigen der F1-Taste sind Hinweise bei 

Bedienungsproblemen abrufbar (Fennekels, 1995). 

• Auswertung: Die Auswertung der Testergebnisse erfolgt über die beiden 

Dimensionen Planung & Organisation und Unternehmerische Aktivität. 

Erstere wird durch die Kriterien Zeitmanagement, Problemerfassung 

sowie Entscheidungsverhalten abgebildet. Die Unternehmerische 

Aktivität setzt sich zusammen aus Initiative, Führungstechniken und 

Kontaktfähigkeit (Fennekels, 1995). Die Ergebnisausgabe besteht aus 

mehreren Teilbereichen (Riediger & Rolfs, 1998). In der quantitativen 

Analyse werden Staninewerte für die beiden übergeordneten 

Dimensionen gegeben. In der qualitativen Auswertung hingehen werden 

die Leistungen des Teilnehmers automatisch in einem Textgutachten 

zusammengefasst. Hinzu kommt eine Übersicht der „angemessenen“ 

sowie „unangemessenen“ Entscheidungen bezogen auf die Gesamtzahl 

72


aller zu treffenden Entscheidungen für jedes der sechs Unterkriterien 

(Fennekels, 1995). In dieser Problemanalyse wird auch erkennbar, 

welche Problempunkte unberücksichtigt blieben. Zusätzlich liegen 

Prozessinformationen vor, wie beispielsweise die Dauer der 

Bearbeitungszeiten. Darüber hinaus wird Auswertung durch Grafiken und 

Schaubilder veranschaulicht (Sarges & Wottawa, 2001). 

• Güte des Verfahrens: Da die Durchführung sowie die Auswertung bei 

PC-Office in beiden Postkorb-Varianten vollständig durch das Programm 

realisiert wird, kann von maximaler Auswertungs- sowie 

Durchführungsobjektivität gesprochen werden (Riediger & Rolfs, 1998). 

Zur Bestimmung von Reliabilität und Validität wurde PC-Office an 500 

Führungskräften unterschiedlicher Hierarchieebenen im Rahmen von 

Assessment Centern erprobt, und die Ergebnisse mit denen anderer 

Übungen verglichen (Sarges & Wottawa, 2001). Im Testhandbuch finden 

sich diesbezüglich jedoch nur Angaben zum Postkorb Polybon. Die 

Reliabilitätskennwerte wurden mit Cronbachs Alpha bestimmt und 

ergeben für das Kriterium Problemerfassung mit .87 den höchsten Wert 

und für Entscheidungsverhalten mit .58 den niedrigsten. Zudem wurden 

sogar Split-Half-Reliabilitätskoeffizienten angegeben, welche für die 

sechs Kriterien von .64 bis .84 rangieren (Sarges & Wottawa, 2001). Zur 

Bestimmung der Validität wurde nach Abschluss der Assessment Center, 

in denen PC-Office erprobt wurde, in der Beobachterkonferenz eine 

Potenzialaussage über die vermutlichen Erfolge des Teilnehmers als 

Führungskraft auf der Zielstelle getroffen (Riediger & Rolfs, 1998). Diese 

Beurteilungen wurden mit den Anforderungsdimensionen Planung & 

Organisation und Unternehmerische Aktivität korreliert. Bei einer 

Irrtumswahrscheinlichkeit von α=.01 korrelierten die beiden Dimensionen 

signifikant mit .47 für Planung & Organisation sowie .41 für 

Unternehmerische Aktivität (Sarges & Wottawa, 2001). 

• Bewertung: Besonders positiv fällt auf, dass die Autoren großen Wert auf 

die Gestaltung des Programms und eine denkbar einfach Handhabung 

gelegt haben (Sarges & Wottawa, 2001). Voruntersuchungen zeigten, 

dass der Umgang mit PC-Office selbst computerunerfahrenen 

73


Testpersonen nach einer kurzen Einweisungsphase problemlos gelang 

(Fennekels, 1995). Besonders die Kalenderfunktion und das Eintragen 

der Termine wurde sehr intuitiv angelegt. Als ein weiterer Pluspunkt 

erscheint das Vorliegen von zwei Schwierigkeitsstufen, mit dem der 

Einsatz von PC-Office differenzierter erfolgen kann. 

Negativ ins Gewicht fällt jedoch die Tatsache, dass im Testhandbuch 

zwar eine einfache Bedienungsanleitung für das Programm zu finden ist, 

darüber hinaus jedoch kaum Informationen zu Testgrundlagen, 

Testwertberechnung oder psychometrischer Güte (Riediger & Rolfs, 

1998). Zur Validierung fehlen beispielsweise genaue Angaben über Art 

und Zusammensetzung der Stichprobe, detaillierte Erläuterungen zu den 

Dimensionen und eine Offenlegung der Erhebungsverfahren. Zudem ist 

eine rein subjektive Potenzialaussage im Anschluss an ein AC als höchst 

unzureichendes Validierungskriterium zu bewerten. Hierbei sei jedoch 

gesagt, dass nach Aussage von Riediger und Rolfs (1998) die 

Testautoren bereits weitere Validierungsstudien betreiben würden. 

Aktuelle Publikationen liegen dazu aber derzeit noch nicht vor. Als 

weitere Schwachstelle ist neben der unzureichenden Validierung auch 

die Intransparenz bei der Berechnung und Erstellung der 

Ergebnisausgabe zu sehen (Riediger & Rolfs, 1998). So ist die 

Aggregation der Verhaltensinformationen zu Testkennwerten nicht 

nachvollziehbar, und es fehlen auch hier jegliche Informationen zu der 

oder den herangezogenen Normstichprobe(n). Aus diesem Grund ist 

besonders das automatisch erstellte Textgutachten kritisch einzustufen, 

auch wenn es für den Testanwender eine verlockende 

Arbeitserleichterung darstellt. Wenn ausführlichere Validierungsstudien 

und umfangreichere Informationen zur Auswertung nachgereicht werden 

würden, wäre PC-Office als durchaus brauchbares Instrument der 

Eignungsdiagnostik einzustufen. Davon abgesehen bliebe jedoch ein 

inhaltlicher Kritikpunkt unberührt, nämlich dass das Verfahren eine relativ 

geradlinige Computerisierung von klassischen Paper-Pencil-Postkörben 

darstellt (Riediger & Rolfs, 1998). Eine Nutzung der 

Interaktivitätsmöglichkeiten, wozu der Computer zahlreiche Chancen 

74


bietet und wie sie beispielsweise von Mailbox’90 (siehe Kapitel 2.4.3.1) 

nahezu ausgereizt werden, wird hier vertan. Ein Indiz dafür ist auch die 

Reliabilitätsbestimmung des Verfahrens mittels Split-Half-Methode, 

welche für einen Postkorb aufgrund der sonstigen Vernetzung der Items 

sowie der Dynamik der Vorgänge eher ausgeschlossen erscheint (siehe 

Kapitel 2.1.3, 2.3.5.3). Somit kann PC-Office bzgl. Dynamik und 

Realitätsnähe nur als mäßig eingestuft werden. 

2.4.3.3 PC-Postkorb "Seeblick“ 

• Autoren: Scharley & Partner (1991) 

• Aufgabenbeschreibung: Der PC-Postkorb „Seeblick“ wird hauptsächlich 

zur Selektion von Hochschulabsolventen, Sachbearbeitern, Projekt- und 

Teamleitern sowie Nachwuchsführungskräften eingesetzt (Scharley & 

Partner, 2007). Im Rahmen der Übung übernehmen die Teilnehmer die 

Rolle eines Managers, der ein Ausbildungszentrum einer Bank mit 

angeschlossenem Seminar-, Hotel- und Restaurantbetrieb leitet (Sarges 

& Wottawa, 2001). Die Bearbeitungszeit ist dabei abhängig von der 

Komplexität des Verfahrens, da es verschiedene Parallelversionen bzw. 

verschiedene Schwierigkeitsstufen gibt, um das Verfahren an den 

spezifischen Kundenbedarf anzupassen (Riediger & Rolfs, 1998). In der 

Basisversion hat der Teilnehmer aber eine Stunde Zeit, um insgesamt 40 

Dokumente zu bearbeiten. Davon befinden sich 35 Schriftstücke, bei 

denen es sich um Briefe, Notizen oder Memos handelt, bereits zu Beginn 

der Übung im virtuellen Posteingang, 5 weitere gehen im Verlauf der 

Bearbeitungszeit zusätzlich ein (Scharley & Partner, 1991). Für jedes 

dieser Dokumente muss der Teilnehmer vier Entscheidungen treffen: Er 

hat die Wichtigkeit des Vorgangs im Sinne einer Prioritätensetzung 

festzulegen, soll das Dokument einem inhaltlichen Problemfeld zuordnen 

und delegieren, wer den Vorgang bearbeiten soll. Zu jeder dieser 

Entscheidungen steht eine Multiple Choice-Auswahl zur Verfügung. Als 

vierte Aufgabe soll der Teilnehmer Termine festlegen, die sich aus den 

Schriftstücken ergeben (Scharley & Partner, 2007). Dafür stehen dem 

75


Teilnehmer ein eigener Kalender sowie die Kalender seiner Mitarbeiter 

zur Verfügung. Termine können gesetzt, verschoben und gelöscht 

werden. Zusätzlich bietet das Programm eine Uhr, einen Notizblock und 

eine Filterfunktion an, mit der die Vorgänge nach verschieden 

Gesichtspunkten sortiert werden können. Zudem wird der 

Bearbeitungsstand jedes Schriftstücks angezeigt. Die Bedienung des 

Programms erfolgt mausgesteuert und orientiert sich an gängigen 

windowsbasierten E-Mail-Clients (Scharley & Partner, 2007). Ein Abbild 

des Desktops zeigt Abbildung 2. 

Abbildung 2: Desktop des PC-Postkorbes „Seeblick“. Der Teilnehmers sieht eine Übersicht der 

Dokumente auf der linken Seite, rechts oben wird das jeweils ausgewählte Schriftstück 

angezeigt, rechts unten ist der Terminplaner zu sehen (Scharley & Partner, 2007). 

76


• Auswertung: Die Testauswertung erfolgt bezogen auf die vier 

Bearbeitungskategorien Delegation, Problemfelder festlegen, Prioritäten 

setzen und Terminplanung. Als weiterer Skalenwert wird das Einhalten 

einer logischen Terminplanung berechnet. Zusätzlich wird die 

Arbeitsgeschwindigkeit bewertet sowie ein Gesamttestwert bestimmt 

(Scharley & Partner, 1991). Das Auswertungsprogramm gibt die 

Testergebnisse im Hinblick auf verschiedene Aspekte wieder. Zum einen 

wird die Leistung des Probanden mit einem Prozentwert angegeben, der 

hinsichtlich des optimal erreichbaren Punktwertes verglichen mit einer 

Optimallösung errechnet wird. Zum anderen wird die Testleistung mit 

Werten einer Normstichprobe verglichen, und Prozentrang sowie 

Abweichung vom Durchschnitt der Normstichprobe angegeben. Diese 

Eichstichprobe besteht aus n=100 Personen im mittleren Management 

und n=360 Personen aus dem höheren Management. Die Software 

bietet zusätzlich die Möglichkeit, eigene Normstichproben aufzubauen 

und zu verwalten (Riediger & Rolfs, 1998). Ähnlich wie bei den zuvor 

dargestellten EDV-Postkörben bietet auch der PC-Postkorb „Seeblick“ 

die Möglichkeit, durch eine zusätzliche Strategieanalyse der 

Prozessvariablen das Vorgehen der Teilnehmer während der Übung 

auszuwerten (Scharley & Partner, 2007). 

• Güte des Verfahrens: Die Durchführungs- und Auswertungsobjektivität 

des Verfahrens gilt analog zum Verfahren PC-Office (siehe Kapitel 

2.4.3.2) als maximal. Zur Bestimmung der Validität wurden 

Untersuchungen in den Niederlanden durchgeführt, wo das Verfahren 

sehr verbreitet ist. In einer Studie mit n=35 Führungskräften ergab die 

Split-Half-Methode Koeffizienten für die einzelnen Skalen von .55 bis .82 

und für den Gesamttest .96 (Riediger & Rolfs, 1998). Zur 

Kriteriumsvalidität liegen unterschiedliche Ergebnisse vor. Für die 

deutschsprachige Testversion berichten die Testautoren eine 

hochsignifikante Korrelation von Postkorbgesamtergebnis und einem 

unabhängig davon erhobenen Gesamtergebnis eines Assessment 

Centers (r=.37 bei α=.01 und n=54) sowie eine signifikante Korrelation zu 

einer Vorgesetztenbeurteilung des Führungspotenzials (r=.33 bei α=.05 

77


und n=54) (Riediger & Rolfs, 1998). In einer anderen Studie in den 

Niederlanden zeigte sich in einer ebenfalls kleinen Stichprobe von n=30 

kein Zusammenhang von Testleistung und Vorgesetztenbeurteilung, in 

einer späteren niederländischen Untersuchung jedoch eine Korrelation 

von .53 bei n=34 (Riediger & Rolfs, 1998). Eine weitere niederländische 

Studie berichtet darüber hinaus von Korrelationen des 

Postkorbergebnisses zu einem Intelligenzwert von .29 bei n=117. 

• Bewertung: Der PC-Postkorb „Seeblick“ kann verglichen mit den bisher 

hier dargestellten Verfahren am positivsten bewertet werden. So 

überzeugt der EDV-Postkorb besonders durch seine 

benutzerfreundliche, windows-basierte Gestaltung, die sich an gängige 

E-Mail-Clients wie Microsoft Outlook anlehnt und somit auch für 

unerfahrene Benutzer schnell zu überschauen ist. Dazu tragen auch die 

gut interpretierbaren Icons und der übersichtliche Bildschirmaufbau 

sowie eine für den User gewohnte Bedienung mit der Maus bei (Sarges 

& Wottawa, 2001). Ein weiterer großer Vorteil ist die Tatsache, dass die 

Ergebnisse sowohl hinsichtlich des zu erfassenden Kriteriums wie auch 

mit Werten aus einer Normstichprobe verglichen werden. Dadurch 

werden sowohl Anforderungen der kriterienorientierten 

Leistungsmessung sowie der klassischen Testtheorie realisiert (siehe 

Kapitel 2.1), was für den Postkorb als Mischform aus psychologischem 

Testverfahren und situativer Arbeitsprobe besonders geeignet scheint. 

Zusätzlich positiv ist zu vermerken, dass der PC-Postkorb bereits in einer 

deutschen, englischen, französischen, italienischen und 

niederländischen Version vorliegt und die Versionen jeweils an die 

Zielunternehmen angepasst werden können (Sarges & Wottawa, 2001). 

Diese Tatsache bringt jedoch Validierungsprobleme mit sich. Es dürfte 

eher unwahrscheinlich sein, dass die publizierten Ergebnisse auch 

zutreffen, wenn der Postkorb in einem anderen Land mit anderen 

Arbeitsanforderungen, in einer anderen Sprache und zusätzlich noch in 

einer an ein Unternehmen spezifisch angepassten Version eingesetzt 

wird. Zusätzlich problematisch bei den vorliegenden Untersuchungen ist 

die geringe Stichprobengröße von teilweise nur n=30 Personen (Riediger 

78


& Rolfs, 1998). Zwar werden hierbei Hinweise auf eine vorhandene 

Reliabilität sowie Validität gegeben, jedoch wird für derartige Studien, 

sofern sie aussagekräftig sein sollen, eine Stichprobengröße von 

mindestens n=68 vorausgesetzt (Bortz, 1993). Analog zum PC-Office 

muss auch hier die Split-Half-Methode zur Reliabilitätsbestimmung 

aufgrund der interdependenten Itemstruktur als unpassend bezeichnet 

werden (Riediger & Rolfs, 1998). Ein zusätzliches Manko ist, dass die 

Musterlösung sowie die Zuordnung der Verhaltensweisen zu den 

Punktwerten nicht transparent und somit auch nicht nachvollziehbar ist 

(Riediger & Rolfs, 1998). Dennoch bleibt festzuhalten, dass der PC- 

Postkorb „Seeblick“ von den bisher dargestellten Verfahren das 

modernste und qualitativ hochwertigste zu sein scheint, auch wenn bzgl. 

der Validierung noch weitere, umfangreichere Studien nötig sind. 

2.4.3.4 Zusammenfassung 

In diesem Kapitel wurde zunächst auf die Vor- und Nachteile 

computergestützter Postkörbe eingegangen und anschließend die drei 

gängigsten Verfahren Mailbox’90, PC-Office und der PC-Postkorb „Seeblick“ 

detailliert dargestellt und bewertet. 

Die Vorteile von Mailbox’90 liegen in einer überaus hohen Dynamik und 

Realitätsnähe, was jedoch die Durchführungsobjektivität beeinflussen könnte. 

Zudem wird eine hohe Transparenz bei der Ergebnisauswertung gegeben. Als 

unzureichend wird der derzeitige Stand der Validierung bezeichnet, ebenso wie 

die Benutzerfreundlichkeit. Letztere sollte durch eine Anpassung des 

Programms an aktuelle Softwarestandards erhöht werden. Zudem sollte ein 

computergestütztes Instrument gänzlich ohne zusätzliche manuelle 

Auswertungen, wie hier der Kalendereinträge, auskommen. 

Dem Verfahren PC-Office wird generell eine hohe Benutzerfreundlichkeit 

bescheinigt, auch wenn diese noch nicht an ein windowsbasiertes Design 

geknüpft ist. Zudem liegen zwei verschieden schwierige Versionen für den 

individuelleren Einsatz vor. Negativ wird auch hier die Validierungslage 

gesehen, wozu jedoch offenbar neue Studien in Arbeit sind. Hinzu kommt die 

79


kaum vorhandene Transparenz zu den Testgrundlagen, der 

Testwertberechnung oder den Normstichproben. Weiterhin negativ ist die relativ 

starre Umsetzung eines Paper-Pencil-Verfahrens, wodurch die Potenziale einer 

computergestützten Anwendung ungenutzt bleiben. 

Der PC-Postkorb „Seeblick“ überzeugt durch seine wesentlich zeitgemäßere 

Gestaltung und die daraus resultierende hohe Benutzerfreundlichkeit. 

Zusätzlich werden die Testwerte hier sowohl bezüglich des zu erreichenden 

Kriteriums bewertet als auch mit einer Normstichprobe verglichen. Einzig 

negativ erscheint hier wie bei den anderen Verfahren die unzureichende 

Validierungslage, was jedoch vor allem an den zu kleinen Stichproben und den 

lediglich in einem Land (Niederlande) durchgeführten Studien liegt. 

Alles in allem besitzt also jedes dieser Verfahren sowohl Vorteile wie Nachteile. 

Auffällig ist jedoch, dass bei allen drei EDV-Postkörben große Defizite in der 

Validierung herrschen. Im nachfolgenden Kapitel soll der neu entwickelte 

computergestützte Postkorb KI.BOX vorgestellt werden, der das Ziel hat, die 

Vorteile der bisherigen Verfahren aufzugreifen und deren Defizite 

auszugleichen. 

80


3 Der computergestützte Postkorb KI.BOX 

3.1 Beschreibung des Verfahrens 

Der computergestützte Postkorb KI.BOX wurde 2008 von Stephan Holtmeier für 

die Unternehmensberatung „kibit GmbH“ entwickelt und wird derzeit bereits 

erfolgreich bei Kunden, vor allem aus der Versicherungs-, Banken- und 

Automobilbranche im Rahmen von Assessment Centern und 

Potenzialbeurteilungen eingesetzt. Da es sich hierbei noch um ein sehr neues 

Verfahren handelt, existiert zurzeit noch kein ausführliches Testhandbuch. Die 

folgende Darstellung des Verfahrens basiert also hauptsächlich auf 

persönlichen Mitteilungen des Testautors, Produktinformationen von der 

Unternehmens-Homepage (Holtmeier, 2008) sowie eigenen Erfahrungen des 

Autors dieser Diplomarbeit mit der KI.BOX und wird mangels alternativer 

publizierten Testbeschreibungen ausführlicher erfolgen als bei den in Kapitel 

2.4.3 dargestellten EDV-Postkörben. 

Bei der Konzeption der KI.BOX wurde an ähnliche bereits bestehende 

Verfahren angeknüpft, allerdings mit dem Ziel, deren erkennbare Schwächen 

aufzugreifen und durch verbesserte Lösungen zu ersetzen. Somit sollte ein 

zeitgemäßes und für die Praxis sinnvoll einzusetzendes Instrument der 

Eignungsdiagnostik entwickelt werden, das sowohl wissenschaftlichen wie 

wirtschaftlich-ökonomischen Ansprüchen genügt. Dazu wurden jedoch nicht nur 

bereits bestehende Paper-Pencil- und computerbasierte Postkörbe als 

Konstruktionsgrundlage herangezogen. Auch das Berliner Intelligenzstruktur- 

Modell von Jäger, Süß und Beauducel (1997, vgl. Sarges & Wottawa, 2001) 

sowie Ansätze aus dem Büro-Test von Marschner (1981) wurden impliziert. 

Die Zielgruppe dieses EDV-Postkorbes setzt sich in erster Linie aus 

Hochschulabsolventen, Trainee-Bewerbern und Führungskräftenachwuchs 

zusammen. Das Programm ist, ähnlich wie der PC-Postkorb „Seeblick“ (siehe 

Kapitel 2.4.3.3), bzgl. Design und Handhabung windows-basiert und wird mit 

der Maus gesteuert, wobei in wenigen Fällen auch Zahlen über die Tastatur 

einzugeben sind. Die Benutzeroberfläche ist an allgemein gängige E-Mail- 

Clients wie Microsoft Outlook angelehnt und wurde zusätzlich vereinfacht, um 

81


Vorerfahrung mit dem Computer möglichst zu minimieren (siehe Kap 2.4.2). 

Darüber hinaus können Komplexität und Inhalte der KI.BOX flexibel an die 

jeweiligen Einsatzgebiete und Zielgruppen angepasst werden. Keine der 

Versionen benötigt spezielles Fachwissen. Die vorliegende Arbeit beschäftigt 

sich im Weiteren mit einer Basisversion, deren reine Bearbeitungszeit 60 

Minuten beträgt. Hinzuzurechnen ist eine insgesamt zwanzigminütige 

Instruktionsphase, die sich in zwei Teile gliedert und im folgenden Kapitel 

dargestellt wird. 

3.2 Instruktion 

Zunächst bekommt der Teilnehmer eine Instruktion auf Papier ausgehändigt, 

die ihn mit der Cover-Story der Übung, seiner diesbezüglichen Aufgabe, 

Hinweisen zur Bearbeitung und grundlegenden Bedienungsanweisungen 

inklusive Screenshots aus der KI.BOX vertraut macht (siehe Anhang A.1). Zur 

Durchsicht dieser Unterlage sind zehn Minuten vorgesehen, während der 

Bearbeitungszeit steht sie dem Teilnehmer aber auch weiterhin zur Verfügung. 

Im Anschluss daran folgt die zweite Phase der Einarbeitung, die ebenfalls zehn 

Minuten in Anspruch nimmt und am Computer erfolgt. Der Teilnehmer befindet 

sich nun auf der Startseite der KI.BOX, die in Abbildung 3 dargestellt wird: 

Abbildung 3: Startseite der KI.BOX. 

82


Oben im Bild befinden sich nochmals kurze Hinweise zur Bearbeitung, die der 

Teilnehmer schon aus der schriftlichen Instruktion kennt. Links befinden sich die 

Symbole für die Bearbeitungsbereiche der KI.BOX „Posteingang“, „Excel 

(Tabellen)“, Kalender Messeplanung“, „Prioritäten für heute“ und darunter 

„Startseite und Hilfe“, worüber der Teilnehmer immer wieder zur Startseite 

zurückkommen kann. Die späteren Bearbeitungsbereiche sind in der 

Einarbeitungsphase noch nicht frei geschaltet. Ganz unten ist die Zeitleiste zu 

erkennen, die jeweils während der Einarbeitungs- sowie der Bearbeitungszeit 

von links nach rechts ansteigt. Durch Klicken auf diesen Balken wird dem 

Teilnehmer Aufschluss darüber gegeben, wie viel Zeit ihm noch bleibt. In der 

Mitte der Startseite findet sich unter der Überschrift „Ihre Aufgabe“ nochmals 

eine kurze Zusammenfassung der Aufgabe aus der schriftlichen Instruktion. 

Darunter finden sich Hilfe zur „Navigation“ im Programm und seiner Bedienung. 

Durch Klicken auf die Links, die windows-typisch durch eine blaue Schrift und 

die Unterstreichung auch als solche gekennzeichnet sind, gelangt man zu 

weiterführenden Erläuterungen zu den vier Bearbeitungsbereichen. Abbildung 4 

zeigt exemplarisch die Erläuterung für den Bereich Posteingang: 

Abbildung 4: Erläuterungsseite zum Posteingang der KI.BOX 

83


Die zweigeteilte umfassende Einarbeitungszeit wurde realisiert, um auch 

computerunerfahrenen Teilnehmern die Handhabung des Programms maximal 

zu erleichtern und ihnen durch ein erstes „Herumklicken“ die Möglichkeit zu 

geben, bestehende Anfangsnervosität, die ihre tatsächlichen Leistungen 

beeinflussen könnte, abzubauen. Sind die zehn Minuten verstrichen, erscheint 

ein Popup-Fenster mit dem Text „Ihre Vorbereitungszeit ist vorbei“. Erst wenn 

dann in diesem Popup auf einen Button mit der Aufschrift „Bearbeitung jetzt 

starten“ geklickt wird, starten die 60 Minuten der Bearbeitungszeit des 

Teilnehmers und damit die Leistungserfassung. 

3.3 Durchführung 

Der Teilnehmer wird in die Rolle eines Projektleiters hineinversetzt, der einen 

Messeauftritt bei einer in sechs Wochen anstehenden Absolventenmesse 

planen soll. Dies ist eine typische Aufgabe, wie sie auf Trainees oder 

Nachwuchsführungskräfte in der Praxis auch zukommen könnte. In der 

Rahmenhandlung ist es früher Morgen, der Teilnehmer hat gerade seinen 

Computer eingeschaltet. Bevor er seinen nächsten Termin wahrnehmen kann, 

muss er noch seinen Postkorb bearbeiten. Dieser besteht aus den vier 

Aufgabenbereichen Posteingang für E-Mails, Excel-Tabellen, dem Kalender für 

die Messeplanung und einer Prioritätenliste für den aktuellen Tag. 

Im Bereich Posteingang findet der Teilnehmer zunächst 18 E-Mails vor, weitere 

vier treffen im Verlauf der Bearbeitungszeit ein. Diese neuen Mails enthalten 

teilweise Informationen, ohne die einige Probleme aus den bereits vorhandenen 

E-Mails nicht korrekt lösbar sind und dadurch ein schnelles Umdenken 

erfordern. Mit dieser Form der Dynamik soll, wie auch in den zuvor 

dargestellten Postkörben, eine höhere Realitätsnähe erzeugt werden. Damit 

orientiert sich die KI.BOX am PC-Postkorb „Seeblick“, da ein noch höheres Maß 

an Störungen, wie es bei der Mailbox’90 gegeben ist, die 

Durchführungsobjektivität zu stark beeinflussen könnte (siehe Kapitel 2.4.3.1). 

Um die Realitätsnähe zusätzlich zu erhöhen, wurden die E-Mails personalisiert. 

Das bedeutet, dass in den Anreden und Texten der Mails der Teilnehmer nicht 

nur als „Projektleiter“ oder „Herr/Frau XY“ angeredet wird, sondern automatisch 

84


der tatsächliche Name des Teilnehmers eingefügt wird, den er zu Beginn der 

Instruktionsphase in einem Fenster eingetragen hat. Abbildung 5 zeigt 

beispielhaft den Bildschirm bei der Bearbeitung einer E-Mail im Posteingang: 

Abbildung 5: Posteingang der KI.BOX. Angezeigt wird E-Mail 12, oben blau unterlegt. 

Links im Bild befinden sich wieder die Navigations-Icons zu den anderen 

Aufgabenbereichen, ganz unten ist die Zeitleiste zu erkennen. Oben befindet 

sich die Übersicht über die E-Mails, in der man hoch- und runterscrollen oder 

das Übersichtsfenster auch bei Bedarf vergrößern kann. Auch kann man die 

Mails nach Markierung, Message-Nummer, dem Absender und dem Betreff 

ordnen. In der Spalte für die Markierung hat der Teilnehmer die Möglichkeit, für 

jede Mail bestimmte Icons anzeigen zu lassen, z.B. ein Ausrufezeichen für 

besonders wichtige oder ein Papierkorb für besonders unwichtige E-Mails. 

Diese Markierung dient lediglich als Übersichtshilfe für den Teilnehmer und wird 

nicht bewertet. Unter dieser Übersicht über die Mails findet der Teilnehmer in 

der Mitte des Bildschirms den Inhalt der jeweils angewählten Mail (in der 

Abbildung: E-Mail 12, oben blau hinterlegt). Dieser Inhalt kann Text, Tabellen 

oder Diagramme beinhalten. Wenn der Teilnehmer die E-Mails durchgeht, stellt 

85


er fest, dass manche davon nur Informationen enthalten, andere eine Aufgabe 

beinhalten und wieder andere keine wichtigen Informationen vermitteln. In der 

oben abgebildeten E-Mail soll die Aufgabe gelöst werden, dass aus sechs 

verfügbaren Restaurants eines ausgewählt werden soll, an dem das Team am 

letzten Messetag sein Abschlussessen zu sich nimmt. Dazu muss der 

Teilnehmer Hinweise beachten, welche Restaurants welche Menus anbieten, 

um die Vorgaben einzuhalten. Unten im Bildschirm sind in blauen und weißen 

Balken die Lösungsmöglichkeiten auszuwählen, in diesem Fall die sechs 

Restaurants. In anderen E-Mails ist etwa die Reaktion auf die jeweilige Mail 

anzugeben, z.B. an wen man den Vorgang delegieren will. Des Weiteren soll 

der Teilnehmer in anderen Mails beispielsweise errechnete Geldbeträge über 

die Tastatur eingeben oder aus mehreren Aussagen zu einem Thema die 

zutreffenden markieren. Hierbei ist zu beachten, dass bei der Konzeption der 

einzelnen E-Mails in der KI.BOX auch Items aus verschiedenen Intelligenz- und 

Bürotests implementiert wurden. 

Bei der Bearbeitung einiger Aufgaben in den Mails ist es nötig, dass der 

Teilnehmer Informationen aus vier zur Verfügung stehenden Excel-Tabellen 

selektiert. In Abbildung 6 wird eine der Tabellen dargestellt. 

Abbildung 6: Excel-Funktion der KI.BOX. Angezeigt wird Tabelle 4, oben blau unterlegt. 

86


Die vier Tabellen dienen lediglich zur Information, aktiv bearbeitet werden 

müssen sie nicht. Zum schnelleren Finden der gesuchten Information hat der 

Teilnehmer aber die Möglichkeit, wie im gängigen Microsoft Excel die Spalten 

jeweils an- oder absteigend zu ordnen und sogar Spalten zu verschieben, um 

bestimmte Daten besser vergleichen zu können. Diese Tipps zum Umgang mit 

den Tabellen finden sich auch in den Erläuterungen, die über die Startseite 

abzurufen sind. Der Einsatz von Tabellen im Stil von Microsoft Excel wird 

aufgrund ihrer universellen Verständlichkeit auch von anderen Testautoren im 

Rahmen von computergestützten Postkörben empfohlen (Pearson et al., 2006) 

Aus manchen Mails ergeben sich darüber hinaus mögliche Termine für die zwei 

Messetage, die der Teilnehmer festzulegen hat. Möchte er einen Termin 

wahrnehmen, wechselt er über die linke Navigationsleiste in den Kalender, der 

in Abbildung 7 abgebildet ist: 

Abbildung 7: Kalender der KI.BOX. Zu bearbeiten sind die zwei Messtage, jeweils von 9 bis 20 

Uhr. Die Dauer der Termine wird automatisch als Größe der weißen Kästen festgesetzt. 

Über den Button „Neuer Eintrag“ oben im Bildschirm kann der Teilnehmer aus 

allen möglichen Terminen denjenigen auswählen, welchen er anlegen möchte. 

Zu beachten ist, dass auch hier Wichtiges von Unwichtigem selektiert werden 

87


muss. Die weißen Terminblöcke können dann im Kalender an die beliebige 

Stelle geschoben oder auch wieder gelöscht werden. Auch mehrere Termine 

gleichzeitig sind möglich, wie in der Abbildung am ersten Messetag um 10 und 

16 Uhr zu erkennen ist. Auch der Kalender folgt dabei dem Leitmotiv einer 

möglichst einfachen Handhabung und orientiert sich an windows-basierten, 

gängigen Designs. 

Der vierte Aufgabenbereich ist die Prioritätenliste, die in Abbildung 8 gezeigt 

wird. 

Abbildung 8: Prioritätenliste der KI.BOX 

Hierbei soll der Teilnehmer aus 24 Tätigkeiten die fünf anklicken, die er am 

heutigen Tage unbedingt noch erledigen muss. Die Tätigkeiten sowie die 

Information, welche davon am wichtigsten sind, ergeben sich aus den E-Mails. 

Über die ganze Bearbeitungszeit hinweg hat der Teilnehmer daher die 

Möglichkeit, Veränderungen an seinen Prioritäten vorzunehmen. Nur die fünf, 

die am Ende der Bearbeitungszeit ausgewählt sind, gehen in die Punktwertung 

mit ein. 

88


3.4 Erfasste Kriterien 

Die standardmäßig von der KI.BOX erfassten Kriterien sind Analytische 

Fähigkeiten und Organisatorisch-konzeptionelle Fähigkeiten. 

Das Kriterium Analytische Fähigkeiten wird in der KI.BOX als eine kognitive 

Kompetenz operationalisiert. Sie umfasst ein analytisches Vorgehen, das 

Erkennen von komplexen Zusammenhängen sowie die Ableitung richtiger 

Schlussfolgerungen. Der Teilnehmer wird dahingehend bewertet, wie korrekt 

und zügig er intellektuell anspruchsvolle Aufgabenstellungen sowie 

Mathematische Probleme löst. In dieses Kriterium gehen also 

Intelligenzkonzepte wie deduktives und induktives Denken ein sowie die 

Fähigkeit, sich schnell in neue Problemfelder einzuarbeiten, diese in ihrer 

Komplexität zu durchdringen und daraufhin Ideen zu entwickeln. 

Das Kriterium Organisatorisch-konzeptionelle Fähigkeiten wird nicht als primär 

kognitive Kompetenz operationalisiert, sondern im Vordergrund steht hier die 

Art der Herangehensweise an komplexe Situationen. Daher wird das 

Antwortverhalten des Teilnehmers dahingehend bewertet, ob es ihm gelingt, 

vernetzte und sinnvolle Lösungen zu entwickeln. Unter anderem werden hier 

eine logische Priorisierung von Aufgaben und eine umsetzbare Zeitplanung 

berücksichtigt. Es soll also die Fähigkeit zu einem ganzheitlichen 

systematischen Denken und die Strukturierung in der Bearbeitung komplexer 

Problemstellungen sowie ein geplantes Vorgehen erfasst werden. 

Je nach Kundenbedarf kann auch das Kriterium Entscheidungs- und 

Delegationskompetenz hinzugefügt werden. Dazu werden die von der KI.BOX 

zusätzlich erfassten Prozessvariablen der Lösungswege ausgewertet. Dieses 

zusätzliche Kriterium soll in dieser Arbeit jedoch nicht weiter untersucht werden. 

3.5 Auswertung 

Die Auswertung erfolgt bei der KI.BOX ausschließlich automatisch über ein 

beiliegendes Reporting-Tool. Dieses ist für den Anwender übersichtlich 

gestaltet und sehr leicht zu bedienen. Die Übersicht über die Ergebnisse erfolgt 

dabei in drei unterschiedlich stark differenzierten Darstellungsweisen. 

89


Das erste Fenster der Ergebnisausgabe wird in Abbildung 9 dargestellt. Dieser 

Ergebnisbericht bietet weiterhin die Möglichkeit eines individuellen Brandings, 

d.h. dass Labels und Logos des Kunden einzufügen sind, um besonders die 

erste Seite kundenspezifisch ausdrucken und als Gutachten(-vorlage) 

verwenden zu können. Um die Anonymität der Testperson zu gewährleisten, 

wurde der Name jeweils geschwärzt. 

Abbildung 9: automatisch generierter Ergebnisbericht des KI.BOX Reporters 

Statt schwer zu interpretierender fertiger Textgutachten wie bei PC-Office 

(siehe Kapitel 2.4.3.2) gibt dieser Bericht zunächst tabellarisch den Namen, das 

Alter und das Geschlecht der Testperson an, anschließend wird im Absatz zum 

Hintergrund kurz der Anlass der Testung (beispielsweise „Im Kontext des 

Auswahltages am 23.05.2008“) sowie die in der KI.BOX gestellte Aufgabe des 

Teilnehmers zusammengefasst. Darunter wird eine Operationalisierung der 

erfassten Kriterien gegeben, um die Transparenz bei jeder Auswertung zu 

gewährleisten. Unten im Bild erfolgt dann die Darstellung der Ergebnisse, und 

zwar in einer Form, die den Beurteilungslisten der Unternehmensberatung „kibit 

GmbH“ entspricht und somit direkt ins gesamte AC-Ergebnis integriert werden 

kann. Das bedeutet, dass sowohl für Analytische Fähigkeiten als auch 

Organisatorisch-Konzeptionelle Fähigkeiten eine Ausprägung angegeben wird, 

die einer sechsstufigen Skala entspricht. Ein dreifaches Minus ergibt den 

90


quantitativen Ausprägungsgrad von null, ein dreifaches Plus entspräche dem 

höchstmöglichen Wert von fünf. Diese Darstellungsweise wurde auch 

deswegen gewählt, weil sie für den ungeschulten Beurteiler anschaulicher 

erscheint als ein bloßer Zahlenwert. 

Wie sich die beiden Werte zusammensetzen zeigt das das zweite Fenster der 

Ergebnisdarstellung, die Auswertung. Diese wird in Abbildung 10 gezeigt. 

Abbildung 10: Auswertungstabelle des KI.BOX Reporters 

Für die beiden Kriterien werden die Plus- und Minuspunkte errechnet, die sich 

jeweils aus den richtig oder falsch beantworteten Aufgaben der E-Mails, der 

Kalendereinträge und der Prioritätenliste ergeben. Zusätzlich gibt es Angaben 

über Anzahl der beantworteten Items sowie über die maximal zu erreichenden 

Punkte. Dabei ist zu beachten, dass die Zahl der beantworteten Items wie in der 

Abbildung höher sein kann als die maximale Punktzahl, was daran liegt, dass 

es für manche Items auch halbe Punkte gibt (siehe unten). Weiter rechts lassen 

sich die entsprechenden Kennwerte ablesen, d.h. die Differenz aus Plus- und 

Minuspunkten, die Differenz aus Minus- und Pluspunkten, der Quotient aus 

Plus- und Minuspunkten und der Quotient aus Minus- und Pluspunkten. Da sich 

diese Kennwerte weitgehend entsprechen, wurde in der vorliegenden Arbeit 

lediglich der Kennwert Differenz aus Plus- und Minuspunkten zur Validierung 

verwendet. Aus diesen Kennwerten wird automatisch die Ausprägung der 

beiden Kriterien errechnet, wie sie auf der ersten Seite des Ergebnisberichtes 

angezeigt werden. Die Festlegung der Ausprägungsbereiche, d.h. welcher Wert 

welche Kriteriumsausprägung darstellt, beruht einerseits auf 

Voruntersuchungen an über 70 Hochschulabsolventen im Rahmen von Trainee- 

Auswahlverfahren einer deutschen Versicherungsgesellschaft, zum anderen auf 

einem vorher festgesetzten Vertrauensbereich (siehe Kapitel 2.1.3). Damit greift 

die Zuordnung der Verhaltensleistung zu den Testwerten sowohl Merkmale der 

klassischen Testtheorie sowie der kriteriumsorientierten Leistungsmessung auf 

91


(siehe Kapitel 2.1). 

Im dritten Fenster der Ergebnisausgabe sind schließlich die Rohwerte zu 

sehen. Das heißt, dass jede Antwortmöglichkeit einer E-Mail, jeder mögliche 

Kalendereintrag und jede mögliche Priorität in einer Zeile aufgelistet werden, 

und angegeben wird, ob die Bearbeitung des einzelnen Items einen Pluspunkt 

(Item wurde richtigerweise bearbeitet und korrekt gelöst) oder einen Minuspunkt 

(Item wurde fälschlicherweise bearbeitet oder richtigerweise bearbeitet und 

nicht korrekt gelöst) einbringt. Abbildung 11 macht diese Darstellung deutlich. 

Abbildung 11: Darstellung der Rohwerte im KI.BOX-Reporter 

Durch diese Darstellungsweise ergibt sich eine offen gelegte Musterlösung, wie 

sie in den zuvor dargestellten Postkörben häufig fehlt. Zu jedem Item wird 

zudem angegeben, ob es in die Berechnung zum Kennwert für die Analytischen 

Fähigkeiten oder für die Organisatorisch-konzeptionellen Fähigkeiten eingeht. 

Die Transparenz des Auswertungs-Reporters der KI.BOX kann daher als sehr 

hoch eingestuft werden. 

Nachdem die KI.BOX als Gegenstand dieser Arbeit nun ausführlich dargestellt 

wurde, sollen im folgenden Kapitel die Fragestellung und Hypothesen der 

vorliegenden Untersuchung verdeutlicht werden. 

92

Fragestellung und Hypothesen 

4 Fragestellung und Hypothesen 

Das Ziel der vorliegenden Arbeit ist es, Aussagen über die diagnostische Güte 

des computergestützten Postkorbes KI.BOX treffen zu können. Deshalb wurden 

aufbauend auf dem theoretischen Hintergrund Hypothesen deduktiv aus der 

Theorie abgeleitet und anhand des empirisch erhobenen Datensatzes überprüft 

(Hussy & Jain, 2002). Die Hypothesen wurden a priori formuliert und theoretisch 

und/oder empirisch begründet, so dass keine α-Fehler-Korrektur erforderlich ist 

(Bortz & Döring, 2002). 

Im Folgenden werden die Hypothesen zur Validitätsprüfung der KI.BOX (4.1), 

zu potenziellen Unterschieden in der Postkorb-Leistung durch 

Computerkenntnisse (4.2), zur Wirkung von Reihenfolgeeffekten beim Einsatz 

der KI.BOX innerhalb einer Sequenz von Tests und/oder Übungen (4.3) und zu 

den Auswirkungen der demographischen Daten auf die Ergebnisse der KI.BOX 

(4.4) präsentiert. Es wurde a priori ein Signifikanzniveau von α=5% als 

Falsifikationskriterium zur Widerlegung der Forschungshypothesen festgelegt 

(Bortz & Döring, 2002). Aussagen, die eine Überschreitungswahrscheinlichkeit 

(p) kleiner oder gleich 5% angeben, gelten als signifikant, Angaben kleiner oder 

gleich 1% als hoch signifikant. 

4.1 Hypothesen zur Validitätsprüfung 

Die Validierung eines neu entwickelten Verfahrens erfolgt generell anhand der 

Gütekriterien der jeweils entsprechenden testtheoretischen Grundlagen. Da es 

sich bei der KI.BOX um eine Postkorb-Übung und somit eine Mischform aus 

kognitivem Fähigkeitstest und situativer Arbeitsprobe handelt (Höft, 2003), 

müssen hier sowohl Aspekte der klassischen Testtheorie (siehe Kapitel 2.1.1), 

besonders aber der kriteriumsorientierten Leistungsmessung (siehe Kapitel 

2.1.3) berücksichtigt werden. Neben den demographischen Daten sind also 

besonders Aspekte der Objektivität, Reliabilität und Validität sowie bestimmte 

Nebengütekriterien zu überprüfen (siehe Kapitel 2.1). 

Zur Objektivität der KI.BOX kann entsprechend den Annahmen anderer 

computergestützter Postkörbe, besonders des im Aufbau ähnlichen PC- 

93


Postkorbs „Seeblick“ (siehe Kapitel 2.4.3.3) von maximaler Durchführungs- und 

Auswertungsobjektivität ausgegangen werden, da der Ablauf vollkommen durch 

das Programm gesteuert wird, unabhängig von anderen Teilnehmern und 

Beobachtern erfolgt und entgegen einer zu hohen Dynamik bei der Mailbox’90 

(siehe Kapitel 2.4.3.1) bei der KI.BOX durch die neu eintreffenden E-Mails nicht 

von einer Störung der Durchführungsobjektivität ausgegangen werden muss 

(siehe Kapitel 7.1.1). Die Interpretationsobjektivität gilt nach Lienert (1969) als 

vollkommen gegeben, wenn die Testauswertung einen numerischen Wert 

liefert, der die Position eines Probanden innerhalb einer Testskala angibt. Auch 

dies geschieht automatisch durch das beiliegende Reporting-Tool, so dass die 

Objektivität der KI.BOX in allen Punkten als maximal gegeben angesehen 

werden kann und in dieser Arbeit keiner weiteren Überprüfung mehr bedarf. 

Die Überprüfung der Reliabilität gestaltet sich bei einem situativen Postkorb mit 

untereinander vernetzten Items sehr schwierig (siehe Kapitel 2.1.3). Nach 

Schuler (1996) gelten die Split-Half-Methode sowie die Konsistenzanalyse 

(siehe Kapitel 2.1.1.2) bei solchen Verfahren als ungeeignet, und bei Retestund 

Paralleltest-Methoden sind zu starke Übungseffekte zu erwarten. Generell 

ist nach Klauer (1987) noch unklar, was man genau unter der Reliabilität eines 

kriteriumsorientierten Tests zu verstehen hat. Für den Postkorb kann aber bei 

einer möglichst hohen Objektivität davon ausgegangen werden, dass auch die 

Reliabilität hoch ist (siehe Kapitel 2.3.5.3). Aus diesem Grund soll die 

Bestimmung der Reliabilität der KI.BOX in der vorliegenden Arbeit keine weitere 

Berücksichtigung finden, da andere Aspekte, besonders die der Validität, für 

eine erste Validierungsstudie zu diesem Verfahren wichtiger erscheinen. 

Hauptanliegen der vorliegenden Arbeit ist daher die Bestimmung der Validität 

der KI.BOX (siehe Kapitel 2.1.3). Nach Klauer (1987) und Fricke (1974) 

bestimmt sich ein kriteriumsorientierter Test hauptsächlich über seine 

Inhaltsvalidität, neueren Ansichten von Schuler (1996) und Obermann (2006) 

zufolge steht jedoch besonders die Kriteriumsvalidität im Vordergrund. Der 

Konstruktvalidität kommt in diesem Zusammenhang nur eine untergeordnete 

Bedeutung zu (Obermann, 2006), weswegen sie in dieser Arbeit nicht weiter 

untersucht werden soll. 

Die Inhaltsvalidität von Postkörben wird oft mit der hohen Augenscheinvalidität 

94


des Verfahrens begründet (siehe Kapitel 2.1.1.3). Dass diese bei besonders 

realistisch gestalten Verfahren gegeben ist, die beispielsweise windows-basiert 

und an gängige E-Mail-Clients angelehnt sind und durch ein bestimmtes Maß 

an Dynamik sehr realistisch wirken, wurde bereits dargestellt (siehe Kapitel 

2.2.5.6, 2.3.5.4, 2.4.1.1, 2.4.3.3). Zudem basiert die Konzeption der KI.BOX 

jeweils auf einer unternehmensspezifischen Anforderungsanalyse, an welche 

das Verfahren angepasst werden kann. Da für die Inhaltsvalidität kein 

numerischer Kennwert berechnet wird, kann diese für die KI.BOX aufgrund der 

oben stehenden Ausführungen als ausreichend vorhanden angenommen 

werden. 

Im Vordergrund dieser Untersuchung soll demnach die Bestimmung der 

Kriteriumsvalidität stehen (siehe Kapitel 2.1.1.3). Sie wird ermittelt durch einen 

Vergleich von Testscore und Kriterien-Score, d.h. es werden 

Korrelationskoeffizienten für den Zusammenhang von den empirisch 

gemessenen KI.BOX-Ergebnissen und den Messungen der für sinnvoll 

gehaltenen Kriterien bestimmt und ihre Signifikanz geprüft (Fisseni, 1990). Bei 

der vorliegenden Untersuchung handelt es sich um eine Querschnittstudie unter 

Laborbedingungen, so dass die Bestimmung der Vorhersagevalidität als Aspekt 

der Kriteriumsvalidität nicht möglich ist, da aufgrund der Neuheit der KI.BOX 

zum gegenwärtigen Zeitpunkt noch keine Leistungsindikatoren des weiteren 

Berufserfolgs erfasst werden können. Wie in Validierungsstudien generell 

üblich, wird daher die Übereinstimmungsvalidität als Teilbereich der 

Kriteriumsvalidität überprüft, wobei vom Testscore auf das Verhalten außerhalb 

der Testsituation geschlossen werden soll (Lienert, 1969). Zu diesem Zweck 

wurden in der vorliegenden Untersuchung sowohl innere wie äußere Kriterien 

realisiert. Als äußere Kriterien wurden die Abiturnote sowie die letzten 

Schulnoten in Deutsch und Mathematik herangezogen (siehe Kapitel 5.2.4). Die 

Abiturdurchschnittsnote gilt unter anderem laut Studien von Schmidt-Atzert 

(2006) als guter Prädiktor für zukünftigen Berufserfolg, weshalb hier ein 

positiver Zusammenhang zu den KI.BOX-Ergebnissen angenommen wird 

(Hypothese A.1). Gleiches soll für die letzte Schulnote in Deutsch gelten 

(Hypothese A.2), die besonders hinsichtlich des Studienerfolges in Geistes- und 

Humanwissenschaften hohe prognostische Güte aufweist (Baron-Boldt, 

95


Schuler, Funke, 1988). Der letzten Schulnote in Mathematik werden 

prognostische Qualitäten besonders für analytische Fähigkeiten bescheinigt. Da 

außerdem im Kriterium Analytische Fähigkeiten der KI.BOX auch rechnerische 

Probleme zu lösen sind, soll die Hypothese einen hohen Zusammenhang von 

der Mathematiknote und diesem Kriterium postulieren (Hypothese A.3). Als 

weiteres äußeres Kriterium werden Selbsteinschätzungen (siehe Kapitel 5.2.5) 

über die beiden Dimensionen der KI.BOX erfasst. Da den Studenten eine 

gewisse Fähigkeit zur Selbstreflexion zugesprochen wird, wird erwartet, dass 

die Ergebnisse mit den KI.BOX-Leistungen korrelieren (Hypothesen A.4 und 

A.5). Als innere Kriterien wurden der Gesamttestwert (Hypothese A.6) sowie im 

speziellen das Grundmodul (Hypothese A.7) und das Postmodul (Hypothese 

A.8) der AZUBI-BK (siehe Kapitel 5.2.1) eingesetzt, welche ähnliche 

Dimensionen wie die KI.BOX messen. Aufgrund dieser Kriteriennähe werden 

hier hohe Zusammenhänge zu den KI.BOX-Leistungen postuliert, ebenso 

bezüglich der Bearbeitungsgeschwindigkeit in beiden Tests (Hypothese A.9). 

Zudem wurde die Subskala zur Gewissenhaftigkeit aus dem BIP (siehe Kapitel 

5.2.2) verwendet. Da es in der KI.BOX von großer Bedeutung ist, über sechzig 

Minuten hinweg konzentriert und detailgenau zu arbeiten, wird hier ebenfalls ein 

positiver Zusammenhang zu den beiden Kriterien angenommen (Hypothesen 

A.10 und A.11). Somit werden folgende Hypothesen formuliert: 

• Hypothese A1: Es besteht ein statistisch signifikanter positiver 

Zusammenhang zwischen den Ergebnissen der KI.BOX und der 

Abiturnote der Probanden. 


Zusammenhang zwischen den Ergebnissen der KI.BOX und der letzten 

Schulnote in Deutsch. 


Zusammenhang zwischen den Ergebnissen der KI.BOX zu den 

analytischen Fähigkeiten und der letzten Schulnote in Mathematik. 



analytischen Fähigkeiten und der Selbsteinschätzung der Probanden 

hinsichtlich ihrer analytischen Fähigkeiten. 

96




organisatorisch-konzeptionellen Fähigkeiten und der Selbsteinschätzung 

der Probanden hinsichtlich ihrer organisatorisch-konzeptionellen 

Fähigkeiten. 


Zusammenhang zwischen den Ergebnissen der KI.BOX und dem 

Gesamttestwert der AZUBI-BK. 



analytischen Fähigkeiten und den Ergebnissen des Grundmoduls der 

AZUBI-BK. 



organisatorisch-konzeptionellen Fähigkeiten und den Ergebnissen des 

Postmoduls der AZUBI-BK. 


Zusammenhang zwischen der Anzahl der bearbeiteten Items der KI.BOX 

und der Bearbeitungsgeschwindigkeit der AZUBI-BK. 



Analytischen Fähigkeiten und dem Wert der Subskala zur 

Gewissenhaftigkeit aus dem BIP. 



Organisatorisch-konzeptionellen Fähigkeiten und dem Wert der Subskala 

zur Gewissenhaftigkeit aus dem BIP. 

Die in Kapitel 2.1.1.4 dargestellten Nebengütekriterien Normierung, 

Vergleichbarkeit, Ökonomie und Nützlichkeit (Lienert, 1969) werden in der 

vorliegenden Arbeit nicht empirisch untersucht. Auf sie wird explorativ in Kapitel 

7 eingegangen. 

97


4.2 Hypothesen zum Zusammenhang von Computererfahrung und 

Leistung in der KI.BOX 

Wie in Kapitel 2.4.2 herausgestellt wurde, kann die Performance eines 

Teilnehmers bei computergestützten AC-Übungen durch das Ausmaß seiner 

Kenntnisse im Umgang mit Computern sowie der Softwareergonomie des 

Verfahrens beeinflusst werden. Sofern die Fertigkeiten im Umgang mit 

Computern kein im Anforderungsprofil festgelegtes Messkriterium des 

Verfahrens sind, müssen derartige Verzerrungen unbedingt minimiert werden, 

um gültige Leistungsaussagen aus den Ergebnissen ableiten zu können. 

Die KI.BOX wurde so konzipiert, dass computererfahrene Teilnehmer keinen 

Vorteil gegenüber Computer-Laien haben sollen. Bezüglich der 

Softwareergonomie wurde versucht, den Vorgaben von Kleinmann und Strauß 

(1995) nach einem der Allgemeinheit bekannten Design Folge zu leisten. 

Ähnlich wie der PC-Postkorb „Seeblick“ (siehe Kapitel 2.4.3.3) lässt sich die 

KI.BOX wie gängige E-Mail- und Organizer-Programme bedienen. Die 

Softwareergonomie der KI.BOX lässt sich demnach als hoch bewerten. 

Zum Interaktionsproblem (Kleinmann & Strauß, 1995), also zu 

Leistungsverzerrungen, die durch den Umgang mit dem Computer durch 

mangelnde Kenntnisse über Hard- und Software entstehen können, wurden 

während der Entwicklungsphase der KI.BOX immer wieder Usability-Tests an 

Mitarbeitern der „kibit GmbH“ durchgeführt. Obwohl daher davon ausgegangen 

werden kann, dass die Bedienung des Programms nach der zweiteiligen 

Instruktion (siehe Kapitel 3.2) auch computerunerfahrenen Teilnehmern klar 

verständlich wird, wird dieser Aspekt in der vorliegenden Arbeit zusätzlich 

überprüft. 

Zu diesem Zweck wurden zwei an der Universität zu Köln entwickelte 

Fragebögen eingesetzt, der SUCA (Fragebogen zur Sicherheit im Umgang mit 

Computern und Computeranwendungen) und der VECA (Fragebogen zur 

Vertrautheit mit verschiedenen Computeranwendungen), bei denen es sich um 

Selbsteinschätzungsfragebögen handelt (Richter, Naumann & Groeben, 2001; 

siehe Kapitel 5.2.3). Aus dem VECA werden zudem drei Items gesondert 

überprüft, von denen angenommen wird, dass sie für die Bearbeitung der 

KI.BOX besonders bedeutsam sind: „Vertrautheit im Umgang mit 

98


Textverarbeitung“, „Vertrautheit im Umgang mit E-Mail“ und „Vertrautheit im 

Umgang mit Terminplanungsprogrammen“. Die Ergebnisse der beiden 

Fragebögen sowie der drei Items aus dem VECA werden zur 

Hypothesenprüfung mit den KI.BOX-Ergebnissen korreliert. Aufgrund der 

sorgfältigen Konstruktion der KI.BOX, der ausführlichen Instruktion, nach der 

auch unerfahrenen Teilnehmern die Handhabung von Hard- und Software 

deutlich werden sollte, und der hohen Softwareergonomie der KI.BOX wird 

erwartet, dass die Kenntnisse im Umgang mit Computern und 

Computeranwendungen, erfasst durch SUCA (Hypothese B.1) und VECA 

(Hypothese B.2 und Hypothesen B.3, B.4 und B.5 zu den drei gesondert 

untersuchten Items des VECA), keinen signifikanten Zusammenhang mit den 

Ergebnissen in der KI.BOX aufweisen. Daher werden folgende Hypothesen 

überprüft: 

• Hypothese B1: Es besteht kein statistisch signifikanter positiver 


Ergebnis des SUCA. 



Ergebnis des VECA. 



Ergebnis des Items „Vertrautheit im Umgang mit Textverarbeitung“ des 

VECA. 



Ergebnis des Items „Vertrautheit im Umgang mit E-Mails“ des VECA. 



Ergebnis des Items „Vertrautheit im Umgang mit 

Terminplanungsprogrammen“ des VECA. 

99


4.3 Hypothese zur Wirkung von Reihenfolgeeffekten 

Wie in Kapitel 2.2.4 herausgestellt wurde, wird aus den wenigen zu diesem 

Thema publizierten Studien gefolgert, dass Reihenfolgeeffekte, die durch die 

Positionierung einer Übung im AC-Verlauf entstehen können, die Leistungen 

eines Teilnehmers nicht verzerren. Die vorliegende wissenschaftliche 

Befundlage wird jedoch insgesamt als zu gering betrachtet. Zudem raten 

sowohl Nienaber (1997) als auch Fruhner (2005), die jeweils Studien zu dieser 

Fragestellung betrieben haben, zu weiteren Untersuchungen. Aus diesem 

Grund soll dieser Aspekt in der vorliegenden Arbeit berücksichtigt werden, um 

Positionierungseffekte bei der KI.BOX identifizieren zu können. 

Dazu wurde eine experimentelle Variation der Versuchsbedingung „Reihenfolge 

der Verfahren“ realisiert, um herauszufinden, ob sich die Ergebnisse 

unterscheiden, wenn die Teilnehmer in der ersten Gruppe zuerst die KI.BOX 

und dann die AZUBI-BK oder in der zweiten Gruppe zuerst die AZUBI-BK und 

dann die KI.BOX bearbeiten (siehe Kapitel 5.3). Gruppe 1 bestand aus n=36 

Teilnehmern, Gruppe 2 aus n=33 Probanden. Die Teilnehmer wurden den 

Gruppen zufällig zugeteilt. Die potenziellen Gruppenunterschiede hinsichtlich 

der Leistung in der KI.BOX werden mittels T-Test für unabhängige Stichproben 

untersucht. Aufgrund der in Kapitel 2.2.4 dargestellten theoretischen 

Annahmen, die dafür sprechen, dass keine Reihenfolgeeffekte durch die 

Positionierung der Einzelverfahren entstehen, wird erwartet, dass die 

Reihenfolge der Bearbeitung keinen Einfluss auf die Ergebnisse in der KI.BOX 

hat. 

• Hypothese C1: Es besteht kein statistisch signifikanter Unterschied 

zwischen den Testwerten der KI.BOX in der Versuchsbedingung 1 

(Bearbeitung von KI.BOX, dann AZUBI-BK) und der Versuchsbedingung 

2 (Bearbeitung von AZUBI-BK, dann KI.BOX). 

1 0 0


4.4 Hypothesen zum Zusammenhang der demographischen Daten 

und Leistung in der KI.BOX 

Zusätzlich zu den bisher aufgeführten Aspekten soll überprüft werden, ob die 

demographischen Daten eines Teilnehmers Einfluss auf die Ergebnisse der 

KI.BOX haben. In den bisherigen Forschungen, gerade zu klassischen 

Postkörben, liegen diesbezüglich unterschiedliche Ergebnisse vor (siehe Kapitel 

2.3.5.1). So fanden Thornton und Byham (1982) eine negative Korrelation von 

Postkorbergebnissen und Alter, Untersuchungen zu den Bonner Postkorb 

Modulen ergaben jedoch keinen Zusammenhang, weder zum Alter noch zum 

Geschlecht (Höft, 2003). Nach Meyer (1970) korreliert das Postkorbergebnis 

zudem hoch mit der Bildung der Teilnehmer, mit der Berufserfahrung jedoch 

nicht. 

Aus diesem Grund wird in der vorliegenden Untersuchung die Auswirkung des 

Geschlechts, des Alters, des Studienfachs, der Semesteranzahl, der 

Deutschkenntnisse und der bisherigen Berufserfahrung der Teilnehmer erfasst. 

Basierend auf den neueren Studien von Höft (2003) wird angenommen, dass 

bzgl. des Geschlechtes (Hypothese D.1) und Alters (Hypothese D.2) kein 

Zusammenhang zu den Postkorbergebnissen besteht. Da Postkörbe in vielen 

Assessment Centern zu verschiedensten Berufsgruppen eingesetzt werden, 

sollten sich Studenten verschiedener Studienfächer auch nicht signifikant in 

ihren Ergebnissen unterscheiden (Hypothese D.3). Die Bildung wird in der 

vorliegenden Untersuchung operationalisiert durch die in den Hypothesen A1 

bis A3 schon erfassten äußeren Kriterien Abiturnote und letzte Schulnoten in 

Deutsch und Mathematik. Zusätzlich wird bei den demographischen Daten noch 

die Semesteranzahl hinzugenommen, unter der Annahme, dass mit 

fortlaufender Semesterzahl mehr Bildung erreicht wird, was somit das Postkorb- 

Ergebnis beeinflussen kann. Entsprechend der Studie von Meyer (1970) wird 

also ein Zusammenhang der KI.BOX-Leistungen mit der Semesterzahl 

postuliert (Hypothese D.4). Bezüglich der Deutschkenntnisse wird kein 

Zusammenhang angenommen, da die Items des Postkorbes klar und für jeden 

durchschnittlich gut Deutsch sprechenden Teilnehmer leicht verständlich 

formuliert wurden (Hypothese D.5). Die bisherige Berufserfahrung sollte, wie 

1 0 1


von Meyer (1970) festgestellt, ebenfalls keinen Einfluss auf Postkorb-Leistung 

ausüben (Hypothese D.6). Als Hypothesen werden also formuliert: 

• Hypothese D1: Es besteht kein statistisch signifikanter Unterschied 

zwischen Männern und Frauen in den Ergebnissen der KI.BOX. 

• Hypothese D2: Es besteht kein statistisch signifikanter positiver 

Zusammenhang zwischen den Ergebnissen der KI.BOX und dem Alter 

der Teilnehmer. 


zwischen Teilnehmern verschiedener Studienfächer in den Ergebnissen 

der KI.BOX. 

• Hypothese D4: Es besteht ein statistisch signifikanter positiver 


Semesteranzahl der Teilnehmer. 


zwischen Teilnehmern mit unterschiedlich guten Deutschkenntnissen in 

den Ergebnissen der KI.BOX. 


zwischen Teilnehmern mit verschieden viel Berufserfahrung in den 

Ergebnissen der KI.BOX. 

Anders als bei der Berufserfahrung wurden positive Zusammenhänge zwischen 

der Performance und Erfahrung mit Postkörben gefunden (siehe Kapitel 5.2.5). 

Zur Vorerfahrung mit Assessment Centern gibt es gegensätzliche Befunde. Die 

meisten Studien deuten aber darauf hin, dass Lerneffekte nur bei weiteren 

Interventionen wie einem ausführlichen Feedback durch die Beobachter und 

einem anschließenden Verhaltenstraining zu einer Steigerung der Leistungen 

führen (Obermann, 1994). Die Auswirkungen dieser Erfahrungen auf die 

Ergebnisse der KI.BOX sollen in dieser Untersuchung überprüft werden. Es 

wird also erwartet, dass es einen Zusammenhang zwischen Erfahrungen mit 

Postkörben und den Ergebnissen der KI.BOX gibt, so wie es durch Studien von 

Marggraf-Micheel, Höft und Bonnist (2004) belegt wird (Hypothesen D.7 und 

D.8). Bezüglich Erfahrungen mit Assessment Centern wird kein 

Zusammenhang angenommen (Hypothesen D.9 und D.10). 

1 0 2




theoretischen Wissen der Teilnehmer über Postkorb-Übungen. 



praktischen Erfahrung der Teilnehmer mit Postkorb-Übungen. 



theoretischen Wissen der Teilnehmer über Assessment Center. 



praktischen Erfahrung der Teilnehmer mit Assessment Centern. 

1 0 3

Methodik 

5 Methodik 

Nachdem in den vorangegangenen Kapiteln eine theoretische Einordnung der 

Thematik sowie eine Beschreibung des Verfahrens KI.BOX und Darstellung der 

Fragestellung und Hypothesen der vorliegenden Arbeit erfolgt ist, soll 

nachfolgend das methodische Vorgehen der aktuellen Studie beschrieben 

werden. Zunächst wird die zu untersuchende Stichprobe (5.1) dargestellt. 

Hiernach folgt eine Übersicht über die in der Untersuchung verwendeten 

Verfahren und Prüfkriterien (5.2). Abschließend wird die 

Untersuchungsdurchführung (5.3) erläutert. 

5.1 Stichprobe 

Für die Stichprobengröße gibt Bortz (1993) einen Stichprobenumfang von n=68 

an, um mittlere Effekte (Korrelationen von über r=.30 bei α=.05 und β=.20) 

nachzuweisen. Um schwächere Effekte auszuweisen benötige man deutlich 

größere Stichproben (für r=.10 gilt n>=618), was aber die Grenzen der 

vorliegenden Untersuchung weit überschritten hätte. Aus diesem Grund wurde 

eine Stichprobengröße von n=69 realisiert und auf den Nachweis von 

schwächeren Effekten aus ökonomischen Gründen verzichtet. 

Um dennoch gültige Aussagen zur Validität des Verfahrens zu erhalten, sollte 

eine Stichprobe herangezogen werden, die das später zu testende Kollektiv 

möglichst gut widerspiegelt (Lienert, 1969). Da das KI.BOX-Verfahren 

vornehmlich zur Auswahl von Hochschulabsolventen eingesetzt werden soll, die 

sich auf Trainee-Stellen oder Führungspositionen auf unterer Führungsebene 

bewerben, wurde eine rein studentische Stichprobe gewählt, die sich aus 

unterschiedlichen Fachrichtungen, Semestern und bereits gesammelter 

Berufserfahrung zusammensetzte. 

Da es oft eine hohe Varianz bzgl. des Alters von Hochschulabsolventen gibt, 

wurde auch in der vorliegenden Untersuchung auf eine solche geachtet. 

Ebenso sollten Frauen und Männer in die Untersuchung mit einbezogen 

werden, um mögliche Geschlechtseffekte ausmachen zu können. Für eine 

detaillierte Aufstellung der demographischen Daten der Teilnehmer siehe 

Kapitel 6.1 und Anhang C.1. 

1 0 4

Methodik 

Die Teilnehmer der Studie wurden an der Universität zu Köln über Aushänge 

vor Ort sowie über Rundschreiben über diverse Verteiler der geistes- und 

wirtschaftwissenschaftlichen Fakultäten geworben. Für die Teilnahme an der 

Untersuchung wurden die Versuchspersonen mit Versuchspersonenstunden 

und Süßigkeiten entlohnt. Damit handelte es sich um eine angefallene 

Stichprobe (Hussy & Jain, 2002). Zudem wurde den Versuchspersonen ein 

ausführliches individuelles Feedback über ihre Leistungen in den einzelnen 

Tests in Aussicht gestellt. Damit sollten zumindest annähernd ähnliche 

Motivationsbedingungen hergestellt werden, wie sie in der realen 

Anwendungssituation der KI.BOX, nämlich im Rahmen eines Assessment 

Centers, ebenfalls gegeben sind. Laut Lerner und Tetlock (1999) erzeugt die 

Erwartung, dass das eigene Verhalten hinsichtlich eines Maßstabes beurteilt 

wird, eine so genannte „Accountability“, womit der soziale Druck gemeint ist, 

sein Verhalten verantworten zu müssen. Die unerwünschte Konsequenz 

daraus, in diesem Fall eine negative Bewertung über die eigenen Leistungen zu 

bekommen, gilt es durch Anpassung des eigenen Verhaltens, nämlich 

möglichst hohe Testergebnisse zu erzielen, zu vermeiden. Es wird also von 

einer hohen Motivation der Teilnehmer ausgegangen. 

5.2 Übersicht über die verwendeten Verfahren und Prüfkriterien 

Da es Hauptabsicht dieser Studie ist, einen potenziellen Zusammenhang 

zwischen den Messdimensionen der KI.BOX und entsprechenden bereits 

bewährten Maßen der kognitiven Leistungsfähigkeit nachzuweisen, wurden zu 

diesem Zweck verschiedene in der Eignungsdiagnostik übliche Verfahren sowie 

weitere geeignete Prüfkriterien herangezogen. 

Als inneres Validierungskriterium wurde die „Arbeitsprobe zur berufsbezogenen 

Intelligenz für büro- und kaufmännische Tätigkeiten“ oder kurz AZUBI-BK 

(5.2.1) verwendet, ebenso die Subskala zur Gewissenhaftigkeit aus dem 

Bochumer Inventar zur berufsbezogenen Persönlichkeitsbeschreibung (BIP) 

(5.2.2). Als externes Validierungskriterium wurde die Vertrautheit im Umgang 

mit Computern und Computeranwendungen (5.2.3) erhoben, ebenso wie die 

Abiturnote und die letzte Schulnote in Deutsch und Mathematik (5.2.4). Darüber 

1 0 5

Methodik 

hinaus wurden Selbsteinschätzungen über kognitive Leistungen, 

Vorerfahrungen mit Assessment Centern sowie Postkörben (5.2.5) und 

demographische Daten (5.2.6) erfragt. 

Auf diese Verfahren und Prüfkriterien wird im Folgenden näher eingegangen. 

Für eine detaillierte Beschreibung des computergestützten Postkorbes KI.BOX 

siehe Kapitel 3. 

5.2.1 AZUBI-BK 

Bei der AZUBI-BK, entwickelt von Schuler & Klingner (2005), handelt es sich 

um eine Arbeitsprobe zur berufsbezogenen Intelligenz für büro- und 

kaufmännische Tätigkeiten. Dieses Testkonzept vereint in sich sowohl 

Intelligenzkomponenten als auch Arbeitsproben (Konstruktansatz und 

Simulationsansatz, siehe Kapitel 2.3.3). Wie auch bei der KI.BOX wurden hier 

die Aufgaben vor dem theoretischen Hintergrund des Berliner 

Intelligenzstrukturmodells (siehe Jäger et al., 1997; Sarges & Wottawa, 2001) 

und nach Anforderungsanalysen für Büro- und kaufmännische Berufe 

konstruiert. Ziele der Testentwicklung waren neben den psychometrischen 

Kriterien zudem eine hohe Praktikabilität und Akzeptanz bei den Probanden. 

Die AZUBI-BK setzt sich aus zwei Modulen zusammen, dem Grundmodul und 

dem Postmodul, die verschiedene Schwerpunkte haben und einander 

ergänzen. Das Grundmodul umfasst acht Teilarbeitsproben, die separat das 

sprachliche Denken (Protokoll überarbeiten, Informationsschreiben korrigieren), 

rechnerisches Denken (Logistikfragen bearbeiten, Bilanzwerte vergleichen, 

Verkaufszahlen prognostizieren) und das Gedächtnis (Kurzzeit, Langzeit, 

unintentional) prüfen. Das Postmodul setzt sich aus vier Teilarbeitsproben zum 

Posteingang und Postausgang zusammen (Fax vervollständigen, E-Mails 

sortieren, Adressen prüfen und Porto berechnen) und misst vor allem das 

logische Herangehen an komplexe Aufgaben, die Bearbeitungsgeschwindigkeit 

und -genauigkeit sowie Konzentration und Gewissenhaftigkeit. Die Auswertung 

erfolgt mit Hilfe eines EDV-Programms, um die Objektivität zu sichern und 

Auswertungsfehler zu vermeiden. 

Die AZUBI-BK eignet sich nicht nur wegen der analog zur KI.BOX 

1 0 6

Methodik 

alltagsrelevanten Aufgaben und der damit immanenten hohen 

Augenscheinvalidität gut zur Verwendung in der vorliegenden Studie, auch die 

Anforderungen an wissenschaftliche Gütekriterien werden erfüllt. Die interne 

Konsistenz (Cronbachs Alpha) liegt laut den Autoren (Schuler & Klingner, 2005) 

bei α=.96, die Retestreliabilität bei rtt=.91. Auch die Validität ist den Autoren 

zufolge sehr hoch, da die AZUBI-BK mit dem Berliner Intelligenzstruktur-Test, 

Form 4 (BIS-4) zu .87 und mit dem Intelligenz-Struktur-Test (IST-70) zu .78 

korreliert. Zudem konnten hohe Zusammenhänge mit Leistungen in der 

Berufsschule (Korrelation zum IHK-Zwischenzeugnis =.68) und mit Berufserfolg 

(Korrelation zur Leistungsbeurteilung durch Vorgesetzte =.56) eruiert werden. In 

der Regressionsgleichung von AZUBI-BK und IST-70 kann die AZUBI-BK die 

Leistungsbeurteilung durch den Vorgesetzten vollständig vorhersagen, das 

Beta-Gewicht des IST-70 ist null. Somit kann die AZUBI-BK nicht nur als 

vollwertiger Intelligenztest angesehen werden, sondern weist darüber hinaus 

noch inkrementelle Validität bezüglich des Erfolgs in Büro- und kaufmännischen 

Berufen auf. Hinzu kommt, dass bereits eine umfangreiche Normierung von 

n=1966 stattgefunden hat. Aufgrund all dessen kann die AZUBI-BK als 

geeignetes inneres Validierungskriterium für die KI.BOX angesehen werden. 

5.2.2 BIP 

Verschiedenen Metaanalysen von Schmidt und Hunter (1998) zur Validität 

eignungsdiagnostischer Verfahren zufolge kann die Leistungsbeurteilung der 

Arbeit eines Probanden zu .31 durch Gewissenhaftigkeit aufgeklärt werden. Aus 

diesem Grund wurde die Subskala zur Gewissenhaftigkeit aus dem Bochumer 

Inventar zur berufsbezogenen Persönlichkeitsbeschreibung (Hossiep & 

Paschen, 1998) in die vorliegende Untersuchung mit aufgenommen. Das BIP ist 

speziell für Anwendungen im Personalmanagement entwickelt worden und ist 

ein Fragebogen mit Aussagen zur Selbsteinschätzung im beruflichen Kontext 

(Item-Beispiel: „Ich verwalte meine Unterlagen so, dass ich alles auf Anhieb 

wieder finde.“) Zur Beantwortung der Items steht eine sechsstufige 

Antwortskala zur Verfügung, die von „trifft voll zu“ bis „trifft überhaupt nicht zu“ 

reicht (siehe Anhang B.2). Die Subskala zur Gewissenhaftigkeit ist eine von 

1 0 7

Methodik 

insgesamt 14 Dimensionen der persönlichen Eignungsvoraussetzung und 

besteht aus 14 Items, die mittels einer Schablone ausgewertet werden. 

Untersuchungen zur Validität des BIP haben gezeigt, dass es substanzielle 

Zusammenhänge der BIP-Skalen mit Merkmalen des beruflichen Erfolges und 

beruflicher Zufriedenheit gibt. (Hossiep & Paschen, 1998) Zusammenhänge 

zwischen BIP-Skalen und Einkommen, Hierarchiestufe oder beruflicher 

Zufriedenheit bewegen sich demnach auf einem Niveau von r=.41 bis .49. Mit 

der 2. Auflage des BIP können auch Validitätskennwerte zur Übereinstimmung 

mit grundlegenden persönlichkeitsorientierten Fragebogenverfahren, etwa dem 

NEO-Fünf-Faktoren-Inventar (NEO-FFI) von Borkenau und Ostendorf oder dem 

16-Persönlichkeits-Faktoren-Test in der revidierte Fassung (16 PF-R) von 

Schneewind und Graf vorgelegt werden. Die Kennwerte liegen für verwandte 

Konstrukte zwischen r = .54 und .84 (Hossiep, Paschen & Mühlhaus, 2003). 

Aus Kostengründen wird in der vorliegenden Studie jedoch weiterhin die erste 

Auflage verwendet, da sich diese nicht immens von der zweiten Auflage 

unterscheidet und als den Gütekriterien ausreichend entsprechend angesehen 

wird. 

5.2.3 SUCA / VECA 

Bei diesen beiden Fragebögen (vgl. Anhang B.3 und B.4) handelt es sich um 

zwei Teile eines Inventars zur Computerbildung, das von Dozenten und 

Studierenden der Geistes- und Sozialwissenschaften an der Universität zu Köln 

konzipiert wurde, und deren einzelne Fragebögen auch getrennt voneinander 

eingesetzt werden können (Richter, Naumann & Groeben, 2001). 

Mit dem SUCA wird zunächst ein Fragebogen zur Sicherheit im Umgang mit 

Computern und Computeranwendungen eingesetzt. Dessen 

Selbsteinschätzungsskala enthält elf Aussagen, die als Kompetenzerwartungen 

im Umgang mit Computern formuliert sind (Beispiel: „Die Verwendung 

unbekannter Software-Programme kann ich schnell erlernen.“) und auf einer 

fünfstufigen Skala hinsichtlich ihres Zutreffens eingeschätzt werden (-2=„trifft 

nicht zu“ bis +2=„trifft zu“). Die Autoren schätzen den Fragebogen als 

ausreichend reliabel und valide zur Erfassung der Sicherheit im Umgang mit 

1 0 8

Methodik 

Computern und Computeranwendungen ein (Naumann, Richter & Groeben, 

2002). 

Auch der VECA, ein Fragebogen zur Vertrautheit mit verschiedenen 

Computeranwendungen, erfüllt alle Anforderungen an die Gütekriterien. In ihm 

sind zwölf Arten von Computeranwendungen aufgelistet (Beispiel: 

„Textverarbeitung“, „E-Mail“ oder „Terminplanungsprogramme“), bei denen 

beurteilt werden soll, wie vertraut man damit im Vergleich zu anderen 

Studentinnen und Studenten ist. Auch hier wird eine fünfstufige Skala zur 

Beurteilung herangezogen (-2=“weit unterdurchschnittlich“ bis +2=“weit 

überdurchschnittlich“). 

Da sowohl SUCA als auch VECA die Anforderungen an Validität und Reliabilität 

erfüllen, können sie als Verfahren zur Bestimmung der Sicherheit und 

Vertrautheit mit Computern und Computeranwendungen in dieser 

Untersuchung verwendet werden. 

5.2.4 Abiturnote und letzte Schulnoten in Deutsch und Mathematik 

Schulische Leistungen, gemessen mittels Schulnoten, gelten gemeinhin als 

gute Prädiktoren hinsichtlich des Studien -und Berufserfolgs. Eine Metaanalyse 

von Baron-Boldt, Schuler und Funke (1988) basierend auf Studien, welche im 

deutschsprachigen Raum durchgeführt wurden, berichtet von einem r=.46 

bezüglich der Vorhersagekraft von Abiturnoten für den Studienerfolg über alle 

Studienfächer hinweg. Der Zusammenhang von Abiturnote und Studienerfolg in 

den Wirtschaftswissenschaften wurde sogar mit r=.56 ausgewiesen. Für den 

Zusammenhang von einzelne Schulabschlussnoten in Fächern wie Mathematik 

oder Deutsch und dem Ausbildungserfolg konnte die Metaanalyse immer noch 

Korrelationen von bis zu r=.34 nachweisen. Den Abschlussnoten in Mathematik 

werden prognostische Qualitäten besonders für den Erfolg in analytischen 

Tätigkeiten bescheinigt. 

Auch Schmidt-Atzert (2006) bescheinigt in einer aktuellen Studie der Abiturnote 

eine hohe prognostische Validität. An der Universität Marburg untersuchte er 

den Zusammenhang von Abiturnote und Studienerfolg, operationalisiert durch 

die Vordiplomnoten von 106 Studierenden im Diplomstudiengang Psychologie 

1 0 9

Methodik 

im Wintersemester 2002/03. Es wurde gezeigt, dass die Vordiplomnote mit 

r=.37 durch die Abiturnote vorhersagbar war. 

Die Ergebnisse dieser beiden Studien sollen genügen, um die Abiturnote sowie 

die letzte Schulnote in Deutsch und in Mathematik als äußere 

Validierungskriterien in die vorliegende Untersuchung mit aufzunehmen. Erfragt 

werden sie im Rahmen eines demographischen Fragebogens (siehe Kap. 

5.2.6.). Die Abiturnote und die letzte Schulnote in Deutsch sollen mit beiden 

Kriterien der KI.BOX korreliert werden, da die Abiturnote auch ein allgemeines, 

unterschiedliche Bereiche erfassenden Leistungsindiz ist und die Fähigkeit, die 

deutsche Sprache zu beherrschen, für jede textgebundene Testart in allen 

Bereichen von Bedeutung ist. Die letzte Schulnote in Mathematik soll mit dem 

KI.BOX-Kriterium Analytische Fähigkeiten korreliert werden, da das Lösen 

mathematischer Problemstellungen in dieses Kriterium mit eingeht 

5.2.5 Selbsteinschätzung und Vorerfahrung 

Des Weiteren findet ein Fragebogen Verwendung, der die Selbsteinschätzung 

der Probanden bezüglich der in der KI.BOX erfassten Dimensionen und die 

Vorerfahrung mit Assessment Centern und speziell Postkörben erfragt. In 

Ermangelung eines validierten Instruments zur Erfassung dieser Kriterien und 

aus ökonomischen Gründen wurden intuitiv, aber unter Berücksichtigung 

entsprechender Fachliteratur sieben Items konstruiert, die jeweils anhand einer 

sechsstufigen Skala beurteilt werden sollten (vgl. Anhang B.5). 

Nach Bandura (1997) sind Selbstwirksamkeitserwartungen einer Person keine 

stabile Persönlichkeitsdisposition, sondern beinhalten eine Gruppe 

differenzierter Selbsteinschätzungen, die sich hinsichtlich verschiedener 

Funktionsbereiche unterscheiden. Die Erfassung einer globalen 

Selbstwirksamkeit hätte daher nur einen geringen Validierungswert für die 

vorliegende Studie. Stattdessen empfiehlt es sich, die Selbsteinschätzung einer 

Person aufgabenspezifisch zu erfassen (Bandura, 2006). Im verwendeten 

Fragebogen sollen die Probanden daher ihre analytischen Fähigkeiten sowie 

ihre organisatorisch-konzeptionellen Fähigkeiten im Vergleich zu anderen 

Studierenden anhand einer sechsstufigen Skala bewerten. Die Skala reicht 

1 1 0

Methodik 

dabei von „unterdurchschnittlich“ bis „überdurchschnittlich“. 

Die Frage, ob Vorerfahrung mit Assessment Centern einen Einfluss auf die 

Leistungen im AC und deren Übungen hat, wird in der aktuellen Forschung 

nicht ausreichend geklärt. Obermann (1994) fand heraus, dass die reine 

Wiederholung von AC-Simulationen ohne weitere Interventionen wie einem 

ausführlichen Feedback durch die Beobachter zu keiner Steigerung der 

Leistungen führt. Kelbetz und Schuler (2002) wiederum folgerten aus ihren 

Studien, dass Assessment Center sehr wohl übungsanfällig sind, da sie für den 

Übungsgewinn mittlere Effektstärken von d=.41 aufzeigen konnten. Marggraf- 

Micheel, Höft und Bonnist (2004) bestätigten diese Ergebnisse mit einer 

gefundenen Effektstärke von d=.45. Weiterhin belegten sie, dass insbesondere 

bei Postkorb-Übungen durch vage Tipps keine Lerneffekte erreicht werden, bei 

einem Training mit Verhaltenshinweisen jedoch mittlere bis hohe Effekte von 

d=.42 bis sogar .99. Aus diesem Grund soll sowohl die theoretische als auch 

praktische Vorerfahrung mit Postkörben und Assessment Center im 

Allgemeinen durch Selbstauskünfte in der vorliegenden Untersuchung ermittelt 

werden. Ebenso wird nach genereller Erfahrung mit kaufmännischen 

Tätigkeiten oder Büroarbeit gefragt. Die Items sind jeweils als Aussagen 

formuliert und die sechsstufige Beurteilungsskala reicht in diesem Fall von „trifft 

gar nicht zu“ bis „trifft vollkommen zu“. 

5.2.6 Demographischer Fragebogen 

Zur Erfassung der demographischen und weiterer möglichen 

untersuchungsrelevanter Kontrollvariablen wird ein eigens konzipierter 

Fragebogen (vgl. Anhang B.6) eingesetzt. Darin werden Alter, Geschlecht, 

Studienfach, Semesteranzahl, Deutschkenntnisse und bisherige 

Berufserfahrung der Probanden erfasst. Darüber hinaus werden Abitur- 

Durchschnitt und die letzte Schulnote in Deutsch und Mathematik erfragt (vgl. 

Kap.5.2.4.). Außerdem kann angekreuzt werden, ob ein schriftliches Feedback 

über die erzielten Ergebnisse in der KI.BOX und der AZUBI-BK gewünscht ist. 

(siehe Kapitel 5.1) 

1 1 1

Methodik 

5.3 Durchführung der Untersuchung 

Die Untersuchung wurde im Zeitraum vom 10. Dezember 2007 bis 25. Januar 

2008 mit Studenten verschiedener Studiengänge (siehe Kapitel 5.1) an der 

Universität zu Köln durchgeführt, wobei zwischen dem 21. Dezember 2007 und 

07. Januar 2008 aufgrund der Feiertage keine Testungen möglich waren. Um 

mögliche Störvariablen zu kontrollieren, fanden alle Untersuchungen im selben 

Laborraum statt, der EDV-Postkorb KI.BOX wurde jeweils an drei baugleichen 

Laptops bearbeitet und alle Testungen wurden vom selben Versuchsleiter 

durchgeführt. Da der zur Verfügung gestellte Untersuchungsraum nur drei 

Arbeitsplätze hatte und auch nur ebenso viele Laptops desselben Typs 

bereitgestellt werden konnten, war die Anzahl der Probanden pro Testung auf 

höchstens drei beschränkt. Erschwerend hinzu kamen einige Ausfälle und 

Verschiebungen seitens der Versuchspersonen kurz vor den Weihnachtsferien, 

so dass im Januar noch Zusatztermine vereinbart werden mussten, um die 

nötige Probandenzahl nicht zu unterschreiten. Im Folgenden werden Struktur 

und Ablauf der Durchführung genauer beschrieben. 

Zu Beginn wurde den Versuchspersonen ein kurzer Überblick über die nun 

folgende Untersuchung gegeben, um Transparenz und Akzeptanz zu schaffen. 

Allerdings wurden keine Details, beispielsweise über die einzelnen Teile des 

Fragebogens zum Ende der Untersuchung, preisgegeben. Außerdem wurde 

erneut darauf hingewiesen, dass sie auf Wunsch ein individuelles, aber 

schriftliches Feedback über ihre Testleistungen im Anschluss an die 

Datenerhebung erhalten könnten (siehe Kapitel 5.1). 

Der Untersuchungsplan sah eine experimentelle Variation der unabhängigen 

Variablen „Reihenfolge der Verfahren“ vor (siehe Kapitel 2.2.4, 4.3). Aus 

diesem Grund wurden die Probanden randomisiert zwei Gruppen zugeteilt 

(Hussy & Jain, 2002). Gruppe A bearbeitete zuerst die KI.BOX an je einem 

Laptop pro Versuchsperson, was inklusive Instruktion und Einarbeitungszeit 

etwa 80 Minuten dauerte. Nach einer Pause von 20 Minuten, in der die Technik 

vom Versuchsleiter abgebaut wurde, bearbeiteten die Versuchspersonen das 

Grundmodul der AZUBI-BK als Paper-Pencil-Verfahren, was etwa 60 Minuten in 

Anspruch nahm. Nach einer weiteren etwa zehnminütigen Pause wurde mit 

dem Postmodul der AZUBI-BK fortgefahren, was weitere 30 Minuten dauerte. 

1 1 2

Methodik 

Es folgte eine letzte zehnminütige Pause, nach der die Versuchspersonen die 

Subskala zur Gewissenhaftigkeit aus dem BIP, den SUCA und VECA, den 

Fragebogen zu Selbsteinschätzungen und Vorerfahrungen sowie den 

demographischen Fragebogen, der auch die Frage nach den Abitur- und 

Schulnoten beinhaltete, ausfüllen sollten. Diese einzelnen Fragebögen wurden 

den Probanden der Ökonomie halber in zusammengehefteter Form in der oben 

beschriebenen Reihenfolge als ein einziger Fragebogen mit verschiedenen 

Unterteilen vorgelegt. Dessen Bearbeitung lag zwischen 10 und 20 Minuten, so 

dass die gesamte Untersuchung ca. vier Stunden dauerte. Bei Gruppe B wurde 

die Reihenfolge von KI.BOX und AZUBI-BK vertauscht, d.h. die Probanden 

starteten mit dem Grundmodul der AZUBI-BK, machten eine zwanzigminütige 

Pause, bearbeiteten das Postmodul und dann nach einer weiteren Pause die 

KI.BOX auf dem Laptop. Auch bei Gruppe B wurden die übrigen Fragebögen 

erst zum Ende der Untersuchung ausgeteilt, um Hypothesenbildung und andere 

Verzerrungseffekte zu vermeiden. Die Dauer der Untersuchung war bei beiden 

Gruppen identisch. Die Abfolge der Untersuchungseinheiten wird zusätzlich in 

Abbildung 12 veranschaulicht: 

Abbildung 12: Ablauf der Untersuchung. 

1 1 3

Methodik 

Gruppe A umfasste 36 Probanden (27 Frauen, 9 Männer), das 

Durchschnittsalter lag bei 25 Jahren. Gruppe B bestand aus 33 

Versuchspersonen (25 Frauen, 8 Männer) mit einem Durchschnittsalter von 26 

Jahren. Die Zuordnung der Probanden zu den Bedingungen der unabhängigen 

Variablen erfolgte per Zufall. 

5.4 Zusammenfassung 

Die vorliegende Validierungsstudie der KI.BOX wird an einer Stichprobe von 69 

Studenten der Geistes- und Wirtschaftswissenschaften der Universität zu Köln 

durchgeführt. 

Zur inneren Validierung wird die AZUBI-BK verwendet, ebenso wie die 

Subskala zur Gewissenhaftigkeit aus dem BIP. Als äußere Kriterien werden die 

Abiturnote und die letzte Schulnote in Deutsch und Mathematik erhoben, zudem 

Selbsteinschätzungen über eigene kognitive Leistungen. Außerdem werden 

zwei Fragebögen verwendet, die Vertrautheit mit Computern und 

Computeranwendungen (SUCA und VECA) erfassen. Die Vorerfahrung mit 

Assessment Centern und Postkörbe sowie demographische Daten der 

Teilnehmer werden ebenfalls untersucht. 

Die Untersuchung wird von Dezember 2007 und Januar 2008 durchgeführt mit 

höchstens drei Probanden pro Testung. Zu Beginn wird den Versuchspersonen 

eine kurze Einführung mit Hinweis auf das zu erwartende Feedback gegeben, 

anschließend wird entsprechend der experimentellen Variation zur Identifikation 

möglicher Reihenfolgeeffekte je nach Gruppenzuweisung zuerst die KI.BOX 

oder AZUBI-BK bearbeitet, danach das jeweils andere Verfahren. In beiden 

Gruppen wird zuletzt der Fragebogen, bestehend aus BIP-Subskala, SUCA und 

VECA, den Selbsteinschätzungen und den personenbezogenen Daten 

ausgefüllt. 

1 1 4

Ergebnisse 

6 Ergebnisse 

In diesem Kapitel werden die Ergebnisse der Untersuchung dargestellt. 

Nachdem die Daten in das EDV-Programm SPSS eingegeben und einer 

Prüfung auf mögliche Fehlerquellen unterzogen worden waren, fungierte die 

Datenmatrix als Grundlage für die statistischen Berechnungen. Zum Auftakt 

werden die deskriptiven Ergebnisse der Stichprobe vorgestellt (6.1), bevor im 

Folgenden die Ergebnisse der Hypothesenprüfung dargestellt werden (6.2 bis 

6.5). Die berechneten Daten werden aus Gründen der Übersichtlichkeit bis auf 

zwei Nachkommastellen gekürzt (Bortz & Döring, 2002). Im Anhang C.1 bis C.4 

sind zudem die wichtigsten Ergebnisse in Tabellenform hinterlegt, so dass 

sowohl die Nachvollziehbarkeit der statistischen Rechnungen als auch eine 

Replikation gewährleistet sind. 

6.1 Deskriptive Statistik 

Wie in Kapitel 5.1 bereits beschrieben, nahmen n=69 Studenten der Universität 

zu Köln an der Untersuchung teil. Das Durchschnittsalter der 

Versuchspersonen betrug 25,7 Jahre, der insgesamt erfasste Altersbereich lag 

zwischen 18 und 49 Jahren. Der Anteil der Frauen betrug 75,4% (n=52), der 

Anteil der männlichen Probanden 24,6% (n=17). 

Die Stichprobe bestand ausschließlich aus Studierenden der Universität zu Köln 

und setzte sich aus 90% (n=62) Psychologiestudenten zusammen, drei 

Studenten der Betriebswirtschaftslehre, zwei Soziologiestudenten, einem 

Studenten der Wirtschaftspsychologie und einem Studierenden der 

Landschaftsarchitektur. In dieser Stichprobe befanden sich 46% (n=32) im 

ersten Semester, 30% (n=21) im dritten Semester, 10% (n=7) im fünften 

Semester und weitere neun Studenten im sechsten bis vierzehnten Semester. 

67% (n=46) gaben an, bisher über keine Berufserfahrung zu verfügen, d.h. 

bisher weder eine Ausbildung noch ein Studium abgeschlossen zu haben. 

Weitere 16% (n=11) hatten vor ihrem aktuellen Studium bereits eine Ausbildung 

abgeschlossen, 13% (n=9) bereits ein anderes Studium. Auf einer 

sechsstufigen Selbsteinschätzungsskala bezüglich der eigenen Erfahrung mit 

1 1 5

Ergebnisse 

kaufmännischen Tätigkeiten oder Büroarbeit (siehe Kapitel 5.2.5) gaben 56% 

(n=39) an, bisher gar keine oder wenig Erfahrung in diesem Bereich gesammelt 

zu haben, 19% (n=13) verfügten der eigenen Einschätzung nach über mittlere 

Erfahrungswerte und 25% (n=17) gaben an, über viel bis sehr viel Erfahrung in 

diesem Tätigkeitsbereich zu verfügen. Für eine detaillierte tabellarische 

Aufstellung der demographischen Daten der Versuchspersonen siehe Anhang 

C.1. 

In Tabelle 4 werden die Stichprobenergebnisse in der KI.BOX dargestellt. Für 

die beiden erfassten Kriterien Analytische Fähigkeiten und Organisatorischkonzeptionelle 

Fähigkeiten werden jeweils die Mengenleistung und die Güte 

angegeben. Die Mengenleistung wird definiert durch die Anzahl der 

bearbeiteten Items zum jeweiligen Kriterium, unabhängig von der richtigen oder 

falschen Lösung dieses Items. Die Mengenleistung dient als Indiz für die 

Bearbeitungsgeschwindigkeit der Teilnehmer. Die Güte definiert sich über den 

erreichten Kennwert für das jeweilige Kriterium, welcher sich aus der Differenz 

von richtig und falsch gelösten Items zusammensetzt und somit auch im 

negativen Zahlenbereich liegen kann, wenn mehr Items falsch als richtig gelöst 

wurden (siehe Kapitel 3.5). 

Tabelle 4: Ergebnisse der KI.BOX 

N Minimum Maximum Mittelwert Standardabweichung 

Analyt. Fähigkeiten 

Mengenleistung 


Güte 

Orga.-konzept. Fähigkeiten 

Mengenleistung 


Güte 

69 0 17 8,71 3,6866 

69 -3 9 2,71 2,4441 

69 15 42 25,29 7,2398 

69 -31 13 -1,67 8,1411 

Bei den Analytischen Fähigkeiten betrug die durchschnittliche Mengenleistung 

8,71 bearbeitete Items. Der langsamste Teilnehmer beantwortete keines dieser 

Items, der produktivste Teilnehmer 17 Items. Die durchschnittliche Güte zu 

diesem Kriterium lag bei 2,71 Punkten. Der Teilnehmer mit dem niedrigsten 

Ergebnis erreichte -3 Punkte, zwei Teilnehmer erzielten mit 9 von maximal 15 

möglichen Punkten die Bestleistung in dieser Stichprobe. 

1 1 6

Ergebnisse 

Die durchschnittliche Mengenleistung bei den Organisatorisch-konzeptionellen 

Fähigkeiten betrug 25,29 bearbeitete Items. Vier Teilnehmer bearbeiteten mit 

15 die wenigsten, zwei Teilnehmer mit 42 die meisten Items. Die Tatsache, 

dass hier im Durchschnitt deutlich mehr Items als bei den Analytischen 

Fähigkeiten bearbeitet wurden, liegt daran, dass die Analytischen Fähigkeiten 

hauptsächlich durch weniger, jedoch zeitlich umfangreichere Items innerhalb 

der E-Mails getestet werden, während die Organisatorisch-konzeptionellen 

Fähigkeiten zudem noch in mehreren, dafür aber zeitlich kürzeren Items im 

Kalender und der Prioritätenliste erfasst werden. Bei der Güte zum Kriterium 

Organisatorisch-konzeptionelle Fähigkeiten lag der Mittelwert bei -1,67 

Punkten, ein Teilnehmer erreichte mit -31 Punkten das niedrigste, ein 

Teilnehmer mit 13 Punkten das höchste Ergebnis in dieser Stichprobe. Für eine 

detaillierte tabellarische Aufstellung der deskriptiven Statistik zu den beiden 

Kriterien siehe Anhang C.2. 

Die Verteilung der Leistungskennwerte bzw. der erzielten Punkte in der KI.BOX 

kann für beide erfasste Kriterien als normalverteilt angenommen werden. 

Abbildung 14 zeigt die Verteilung für das Kriterium Analytische Fähigkeiten: 

16 

14 

12 

Häufigkeit 

10 

8 

6 

4 

2 

0 

-4 

-3 

-2 

-1 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

Analytische Fähigkeiten: Erzielte Punkte 

Abbildung 14: Verteilung der Häufigkeiten zu den erzielten Punkten bzgl. Analytischer 

Fähigkeiten 

1 1 7

Ergebnisse 

In Abbildung 14 wird die Verteilung für das Kriterium Organisatorischkonzeptionelle 

Fähigkeiten dargestellt: 

14 

12 

10 

Häufihkeiten 

8 

6 

4 

2 

0 

-33 -27 -21 -15 -9 -3 

-30 -24 -18 -12 -6 

0 

3 

6 

9 

15 21 

12 18 24 

Organisatorisch-konzeptionelle Fähigkeiten: Erzielte Punkte 

Abbildung 14: Verteilung der Häufigkeiten zu den erzielten Punkten bzgl. Organisatorischkonzeptioneller 

Fähigkeiten 

Die Ergebnisse dieser graphischen Überprüfung belegen in ausreichender 

Weise die gegebene Normalverteilung der Testkennwerte, so dass auf weitere 

statistische Überprüfungen verzichtet werden kann (Diehl & Kohr, 1999). 

Die nachfolgende Darstellung der Ergebnisse erfolgt in der Reihenfolge der in 

Kapitel 4 aufgestellten Hypothesen. 

6.2 Tests der Hypothesen zur Validitätsprüfung 

Die kriterienbezogene Validität wird nun durch den Bezug der empirisch 

erhobenen KI.BOX-Ergebnisse zu den zwei Messkriterien Analytische 

Fähigkeiten und Organisatorisch-konzeptionelle Fähigkeiten mit den 

beschriebenen äußeren und inneren Kriterienpunktwerten (siehe Kapitel 4.1, 

5.2) mithilfe der Pearson-Korrelation überprüft (Lienert, 1969). 

1 1 8

Ergebnisse 

Überprüfung der Hypothese A.1: Die Hypothese A.1 besagt, dass ein 

statistisch signifikanter positiver Zusammenhang zwischen den Ergebnissen der 

KI.BOX und der Abiturnote der Probanden bestehe. Die Abiturnote soll dabei 

gemäß dem theoretischen Hintergrund (siehe Kapitel 5.2.4) als äußeres 

Validierungskriterium gelten. Sie wurde im Rahmen des demographischen 

Fragebogens (siehe Kapitel 5.2.6) als Notendurchschnitt mit einer Kommastelle 

erfragt und für die statistische Untersuchung in das für das deutsche 

Schulsystem übliche 15 Punkte-System umgewandelt. Tabelle 5 zeigt das 

Ergebnis der statistischen Untersuchung: 

Tabelle 5: Korrelationen von Abiturnote und KI.BOX-Ergebnissen 

Abiturnote 

Analytische 

Fähigkeiten 

(KI.BOX) 

Organisatorischkonzeptionelle 

Fähigkeiten 

(KI.BOX) 

Korrelation nach Pearson -.08 -.04 

Signifikanz (2-seitig) .53 .76 

N 69 69 

Es zeigt sich, dass in der untersuchten Stichprobe die Abiturnoten der 

Teilnehmer entgegen der Annahme nicht mit den beiden Kriterien der KI.BOX 

korrelieren. Es werden sogar schwache negative Korrelationen für beide 

Kriterien von -.08 bzw. -.04 ermittelt. Auf mögliche Begründungen hierfür wird 

auf Kapitel 7 verwiesen. Aufgrund dieser Ergebnisse können jedoch für diese 

Stichprobe zunächst die theoretischen Annahmen nicht bestätigt werden, so 

dass die Hypothese A.1 abgelehnt werden muss. 

Überprüfung der Hypothese A.2: Die Hypothese A2 besagt, dass ein 


KI.BOX und der letzten Schulnote in Deutsch bestehe. Ebenso wie die 

Abiturnote gilt die letzte Schulnote in Deutsch als äußeres Validierungskriterium 

(siehe Kapitel 5.2.4). Sie wurde auch im Rahmen des demographischen 

Fragebogens erfasst und in das 15 Punkte-System umgewandelt. In Tabelle 6 

werden die Ergebnisse der statistischen Untersuchung veranschaulicht: 

1 1 9

Ergebnisse 

Tabelle 6: Korrelationen der letzten Schulnote in Deutsch und KI.BOX-Ergebnissen 

letzte 

Schulnote in 

Deutsch 

Analytische 

Fähigkeiten 

(KI.BOX) 


Fähigkeiten 

(KI.BOX) 

Korrelation nach Pearson -.05 -.05 


N 69 69 

Analog zu den Ergebnissen der Abiturnote zeigen sich auch hier nur schwache 

negative Zusammenhängen von jeweils -.05 zwischen der letzten Schulnote in 

Deutsch und den beiden Kriterien der KI.BOX der Teilnehmer in der 

untersuchten Stichprobe. Somit muss auch die Hypothese A.2 abgelehnt 

werden. Jedoch sei auch hierbei auf Kapitel 7 für mögliche Begründungen 

hingewiesen. 



KI.BOX zu den Analytischen Fähigkeiten und der letzten Schulnote in 

Mathematik bestehe. Auch hier gilt die letzte Schulnote in Mathematik als 

äußeres Validierungskriterium (siehe Kapitel 5.2.4). Sie wurde mit Hilfe des 

demographischen Fragebogens erfasst und in das 15 Punkte-System 

umgewandelt. Tabelle 7 stellt die Ergebnisse der statistischen Auswertung dar: 

Tabelle 7: Korrelationen der letzten Schulnote in Mathematik und KI.BOX-Ergebnissen im 

Kriterium Analytische Fähigkeiten 

Analytische 

Fähigkeiten 

(KI.BOX) 

letzte Korrelation nach Pearson .31** 

Schulnote in Signifikanz (2-seitig) .01 

Mathematik 

N 69 

** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. 

Die statistische Auswertung zeigt einen hochsignifikanten Zusammenhang 

(p

Ergebnisse 

Teilnehmer im Kriterium Analytische Fähigkeiten der KI.BOX in dieser 

Stichprobe. Die mathematischen Fähigkeiten, hier operationalisiert durch die 

letzte Schulnote in Mathematik, können also nach der Bestimmung des 

Determinationskoeffizienten r 2 zu etwa 10% das Ergebnis im Kriterium 

Analytische Fähigkeiten in der KI.BOX erklären. Damit wird die Annahme der 

Hypothese A.3 bestätigt, so dass diese angenommen wird. 



KI.BOX zu den Analytischen Fähigkeiten und der Selbsteinschätzung der 

Probanden hinsichtlich ihrer analytischen Fähigkeiten im Vergleich zu anderen 

Studierenden bestehe. Die Selbsteinschätzung der Teilnehmer hinsichtlich ihrer 

Analytischen Fähigkeiten wurde anhand einer sechsstufigen Beurteilungsskala 

erhoben, welche von „unterdurchschnittlich“ bis „überdurchschnittlich“ reichte 

(siehe Kapitel 5.2.5). Die Selbsteinschätzung für diese Dimension dient als 

zusätzliches äußeres Validierungskriterium. Tabelle 8 zeigt das Ergebnis der 

Datenauswertung: 

Tabelle 8: Korrelationen von Selbsteinschätzungen der eigenen analytischen Fähigkeiten und 

KI.BOX-Ergebnissen im Kriterium Analytische Fähigkeiten 

Analytische 

Fähigkeiten 

(KI.BOX) 

Selbsteinschätzung der Korrelation nach Pearson .29* 

eigenen analytischen Signifikanz (2-seitig) .02 

Fähigkeiten 

N 69 

* Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant. 

Es zeigt sich, dass zwischen der subjektiven Selbsteinschätzung der 

Teilnehmer über ihre eigenen analytischen Fähigkeiten und den KI.BOX- 

Ergebnissen im Kriterium Analytische Fähigkeiten ein signifikanter 

Zusammenhang von .29 besteht bei einem Signifikanzniveau von .05. Die 

Hypothese A.4 wird somit angenommen. 

1 2 1

Ergebnisse 

Überprüfung der Hypothese A.5: In Hypothese A.5 wurde postuliert, dass ein 


KI.BOX zu den Organisatorisch-konzeptionellen Fähigkeiten und der 

Selbsteinschätzung der Probanden hinsichtlich ihrer organisatorischkonzeptionellen 

Fähigkeiten bestehe. Auch hier wurde die Selbsteinschätzung 

durch eine sechsstufige Beurteilungsskala erhoben und sie dient ebenfalls als 

äußeres Validierungskriterium. In Tabelle 9 werden die Ergebnisse der 

statistischen Hypothesenprüfung dargelegt: 

Tabelle 9: Korrelationen von Selbsteinschätzungen der eigenen organisatorisch-konzeptionellen 

Fähigkeiten und KI.BOX-Ergebnissen im Kriterium Organisatorisch-konzeptionelle Fähigkeiten 

Selbsteinschätzung der 

eigenen orga.-konzept. 

Fähigkeiten 


Fähigkeiten 

(KI.BOX) 

Korrelation nach Pearson .14 

Signifikanz (2-seitig) .25 

N 69 

Entgegen der Annahmen konnte in der vorliegenden Untersuchung kein 

signifikanter Zusammenhang zwischen der Selbsteinschätzung der und den 

Ergebnissen zu den Organisatorisch-konzeptionellen Fähigkeiten gefunden 

werden. Die festgestellte Korrelation zeigt mit .14 zwar leichte Tendenzen in die 

angestrebte Richtung, kann aber einer Signifikanzprüfung nicht standhalten 

(siehe Kapitel 7.1). Die Hypothese A.5 muss also abgelehnt werden. 

Überprüfung der Hypothese A.6: Nachdem die Validierung anhand der 

beschriebenen äußeren Kriterien nur mittelmäßig erfolgreich war, werden nun 

die inneren Kriterien geprüft. In Hypothese A.6 wird angenommen, dass ein 


KI.BOX und dem Gesamttestwert der AZUBI-BK bestehe. Der Gesamttestwert 

wird, wie auch die anderen Kennwerte der AZUBI-BK, automatisch mit Hilfe 

eines Auswertungsprogramms generiert (siehe Kapitel 5.2.1). Tabelle 10 stellt 

die Ergebnisse der statistischen Untersuchung dar: 

1 2 2

Ergebnisse 

Tabelle 10: Korrelationen des Gesamttestwertes der AZUBI-BK und KI.BOX-Ergebnissen 

Analytische 

Fähigkeiten 

(KI.BOX) 


Fähigkeiten 

(KI.BOX) 

Korrelation nach Pearson .48** .52** 

AZUBI-BK 

Signifikanz (2-seitig) ,00 ,00 

Gesamttestwert 

N 69 69 


Die statistische Auswertung zeigt hochsignifikante Zusammenhänge von .48 

bzw. .52 zwischen dem Gesamttestwert der AZUBI-BK und sowohl den 

Analytischen Fähigkeiten als auch den Organisatorisch-konzeptionellen 

Fähigkeiten als Kriterien der KI.BOX. Da im Gesamttestwert der AZUBI-BK 

sowohl analytische als auch konzeptionelle Leistungsmerkmale verrechnet 

werden, ist dieses Ergebnis als besonders positiv zu bewerten. Die Hypothese 

A.6 wird demnach angenommen. 

Überprüfung der Hypothese A.7: In Hypothese A.7 wird die Behauptung 

aufgestellt, dass ein statistisch signifikanter positiver Zusammenhang zwischen 

den Ergebnissen der KI.BOX zu den Analytischen Fähigkeiten und den 

Ergebnissen des Grundmoduls der AZUBI-BK besteht. Da das Grundmodul der 

AZUBI-BK ähnliche Anforderungen erfassen soll wie die KI.BOX mit dieser 

Messdimension, gilt das Grundmodul als geeignetes inneres Kriterium. In 

Tabelle 11 wird das Ergebnis der Datenanalyse gezeigt: 

Tabelle 11: Korrelationen des Grundmoduls der AZUBI-BK und KI.BOX-Ergebnissen zum 

Kriterium Analytische Fähigkeiten 

Analytische 

Fähigkeiten 

(KI.BOX) 

Korrelation nach Pearson .44** 

AZUBI-BK 


Grundmodul 

N 69 


1 2 3

Ergebnisse 

Überprüfung der Hypothese A.8: Hypothese A.8 besagt, es bestehe ein 


KI.BOX zu den Organisatorisch-konzeptionellen Fähigkeiten und den 

Ergebnissen des Postmoduls der AZUBI-BK. Auch das Postmodul wurde als 

geeignetes inneres Validierungskriterium ausgewählt, da es ähnliche Aspekte 

erfasst wie die Messdimension Organisatorisch-konzeptionelle Fähigkeiten der 

KI.BOX. Das Ergebnis der statistischen Auswertung ist in Tabelle 12 

veranschaulicht: 

Tabelle 12: Korrelationen des Postmoduls der AZUBI-BK und KI.BOX-Ergebnissen zum 

Kriterium Organisatorisch-konzeptionelle Fähigkeiten 

Es wird deutlich, dass die Ergebnisse der Teilnehmer in dieser Stichprobe im 

Grundmodul der AZUBI-BK hochsignifikant zu .44 mit den Ergebnissen in der 

KI.BOX zu den Analytischen Fähigkeiten korrelieren. Der 

Determinationkoeffizient r 2 besagt demnach, dass 19% der Varianz im Ergebnis 

der KI.BOX durch die erfassten Leistungsaspekte des Grundmoduls der AZUBI- 

BK (siehe Kapitel 5.2.1) erklärt werden können. Daher wird die Hypothese A.7 

angenommen. 


Fähigkeiten 

(KI.BOX) 

Korrelation nach Pearson .53** 

AZUBI-BK 

Signifikanz (2-seitig) ,00 

Postmodul 

N 69 


Die Ergebnisse der Teilnehmer im Postmodul der AZUBI-BK korrelieren zu .53 

hochsignifikant mit den Organisatorisch-konzeptionellen Fähigkeiten, die durch 

die KI.BOX erfasst werden. Somit können 28% der Varianz dieses Kriteriums 

durch die erfassten Leistungsaspekte des Postmoduls der AZUBI-BK (siehe 

Kapitel 5.2.1) erklärt werden, weshalb auch die Hypothese A.8 angenommen 

wird. 

1 2 4

Ergebnisse 

Überprüfung der Hypothese A.9: In Hypothese A.9 wird postuliert, dass ein 

signifikanter positiver Zusammenhang zwischen der Anzahl der bearbeiteten 

Items der KI.BOX und der Bearbeitungsgeschwindigkeit der AZUBI-BK bestehe. 

Da das Auswertungsprogramm der AZUBI-BK keinen zusammengefassten 

Wert für die Bearbeitungsgeschwindigkeit liefert, sondern diese stattdessen in 

die Bearbeitungsgeschwindigkeit für sprachgebundene Aufgaben, für 

Mehrfachkategorien bilden, für Detailaufmerksamkeit und -verarbeitung und für 

die Geschwindigkeit im Umgang mit Tabellen unterteilt, wurden diese 

Unterpunkte summiert und daraus ein Mittelwert generiert, mit dem die 

statistische Auswertung erfolgte. Das Reporting-Tool der KI.BOX gibt zwei 

Werte für die Bearbeitungsgeschwindigkeit aus, nämlich die Anzahl der 

bearbeiteten Items zu den Analytischen Fähigkeiten und die Anzahl der 

bearbeiteten Items der Organisatorisch-konzeptionellen Fähigkeiten. Diese 

beiden Werte wurden ebenfalls summiert, um einen Wert über alle bearbeiteten 

Items in der KI.BOX zu erhalten. Dieser Wert und der Mittelwert aller 

angegebenen Bearbeitungsgeschwindigkeiten der AZUBI-BK wurden 

miteinander korreliert und das Ergebnis in Tabelle 12a dargestellt: 

Tabelle 13a: Korrelationen der durchschnittlichen Bearbeitungsgeschwindigkeit in der AZUBI- 

BK und der bearbeiteten Items in der KI.BOX 

Summe der bearbeiteten Items in 

der KI.BOX 

AZUBI-BK durchschnittliche 

Bearbeitungsgeschwindigkeit 

Korrelation nach Pearson .19 


N 69 

Es zeigt sich, dass kein signifikanter Zusammenhang zwischen der 

durchschnittlichen Bearbeitungsgeschwindigkeit in der AZUBI-BK und der 

Gesamtzahl der bearbeiteten Items in der KI.BOX besteht. Da dieses Ergebnis 

eher unerwartet war und zudem die gefundene Korrelation mit .19 eine 

Tendenz in die richtige Richtung aufwies, wurden im zweiten Schritt der 

Analyse statt durchschnittlichen und summierten Werten die einzelnen Werte 

der Bearbeitungsgeschwindigkeit miteinander korreliert. Tabelle 13b zeigt 

Auszüge über die wichtigsten Zusammenhänge. Die detaillierte Tabelle über 

alle dazu berechneten Korrelation finden sich in Anhang C.4. 

1 2 5

Ergebnisse 

Tabelle 13b: bedeutende Korrelationen der Bearbeitungsgeschwindigkeiten in der AZUBI-BK 

und der bearbeiteten Items in der KI.BOX für beide Kriterien 

Summe der bearbeiteten 

Items in der KI.BOX 

bearbeitete Items bei den 

Organisat.-konzept. 

Fähigkeiten in der KI.BOX 


im Pearson 

Korrelation nach 

.24* ,32** 

Umgang mit Signifikanz 

.05 ,01 

Tabellen in der (2-seitig) 

AZUBI-BK N 69 69 



Die einzigen signifikanten positiven Zusammenhänge, die in der sekundären 

statistischen Analyse gefunden wurden, bestanden zwischen der 

Bearbeitungsgeschwindigkeit im Umgang mit Tabellen in der AZUBI-BK und der 

Summe der bearbeiteten Items in der KI.BOX (.24 auf Signifikanzniveau .05) 

bzw. den bearbeiteten Items in der KI.BOX zu den Organisatorischkonzeptionellen 

Fähigkeiten (.32 auf Signifikanzniveau .01). Da der Umgang mit 

Tabellen im Postmodul der AZUBI-BK erfasst wird und die Ergebnisse in 

diesem wie oben beschrieben hochsignifikant mit den Organisatorischkonzeptionellen 

Fähigkeiten der KI.BOX korrelieren, lässt sich die hier 

gefundene Korrelation erklären. Alle anderen Korrelationen konnten der 

Signifikanzprüfung jedoch nicht standhalten und fielen teilweise sogar negativ 

aus, so dass die Annahme insgesamt nicht bestätigt werden konnte, dass 

Teilnehmer, die in der AZUBI-BK schnell bzw. langsam arbeiten, eine ähnliche 

Bearbeitungsgeschwindigkeit in der KI.BOX aufweisen, trotz ähnlicher 

Messdimensionen. Die Hypothese A.9 wird daher abgelehnt. 

Überprüfung der Hypothese A.10 und A.11: Die Subskala zur 

Gewissenhaftigkeit aus dem BIP (siehe Kapitel 5.2.2) wurde aufgrund der 

Tatsache, dass die Leistungsbeurteilung der Arbeit eines Probanden zu 31% 

durch Gewissenhaftigkeit erklärt werden kann (Schmidt & Hunter, 1998), als 

inneres Kriterium in diese Untersuchung aufgenommen. Besonders bei einem 

computergestützten Postkorb wie der KI.BOX, in der über 60 Minuten hinweg 

konzentriert und schnell gearbeitet werden und zudem auf Details geachtet 

1 2 6

Ergebnisse 

werden muss, liegt die Vermutung nahe, dass die Gewissenhaftigkeit eines 

Teilnehmers bei seiner erzielten Leistung eine Rolle spielt. In Hypothese A.10 

wird deshalb ein positiver Zusammenhang mit den Ergebnissen in der KI.BOX 

zu den Analytischen Fähigkeiten und in Hypothese A.11 zu den 

Organisatorisch-konzeptionellen Fähigkeiten postuliert. Tabelle 14 stellt die 

Ergebnisse der statistischen Untersuchung dar: 

Tabelle 14: Korrelationen der Subskala zur Gewissenhaftigkeit aus dem BIP und der 

Ergebnisse in der KI.BOX für beide Kriterien 

BIP 

Gewissenhaftigkeit 


Pearson 

Signifikanz 

(2-seitig) 

Analytische Fähigkeiten 

(KI.BOX) 

Organisatorisch-konzeptionelle 

Fähigkeiten (KI.BOX) 

.10 .29* 

.41 .014 

N 69 69 


Es zeigt sich, dass zwischen der Subskala zur Gewissenhaftigkeit aus dem BIP 

und den Ergebnissen in der KI.BOX zu den Analytischen Fähigkeiten kein 

signifikanter Zusammenhang besteht. Zur Lösung der diesbezüglichen 

Aufgaben scheint die Gewissenhaftigkeit, so wie im BIP erfasst, also keine 

(ausschlaggebende) Rolle zu spielen. Bezüglich der Organisatorischkonzeptionellen 

Fähigkeiten wurde jedoch ein signifikanter Zusammenhang von 

.29 bei einem Signifikanzniveau von .05 ermittelt. Somit können 8% der Varianz 

im Ergebnis zu diesem Kriterium der KI.BOX durch Gewissenhaftigkeit 

aufgeklärt werden. Aufgrund der gefundenen Ergebnisse wird daher die 

Hypothese A.10 abgelehnt, während die Hypothese A.11 angenommen werden 

kann. 

6.2.1 Zusammenfassung 

Im Zuge der Validitätsprüfung der KI.BOX wurden verschiedene äußere und 

innere Validitätskriterien mit den Ergebnissen der Teilnehmer in der KI.BOX 

korreliert. 

1 2 7

Ergebnisse 

Bei den äußeren Kriterien stellte sich heraus, dass es weder zwischen der 

Abiturnote noch zwischen der letzten Schulnote in Deutsch und den KI.BOX 

Ergebnissen ein signifikanter Zusammenhang bestand. Die letzte Schulnote in 

Mathematik korrelierte dagegen hoch mit dem Kriterium Analytische 

Fähigkeiten der KI.BOX. Bei den subjektiven Selbsteinschätzungen der 

Probanden zeigte sich ein signifikanter Zusammenhang bzgl. der eigenen 

analytischen Fähigkeiten und der entsprechenden KI.BOX-Dimension, bzgl. der 

Organisatorisch-konzeptionellen Fähigkeiten und der dazugehörigen 

Selbsteinschätzung konnte kein Zusammenhang aufgedeckt werden. 

Die Ergebnisse der inneren Validitätsprüfung fielen günstiger aus. So korrelierte 

der Gesamttestwert der AZUBI-BK signifikant hoch mit beiden Kriterien der 

KI.BOX. Ähnlich hohe Zusammenhänge bestanden zwischen dem Grundmodul 

der AZUBI-BK und den Analytischen Fähigkeiten der KI.BOX sowie dem 

Postmodul der AZUBI-BK und den Organisatorisch-konzeptionellen Fähigkeiten 

der KI.BOX. Bezüglich der Bearbeitungsgeschwindigkeit konnten kaum 

nennenswerte Zusammenhänge zwischen den Ergebnissen beider Tests 

gefunden wurden. Die Ergebnisse der Subskala zur Gewissenhaftigkeit aus 

dem BIP wiesen jedoch einen signifikanten Zusammenhang zu den 

Organisatorisch-konzeptionellen Fähigkeiten der KI.BOX auf, zu den 

Analytischen Fähigkeiten wurde kein bedeutsamer Zusammenhang gefunden. 

6.3 Tests der Hypothesen zum Zusammenhang von 

Computererfahrung und Leistung in der KI.BOX 

Im Folgenden wird überprüft, ob das Interaktionsproblem (Kleinmann & Strauß, 

1995), also Leistungsverzerrungen, die durch den Umgang mit dem Computer 

durch mangelnde Kenntnisse über Hard- und Software entstehen können, bei 

der Bearbeitung der KI.BOX eine Rolle spielen, d.h. es wird geprüft, ob es 

überzufällig starke Zusammenhänge von KI.BOX-Ergebnissen und 

Computererfahrung gibt. Die Überprüfung wurde mit Hilfe von zwei 

Selbsteinschätzungsfragebögen, dem SUCA und dem VECA (Richter, 

Naumann & Groeben, 2001; siehe Kapitel 5.2.3) durchgeführt. 

1 2 8

Ergebnisse 

Überprüfung der Hypothese B.1: In Hypothese B.1 wird angenommen, dass 

kein statistisch signifikanter positiver Zusammenhang zwischen den 

Ergebnissen der KI.BOX und dem Ergebnis des SUCA bestehe. Zur 

Überprüfung dessen wurde das Testergebnis des SUCA (Fragebogen zur 

Sicherheit im Umgang mit Computern und Computeranwendungen) mit den 

Ergebnissen der beiden Kriterien der KI.BOX mit Hilfe der Pearson-Korrelation 

in Beziehung gesetzt (Lienert, 1969). Das Ergebnis wird in Tabelle 15 gezeigt: 

Tabelle 15a: Korrelationen des SUCA und den Ergebnissen in der KI.BOX für beide Kriterien 

SUCA 


(KI.BOX) 



Korrelation nach Pearson .06 .06 

Signifikanz 

(2-seitig) 

.63 .65 

N 69 69 

Die statistische Auswertung zeigt, dass kein signifikanter Zusammenhang 

zwischen den Testergebnissen des SUCA und den Ergebnissen der beiden 

Kriterien der KI.BOX besteht. Bevor die Hypothese B.1 aber angenommen wird, 

soll noch eine weitere Datenanalyse erfolgen. Hierbei soll geprüft werden, ob 

sich die in Kapitel 6.2 im Rahmen der Hypothesenprüfung zur Validität der 

KI.BOX gefundenen höchsten signifikanten Zusammenhänge, nämlich 

zwischen den Ergebnissen der KI-BOX und dem Gesamttestwert, dem 

Grundmodul und dem Postmodul der AZUBI-BK, durch Auspartialisierung der 

Variable Sicherheit im Umgang mit Computern und Computeranwendungen, 

operationalisiert durch die SUCA-Ergebnisse, verändern. Zu diesem Zweck 

wurden Partialkorrelationskoeffizienten r xy.z berechnet und mit den zuvor 

gefundenen Koeffizienten r xy verglichen. Diese Berechnung erscheint sinnvoll, 

da die AZUBI-BK als Paper-Pencil-Verfahren durchgeführt wurde. Sollten sich 

veränderte Koeffizienten ergeben, würde dies auf den Einfluss des Mediums 

Computer zurückzuführen sein. In Tabelle 15b werden die Ergebnisse gezeigt: 

1 2 9

Ergebnisse 

Tabelle 15b: Auswirkungen der Auspartialisierung der Sicherheit im Umgang mit Computern 

und Computeranwendungen auf die Korrelationen der Ergebnisse von KI.BOX zu AZUBI-BK 

AZUBI-BK AZUBI-BK 

Gesamttestwert Grundmodul 

Analytische 

r xy 

.48** .44** 

Fähigkeiten 

(KI.BOX) r xy.z 

.49** .44** 

AZUBI-BK 

Postmodul 

Orga.-konzept. 

r xy 

.52** .53** 

Fähigkeiten 

(KI.BOX r xy.z 

.53** .53** 


Auch hieraus wird deutlich, dass der Umgang mit Computern und 

Computeranwendungen keinen Einfluss auf die Leistungen der Probanden hat. 

Die Koeffizienten mit und ohne Auspartialisierung dieses Faktors unterscheiden 

sich nicht oder nur sehr geringfügig, was wiederum dafür spricht, die Hypothese 

B1 anzunehmen. Zuvor soll jedoch eine dritte Analyse stattfinden. Es hat sich 

gezeigt, dass kein signifikanter Zusammenhang zwischen der 

Bearbeitungsgeschwindigkeit in der KI.BOX und in der AZUBI-BK besteht 

(siehe Tabelle 13a). Dies bedeutet, dass Teilnehmer, die in der AZUBI-BK 

schnell arbeiteten, im Postkorb etwas weniger schnell waren und umgekehrt. 

Ob dies auf den Einfluss der Sicherheit im Umgang mit Computern und 

Computeranwendungen zurückgeführt werden kann, soll nun errechnet werden, 

indem die Partialkoeffizienten r xy.z bestimmt werden und mit den vorigen 

Ergebnissen verglichen werden. Tabelle 15c stellt die Ergebnisse dar: 

Tabelle 15c: Auswirkungen der Auspartialisierung der Sicherheit im Umgang mit Computern 

und Computeranwendungen auf die Korrelation der Bearbeitungsgeschwindigkeiten in KI.BOX 

und AZUBI-BK 


der KI.BOX 

AZUBI-BK durchschnittliche r xy 

.19 


r xy.z 

.18 

Erneut wird kein bedeutsamer Unterschied zwischen den beiden Koeffizienten 

sichtbar, was bedeutet, dass die Sicherheit im Umgang mit Computern und 

Computeranwendungen keinen Einfluss auf die unterschiedlichen 

1 3 0

Ergebnisse 

Bearbeitungszeiten in den beiden Tests hat. Nach den drei hier beschriebenen 

statistischen Auswertungen kann also mit Sicherheit gesagt werden, dass die 

Sicherheit im Umgang mit Computern und Computeranwendungen keinen 

bedeutsamen Einfluss auf die Ergebnisse in der KI.BOX haben. Die Hypothese 

B.1 wird also angenommen. 

Überprüfung der Hypothese B.2: Hypothese B.2 postuliert, dass kein 


KI.BOX und dem Ergebnis des VECA bestehe. Um dies zu überprüfen wurde 

das Testergebnis des VECA (Fragebogen zur Vertrautheit mit verschiedenen 

Computeranwendungen) mit den Ergebnissen der beiden Kriterien der KI.BOX 

korreliert. Das Ergebnis wird in Tabelle 15 gezeigt: 

Tabelle 16a: Korrelationen des VECA und den Ergebnissen in der KI.BOX für beide Kriterien 

VECA 


(KI.BOX) 



Korrelation nach Pearson .06 -.08 

Signifikanz 

(2-seitig) 

,61 ,51 

N 69 69 

Ähnlich wie beim SUCA kann auch hier kein signifikanter Zusammenhang 

zwischen den Testergebnissen des VECA und den Ergebnissen der beiden 

Kriterien der KI.BOX aufgedeckt werden. Jedoch soll auch hier geprüft werden, 

ob sich die Korrelationskoeffizienten zwischen KI.BOX und AZUBI-BK bei 

Auspartialisierung der Vertrautheit der Teilnehmer mit verschiedenen 

Computeranwendungen ändern, indem abermals die Partialkoeffizienten r xy.z 

errechnet werden und diese mit den in Kapitel 6.2 gefunden 

Korrelationskoeffizienten r xy verglichen werden. Der auspartialisierte Faktor z 

wird hier durch den Testwert des VECA operationalisiert. In Tabelle 16b werden 

die Ergebnisse der statistischen Auswertung veranschaulicht: 

1 3 1

Ergebnisse 

Tabelle 16b: Auswirkungen der Auspartialisierung der Vertrautheit der Teilnehmer mit 

verschiedenen Computeranwendungen auf die Korrelationen der Ergebnisse von KI.BOX zu 

AZUBI-BK 

AZUBI-BK 

Gesamttestwert 

AZUBI-BK 

Grundmodul 

AZUBI-BK 

Postmodul 

Analytische 

r xy 

.48** .44** 

Fähigkeiten 

(KI.BOX) r xy.z 

.48** .44** 


r xy 

.52** .53** 

Fähigkeiten 

(KI.BOX r xy.z 

.55** .55** 


Die Auswertung macht ebenfalls deutlich, dass die Vertrautheit der Teilnehmer 

mit verschiedenen Computeranwendungen keinen Einfluss auf die Leistungen 

der Probanden hat, da sich die Koeffizienten mit und ohne Auspartialisierung 

dieses Faktors nicht oder nur sehr geringfügig unterscheiden. Bevor nun die 

Hypothese B.2 angenommen wird, soll noch der Einfluss der Vertrautheit der 

Teilnehmer mit verschiedenen Computeranwendungen auf die 

Bearbeitungszeiten ermittelt werden. Das Vorgehen ist analog zur 

Untersuchung der Auswirkung der Sicherheit im Umgang mit Computern und 

Computeranwendungen. Tabelle 16c stellt die Ergebnisse dar: 

Tabelle 16c: Auswirkungen der Auspartialisierung der Vertrautheit der Teilnehmer mit 

verschiedenen Computeranwendungen auf die Korrelation der Bearbeitungsgeschwindigkeiten 

in KI.BOX und AZUBI-BK 


der KI.BOX 

AZUBI-BK durchschnittliche r xy 

.19 


r xy.z 

.17 

Wie zuvor zeigt sich kein bedeutsamer Unterschied zwischen den beiden 

Koeffizienten, was bedeutet, dass auch die Vertrautheit der Teilnehmer mit 

verschiedenen Computeranwendungen keinen Einfluss auf die 

unterschiedlichen Bearbeitungszeiten in den beiden Tests hat. Insgesamt kann 

also festgehalten werden, dass die Vertrautheit der Teilnehmer mit 

verschiedenen Computeranwendungen keinen Einfluss auf die Ergebnisse der 

Teilnehmer in der KI.BOX hat und daher die Hypothese B.2 angenommen wird. 

1 3 2

Ergebnisse 

Überprüfung der Hypothese B.3, B.4 und B.5: Obwohl bereits festgestellt 

wurde, dass die Vertrautheit der Teilnehmer mit verschiedenen 

Computeranwendungen keinen Einfluss auf die Ergebnisse in der KI.BOX hat, 

soll nun noch speziell der Einfluss von drei Anwendungen untersucht werden, 

deren Funktionen Hauptbestandteile der KI.BOX sind. Die Hypothesen B.3, B.4 

und B5 besagen, dass keine statistisch signifikanten positiven Zusammenhänge 

zwischen den Ergebnissen der KI.BOX und den Ergebnissen der Items des 

VECA „Vertrautheit im Umgang mit Textverarbeitung“ (B.3), „Vertrautheit im 

Umgang mit E-Mails“ (B.4) und „Vertrautheit im Umgang mit 

Terminplanungsprogrammen“ (B.5) bestehen. Zur Prüfung dieser Hypothesen 

wurden die Itemwerte mit den Ergebnissen beider Kriterien der KI.BOX 

korreliert, die Ergebnisse sind in Tabelle 17 ablesbar: 

Tabelle 17: Korrelationen der drei für die KI.BOX bedeutsamsten Icons des VECA und den 

Ergebnissen in der KI.BOX für beide Kriterien 

Vertrautheit im 

Umgang mit 

Textverarbeitung 


Umgang mit 

E-Mails 


Umgang mit 

Terminplanungsprogrammen 


(KI.BOX) 




Pearson 

-.09 -.06 

Signifikanz 

(2-seitig) 

.47 .60 

N 69 69 


Pearson 

-.12 -.23 

Signifikanz 

(2-seitig) 

.34 .054 

N 69 69 


Pearson 

.04 .08 

Signifikanz 

(2-seitig) 

.78 .50 

N 69 69 

Aus den Ergebnissen wird erkennbar, dass die Vertrautheit mit 

Textverarbeitungs-, E-Mail- und Terminplanungsprogrammen nicht signifikant 

mit den Ergebnissen der KI.BOX in beiden Kriterien zusammenhängen. 

Überraschenderweise weisen sogar vier der sechs Korrelationen einen 

schwachen bis mittleren negativen Wert auf, auch wenn diese nicht signifikant 

werden. Ob es Gründe für diese Ergebnisse gibt oder sie in dieser Stichprobe 

1 3 3

Ergebnisse 

zufällig zustande kamen, soll in Kapitel 7 thematisiert werden. Fest steht 

jedoch, dass die Vertrautheit mit den drei hier untersuchten Anwendungsarten 

keinen Einfluss auf die Ergebnisse der KI.BOX in beiden Kriterien hat, weshalb 

die Hypothesen B.3, B.4 und B.5 angenommen werden können. 


In diesem Kapitel wurde untersucht, ob Vorerfahrung und Wissen über 

Computer und Computeranwendungen die Ergebnisse in der KI.BOX 

beeinflussen. Dazu wurden umfangreiche Untersuchungen mit den Ergebnissen 

der Fragebögen SUCA und VECA vorgenommen, die genau diese Erfahrung 

erfassen. Auch die Erfahrung mit den drei Anwendungen Textverarbeitung, E- 

Mail und Terminplanung, die in der KI.BOX besonders von Bedeutung sind, 

wurde untersucht. Es konnte gezeigt werden, dass sich, wie von den 

Testautoren vorgesehen, keine Zusammenhänge von Computererfahrung und 

KI.BOX-Leistungen ergeben, so dass alle dazu aufgestellten Hypothesen 

angenommen werden konnten. 

6.4 Test der Hypothese zur Wirkung von Reihenfolgeeffekten 

Aufgrund der bisherigen Forschungslage (siehe Kapitel 2.2.4) wird davon 

ausgegangen, dass die Reihenfolge der Testdarbietung keinen Einfluss auf die 

Ergebnisse in der KI.BOX hat. Da dieser Aspekt jedoch noch nicht 

aussagekräftig genug untersucht wurde, wird er in die vorliegende 

Untersuchung mit aufgenommen. Zu diesem Zweck wurden zwei 

Versuchsbedingungen realisiert und die Teilnehmer diesen zufällig zugeteilt. 

Die Teilnehmer in der Gruppe 1 bearbeiteten zunächst die KI.BOX und im 

Anschluss daran das Grund- und Postmodul der AZUBI-BK. In Gruppe 2 

standen die beiden Module der AZUBI-BK am Anfang der Testung und danach 

erst wurde die KI.BOX bearbeitet. Die Hypothese C.1 besagt nun, dass kein 

statistisch signifikanter Unterschied zwischen den Testwerten der KI.BOX in der 

Versuchsbedingung 1 und der Versuchsbedingung 2 bestehe. Um dies zu 

überprüfen wurden für beide Messkriterien der KI.BOX die Mittelwerte beider 

1 3 4

Ergebnisse 

Versuchsgruppen gebildet und mittels T-Test für unabhängige Stichproben 

(Diehl & Arbinger, 2001) auf signifikante Gruppenunterschiede geprüft. Der T- 

Test ist als ein effizientes und robustes Verfahren einzuschätzen. Um aber eine 

adäquate Anwendung des T-Tests zu gewährleisten, sollten die Testwerte in 

den Stichproben normalverteilt sein, was bereits in Kapitel 6.1 bestätigt wurde. 

Zudem sollte in den zu vergleichenden Stichproben approximativ eine 

Varianzhomogenität erfüllt sein, welche im Folgenden durch den Levene-Test 

überprüft werden soll. Tabelle 18 stellt die Ergebnisse der statistischen 

Auswertung für das Kriterium Analytische Fähigkeiten dar: 

Tabelle 18: T-Test für die Bedingung Reihenfolge der Verfahren bei den Analytischen 

Fähigkeiten in der KI.BOX 


(KI.BOX) 

Bedingung 

„Reihenfolge der Verfahren“ 

N 

Mittelwert 

Standardabweichung 

Bed.1 (KI.BOX, AZUBI-BK) 36 2,44 2,29 

Bed.2 (AZUBI-BK, KI.BOX) 33 3,00 2,61 

Analytische Fähigkeiten (KI.BOX) 

F .73 

Levene-Test 

Signifikanz .40 

Die Differenz in den Gruppenvarianzen ist nicht signifikant, die 

Varianzen sind homogen. Der T-Test kann somit durchgeführt werden. 

T-Test 

T -.94 

df 67 

Signifikanz (2-seitig) ,35 

In der oberen Tabelle ist zu erkennen, dass der Mittelwert von Bedingung 1 bei 

2,44 und von Bedingung 2 bei 3,00 Punkten liegt. Die Mittelwerte der beiden 

Gruppen unterscheiden sich also um 0.56 Punkte. Ob dieser Unterschied 

überzufällig ist, soll mittels T-Test überprüft werden. Diesen einzusetzen ist 

zulässig, da der Levene-Test in der mittleren Tabelle keine signifikanten 

Varianzunterschiede zwischen den beiden Gruppen ausmachen konnte. In der 

unteren Tabelle sind die Ergebnisse des T-Tests aufgeführt. Da dieser kein 

signifikantes Ergebnis erbringt, kann festgehalten werden, dass es hinsichtlich 

des Kriteriums Analytische Fähigkeiten keine entscheidende Rolle spielt, an 

welcher Position die KI.BOX innerhalb einer Testsequenz eingesetzt wird. 

1 3 5

Ergebnisse 

Diese statistische Untersuchung soll im Folgenden genauso für das Kriterium 

Organisatorisch-konzeptionelle Fähigkeiten erfolgen, um die Hypothese C.1 

endgültig annehmen oder ablehnen zu können. Tabelle 19 zeigt die Ergebnisse 

für dieses Messkriterium: 

Tabelle 19: Levene-Test und T-Test für die Bedingung Reihenfolge der Verfahren bei den 

Organisatorisch-konzeptionellen Fähigkeiten in der KI.BOX 

Orga-konzept. Fähigkeiten 

(KI.BOX) 

Bedingung 

„Reihenfolge der Verfahren“ 

N 

Mittelwert 

Standardabweichung 

Bed.1 (KI.BOX, AZUBI-BK) 36 -3,04 9,30 

Bed.2 (AZUBI-BK, KI.BOX) 33 -0,18 6,48 


(KI.BOX) 

F 2,388 

Levene-Test 

Signifikanz .13 

Die Differenz in den Gruppenvarianzen ist nicht signifikant, die 

Varianzen sind homogen. Der T-Test kann somit durchgeführt werden. 

T-Test 

T -1,47 

df 67 


In der oberen Tabelle sieht man, dass der Mittelwert von Bedingung 1 bei -3,04 

und von Bedingung 2 bei -0,18 Punkten liegt. Die Mittelwerte der beiden 

Gruppen unterscheiden sich 2,86 Punkte. Warum diese Werte hier im negativen 

Bereich liegen, wurde bereits in Kapitel 6.1 erläutert. Genau wie zuvor zeigt 

auch bei diesem Kriterium der KI.BOX der Levene-Test in der mittleren Tabelle 

keine signifikanten Varianzunterschiede zwischen den beiden Gruppen auf, 

weshalb der T-Test angewandt werden kann. In der unteren Tabelle wird 

erkennbar, dass der T-Test kein signifikantes Ergebnis liefert. Somit haben 

Reihenfolgeeffekte, die durch die Positionierung der KI.BOX innerhalb einer 

Testsequenz entstehen können, auch bzgl. des Kriteriums Organisatorischkonzeptionelle 

Fähigkeiten keinen entscheidenden Einfluss auf die Leistungen 

der Teilnehmer. Nach diesen beiden Ergebnissen kann also die Hypothese C.1 

angenommen werden. 

1 3 6

Ergebnisse 


Es wurde untersucht, ob sich die Mittelwerte der beiden Versuchsbedingungen 

signifikant unterscheiden, d.h. ob es sich überzufällig stark in den Ergebnissen 

der Teilnehmer widerspiegelt, ob sie zuerst die KI.BOX und dann die AZUBI-BK 

bearbeiteten oder umgekehrt. In beiden Kriterien der KI.BOX konnten mittels T- 

Tests keine statistisch bedeutsamen Auswirkungen von Reihenfolgeeffekten 

ausgemacht werden, so dass die Hypothese C.1 angenommen wird. 

6.5 Test der Hypothesen zum Zusammenhang von 

demographischen Daten und Leistung in der KI.BOX 

Im Folgenden werden die Hypothesen zum potenziellen Einfluss der 

demographischen Daten der Teilnehmer auf die KI.BOX-Ergebnisse überprüft. 

Diese Untersuchungen sollen jedoch hauptsächlich zur explorativen Analyse 

dienen, da die Daten der Stichprobe bezüglich einiger Variablen wie 

beispielsweise Studienfach oder Semesteranzahl nicht gleich verteilt sind. 

Dennoch wurden zur Auswertung unter anderem der T-Test und die 

einfaktorielle Varianzanalyse eingesetzt, obwohl diese eine Normalverteilung 

voraussetzen. Da besonders der T-Test aber als sehr robust einzuschätzen ist 

(Diehl & Arbinger, 2001) und es wie erwähnt um eher explorative Auswertungen 

geht, soll diese Einschränkung vernachlässigt werden. 

Überprüfung der Hypothese D.1: Zunächst soll überprüft werden, ob es 

signifikante Mittelwertsunterschiede zwischen Männern und Frauen in den 

KI.BOX Ergebnissen bezüglich beider Messkriterien gibt. In Hypothese D.1 wird 

postuliert, dass es keinen solchen Unterschied gäbe. Die statistische 

Auswertung erfolgt mittels T-Test für unabhängige Stichproben, Tabelle 20 zeigt 

die Ergebnisse. Die Ergebnisse des Levene-Tests werden im Folgenden 

weiterhin beschrieben, jedoch nicht mehr tabellarisch dargestellt. 

1 3 7

Ergebnisse 

Tabelle 20: T-Test für die Variable Geschlecht bei den Ergebnissen der KI.BOX 


(KI.BOX) 


(KI.BOX) 

Geschlecht N Mittelwert Standardabweichung 

männlich 17 2,12 2,76 

weiblich 52 2,90 2,33 

Geschlecht N Mittelwert Standardabweichung 

männlich 17 -4,85 9,86 

weiblich 52 -0,64 7,31 

T-Test 

Analytische 



(KI.BOX) 

T 1,15 1,89 

df 67 67 


Aus der oberen Tabelle lassen sich die Mittelwerte beider Geschlechter für 

beide Kriterien ablesen. Bei den Analytischen Fähigkeiten lag das Mittel der 

Männer bei 2,12 Punkten, das der Frauen bei 2,90. In den Organisatorischkonzeptionellen 

Tätigkeiten schnitten die Männer durchschnittlich mit -4,85 

Punkten ab, die Frauen erreichten im Durchschnitt -0,64 Punkte. Tendenziell 

schnitten in der KI.BOX weibliche Teilnehmer also besser ab. Ob diese 

Unterschiede signifikant sind, wurde mittels T-Test errechnet, nachdem die 

Varianzhomogenität mittels Levene-Test bestätigt wurde. Der T-Test erbringt 

weder in den Ergebnissen zu den Analytischen Fähigkeiten noch zu den 

Organisatorisch-konzeptionellen Fähigkeiten signifikante Unterschiede 

zwischen Männern und Frauen, auch wenn sich mit p=.06 leichte Tendenzen 

dazu bei den Organisatorisch-konzeptionellen Fähigkeiten zeigen. Wie bereits 

angesprochen, handelt es sich hierbei eher um eine explorative Datenanalyse, 

da die Stichprobe aus weit weniger Männern (n=17) als Frauen (n=52) bestand. 

Ob sich bei einer Stichprobe, bei denen beide Geschlechter gleich häufig 

vertreten wären, andere Ergebnisse zeigen würden, kann hier nicht beantwortet 

werden. Aufgrund der hier vorliegenden Daten können jedoch keine 

bedeutsamen Geschlechtseffekte ausgemacht werden, so dass die Hypothese 

D.1 angenommen werden kann. 

1 3 8

Ergebnisse 

Überprüfung der Hypothese D.2: In Hypothese D.2 wird davon ausgegangen, 

dass kein statistisch signifikanter positiver Zusammenhang zwischen den 

Ergebnissen der KI.BOX und dem Alter der Teilnehmer bestehe. Um dies zu 

überprüfen, werden die Ergebnisse der beiden Messkriterien der KI.BOX und 

das Alter der Teilnehmer mittel Pearson-Korrelation untersucht. In Tabelle 21 

werden die Ergebnisse abgebildet: 

Tabelle 21: Korrelationen des Alters der Teilnehmer mit den Ergebnissen in der KI.BOX für 

beide Kriterien 

Alter 


(KI.BOX) 




Pearson 

-.31** -.28* 

Signifikanz 

(2-seitig) 

.01 .02 

N 69 69 



Die Ergebnisse der statistischen Analyse überraschen: In beiden Kriterien der 

KI.BOX besteht zwar hypothesenkonform kein positiver signifikanter 

Zusammenhang zum Alter der Teilnehmer, jedoch werden für die Analytischen 

Fähigkeiten ein hochsignifikanter negativer Zusammenhang von -.31 und für die 

Organisatorisch-konzeptionellen Fähigkeiten ein signifikanter negativer 

Zusammenhang von -.28 ermittelt. Dies bedeutet also, dass mit zunehmendem 

Alter die Ergebnisse in der KI.BOX in beiden Kriterien schlechter ausfallen. 

Mögliche Erklärungen hierzu werden in Kapitel 7 gegeben. Jedoch sei an dieser 

Stelle erneut auf die eingeschränkte Aussagekraft einer explorativen 

Datenanalyse verwiesen, da auch hier die Verteilung des Alters in der zugrunde 

liegenden Stichprobe sehr linkslastig war. So befand sich ein Drittel der 

Teilnehmer zwischen dem 18. und 20. Lebensjahr, ein weiteres Drittel war 

zwischen 21 und 24 Jahren alt und ein Drittel deckte die Altersspanne 25 bis 49 

ab, so dass ältere Teilnehmer hier deutlich unterrepräsentiert waren. Dennoch 

kann aufgrund der vorliegenden Daten nicht von einem positiven und 

überzufälligem Zusammenhang von Alter und KI.BOX Ergebnissen 

ausgegangen werden, so dass die Hypothese D.2 angenommen werden kann. 

1 3 9

Ergebnisse 

Überprüfung der Hypothese D.3: In Hypothese D.3 wird behauptet, dass kein 

statistisch signifikanter Unterschied zwischen Teilnehmern verschiedener 

Studienfächer in den Ergebnissen der KI.BOX bestehe. Aufgrund der 

vorliegenden Stichprobe ist diese Hypothese jedoch kaum sinnvoll zu 

überprüfen, da bereits 89,9% der Teilnehmer (n=62) im Studiengang 

Psychologie eingeschrieben waren und sich nur weitere 7 Teilnehmer auf vier 

andere Studienfächer aufteilten (siehe Kapitel 6.1). Um dennoch zumindest 

ansatzweise Aussagen über mögliche Tendenzen machen zu können, wurde 

eine einfaktorielle Varianzanalyse (Diehl & Arbinger, 2001) durchgeführt. Als 

abhängige Variablen gelten dabei die beiden Messkriterien der KI.BOX, 

während die unabhängige Variable Studienfach mit den fünf in die 

Untersuchung eingehenden Studienfächern den Faktor bildet. Zuvor wurde die 

Varianzhomogenität mittels Levene-Test bestätigt. In Tabelle 22 werden die 

Ergebnisse der Varianzanalyse in verkürzter Form dargestellt: 

Tabelle 22: Varianzanalyse für die Variable Studienfach und die Ergebnisse in der KI.BOX für 

beide Kriterien 

df F Signifikanz 


(KI.BOX) 


(KI.BOX) 

4 1,07 .38 

4 2,10 .09 

Die Varianzanalyse belegt, dass es keinen signifikanten Unterschied zwischen 

den Gruppen, d.h. den Teilnehmern der fünf aufgeführten Studienfächer, in 

ihren Leistungen in der KI.BOX gibt. Obwohl diese Analyse wie beschrieben als 

äußerst explorativ angesehen werden muss, kann dadurch bis auf weiteres die 

Hypothese D.3 angenommen werden. 

Überprüfung der Hypothese D.4: In Hypothese D.4 wird davon ausgegangen, 

dass ein statistisch signifikanter positiver Zusammenhang zwischen den 

Ergebnissen der KI.BOX und der Semesteranzahl der Teilnehmer bestehe. Für 

die statistische Analyse werden daher analog zur Prüfung der Hypothese D.1 

1 4 0

Ergebnisse 

die Ergebnisse der KI.BOX in beiden Kriterien mit der Semesteranzahl 

korreliert. Die Ergebnisse finden sich in Tabelle 23: 

Tabelle 23: Korrelationen der Semesterzahl der Teilnehmer mit den Ergebnissen in der KI.BOX 

für beide Kriterien 

Semesterzahl 


(KI.BOX) 




Pearson 

-.04 -.05 

Signifikanz 

(2-seitig) 

.75 .68 

N 69 69 

Es fällt auf, dass die Semesteranzahl der Teilnehmer negativ mit den 

Ergebnissen für beide Kriterien der KI.BOX korreliert, allerdings mit -.04 bzw. - 

.05 deutlich schwächer als zuvor bei der Variable Alter und zudem nicht 

signifikant. Dabei ist jedoch wiederholt auf die linkslastige Verteilung der 

Variable Semesterzahl in der untersuchten Stichprobe zu achten: So befanden 

sich knapp die Hälfte der getesteten Studenten im ersten Semester (n=32), 

weitere 25% (n=21) im dritten Semester und das verbleibende Viertel der 

Untersuchten (n=16) befand sich im fünften bis vierzehnten Semester, so dass 

auch hier die höheren Semester unterrepräsentiert sind. Die Frage, ob es bei 

einer gleich verteilten Ausprägung der Semesterzahl andere Ergebnisse gäbe, 

bleibt daher bis auf weiteres ungeklärt. Auf Grundlage des vorliegenden 

Datensatzes ist jedoch kein positiver signifikanter Zusammenhang von KI.BOX- 

Ergebnissen und Semesterzahl zu erkennen, so dass die Hypothese D.4 

abgelehnt wird. 

Überprüfung der Hypothese D.5: Die Hypothese D.5 besagt, dass kein 

statistisch signifikanter Unterschied zwischen Teilnehmern mit verschieden 

ausgeprägten Deutschkenntnissen in den Ergebnissen der KI.BOX bestehe. 

Die Deutschkenntnisse der Teilnehmer wurden, neben der letzten Schulnote in 

Deutsch (siehe Kapitel 5.2.4, 6.2), im Rahmen des demographischen 

Fragebogens als Multiple-Choice-Frage erhoben. Die Teilnehmer konnten dabei 

1 4 1

Ergebnisse 

zwischen den drei Möglichkeiten „Deutsch als erste Muttersprache“, „Deutsch 

als zweite Muttersprache“ und „Deutsch als Fremdsprache“ wählen. In der 

vorliegenden Stichprobe hatten 81,2% der Teilnehmer (n=56) Deutsch als erste 

Muttersprache, vier Teilnehmer als zweite Muttersprache und 9 Teilnehmer als 

Fremdsprache, so dass Teilnehmer mit Deutsch als erste Muttersprache 

überrepräsentiert sind. Um aber explorative Aussagen über mögliche 

Tendenzen machen zu können, wurde eine einfaktorielle Varianzanalyse 

durchgeführt, wobei die Ergebnisse der beiden Messkriterien der KI.BOX als 

abhängige Variablen und die unabhängige Variable Deutschkenntnisse mit den 

drei Ausprägungen als Faktor herangezogen wurden. Tabelle 24 stellt die 

Ergebnisse in verkürzter Form dar. Die Varianzhomogenität wurde zuvor als 

gegeben festgestellt. 

Tabelle 24: Varianzanalyse für die Variable Deutschkenntnisse und die Ergebnisse in der 

KI.BOX für beide Kriterien 



(KI.BOX) 

2 1,652 .20 


2 6,122 .00** 

(KI.BOX) 


Die Ergebnisse zeigen, dass die Deutschkenntnisse der Stichprobe keinen 

überzufälligen Effekt auf die Leistungen im Kriterium Analytische Fähigkeiten 

haben. Für das Kriterium Organisatorisch-konzeptionelle Fähigkeiten wurden 

jedoch hochsignifikante Unterschiede zwischen den drei Gruppen gefunden. 

Vergleicht man die Mittelwerte für die Ergebnisse in diesem Kriterium der 

KI.BOX, so erkennt man, dass die Teilnehmer mit Deutsch als erster 

Muttersprache im Durchschnitt -0,16 Punkte erzielten, Teilnehmer mit Deutsch 

als zweiter Muttersprache kamen durchschnittlich auf -6,13 Punkte, während 

die Teilnehmer mit Deutsch als Fremdsprache im Mittel -9,11 Punkte erreichten. 

Warum die Deutschkenntnisse gerade bei diesem Kriterium einen solchen 

Einfluss haben, wird in Kapitel 7 diskutiert. Die Hypothese D.5, in der es um die 

Auswirkung der Deutschkenntnisse auf die gesamte Leistung in der KI.BOX, 

also in beiden Kriterien geht, wird somit abgelehnt. 

1 4 2

Ergebnisse 

Überprüfung der Hypothese D.6: Die Hypothese D.6 postuliert, dass kein 

statistisch signifikanter Unterschied zwischen Teilnehmern mit verschieden 

ausgeprägter Berufserfahrung in den Ergebnissen der KI.BOX bestehe. Die 

Berufserfahrung wurde ebenso wie die Deutschkenntnisse im Rahmen des 

demographischen Fragebogens erhoben und als Frage mit Multiple-Choice- 

System dargeboten. Die anzukreuzenden Möglichkeiten waren „keine 

Berufsausbildung“ (67% der Teilnehmer, n=46), „abgebrochene Ausbildung“ 

(3%, n=2), „abgeschlossene Ausbildung“ (16%, n=11) und „abgeschlossenes 

Studium“ (14%, n=9). Auf die Ausprägung „abgebrochenes Studium“ wurde 

verzichtet, da dies mit „keine Berufserfahrung“ gleichzusetzen ist. Erneut 

herrscht in der Stichprobe eine Überrepräsentation von Teilnehmern ohne 

Berufserfahrung vor. Dennoch wurde auch hier zur explorative Analyse eine 

einfaktorielle Varianzanalyse durchgeführt, mit den Ergebnissen in der KI.BOX 

für beide Kriterien als abhängige Variable und mit der unabhängigen Variable 

Berufserfahrung mit den vier Ausprägungen als Faktor. Die Varianzhomogenität 

gilt nach den Ergebnissen des Levene-Test als gesichert. Die Ergebnisse der 

Varianzanalyse werden in verkürzter Form in Tabelle 25 gezeigt: 

Tabelle 25: Varianzanalyse für die Variable Berufserfahrung und die Ergebnisse in der KI.BOX 

für beide Kriterien 


(KI.BOX) 


(KI.BOX) 


4 .40 .81 

4 .06 .99 


Aus den nicht signifikanten Ergebnissen wird deutlich, dass sich die Teilnehmer 

mit verschieden ausgeprägter Berufserfahrung nicht überzufällig in den 

Ergebnissen in der KI.BOX über beide Kriterien unterscheiden. Obwohl auch 

hier die Teilnehmer ohne Berufserfahrung in der Stichprobe überrepräsentiert 

sind und diesbezügliche Aussagen daher eher explorativen Charakter haben, 

lässt sich aus diesen deutlichen Ergebnissen doch ein klarer Trend ablesen. 

Aus diesem Grund wird die Hypothese D.6 angenommen. 

1 4 3

Ergebnisse 

Überprüfung der Hypothese D.7, D.8, D.9 und D.10: In diesem Abschnitt wird 

überprüft, ob theoretische und/oder praktische Vorerfahrung mit Postkörben 

und Assessment Centern Einfluss auf die Ergebnisse in der KI.BOX haben. 

Basierend auf den theoretischen Überlegungen (siehe Kapitel 5.2.5) wird davon 

ausgegangen, dass es einen positiven signifikanten Zusammenhang zwischen 

KI.BOX-Ergebnissen und theoretischen (Hypothese D.7) sowie praktischen 

Vorerfahrungen (Hypothese D.8) mit Postkörben gibt, bezüglich der 

theoretischen (Hypothese D.9) und praktischen (Hypothese D.10) Vorerfahrung 

mit Assessment Centern wird kein Zusammenhang vermutet. Die jeweiligen 

Erfahrungswerte der Teilnehmer wurden anhand eines 

Selbsteinschätzungsfragebogens (siehe Anhang B.5) am Ende der 

Untersuchung erhoben. Die vier entsprechenden Items wurden als positive 

Aussagen formuliert (Beispiel: „Ich habe theoretisches Wissen über Postkorb- 

Übungen.“). Wie bei den zuvor beschriebenen Selbsteinschätzungen (siehe 

Kapitel 6.2) wurde auch hier mit einer sechsstufigen Beurteilungsskala 

gearbeitet, die in diesem Fall von „trifft gar nicht zu“ bis „trifft vollkommen zu“ 

reichte. Die Ergebnisse zu allen vier Items sind erneut linkslastig, d.h. es 

überwiegen jeweils die Teilnehmer, die gar keine bis wenig Erfahrung mit 

Postkörben und Assessment Centern haben, sowohl im theoretischen als auch 

im praktischen Bereich. Dies hängt sicherlich zum Großteil mit der Tatsache 

zusammen, das zwei Drittel der Teilnehmer in der Stichprobe unter 25 Jahren 

bzw. drei Viertel von ihnen höchstens im dritten Semester waren und somit die 

wenigsten bisher an einem AC teilgenommen haben dürften. Dennoch erfolgt 

auch hier eine explorative Datenanalyse, indem die Werte der vier Icons mit 

den Ergebnissen der KI.BOX in beiden Kriterien korreliert werden. Die 

diesbezüglichen Ergebnisse sind Tabelle 26 zu entnehmen: 

1 4 4

Ergebnisse 

Tabelle 26: Korrelationen der theoretischen und praktischen Vorerfahrungen der Teilnehmer mit 

Postkörben und Assessment Centern und den Ergebnissen in der KI.BOX für beide Kriterien 

theoretische 

Vorerfahrung mit 

Postkörben 

praktische 


Postkörben 

theoretische 


Assessment 

Centern 

praktische 


Assessment 

Centern 


(KI.BOX) 




Pearson 

-.003 .29* 

Signifikanz 

(2-seitig) 

.98 .05 

N 69 69 


Pearson 

.06 .23 

Signifikanz 

(2-seitig) 

.61 .06 

N 69 69 


Pearson 

.25* .27* 

Signifikanz 

(2-seitig) 

.04 .03 

N 69 69 


Pearson 

.11 .07 

Signifikanz 

(2-seitig) 

.39 .56 

N 69 69 



Die Ergebnisse der statistischen Analyse sind wie folgt zu beschreiben: Das 

theoretische Wissen bzw. die theoretische Vorerfahrung mit Postkörben der 

Teilnehmer hängt nicht überzufällig stark mit ihren Ergebnissen in den 

Analytischen Fähigkeiten zusammen, wohl jedoch mit einer Korrelation von .29 

auf signifikantem Niveau mit dem Kriterium Organisatorisch-konzeptionelle 

Fähigkeiten. Für eine potenzielle Erklärung sei auf Kapitel 7 verwiesen. Die 

Hypothese D.7, die einen Zusammenhang von theoretischer Vorerfahrung mit 

Postkörben und beiden Kriterien der KI.BOX postuliert, wird demnach 

abgelehnt. 

Überraschenderweise hat auch die praktische Vorerfahrung dieser Stichprobe 

mit Postkörben keinen Einfluss auf die Ergebnisse in der KI.BOX in beiden 

Kriterien, auch wenn bzgl. der Organisatorisch-konzeptionellen Fähigkeiten mit 

p=.06 und einer Korrelation in Höhe von .23 ein Trend in die angenommene 

Richtung besteht. Die Hypothese D.8 wird also abgelehnt. 

Entgegen der aufgestellten Hypothese bestehen signifikante Zusammenhänge 

von theoretischem Wissen über Assessment Center und beiden Kriterien der 

1 4 5

Ergebnisse 

KI.BOX in Höhe von .25 bzw. .27 (beides auf Signifikanzniveau .05). Die 

Hypothese D.9 wird somit ebenfalls abgelehnt. 

Den Ergebnissen der statischen Analyse zufolge besteht kein signifikanter 

positiver Zusammenhang von praktischer Vorerfahrung mit Assessment 

Centern und den KI.BOX-Ergebnissen in beiden Kriterien. Dies ist 

hypothesenkonform, überrascht jedoch aufgrund der gefundenen 

Zusammenhänge mit der theoretischen Vorerfahrung zum AC. Obwohl die 

Hypothese D.10 bestätigt wurde und somit angenommen wird, werden in 

Kapitel 7 mögliche Überlegungen über das Zustandekommen dieser teilweise 

überraschenden Ergebnisse diskutiert. 


Es wurde untersucht, ob verschiedene demographische Daten sowie die 

Vorerfahrung der Teilnehmer Zusammenhänge mit den Ergebnissen in der 

KI.BOX haben. Die vorgenommen Datenanalysen weisen aufgrund der 

unregelmäßig verteilten Merkmale in der Stichprobe eher explorativen 

Charakter auf. Bezüglich des Geschlechts und des Alters der Teilnehmer 

konnten keine Effekte festgestellt werden. Gleiches gilt für das Studienfach der 

Teilnehmer. Des Weiteren wurde kein Zusammenhang zwischen KI.BOX- 

Ergebnissen und der Semesterzahl gefunden. Die Deutschkenntnisse weisen 

einen überzufälligen Effekt auf das Kriterium Organisatorisch-konzeptionelle 

Fähigkeiten auf, jedoch keinen bedeutsamen Einfluss auf die Analytischen 

Fähigkeiten. Bezüglich der Berufserfahrung wurde gar kein Zusammenhang 

gefunden. Zum theoretischen Wissen über Postkörbe wurde lediglich ein 

Zusammenhang mit den Organisatorisch-konzeptionellen Fähigkeiten ermittelt, 

nicht zu den Analytischen Fähigkeiten. Praktische Erfahrungen mit Postkörben 

weisen indes gar keinen bedeutsamen Zusammenhang zu keinem der beiden 

Kriterien auf. Entgegen der Hypothese konnten jedoch signifikante positive 

Korrelationen zum theoretischen Wissen über Assessment Center gefunden 

werden. Die praktischen AC-Erfahrungen weisen wiederum keinen 

überzufälligen Zusammenhang zu den KI.BOX-Ergebnissen auf. 

1 4 6

Diskussion 

7 Diskussion 

In den folgenden Abschnitten werden die in Kapitel 6 dargestellten Ergebnisse 

dieser Untersuchung diskutiert. Konkret wird dabei in der Reihenfolge der im 

Vorfeld formulierten Hypothesen vorgegangen und die Ergebnisse im Hinblick 

auf potenzielle Ursachen interpretiert. Zunächst werden die Ergebnisse 

bezüglich der Gütekriterien der KI.BOX (7.1) sowie zu Leistungsunterschieden 

von computererfahrenen und -unerfahrenen Teilnehmern (7.2) behandelt. Im 

Anschluss daran erfolgt die Diskussion zur Auswirkung von Reihenfolgeeffekten 

(7.3) und der demographischen Daten der Teilnehmer (7.4). Abschließend 

sollen im Fazit Implikationen der gefundenen Ergebnisse für die Praxis und ein 

Ausblick auf zukünftige Forschungsfragen (7.5) dargestellt werden. 

7.1 Gütekriterien der KI.BOX 

Da die Objektivität (7.1.1) und Reliabilität (7.1.2) der KI.BOX nicht explizit Teil 

der empirische Untersuchung dieser Arbeit waren, soll nur kurz auf diese 

beiden Gütekriterien eingegangen werden. Danach erfolgt eine ausführlichere 

Diskussion der untersuchten Validitätsaspekte (7.1.3), bevor dann in Kapitel 

7.1.4 auf die Nebengütekriterien eingegangen wird. 

7.1.1 Objektivität 

Die Objektivität eines Tests wird nach Lienert (1969) definiert als der Grad, mit 

dem das Ergebnis eines Testes unabhängig vom Untersucher ist. Wie bereits in 

Kapitel 4.1 festgestellt wurde, kann die Objektivität der KI.BOX sowohl in Bezug 

auf die Durchführung, die Auswertung als auch die Interpretation als gegeben 

beurteilt werden. 

Die Durchführung erfolgt in Einzelarbeit und ausschließlich durch das 

Programm gesteuert, so dass die Leistung eines Teilnehmers nicht durch 

Gruppenprozesse oder Interaktionen mit anderen Teilnehmern beeinflusst wird. 

Zudem erfolgt die Instruktion zum einen in schriftlicher Form, zum anderen als 

1 4 7

Diskussion 

Einarbeitungszeit direkt auf dem Computer, so dass nahezu keine Interaktion 

mit dem Versuchsleiter von Nöten ist (siehe Kapitel 3.2). Auch die Auswertung 

gilt als maximal objektiv, da die Vergabe von Punkten und Testkennwerten 

automatisch durch das Reporting-Tool erfolgt. Zudem gibt es bei der KI.BOX 

keine offenen Fragen, so dass kein Raum für subjektive Interpretationen bleibt. 

Die Interpretationsobjektivität gilt somit ebenfalls als gegeben, da das 

Reporting-Tool die Testkennwerte unmittelbar in die AC-übliche sechsstufige 

Skala von „---„ bis „+++“ einordnet (siehe Kapitel 3.5), wodurch die Position 

eines Probanden innerhalb eines Assessment Centers verdeutlicht wird. 

Als möglicher Kritikpunkt zur Objektivität ist jedoch ein ähnlicher Aspekt wie bei 

der Mailbox’90 (siehe Kapitel 2.4.3.1) anzuführen. So ist anzunehmen, dass im 

Arbeitsprozess auftretende Störungen, wie bei der KI.BOX etwa durch neu 

eintreffende E-Mails, die Durchführungsobjektivität beeinflussen können, 

besonders wenn Störungen die Teilnehmer während unterschiedlicher 

Arbeitsprozesse unterbrechen. Es könnte demnach einen Unterschied machen, 

ob dieselbe neu eintreffende Mail einen Teilnehmer genau im Übergang von 

einem Item zum nächsten oder inmitten der Bearbeitung eines schwierigen 

Items erreicht, so dass er aus seiner Konzentration gerissen wird. Ob dies bei 

einer im Vergleich zur Mailbox’90 eher geringen Störungsquote schon 

ausschlaggebend sein kann, bedarf noch weiterer Forschung, erscheint aber 

generell als unwahrscheinlich, da es sich bei der KI.BOX lediglich um vier neu 

eintreffende E-Mails handelt. Zudem ist zu betonen, dass es sich bei diesem 

Postkorb um einen situativen Test handelt und das Eintreffen neuer Mails, die 

die aktuellen Arbeiten kurzeitig unterbrechen können, in der hier realisierten 

Frequentierung im Büroalltag durchaus realistisch ist. Sollten diese wenigen 

Störungen also tatsächlich Einflüsse auf die Performance haben, was nicht 

anzunehmen ist, so wäre ggf. dem Argument der realistischen Simulation in 

diesem Fall der Vorzug zu geben. Immerhin sind gerade die Fähigkeiten, neue 

Aspekte zügig und ganzheitlich zu erfassen und daraufhin eine logische 

Priorisierung zu treffen, Bestandteile der Messung der KI.BOX. Obwohl von 

einer Beeinträchtigung der Objektivität also nicht auszugehen ist, könnte man 

zur abschließenden Klärung dieser Frage in nachfolgenden Untersuchungen 

aufgrund der vom Computer zusätzlich erfassten Daten feststellen, welche 

1 4 8

Diskussion 

Items gerade bei den jeweiligen Störungen bearbeitet wurden und analysieren, 

ob es dahingehend Unterschiede zwischen Teilnehmern mit guten und weniger 

guten Ergebnissen gibt. 

7.1.2 Reliabilität 

Wie in Kapitel 2.3.5.3 und 4.1 beschrieben, ist die Überprüfung der Reliabilität 

eines situativen, kriteriumsorientierten Tests mit untereinander vernetzten und 

teilweise dynamischen Items auf Grundlage des aktuellen Forschungsstands 

nahezu unmöglich. Da sämtliche aus der klassischen Testtheorie bekannte 

Methoden zur Reliabilitätsbestimmung (siehe Kapitel 2.1.1.2) unzulässig oder 

wegen auftretender Übungseffekte nicht aussagekräftig wären, kann nur von 

einer vorhandenen hohen Objektivität, die bei der KI.BOX gegeben ist, auf eine 

ebenfalls hohe Reliabilität geschlossen werden. Aufgrund dessen bleibt 

anzunehmen, dass die Reliabilität, soweit diese bei kriteriumsorientierten Tests 

überhaupt existiert (Klauer, 1987), bei der KI.BOX vergleichsweise hoch ist. Als 

einzige denkbare Annäherung an eine Reliabilitätsbestimmung in 

nachfolgenden Untersuchungen könnte ggf. eine andere Version der KI.BOX, 

d.h. eine Version, die an ein anderes Unternehmen angepasst wurde und daher 

geringfügig von der Basisversion abweicht, als Paralleltest dargeboten werden. 

Um Übungseffekte möglichst zu vermeiden und um die Teilnehmer aufgrund 

der hohen Stressbelastung bei Postkörben nicht zu überfordern, sollten diese 

Testungen an verschiedenen Tagen stattfinden, wobei sich wiederum das 

Problem von Versuchspersoneneffekten als mögliche Störvariablen stellt. 

Wirklich exakte Aussagen über die Reliabilität der KI.BOX können jedoch 

derzeit und womöglich auch in zukünftigen Untersuchungen nicht getroffen 

werden. 

7.1.3 Validität 

Die Überprüfung der Validität der KI.BOX wurde anhand verschiedener Kriterien 

überprüft und erbrachte zum Teil sehr günstige, mitunter aber auch unerwartete 

1 4 9

Diskussion 

Ergebnisse. Wie diese möglicherweise zustande kamen und zu bewerten sind, 

soll nun diskutiert werden. In Kapitel 7.1.3.1 wird im Rahmen der Überprüfung 

der Kriteriumsvalidität auf die Ergebnisse zu den äußeren Validierungskriterien 

eingegangen, Kapitel 7.1.3.2 befasst sich mit der inneren Validität der KI.BOX. 

Zu den anderen Validitätsarten sei auf Kapitel 4.1 verwiesen. 

7.1.3.1 Äußere Validität 

Zunächst wurden die Ergebnisse der beiden Kriterien der KI.BOX mit der 

Abiturnote der Probanden als äußeres Validierungskriterium korreliert, da diese 

als guter Prädiktor für Studien- und Berufserfolg gelten (siehe Kapitel 5.2.4). 

Entgegen den Annahmen, die sich aus den theoretischen Überlegungen und 

Studien von Baron-Boldt, Funke und Schuler (1989) oder Schmidt-Atzert (2006) 

ergaben, wurden jedoch keine signifikanten Zusammenhänge gefunden. Eine 

mögliche Erklärung für dieses Ergebnis findet sich möglicherweise in der 

Stichprobe selbst. Diese setzte sich wie erwähnt hauptsächlich aus 

Psychologiestudenten im Grundstudium der Universität zu Köln zusammen, an 

der zum Zeitpunkt der Datenerhebung ein Numerus Clausus von 1,7 für dieses 

Studienfach galt. Da die meisten Teilnehmer zudem zwischen dem 18. und 25. 

Lebensjahr waren, sind diese auch nicht über Wartezeiten an den Studienplatz 

gekommen, sondern mussten vornehmlich einen sehr niedrigen 

Abiturdurchschnitt haben. Tatsächlich zeigt eine Häufigkeitsverteilung dieser 

Variable einen deutlichen Deckeneffekt, nämlich dass über die Hälfte der 

Teilnehmer (n=35) einen Abiturdurchschnitt von unter 1,7 aufwiesen. Nach 

Hussy und Jain (2002) kann eine geringe Streuung der Werte in einer 

Stichprobe dazu führen, dass bestehende Unterschiede zwischen den 

Untersuchungsgruppen oder Variablen verwischt oder Korrelationen 

unterschätzt werden. Es ist also denkbar, dass zwar ein möglicherweise 

signifikanter Zusammenhang von Abiturnote und den Ergebnissen in der 

KI.BOX besteht, dieser in der untersuchten Stichprobe allerdings nicht 

aufgedeckt werden konnte. Da die KI.BOX jedoch zur Auswahl von 

Hochschulabsolventen und Trainees verschiedener Fachbereiche eingesetzt 

1 5 0

Diskussion 

werden soll, sollte in nachfolgenden Untersuchungen unbedingt eine 

gemischtere Stichprobe herangezogen werden, in der mehrere Studienfächer, 

unter anderem auch solche mit niedrigerem oder gänzlich ohne 

Zulassungsbeschränkung, gleich stark repräsentiert sind. 

Ähnlich wie bei der Abiturnote wurde auch bezüglich der letzten Schulnote in 

Deutsch entgegen der Hypothese kein signifikanter Zusammenhang zu den 

KI.BOX-Ergebnissen gefunden, obwohl auch diese als guter Prädiktor für 

Studien- und Berufserfolg gilt. Die zuvor gegebene Erklärung mag auch hier 

zutreffen, da knapp 80% der Teilnehmer (n=57) keine Deutschnote unter 10 

Punkten bzw. der Note 2- hatten. Für diese Annahme spricht auch, dass die 

Schulnote in Deutsch besonders hoch mit dem Studienerfolg in Geistes- und 

Humanwissenschaften korreliert (Baron-Boldt, Funke & Schuler, 1989) und die 

meisten Teilnehmer Psychologiestudenten mit einem guten bis sehr guten 

Abiturdurchschnitt waren, was eine Begründung dafür sein könnte, dass beide 

Variablen nicht mit den KI.BOX-Ergebnissen korrelieren. Somit gilt also auch 

hier, dass ein möglicherweise vorhandener Zusammenhang zwischen 

Deutschnote und KI.BOX-Ergebnissen existieren könnte, dieser jedoch in der 

untersuchten Stichprobe nicht auszumachen ist. Um diese These zu 

bekräftigen, wurde eine Sekundäranalyse mit Hilfe der AZUBI-BK 

vorgenommen. Diese kann in ihrem Auswertungsprogramm neben den bereits 

beschriebenen Kennwerten einen Wert für die „sprachlichen Fähigkeiten“ jedes 

Teilnehmers ausgeben. Da die AZUBI-BK aber komplett in Deutsch 

durchgeführt wird, dürfte es sich wohl genauer um die Fähigkeiten bzgl. der 

deutschen Sprache handeln. Werden diese nun mit den Ergebnissen beider 

Kriterien der KI.BOX korreliert, so ergeben sich hochsignifikante 

Zusammenhänge von .35 zu den Analytischen Fähigkeiten und .42 zu den 

Organisatorisch-konzeptionellen Fähigkeiten. Die sprachlichen Fähigkeiten aus 

der AZUBI-BK korrelieren wiederum laut den Testautoren hoch mit den 

entsprechenden Schulnoten (Schuler & Klingner, 2005). Es scheint also doch 

einen deutlichen Zusammenhang von sprachlicher Fähigkeit in Deutsch, welche 

als Prädiktor für Studien- und Berufserfolg gilt, und der Leistung in der KI.BOX 

zu geben, die jedoch nicht anhand der Schulnoten in dieser Stichprobe ermittelt 

werden kann. Eine zukünftige Untersuchung mit einer Stichprobe, in der die 

1 5 1

Diskussion 

letzten Schulnoten in Deutsch besser verteilt sind, könnte also auch hier offen 

gebliebene Fragen beantworten. Die im Rahmen der demographischen Daten 

erfasste Frage nach Deutsch als Muttersprache der Teilnehmer soll in dieser 

Diskussion zunächst außen vor bleiben, da diese Frage weniger prognostische 

Aussagen zulässt. Vielmehr sollte sie zeigen, ob die Items der KI.BOX klar 

formuliert und leicht verständlich sind, worauf in Kapitel 7.4 eingegangen wird. 

Hinsichtlich der letzten Schulnote in Mathematik konnte hypothesenkonform ein 

signifikanter Zusammenhang von .31 zu den Analytischen Fähigkeiten der 

KI.BOX gefunden werden. Ein Grund dafür, welcher ebenfalls für die Annahme 

spricht, dass die zuvor genannten Zusammenhänge aufgrund der ungünstigen 

Stichprobenmerkmale nicht ermittelt werden konnten, liegt an der weniger 

starken Ausprägung des Deckeneffekts bzgl. dieses Merkmals. Zwar existiert 

immer noch ein leichter Deckeneffekt, jedoch liegen hier nur etwa 60% der 

Teilnehmer (n=40) über 10 Punkten. Diese Verteilung in der 

Merkmalsausprägung, die eher im mittelmäßigen bis guten Bereich liegt, 

scheint somit deutlich repräsentativer für die Zielgruppe zu sein, die mit der 

KI.BOX getestet werden sollen, was bei den hier erfragten Abitur- und 

Deutschnoten nicht unbedingt der Fall war. Ein weiterer Aspekt ist, dass in der 

KI.BOX und im Speziellen in den Items zu den Analytischen Fähigkeiten auch 

mathematische Problemstellungen enthalten sind und das zügige und korrekte 

Lösen dieser Probleme sogar in die Kriteriendefinition aufgenommen wurde 

(siehe Kapitel 3.4). Es ist demnach als äußerst positiv zu bewerten, dass ein 

diesbezüglicher Zusammenhang aufgedeckt wurde, da somit belegt wird, dass 

die KI.BOX im Kriterium Analytische Fähigkeiten den Aspekt der 

mathematischen Fähigkeiten valide erfasst. Um dies zu untermauern, wurde 

auch hier eine Sekundäranalyse durch die AZUBI-BK und den in ihrem 

Auswertungsprogramm zusätzlich generierten Kennwert „rechnerische 

Fähigkeiten“ durchgeführt. Es zeigt sich eine hochsignifikante Korrelation zu 

den Analytischen Fähigkeiten der KI.BOX von .31, so dass die Validität der 

KI.BOX zum Erfassen der mathematischen Fähigkeiten der Teilnehmer im 

Kriterium Analytische Fähigkeiten als gesichert gelten kann. 

Neben dem Abiturdurchschnitt und den beiden Einzelschulnoten wurden 

Selbsteinschätzungen der Teilnehmer bezüglich ihrer analytischen und 

1 5 2

Diskussion 

organisatorisch-konzeptionellen Fähigkeiten anhand einer sechsstufigen 

Beurteilungsskala erfasst, und diese mit den Ergebnissen der KI.BOX zu den 

jeweiligen Kriterien korreliert. Im Bereich Analytische Fähigkeiten fand sich ein 

signifikanter Zusammenhang von .29, so dass dieses Kriterium durch die 

Selbsteinschätzung der Teilnehmer validiert wird. Die Selbsteinschätzung ist 

jedoch ein höchst subjektives Kriterium und daher für sich allein genommen 

kaum aussagekräftig. In Zusammenhang mit den anderen 

Validierungsergebnissen dieser Studie scheint das Ergebnis jedoch 

aussagekräftiger, da auch viele andere Punkte für eine Validität der KI.BOX im 

Bereich Analytische Fähigkeiten sprechen (z.B. hochsignifikante Korrelation zur 

letzten Schulnote in Mathematik, darüber hinaus verschiedene Ergebnisse der 

inneren Validitätsprüfung, siehe Kapitel 7.1.3.2). Im Bereich der 

Organisatorisch-konzeptionellen Fähigkeiten fand sich entgegen der Annahme 

kein signifikanter Zusammenhang, jedoch immerhin eine positive Korrelation 

von .14, was zumindest einen Trend in die richtige Richtung darstellt. Eine 

mögliche Erklärung für die geringe Ausprägung der Korrelation könnte die 

Formulierung des Kriteriums sein. Während der Begriff „Analytische 

Fähigkeiten“ einleuchtend beschreibt, dass es darum geht, wie gut 

Sachverhalte analysiert und durchdrungen werden können, oder zumindest, 

dass dieses Messkriterium etwas mit Intelligenz zu tun haben muss, könnte die 

Definition des Begriffs „Organisatorisch-konzeptionelle Fähigkeiten“ für nicht 

oder wenig psychologisch geschulte Teilnehmer bzw. Studienanfänger schon 

weniger eindeutig sein. Dies wird auch durch die Tatsache gestützt, dass 

während der Bearbeitung dieses Selbsteinschätzungsitems mehrfache 

Verständnisnachfragen der Teilnehmer auftraten. Ob die Ergebnisse auf das 

sprachliche Hindernis, nämlich dem Verständnis des doppelten Adverbs 

„organisatorisch-konzeptionell“ zurückzuführen ist oder darauf, dass sich die 

Teilnehmer zu wenig Inhaltliches unter diesem Begriff vorstellen konnten, bleibt 

ungewiss. Ein weiterer Grund für einen nicht gefundenen, jedoch 

möglicherweise doch bestehenden Zusammenhang von Postkorbergebnis und 

Selbsteinschätzung könnte die soziale Erwünschtheit sein. Die Teilnehmer 

wollten sich im Fragebogen möglicherweise besser darstellen, was zu 

überhöhten Antwortwerten geführt haben könnte. Hierfür sprechen auch die 

1 5 3

Diskussion 

Mittelwerte der beiden Selbstenschätzungsitems, die mit 4,35 bei den 

Analytischen Fähigkeiten und 4,28 bei den Organisatorisch-konzeptionellen 

Fähigkeiten jeweils im überdurchschnittlichen Bereich der sechsstufigen 

Einschätzungsskala liegen. Dies wiederum könnte jedoch auch an der 

Formulierung der Items gelegen habe, da hier nach einem Vergleich der 

eigenen Fähigkeiten „zu anderen Studierenden“ gefragt wurde. Anzunehmen 

wäre demnach, dass besonders die Psychologiestudenten, die wie erwähnt 

überwiegend gute Noten und einen niedrigen Abiturdurchschnitt aufwiesen 

(siehe oben), in der untersuchten Stichprobe von ihren Fähigkeiten in diesen 

kognitiven Kompetenzen sehr überzeugt waren und diese im Vergleich etwa zu 

Studenten in Fächern ohne Zulassungsbeschränkungen durchschnittlich höher 

einschätzten. Diese Annahmen sind jedoch bis dato rein spekulativ und 

bedürfen weiterer Studien, in der auch genügend Teilnehmer aus anderen 

Studienbereichen vertreten sind. Aufgrund der Selbsteinschätzung der 

Teilnehmer zu ihren Organisatorisch-konzeptionellen Fähigkeiten können bis 

dahin jedoch keine abgesicherten Aussagen über die Validität der KI.BOX 

gemacht werden. Da der Trend der Korrelation jedoch erkennbar wird, könnten 

in nachfolgenden Untersuchungen erneut Selbsteinschätzungen zu den beiden 

Kriterien erhoben werden. Allerdings müssten den Teilnehmern dann adäquate 

Definitionen zur Verfügung stehen, die möglichst alle Aspekte des jeweiligen 

Kriteriums erfassen, besonders bezüglich der Organisatorisch-konzeptionellen 

Fähigkeiten. Weiterhin sollte die Stichprobe wie oben erwähnt mehr Studenten 

aus anderen Fachrichtungen enthalten. 

7.1.3.2 Innere Validität 

Die für die KI.BOX günstigsten Ergebnisse liefert die Validierung mittels der 

AZUBI-BK. Die beiden Kriterien der KI.BOX korrelieren jeweils hochsignifikant 

bei mittleren bis starken Effekten mit dem Gesamttestwert der AZUBI-BK bzw. 

die Analytischen Fähigkeiten der KI.BOX zu .44 mit dem Grundmodul und die 

Organisatorisch-konzeptionellen Fähigkeiten zu .53 mit Postmodul der AZUBI- 

BK. Da die jeweiligen Kriterien und Module ähnliche Verhaltensmerkmale 

erfassen, und zudem diverse andere Ergebnisse dieser Studie auch dafür 

1 5 4

Diskussion 

sprechen, kann von einer bestätigten Validität der KI.BOX in beiden Kriterien 

ausgegangen werden. Es bleibt die Frage, ob die gefundenen Koeffizienten 

unter anderen Bedingungen anders ausfallen würden. Auf mögliche 

Implikationen für nachfolgende Studien sei diesbezüglich aber auf Kapitel 7.5 

verwiesen. 

Als nicht signifikant wurde jedoch die Korrelation zwischen den 

Bearbeitungszeiten in beiden Tests beobachtet. Dieses Ergebnis überraschte 

zunächst, da doch beide Tests ähnliche Dimensionen erfassen und gleichsam 

im Bürokontext angesiedelt sind. Erklären lässt sich dieses Ergebnis womöglich 

dadurch, dass die KI.BOX als computergestützter Test für die Teilnehmer neu 

und ungewohnt war, während die Paper-Pencil-Form der AZUBI-BK besonders 

den vielen Psychologiestudenten vertrauter gewesen sein dürfte. Obwohl die 

Computerkenntnisse keine bedeutende Rolle für die Performance in der KI.BOX 

haben (siehe unten), war es wohl dennoch für viele der Studentinnen und 

Studenten zumindest ungewohnt, bei einem Test am Computer zu sitzen und 

zwischen verschiedenen Seiten hin- und herklicken zu müssen, anstatt wie bei 

der AZUBI-BK und den meisten anderen Tests auf einem Blatt Papier die 

Lösungen einfach von oben nach unten anzukreuzen. Da jedoch die KI.BOX im 

Rahmen von Auswahlverfahren für Positionen mit Büroarbeitsplätzen eingesetzt 

werden soll, ist zu erwarten, dass die Bewerber mit der realistischen und an 

gängigen Programmen orientierten Darstellungsform der KI.BOX, 

beispielsweise einem wiederholten Wechsel vom Posteingangsfenster zur 

Kalenderfunktion, besser vertraut sind als die Teilnehmer der studentischen 

Stichprobe zu Beginn ihres Studiums. 

Mittels der entsprechenden Subskala aus dem BIP wurde überprüft, ob die 

Gewissenhaftigkeit mit den Ergebnissen der KI.BOX korreliert, da nach Schmidt 

und Hunter (1998) die Leistungsbeurteilung der Arbeit eines Probanden zu 31% 

durch Gewissenhaftigkeit erklärt werden kann. Tatsächlich korrelierten die 

Ergebnisse dieses Fragebogens zu .29 signifikant mit den KI.BOX-Ergebnissen, 

allerdings nur im Kriterium Organisatorisch-konzeptionelle Fähigkeiten, bei den 

Analytischen Fähigkeiten wurde mit einer Korrelation von .10 kein signifikanter 

Zusammenhang ausgemacht. Eine mögliche Begründung hierfür könnte sein, 

dass sich die Aufgaben zu den Analytischen Fähigkeiten in der KI.BOX klarer 

1 5 5

Diskussion 

darstellen als zu den Organisatorisch-konzeptionellen Fähigkeiten. Man hat 

meist eine E-Mail mit einer darin enthaltenen Aufgabe vor sich, bei der man 

beispielsweise etwas logisch kombinieren oder errechnen muss, und wenn man 

eine Aufgabe aus diesem Bereich gelöst hat, kann zur nächsten übergegangen 

werden. Bei den Organisatorisch-konzeptionellen Aufgaben hingegen muss 

man dagegen eher aufwändigere Probleme lösen, z.B. etwas aus Tabellen 

heraussuchen, zwischen früheren und späteren Mails hin- und herklicken, aus 

verschiedenen Alternativen aufgrund der Informationslage die richtigen 

Lösungen aussuchen, den Kalender sinnvoll anlegen, etc. Diese Items korrekt 

zu bearbeiten erfordert mitunter ein detailliertes und somit gewissenhafteres 

Vorgehen, was die gefundene Korrelation erklären würde. Somit können also 

8% der Varianz im Ergebnis zu diesem Kriterium der KI.BOX durch die BIP- 

Skala zur Gewissenhaftigkeit aufgeklärt werden. Da diese als recht 

verlässlicher Prädiktor für spätere Leistungsbeurteilungen, Einkommen oder 

beruflicher Zufriedenheit gilt (siehe Kapitel 5.2.2), spricht auch dieses Ergebnis 

für die Validität der KI.BOX. 

Insgesamt kann man festhalten, dass auf Grundlage der in dieser 

Untersuchung gefundenen Ergebnisse die Validität der KI.BOX zunächst als 

gesichert anzusehen ist, da die beiden Kriterien offensichtlich auch das 

messen, was sie messen sollen. Die Ergebnisse zur inneren Validitätsprüfung 

sprechen deutlich dafür, die äußere Validitätsprüfung weist hauptsächlich bei 

den Analytischen Fähigkeiten in diese Richtung. Dennoch sollten hierzu weitere 

Untersuchungen mit den oben angesprochenen Variationen folgen, 

insbesondere mit einer gemischteren, der tatsächlichen Bewerberpopulation 

ähnlicheren Stichprobe. 

7.1.4 Nebengütekriterien 

Im Folgenden soll die KI.BOX im Hinblick auf die in Kapitel 2.1.1.4 aufgeführten, 

von Lienert (1969) aufgestellten Nebengütekriterien besprochen werden. Dabei 

wird auf die Aspekte der Normierung, Vergleichbarkeit, Ökonomie und 

Nützlichkeit genauer eingegangen. 

1 5 6

Diskussion 

Eine Normierung der KI.BOX ist bis zum Abschluss dieser Arbeit noch nicht 

erfolgt, da der Postkorb noch sehr neu und der bisher vorliegende Datensatz zu 

gering ist. Die Normierung sollte aus den oben angesprochenen Gründen auch 

nicht anhand der hier erhobenen vergleichsweise kleinen studentischen 

Stichprobe erfolgen, sondern anhand realistischer, aus der Praxis gewonnener 

Daten, wenn die KI.BOX in wirklichen Assessment Centern zur Auswahl von 

Hochschulabsolventen und Trainees eingesetzt wird. Sollte diese Normierung 

mit einer ausreichend hohen Teilnehmeranzahl erfolgen, könnte eine 

diesbezügliche zusätzliche Auswertung in das Reporting-Tool der KI.BOX 

integriert werden, um zu zeigen, welche Position ein Proband hinsichtlich der 

beiden Kriterien im Verhältnis zu den Testergebnissen anderer Probanden 

einnimmt. Diese relative Ergebnisbetrachtung, die bereits im PC-Postkorb 

„Seeblick“ (Kapitel 2.4.3.3) realisiert ist, würde einerseits einen deutlichen 

Informationsgewinn bei der Auswertung der KI.BOX bedeuten, zum anderen 

würde man somit dem Postkorb als Mischform aus Modellen der klassischen 

Testtheorie sowie der kriteriumsorientierten Leistungsmessung gerecht werden. 

Die Umsetzung einer solchen Normierung ist nach Aussagen des Testautors 

bereits in Planung. 

Die Vergleichbarkeit der KI.BOX gilt als gesichert, da das Verfahren über die 

AZUBI-BK, welche ähnliche Dimensionen erfasst, einer inneren 

Validitätskontrolle unterzogen wurde, in der hochsignifikante Zusammenhänge 

gezeigt werden konnten. Die Überprüfung der Vergleichbarkeit mittels 

Paralleltest-Methode ist kaum möglich, da bei einem Postkorb zu starke 

Übungseffekte wirken würden. 

Des Weiteren kann festgehalten werden, dass die KI.BOX wie die meisten 

computergestützten Postkörbe als ökonomisch zu bewerten ist. Die 

Vorbereitung-, Durchführungs- und Auswertungszeit beträgt insgesamt etwa 85 

Minuten. Dies klingt zunächst lang, ist aber im Vergleich etwa zu einem 

Intelligenztest oder auch einer Übung des Assessment Centers, wie 

beispielsweise der Fallstudie mit Vorbereitung und Durchführung durch die 

Teilnehmer und anschließender Beurteilung und Konferenz der Beobachter, 

durchaus im kurzen bis durchschnittlichen Zeitbereich. Hinzu kommt, dass ein 

computergestützter Postkorb zwar während der Konzeptions- und 

1 5 7

Diskussion 

Programmierungsphase kostenintensiver als andere Verfahren ist, er aber nach 

der Fertigstellung einfach und schnell auf die entsprechenden 

Kundenbedürfnisse angepasst werden kann, was bei der KI.BOX bei 

zukünftigen Einsätzen der Fall wäre. Material wird auch kaum verbraucht, da 

außer die wenigen Seiten der Papier-Instruktion alles über den Computer läuft. 

Theoretisch wäre die KI.BOX sogar als Gruppentest einsetzbar, sofern 

ausreichend Computerarbeitsplätze bzw. Laptops vorhanden sind. 

Ebenso kann die Nützlichkeit der KI.BOX als hoch eingeschätzt werden. Zwar 

existieren bereits andere Postkörbe, die ähnliche Kriterien erfassen (siehe 

Tabelle 3), und auch computergestützte Verfahren dieser Art werden bereits auf 

dem Markt angeboten (siehe Kapitel 2.4.3), jedoch bietet die KI.BOX doch 

besonders in Hinblick auf ihr modernes Design und die damit verbundene hohe 

Softwareergonomie sowie ihre wissenschaftliche Güte, die in der vorliegenden 

Arbeit bestätigt wurde, bedeutende Vorteile, mit denen sie vergleichbaren 

Verfahren überlegen scheint. 

In Bezug auf die Nebengütekriterien kann die KI.BOX also als sehr zufrieden 

stellend beurteilt werden, besonders wenn die zusätzliche Auswertung per 

Normstichprobe in naher Zukunft noch verwirklicht wird. 

7.2 Zusammenhang von Computererfahrung und Leistung in der 

KI.BOX 

In der vorliegenden Untersuchung konnte bestätigt werden, dass die Leistung 

der Probanden in der KI:BOX nicht davon abhängt, wie erfahren sie im Umgang 

mit Computern und Computeranwendungen sind. Zur Überprüfung des 

Einflusses dieser Variablen wurden mit SUCA und VECA zwei 

Selbsteinschätzungsfragebögen eingesetzt (siehe Kapitel 5.2.3). 

Selbstauskunftsfragebögen bringen jedoch immer die Gefahr von Verzerrungen 

durch soziale Erwünschtheit mit sich. Dies könnte in der aktuellen 

Untersuchung besonders der Fall gewesen sein, wenn die Testpersonen nicht 

verstanden hätten, dass das Ausfüllen des Fragebogens nicht mehr Teil der 

Testung war, über das ihnen ein Feedback versprochen worden war. Somit 

1 5 8

Diskussion 

hätten einzelne Teilnehmer möglicherweise versuchen können, ihr Wissen im 

Umgang mit Computern als umfangreicher darzustellen als es in Wirklichkeit ist. 

Um diesen Effekt zu vermeiden, wurden die Teilnehmern vor dem Austeilen des 

Fragebogens, der ja sowohl in Versuchsbedingung 1 wie Bedingung 2 am Ende 

der Untersuchung, also jeweils nach KI.BOX und AZUBI-BK ausgeteilt wurde, 

explizit darauf hingewiesen, dass die Ergebnisse im nun folgenden Fragebogen 

nicht mehr Teil des Feedbacks sein würden und sie deshalb möglichst ehrlich 

antworten sollten. Dass dies von den Teilnehmern wohl auch größtenteils 

berücksichtigt wurde, zeigt die Verteilung der Werte der SUCA- und VECA- 

Ergebnisse. Diese sind jeweils über den Range der zu erreichenden möglichen 

Punkte normalverteilt, d.h. in der untersuchten Stichprobe lagen die 

Erfahrungen und Kenntnisse im Umgang mit Computern im durchschnittlichen 

Bereich, was man in einer Stichprobe von Studienanfängern aus nicht 

computerbezogenen Studiengänge auch so erwarten würde. 

Bezüglich der drei aus dem VECA herausgegriffenen Computeranwendungen 

E-Mail, Textverarbeitung und Terminplanungsprogrammen wurde ebenfalls kein 

Zusammenhang zu den KI.BOX-Ergebnissen festgestellt. Die Vertrautheit mit 

E-Mail-Anwendungen korrelierte mit beiden Kriterien der KI.BOX sogar im 

negativen Bereich, bezüglich der Organisatorisch-konzeptionellen Fähigkeiten 

sogar recht hoch mit -.23. Diese Korrelation war zwar nicht signifikant, liegt aber 

mit einem errechneten Signifikanzwert von p=.054 stark an der Grenze zum 

überzufälligen Zusammenhang, der eventuell in einer anderen, 

repräsentativeren Stichprobe aufgedeckt werden könne. Mögliche Gründe für 

einen solchen negativen Zusammenhang zwischen der Vertrautheit mit E-Mail- 

Anwendungen und den KI.BOX-Ergebnissen könnte sein, dass die meisten 

Studienanfänger, die beispielsweise noch kein Praktikum oder andere 

Berufserfahrung im kaufmännischen- oder bürogebundenen Arbeitsumfeld 

haben, für private E-Mails eher Online-Anbieter wie GMX, Hotmail oder Freenet 

nutzen und vergleichsweise wenig Erfahrung mit solchen E-Mail-Clients haben, 

wie sie in Büros verwendet werden und an welche die Softwareergonomie der 

KI.BOX angelehnt ist. Dass dies eine Rolle spielen könnte, zeigt die Verteilung 

der Antworten zu den drei Items des VECA: Bezüglich 

Textverarbeitungsprogrammen schätzen die meisten Teilnehmer ihre 

1 5 9

Diskussion 

Vertrautheit damit im durchschnittlichen Bereich ein, ca. 90% der Teilnehmer 

(n=61) kreuzten auf der sechsstufigen Beurteilungsskala die Werte drei oder 

vier an. Bezüglich der Vertrautheit mit E-Mails lagen die Selbsteinschätzung 

ausschließlich im durchschnittlichen bis guten Bereich, zu fast gleichen Anteilen 

wurden von Teilnehmern einzig die Werte drei, vier und fünf angekreuzt. Bei 

den Terminplanungsprogrammen lagen die Selbsteinschätzungen deutlich 

tiefer, da über 81% der Teilnehmer (n=56) die Werte eins bis drei ankreuzten. 

Es zeigt sich also, dass die eigene Vertrautheit mit E-Mails als mittel bis hoch 

eingeschätzt wird, mit Terminplanungsprogrammen jedoch eher als niedrig. 

Würden die Teilnehmer hauptsächlich bürotypische Clients verwenden, in 

denen jeweils eine Terminplanungsfunktion enthalten ist, wäre anzunehmen, 

dass diese Funktion auch genutzt würde und die Selbsteinschätzungen 

demnach höher ausfielen. Diese Vermutung ist jedoch rein spekulativer Natur 

und bedarf noch weiterer Untersuchungen. 

Eine näher liegende Erklärung könnte sein, dass, wie erwähnt, besonders 

bezüglich der Organisatorisch-konzeptionellen Items nicht nur die Bearbeitung 

der E-Mails, sondern auch die des Kalenders oder der Prioritätenliste von 

Bedeutung ist. Somit könnten also die Teilnehmer durchaus Erfahrung mit 

derartigen E-Mail-Clients haben, jedoch würden ihnen diese bei der 

Bearbeitung der Organisatorisch-konzeptionellen Items nicht viel nützen, so 

dass sie hier schlechter abschneiden als in den Analytischen Fähigkeiten, 

deren Items fast ausschließlich durch die Bearbeitung von E-Mails bestimmt 

sind. Ein Beleg dafür findet sich womöglich in dem insgesamt tiefer liegenden 

Mittelwert der Organisatorisch-konzeptionellen Items (-1,67; Mittelwert bei den 

Analytischen Fähigkeiten: 2,71). 

Insgesamt kann es folglich sein, dass dieser vergleichsweise hohe, wenn auch 

nicht signifikante negative Zusammenhang von Vertrautheit mit E-Mails und den 

Ergebnissen in den Organisatorisch-konzeptionellen Fähigkeiten in zukünftigen 

Untersuchungen deutlich tiefer ausfällt oder sogar ganz wegfällt und, wie das 

Ergebnis in dieser Stichprobe zeigt, lediglich zufällig zustande gekommen ist. 

Aufgrund der hier ermittelten Ergebnisse kann also zunächst davon 

ausgegangen werden, dass die Computererfahrung keinen Einfluss auf die 

Ergebnisse in der KI.BOX hat. Zu beurteilen ist diese Tatsache als höchst 

1 6 0

Diskussion 

positiv, da dies vom Testautor bei Konzeption auch so beabsichtigt wurde 

(siehe Kapitel 3.1). Des Weiteren kann damit ein häufiges Vorurteil an 

computergestützten AC-Übungen sowohl von Eignungsdiagnostikern als auch 

von Kunden, die Assessment Center in Auftrag geben, zumindest für die 

KI.BOX verworfen werden. 

7.3 Auswirkung von Reihefolgeeffekten 

In der vorliegenden Untersuchung wurde hypothesenkonform festgestellt, dass 

sich Reihenfolgeeffekte, die durch die Positionierung der KI.BOX innerhalb 

einer Testsequenz entstehen könnten, nicht überzufällig auf die Leistungen der 

Probanden in der KI.BOX auswirken. Das heißt also, dass Teilnehmer ähnliche 

Ergebnisse erzielen würden, wenn sie das Verfahren zu Beginn oder im 

späteren Verlauf einer Testsequenz bearbeiteten. Die Ergebnisse der Studien 

von Nienaber (1997) und Fruhner (siehe Kapitel 2.2.4) konnten somit bestätigt 

werden. Bezogen auf die Praxis ist dies ebenfalls sehr positiv, da die KI.BOX 

problemlos zu jedem Zeitpunkt innerhalb eines Assessment Centers eingesetzt 

werden kann. Es bestehen keine diesbezüglichen Einschränkungen, etwa in der 

Weise, dass sie unbedingt als erste Übung absolviert werden müsste, da die 

Teilnehmer im späteren Verlauf sonst schlechter abschneiden würden. 

Besonders für die Zeitplanung eines Assessment Centers ist dies sehr hilfreich 

und ökonomisch, da eine solche Übung, für die der Teilnehmer nicht von 

Beobachtern beurteilt werden muss, in Einzelarbeit bearbeitet und daher 

zwischen die anderen Übungen „eingeschoben“ werden kann. 

Jedoch soll angemerkt werden, dass die hier gefundenen Ergebnisse der 

vorliegenden Studien nur eingeschränkt auf ein wirkliches Assessment Center 

übertragen werden können. Die Untersuchung dauerte im Höchstfall etwa 4 

Stunden, während ein Assessment Center mitunter mehrere Tage in Anspruch 

nehmen kann. Ob es also auch keine Leistungsunterschiede in den KI.BOX- 

Ergebnissen geben würde zwischen Teilnehmern, die das Verfahren zu Beginn 

des ersten Tages oder gegen Ende des dritten Tages bearbeiten, bleibt 

ungewiss und konnte in dieser Untersuchung nicht überprüft werden. Lediglich 

die Analysen mehrerer tatsächlicher Assessment Center, in denen die KI.BOX 

1 6 1

Diskussion 

von verschiedenen Teilnehmern mit einem wie oben beschriebenen größeren 

Zeitabstand bearbeitet würde, könnte diese Frage klären. Jedoch wäre es aus 

ethischen Gründen höchst fraglich, das Risiko einzugehen, dass ein Teilnehmer 

aufgrund doch bestehender Reihenfolgeeffekten in der KI.BOX, die sich erst 

über größere Zeitdifferenzen ergeben, ein schlechteres Gesamtergebnis im AC 

bekommt, und ihm daher womöglich eine angestrebte Arbeitsstelle verwehrt 

bleibt. Als Mögliche Lösung bliebe, dass man diese Untersuchung im AC eines 

Unternehmens durchführt und die KI.BOX nicht in das AC-Ergebnis einfließen 

lassen würde, ohne die Teilnehmer darüber zu informieren. Ob sich jedoch 

Unternehmen fänden, die ihre Teilnehmer eine insgesamt etwa achtzigminütige 

Übung im Laufe ihres Assessment Centers durchführen ließen, ohne dass sich 

dadurch ein unmittelbarer Nutzen für das Unternehmen ergäbe, könnte sich als 

schwierig erweisen. Empfohlen wird also, sich zunächst auf die hier 

durchgeführte Untersuchung zu stützen und die KI.BOX von den Teilnehmern 

eines Assessment Centers in nicht allzu großen Zeitabständen bearbeiten zu 

lassen. In der Untersuchung betrug die Zeitdifferenz etwa zwei Stunden, und 

die Ergebnisse, die gegen eine Wirkung von Reihenfolgeeffekten sprechen, 

waren recht eindeutig. Ein durchschnittlicher AC-Durchführungstag dauert für 

den Teilnehmer etwa sieben bis neun Stunden, wenn man davon die 

Bearbeitungszeit der KI.BOX abzieht, bleiben noch etwa fünfeinhalb bis 

siebeneinhalb Stunden übrig. Es dürfte nach Meinung des Autors dieser Arbeit 

also vertretbar sein, die KI.BOX an unterschiedlichen Positionen eines AC- 

Tages einzusetzen, ohne dass sich aufgrund von Reihefolgeeffekten 

überzufällig bedeutende Leistungsunterschiede bei den Teilnehmern einstellen. 

Jedoch sollte es nicht zu einem Einsatz des Instruments an unterschiedlichen 

Durchführungstagen des Assessment Centers kommen, ohne das hierzu 

weitere Studien betrieben wurden. 

7.4 Einfluss der demographischen Daten 

Wie bereits in Kapitel 6.5 angesprochen, können aufgrund der hier erfolgten 

Auswertungen zum Einfluss der demographischen Daten auf die KI.BOX- 

Ergebnisse nur explorative Aussagen getroffen werden, da die Ausprägungen 

1 6 2

Diskussion 

in nahezu keiner der untersuchten Variablen gleich verteilt waren. Die 

Stichprobe bestand hauptsächlich aus weiblichen Psychologiestudentinnen 

unter 25 Jahren im ersten bis dritten Semester mit Deutsch als erster 

Muttersprache und überwiegend ohne Berufserfahrung. Obwohl eine 

repräsentativere Stichprobe, die die tatsächliche Bewerbersituation der KI.BOX- 

Zielgruppe besser widerspiegelt, andere als die hier gefundenen Ergebnisse 

erbringen könnte, wird davon ausgegangen, dass zumindest der Trend von 

vorhandenem oder nicht vorhandenem Einfluss der jeweiligen Variable 

bestehen bliebe. Demnach ist bis auf weiteres positiv zu bewerten, dass kein 

signifikanter Leistungsunterschied in der KI.BOX zwischen Männern und 

Frauen sowie Studenten unterschiedlicher Studienfächer und Semesteranzahl 

oder variierender Berufserfahrung aufgedeckt wurde, was bedeutet, dass 

niemand hinsichtlich dieser Merkmale bevorteilt oder benachteiligt wird. 

Anders sieht dies bezüglich der Variable Alter aus. Entgegen der Annahme der 

Hypothese wurde in der untersuchten Stichprobe für die Analytischen 

Fähigkeiten ein hochsignifikanter negativer Zusammenhang von -.31 zum Alter 

der Testpersonen gefunden, für die Organisatorisch-konzeptionellen 

Fähigkeiten ein signifikanter Zusammenhang von -.28. Dies belegt, dass die 

Ergebnisse der Teilnehmer in beiden Kriterien der KI.BOX mit zunehmendem 

Alter geringer ausfallen. Die Streudiagramme in Abbildung 15 verdeutlichen 

diese Zusammenhänge zusätzlich: 

10 

15 

Punktzahl Analytische Fähigkeiten 

8 

6 

4 

2 

0 

-2 

Punktzahl Orga.-konzept. Fähigkeiten 

5 

-5 

-15 

-25 

-4 

15 

20 

25 

30 

35 

40 

45 

50 

-35 

15 

20 

25 

30 

35 

40 

45 

50 

Alter 

Alter 

Abbildung 15: Zusammenhang von Alter und Punktzahlen in der KI.BOX (links: Analytische 

Fähigkeiten, rechts: Organisatorisch-konzeptionelle Fähigkeiten) 

1 6 3

Diskussion 

Mit diesen Ergebnissen werden Untersuchungen von Thornton und Byham 

(1982) bestätigt, die eine negative Korrelation von Ergebnissen eines Paper- 

Pencil-Postkorbs und dem Alter fanden. Andere Untersuchungen zu den 

Bonner Postkorb Modulen (Höft, 2003) ergaben jedoch keinen Zusammenhang 

zum Alter (siehe Kapitel 2.3.5.1). Da diese Untersuchungen aktuelleren Datums 

als die von Thornton und Byham waren und aufgrund der unzureichenden 

Validierungslage keine Daten zum Zusammenhang des Alters und der KI.BOX 

ähnlichen computergestützten Postkörben vorlagen, stützte sich die hier 

aufgestellte und inzwischen abgelehnte Hypothese auf die von Höft 

dargestellten Ergebnisse. Warum bei den Bonner Postkorn Modulen jedoch 

weder ein negativer noch ein positiver Zusammenhang gefunden wurde, bleibt 

fraglich. Möglich wäre, dass dies mit dem bereits von Höft (2003) kritisierten 

kleinen Stichprobenumfang dieser Untersuchungen zusammenhängt (siehe 

Kapitel 2.3.5.4). Warum besteht nun also bei der KI.BOX ein negativer 

Zusammenhang von Punktzahl und Alter? Sowohl die jüngeren als auch die 

älteren Teilnehmer befanden sich zum Großteil im Psychologiestudium, so dass 

beide Gruppen zumindest ansatzweise theoretisches Wissen über Tests haben 

dürften. Denkbar wäre jedoch, dass jüngere Teilnehmer besonders aus 

Schulzeiten generell noch stärker daran gewöhnt sind, selbst getestet zu 

werden. Bei älteren Teilnehmern liegt die Schulzeit schon deutlich länger 

zurück, so dass sie nicht mehr in so starkem Maße mit Testsituationen vertraut 

sind. Für diese Annahme spricht auch eine Sekundäranalyse der Daten, die 

ebenfalls hochsignifikante negative Korrelationen von -.39 bis -.48 zwischen 

dem Alter und den Ergebnissen in der AZUBI-BK liefert, und dies sowohl zum 

Gesamttestwert, dem Grundmodul als auch dem Postmodul. Auch hier 

schnitten ältere Teilnehmer also durchschnittlich mit deutlich niedrigeren 

Ergebnissen ab. Daraus lässt sich die Schlussfolgerung ziehen, dass ältere 

Teilnehmer in testähnlichen Auswahlverfahren generell benachteiligt zu sein 

scheinen, und die hier gefundenen Ergebnisse nicht auf ein Defizit speziell in 

der KI.BOX hinweisen. Dennoch wären hierzu noch weitere Studien mit 

repräsentativeren Stichproben nötig. Bis dahin ist zu empfehlen, die KI.BOX nur 

in Assessment Centern einzusetzen, bei denen die Teilnehmer im selben 

Altersbereich liegen. 

1 6 4

Diskussion 

Überraschenderweise wurden auch hochsignifikante Gruppenunterschiede 

zwischen Teilnehmern mit unterschiedlich ausgeprägten Deutschkenntnissen 

gefunden, jedoch nur für die Ergebnisse in den Organisatorisch-konzeptionellen 

Fähigkeiten. Teilnehmer mit Deutsch als erster Muttersprache erzielten im 

Durchschnitt -0,16 Punkte, in der Gruppe der Teilnehmer mit Deutsch als 

zweiter Muttersprache lag der Mittelwert bei -6,11. Teilnehmer mit Deutsch als 

Fremdsprache erzielten durchschnittlich nur -9,11 Punkte in diesem Kriterium. 

Woran kann es also liegen, dass bei den Organisatorisch-konzeptionellen 

Fähigkeiten solche Unterschiede bestehen, während dies hinsichtlich der 

Analytischen Fähigkeiten nicht der Fall ist? Als eine der wahrscheinlichsten 

Erklärungen ist auch hier sicher die ungleich verteilte Stichprobe anzuführen. 

Über 81% der Teilnehmer, also 56 der 69 Studenten, hatten Deutsch als erste 

Muttersprache, nur vier von ihnen als zweite Muttersprache und neun 

Teilnehmer als Fremdsprache. In einer Untersuchung, in der in etwa gleich viele 

Teilnehmer in den drei Gruppen wären, könnten diesbezüglich ganz andere 

Ergebnisse erzielt werden, weshalb hierzu für zukünftige Studien noch 

Forschungsbedarf bleibt. Allerdings ist für die hier gefundenen Ergebnisse 

zusätzlich eine ähnliche Erklärung denkbar wie zum gefundenen 

Zusammenhang von Gewissenhaftigkeit und Organisatorisch-konzeptionellen 

Fähigkeiten in der KI.BOX (siehe Kapitel 7.1). Die Items der Analytischen 

Fähigkeiten sind klarer zu überblicken, da meist eine Aufgabe durch eine E-Mail 

dargeboten wird. Sollte man hier nicht jedes Wort verstehen, hat dies 

womöglich nicht so eine entscheidende Bedeutung wie bei den Items der 

Organisatorisch-konzeptionellen Fähigkeiten. Falls man hier nicht alles 

verstehen sollte, wird schnell ein Hinweis zu einer anderen Mail, dem Kalender 

oder der Prioritätenliste übersehen, der jedoch von entscheidender Bedeutung 

für die korrekte Lösung des Items wäre. Allerdings stellt sich daraufhin die 

Frage, ob die Items und die darin enthaltenen Vernetzungen bei diesem 

Kriterium deutlicher formuliert und somit vereinfacht werden sollten, um 

Teilnehmern, die Deutsch nicht als erste Muttersprache sprechen, nicht zu 

benachteiligen. Dies wiederum würde jedoch sicherlich dazu führen, dass 

Teilnehmer, die Deutsch als erster Muttersprache sprechen und wohl auch in 

den realen ACs, in denen die KI.BOX eingesetzt werden soll, die Mehrzahl 

1 6 5

Diskussion 

darstellen, zu viele dieser Items lösen würden und die KI.BOX in diesem 

Kriterium nicht mehr zwischen guten und weniger guten Leistungen 

differenzieren würde. Aus diesem Grund wird empfohlen, die Schwierigkeit des 

Kriteriums so zu belassen und die KI.BOX, so wie im Übrigen auch andere 

sprachgebundene Testverfahren, nicht in Auswahlverfahren einzusetzen, in 

denen Bewerber ausgewählt werden sollen, die Deutsch nicht als erste 

Muttersprache sprechen. 

Auch bezüglich theoretischer und praktischer Vorerfahrung mit Postkörben und 

Assessment Centern überraschen die Ergebnisse. Obwohl aufgrund der 

theoretischen Überlegungen (siehe Kapitel 5.2.5) angenommen wurde, dass 

sowohl theoretische als praktische Vorerfahrung mit Postkörben eine 

Zusammenhang zu den KI.BOX-Ergebnissen in beiden Kriterien aufweisen und 

es keinen Zusammenhang von theoretischer und praktischer Vorerfahrung mit 

Assessment Center gebe, wurde lediglich ein signifikanter Zusammenhang von 

theoretischer Vorerfahrung mit Postkörben und dem Ergebnis bei den 

Organisatorisch-konzeptionellen Fähigkeiten sowie ebenfalls signifikante 

Zusammenhänge von theoretischer Vorerfahrung mit Assessment Centern und 

beiden KI.BOX-Kriterien gefunden. 

Hierfür gibt es zwei denkbare Erklärungen: Zum einen könnte die Frage nach 

der „theoretischen und praktischen Vorerfahrung“ zu undeutlich formuliert 

gewesen sein, so dass die Teilnehmer nicht genau wussten, was damit gemeint 

war. Möglicherweise beurteilten es manche Teilnehmer beispielsweise als stark 

ausgeprägte theoretische Vorerfahrung, zu wissen, dass eine Übung namens 

Postkorb in Assessment Centern eingesetzt wird, andere wiederum kannten 

womöglich sogar erfasste Kriterien oder Übungsabläufe, beurteilten ihr Wissen 

aber dennoch als gering. Ebenso erscheint die sechsstufige Skala zur 

Beurteilung der praktischen Vorerfahrungen im Nachhinein als ungünstig, 

besser wären die dichotomen Fragen gewesen, ob man schon mal einen 

Postkorb bearbeitet bzw. an einem AC teilgenommen hat oder nicht. In 

zukünftigen Untersuchungen sollten also klare Definitionen bei den jeweiligen 

Items mitgeliefert werden. Alternativ könnte man das Wissen über Postkörbe 

und Assessment Center über einige verschieden schwere Items erfassen, in 

denen richtige und falsche Aussagen über die beiden Themen formuliert sind, 

1 6 6

Diskussion 

und der Teilnehmer die richtigen Aussagen ankreuzen soll. Daraus könnte sich 

wiederum ein Punktwert ergeben, der dann mit den KI.BOX-Ergebnissen 

korreliert werden könnte. Mit dieser Methode wäre auch der zweite mögliche 

Erklärungsgrund für die hier gefundenen gänzlich unerwarteten Ergebnisse 

ausgeräumt, nämlich die bereits oben erwähnte soziale Erwünschtheit. 

Möglicherweise wollten sich die Teilnehmer auch in diesen 

Selbsteinschätzungsfragen besser darstellen, was zu verfälschten Antworten 

geführt haben könnte. Die Ergebnisse zum Zusammenhang von 

Vorerfahrungen mit Postkörben bzw. Assessment Centern und den KI.BOX- 

Ergebnissen sind demnach also nur schwer bis gar nicht interpretierbar. Die 

Frage, ob mit diesen Themen bereits vertraute Teilnehmer Vorteile in der 

Bearbeitung der KI.BOX haben, sollte in nachfolgenden Studien mit den hier 

beschriebenen methodischen Variationen erneut untersucht werden. 

7.5 Fazit und Ausblick 

Auf Grundlage der in dieser Untersuchung gefundenen Ergebnisse kann die 

KI.BOX als valides und insgesamt gut für den AC-Einsatz geeignetes 

eignungsdiagnostisches Instrument befunden und somit für die Auswahl von 

Hochschulabsolventen, Trainee-Bewerbern oder Führungskräftenachwuchs 

empfohlen werden. Bezüglich der Gütekriterien kann von einer nahezu 

maximalen Objektivität ausgegangen werden, was zudem auf eine hohe 

Reliabilität schließen lässt. Die Inhaltsvalidität gilt als gesichert und die 

Kriteriumsvalidität wurde in dieser Untersuchung besonders über die innere 

Validität nachgewiesen. Zur äußeren Validität besteht allerdings noch 

Forschungsbedarf, besonders hinsichtlich des Kriteriums Organisatorischkonzeptionelle 

Fähigkeiten. Auch die Nebengütekriterien gelten mit Ausnahme 

der Normierung als erfüllt, wobei hieran nach Aussage des Testautors jedoch 

bereits gearbeitet wird. Weiterhin konnte kein Zusammenhang der Erfahrung 

mit Computern bzw. Computeranwendungen und den Leistungen in der KI.BOX 

gefunden werden, so dass diesbezüglich keinerlei Vor- oder Nachteile für 

einzelne Teilnehmer zu erwarten sind. Zudem konnten keine Reihenfolgeeffekte 

1 6 7

Diskussion 

ermittelt werden, d.h. es besteht kein Leistungsunterschied zwischen 

Teilnehmern, die die KI.BOX zu Beginn oder im späteren Verlauf einer 

Testsequenz bearbeiten, so dass das Verfahren flexibel innerhalb eines AC 

eingesetzt werden kann. Darüber hinaus konnten zumindest explorativ keine 

Leistungsunterschiede hinsichtlich der Merkmale Geschlecht, Studienfach, 

Semesterzahl, Deutschkenntnissen oder Berufserfahrungen aufgedeckt 

werden, so dass auch bezüglich dieser Merkmale in der KI.BOX keine Effekte 

auszumachen sind. Lediglich zum Alter wurde festgestellt, dass ältere 

Teilnehmer durchschnittlich schlechtere Leistungen im Vergleich zu jüngeren 

Teilnehmern aufweisen. Zum Einfluss von theoretischer und praktischer 

Vorerfahrung mit Postkörben sowie Assessment Centern kann die vorliegende 

Untersuchung keine aussagekräftigen Ergebnisse liefern. 

Dieser für eine erste Validierung durchaus günstigen Ergebnislage zufolge kann 

die KI.BOX wie erwähnt für einen Einsatz im AC empfohlen werden. Dennoch 

bleiben, wie bei einer ersten Validierungsstudie üblich, noch offene Fragen, die 

es in nachfolgenden Studien zu beantworten gilt. Diese noch zu überprüfenden 

Aspekte sollen im Folgenden nochmals kurz zusammengefasst und dazu 

Vorschläge gemacht werden, wie die entsprechende Untersuchung dazu 

konzipiert werden könnte. 

• Beeinflussen die vier neu eintreffenden E-Mails die 

Durchführungsobjektivität? (siehe Kapitel 7.1.1) In nachfolgenden 

Studien könnten die vom Computer zusätzlich erfassten Prozessdaten 

ausgewertet werden, um festzustellen, welche Items gerade bei den 

jeweiligen Störungen bearbeitet wurden. Diese Prozessdaten müssten 

dann zur Überprüfung herangezogen werden, dass man erkennt, ob es 

bei unterschiedlichen Störungszeitpunkten Unterschiede zwischen 

Teilnehmern mit guten und weniger guten Ergebnissen gibt. 

• Ist die Reliabilität der KI.BOX bestimmbar? (siehe Kapitel 7.1.2) Man 

könnte die Reliabilität mittels einer anderen Version der KI.BOX, die 

beispielsweise an ein anderes Unternehmen angepasst wurde, als 

Paralleltest bestimmen. Dennoch wären auch hier Übungseffekte nicht 

ganz auszuschließen. 

1 6 8

Diskussion 

• Wie ist die äußere Validität aussagekräftiger zu bestimmen? (siehe 

Kapitel 7.1.3.1) Obwohl auch hier teilweise hypothesenkonforme 

Ergebnisse gefunden werden konnten, insbesondere zu den 

Analytischen Fähigkeiten, besteht zu diesem Validitätsaspekt noch 

Klärungsbedarf. Die hier eingesetzten Validierungskriterien, z.B. die 

Abitur- oder Schulnoten, eignen sich durchaus auch für spätere Studien, 

jedoch sollte dann wie erwähnt eine Stichprobe herangezogen werden, 

die in diesen Merkmalen auch genügend Varianz aufweist, um evtl. 

bestehende Gruppenunterschiede auch aufdecken zu können. Zusätzlich 

zu diesen Kriterien könnte die äußere Validität dadurch bestimmt 

werden, dass man in Langzeituntersuchungen Vorgesetztenurteile über 

die Leistungen der ehemaligen AC-Teilnehmer einholt, die mit der 

KI.BOX getestet wurden, und diese Urteile mit den KI.BOX-Ergebnissen 

validiert. Dies wäre natürlich sehr aufwendig und ist aufgrund der 

Neuheit des Instruments in naher Zukunft noch nicht zu bewerkstelligen. 

Dennoch gilt eine äußere Validierung über Vorgesetztenurteile, die evtl. 

in einem oder zwei Jahren erfolgen könne, gemeinhin als recht 

aussagekräftig, da somit auch die prognostische Güte des Verfahrens 

überprüft werden könnte. 

• Wie ist die Güte der Selbsteinschätzungen zu den Organisatorischkonzeptionellen 

Fähigkeiten zu erhöhen? (siehe Kapitel 7.1.3.1) Wie 

erwähnt müssten hier klare Definitionen dieses Kriteriums mitgeliefert 

werden, die den Teilnehmern erlauben, damit inhaltlich konkretere 

Verhaltensbeispiele zu verbinden. Die Kriteriendefinition der KI.BOX, die 

auf der ersten Seite im Ergebnisbericht des Reporting-Tools ausgegeben 

wird, könnte hier schon ausreichend sein. Zudem müsste sichergestellt 

werden, dass die Teilnehmer nicht nur im Sinne der sozialen 

Erwünschtheit antworten, da sie glauben, der Fragebogen wäre noch Teil 

der Testung, über welche sie Feedback bekommen. Eine 

repräsentativere Stichprobe der späteren Bewerberpopulation würde 

außerdem zu aussagekräftigeren Ergebnissen beitragen. 

1 6 9

Diskussion 

• Wie könnten die gefundenen hohen Korrelationen von KI.BOX und 

inneren Kriterien noch erhöht werden? (siehe Kapitel 7.1.3.2) Die 

höchsten Korrelationen zu den KI.BOX-Kriterien erbrachten die ähnlichen 

Messdimensionen der AZUBI-BK. In nachfolgenden Studien sollte jedoch 

auf Paper-Pencil-Tests verzichtet und ein weiteres EDV-Verfahren als 

inneres Validierungskriterium ausgewählt werden. Wie bereits erwähnt 

könnte der Medienwechsel innerhalb einer Testsequenz für die 

Teilnehmer ungewohnt gewesen sein, trotz nicht identifizierter Effekte 

der Computererfahrung. Somit wäre also, ähnlich wie zur Frage der 

Reliabilitätsbestimmung, auch hier eine Parallelversion der KI.BOX oder 

alternativ ein anderer Postkorb mit ähnlichen Dimensionen einzusetzen, 

beispielsweise der PC-Postkorb „Seeblick“ (siehe Kapitel 2.4.3.3). 

• Werden auch in längeren Assessment Centern keine Reihenfolgeeffekte 

wirksam? (siehe Kapitel 7.3) Die Ergebnisse zur Wirkung dieser Effekte 

können nicht ohne weiteres auf längere AC von mehreren Tagen 

ausgeweitet werden. Die flexible Positionierung der KI.BOX über einen 

AC-Tag hinweg dürfte unbedenklich sein. Zur Überprüfung der Wirkung 

von Reihenfolgeeffekten bei längeren Verfahren müsste die KI.BOX in 

mehreren länger dauernden Assessment Centern bei verschiedenen 

Teilnehmern zu unterschiedlichen Positionen an verschiedenen Tagen 

durchgeführt werden. Die Ergebnisse der KI.BOX dürften jedoch nicht in 

das Gesamt-AC-Ergebnis eingehen, um ethische Konflikte zu vermeiden. 

• Haben Teilnehmer verschiedener demographischer Merkmale Vor- oder 

Nachteile in der KI.BOX? (siehe Kapitel 7.4) Die Ergebnisse zeigen, dass 

nur hinsichtlich des Alters negative Zusammenhänge zu den 

Ergebnissen der KI.BOX, aber auch der AZUBI-BK bestehen. Bezüglich 

Geschlecht, Studienfach, Semesterzahl, Deutschkenntnisse und 

Berufserfahrung wurden keine Effekte gefunden. Dennoch sollten in 

zukünftigen Studien die Merkmale erneut untersucht werden, allerdings 

mit einer Stichprobe, in der diese Merkmalsausprägungen gleich verteilt 

sind. 

1 7 0

Diskussion 

• Beeinflusst die Vorerfahrung mit Postkörben und Assessment Centern 

die Leistungen in der KI.BOX? (siehe Kapitel 7.4) Diese Frage konnte in 

der vorliegenden Untersuchung aufgrund definitorischer Schwierigkeiten 

und uneindeutigen Beurteilungsskalen nicht ausreichend geklärt werden. 

In nachfolgenden Studien sollte dieser Aspekt jedoch erneut untersucht 

werden, allerdings nicht über Selbsteinschätzungen. Stattdessen könnte 

man das Wissen über Postkörbe und Assessment Center über einige 

verschieden schwere Items erfassen, in denen richtige und falsche 

Aussagen über die beiden Themen vom Teilnehmer zu markieren sind. 

Daraus könnte sich wiederum ein Punktwert ergeben, der dann mit den 

KI.BOX-Ergebnissen korreliert würde. Mit dieser Erhebungsmethode 

ließe sich auch das Problem der sozialen Erwünschtheit eliminieren. 

Zusätzlich zu den hier aufgeführten Aspekten, die sich direkt aus den 

Ergebnissen dieser Studie ergaben, soll noch auf eine weitere Implikation für 

zukünftige Untersuchungen hingewiesen werden. So stellt sich trotz der 

insgesamt günstigen Befundlage die Frage, ob die Ergebnisse aus der 

Untersuchung überhaupt auf die tatsächliche AC-Situation übertragbar sind, da 

in beiden Settings gänzlich verschiedene Motivationsbedingungen herrschen. 

Im AC zeigt der Teilnehmer seine ihm bestmögliche Performance, da seine 

Leistungsmotivation oft durch eine angestrebte Arbeitsposition bestimmt ist. Die 

Teilnehmer der Untersuchung wurden hingegen wohl hauptsächlich durch die 

Vergütung mit Versuchspersonenstunden motiviert, die sie natürlich auch bei 

niedriger Anstrengung ausgestellt erhielten. Derartige qualitative und 

quantitative Motivationsdifferenzen wurden zu überbrücken versucht, in dem 

den Teilnehmern nach der gesamten Datenauswertung ein ausführliches 

schriftliches Feedback versprochen wurde, was nach Lerner und Tetlock (1999) 

zufolge die Motivation erhöht, das bestmögliche Verhalten zu zeigen. Diese 

Maßnahme dürfte in Anbetracht der positiv ausgefallenen 

Untersuchungsergebnisse auch weitgehend erfolgreich gewesen sein. Auch 

wurde dem Versuchsleiter nach der jeweiligen Erhebung im persönlichen 

Gespräch mit den Teilnehmern oft eine hohe Motivation ihrerseits bestätigt. 

Hinzu kommt jedoch noch die wahrgenommene Künstlichkeit der 

Untersuchungssituation unter Laborbedingungen, die sich zusätzlich negativ auf 

1 7 1

Diskussion 

die Motivation der Teilnehmer ausgewirkt haben könnte. In dieser ersten 

Validierungsarbeit wurde jedoch mehr Wert auf die experimentelle 

Untersuchung der kausalen Hypothesen gelegt, so dass einer möglichst hohen 

Standardisierung und der Kontrolle potenzieller Störvariablen zunächst der 

Vorzug zu geben war. Zukünftige Forschung sollte daher die Güte der KI.BOX 

im realen Assessment Center in Form von Feldstudien untersuchen. Sollte dies 

nicht zu realisieren sein, bestände alternativ die Möglichkeit, die Motivation der 

Teilnehmer im Labor zusätzlich erhöhen. So ließen sich beispielsweise 

realistischere AC-Rahmenbedingungen schaffen, wenn die KI.BOX 

beispielsweise in Form eines Auswahlverfahrens für Studenten als 

wissenschaftliche Hilfskräfte angewandt würde. Darüber hinaus könnte es im 

Sinne der von Lerner und Tetlock (1999) nachgewiesenen Effekte zur 

Motivationssteigerung hilfreich sein, wenn die Teilnehmer ihr Feedback nicht in 

schriftlicher Form am Ende der Datenerhebung, also teilweise mehrere Woche 

nach ihrer Testung bekämen, sondern direkt im Anschluss daran durch den 

Versuchsleiter. Die Accountability (siehe Kapitel 5.1) würde dadurch sicher 

stärker zum Tragen kommen, da der Teilnehmer stärkeren Druck verspürt, 

seine Leistungen rechtfertigen zu müssen und sich somit mehr anstrengen wird. 

Zu erwarten ist, dass in nachfolgenden Studien, in denen die hier 

vorgeschlagenen methodischen Veränderungen realisiert werden, noch 

positiver ausfallende Ergebnisse erzielt werden, für die hier bereits erste Trends 

erkennbar wurden. Die Güte der KI.BOX gilt jedoch bereits jetzt weitgehend als 

gesichert. Somit schließt die vorliegende Arbeit mit der Aussage, dass der 

computergestützte Postkorb KI.BOX als valides Instrument im Assessment 

Center eingesetzt werden kann. 

1 7 2

Literaturverzeichnis 

8 Literaturverzeichnis 

Arbeitskreis Assessment Center e.V. (2004). Standards der Assessment Center 

Technik 2004. [Online]. Verfügbar unter HTTP: www.arbeitskreis-ac.de 

Verzeichnis: projekte/standards/ Dateiname: ac-standards_2004.htm 

[31.05.2008]. 

Bandura, A. (1997). Self-efficacy: The exercise of control. New York: Freeman. 

Bandura, A. (2006). Guide for Constructing Self-Efficacy Scales. In F. Pajares & 

T. Urdan (Eds.), Self-Efficacy Beliefs of Adolescents (pp. 307-337). 

Greenwich: Information Age Publishing. 

Baron-Boldt, J., Schuler, H. & Funke, U. (1988): Prädiktive Validität von 

Schulabschlussnoten: Eine Metaanalyse. Zeitschrift für Pädagogische 

Psychologie, 2, 79–90. 

Bolte, E.A. & Sünderhauf, K. (2005). Konstruktion von Assessment Center 

Übungen. In K. Sünderhauf, S. Stumpf & S. Höft (Hrsg.), Assessment 

Center- Von der Auftragsklärung bis zur Qualitätssicherung (S. 138-154). 

Lengerich: Pabst Science Publishers. 

Bortz, J. (1993). Statistik für Sozialwissenschaftler. Berlin: Springer 

Bortz, J. & Döring, N. (2002). Forschungsmethoden und Evaluation für Human- 

und Sozialwissenschaftler. Berlin: Springer. 

Brickenkamp, R. (2002). Brickenkamp Handbuch psychologischer und 

pädagogischer Tests, 2 Bde. Göttingen: Hogrefe 

Daumenlang, K. (1995): Intelligenztests. In: W. Sarges (Hrsg.) Management 

Diagnostik (S. 540-548). Göttingen: Hogrefe. 

1 7 3


Didi, H.J. (2002). Der Postkorb. In: E. Fay (Hrsg). Das Assessment Center in 

der Praxis. (S. 77-103). Göttingen: Vandenhoeck und Rupprecht. 

Diehl, J. M. & Kohr, H.-U. (1999). Deskriptive Statistik. Eschborn: Verlag D. 

Klotz. 

Diehl, J. M. & Arbinger, M. (2001). Inferenzstatistik. Eschborn: Verlag D. Klotz. 

Dommel, N. A. (1995). Postkörbe. In: W. Sarges (Hrsg.) Management 


Domsch, M. & Jochum, I. (1989). Zur Geschichte des Assessment Centers – 

Ursprünge und Werdegänge. In C. Lattmann (Hrsg.), Das Assessment- 

Center-Verfahren der Eignungsbeurteilung. Sein Aufbau, seine 

Anwendung und sein Aussagegehalt (S. 4-18). Heidelberg: Physica. 

Domsch, M. (1995): Fallstudien. In: W. Sarges (Hrsg.) Management Diagnostik 

(S. 602-608). Göttingen: Hogrefe. 

Eggers, R. & Oetting, M. (1995): Vorträge und Präsentationen. In: W. Sarges 

(Hrsg.) Management Diagnostik (S. 568-591). Göttingen: Hogrefe. 

Fassheber, P. (1995): Planspiele. In: W. Sarges (Hrsg.) Management 


Fennekels, G. (1995). PC-Office 1.0. Postkorb zur Diagnose von 

Führungsverhalten (Handanweisung). Göttingen: Hogrefe. 

Fisseni, H.-J. (1990). Lehrbuch der psychologischen Diagnostik. Göttingen: 

Hogrefe. 

Fisseni, H.-J. & Preusser, I. (2007). Assessment-Center. Eine Einführung in 

Theorie und Praxis. Göttingen: Hogrefe. 

1 7 4


Frey, D. (1979). Einstellungsforschung: Neuere Ergebnisse der Forschung 

Einstellungsänderungen. Marketing, 1, 31-45 

Fricke, R. (1974). Kriterienorientierte Leistungsmessung. Stuttgart: 

Kohlhammer. 

Friedrich, A. & Schwarz, M. (1989). Assessment-Center und Führungsplanspiel. 

Personal - Mensch und Arbeit im Betrieb, 1, 12-17 

Fritz, A & Funke, J. (1995): Übersicht über die vorliegenden Verfahren zur 

Planungsdiagnostik. In: J. Funke & A. Fritz (Hrsg.) Neue Konzepte und 

Instrumente zur Planungsdiagnostik (S. 47-78). Bonn: Deutscher 

Psychologen Verlag GmbH. 

Fruhner, R. (2005). Reihenfolgeeffekte im Assessment Center: Hat die 

unterschiedliche Abfolge von Einzelverfahren einen Einfluss auf das 

Gesamtergebnis eines Bewerbers) - Ein Beispiel der Hamburger 

Sparkasse AG. In K. Sünderhauf, S. Stumpf & S. Höft (Hrsg.), 

Assessment Center - von der Auftragsklärung bis zur Qualitätssicherung 

(S. 216-224). Lengerich: Pabst Science Publishers. 

Funke, J. (1993, a). Computergestützte Arbeitsproben: Begriffsklärung, 

Beispiele sowie Entwicklungspotentiale. Zeitschrift für Arbeits- und 

Organisationspsychologie, 37, 119-129. 

Funke, J. (1993, b). Aus der Arbeit des Testkuratoriums: MAILBOX ´90. Ein 

computergestütztes Test- und Trainingsverfahren zur 

Personalentwicklung. Diagnostica, 39, 177-187. 

Funke, J. & Rasche, B. (1992) Einsatz computersimulierter Szenarien im 

Rahmen eines Assessment Center. Zeitschrift Führung + Organisation, 

2, 110-118 

1 7 5


Grubitzsch, S. (1999). Testtheorie Testpraxis. Psychologische Tests und 

Prüfverfahren im kritischen Überblick. Eschborn bei Frankfurt am Main: 

Verlag Dietmar Klotz. 

Güllich, R. (1992). Die computergestützte Postkorbübung MAILBOX’90 im 

Assessment Center. Eine Validierungsstudie. Unveröffentlichte 

Diplomarbeit, Katholische Universität Eichstätt, philosophischpädagogische 

Fakultät. 

Hartung, S. & Schneider, I. (1995): Entwicklung und Anwendung 

computersimulierter Szenarien. In: B. Strauß & M. Kleinmann (Hrsg.) 

Computersimulierte Szenarien in der Personalarbeit (S. 219-236). 

Göttingen: Hogrefe. 

Höft, S. (2003). Rezension der „BPM – Bonner Postkorb-Module“. Zeitschrift für 

Arbeits- und Organisationspsychologie, 47, 4, 104-108. Göttingen: 

Hogrefe. 

Höft, S. & Funke, U. (2006). Simulationsorientierte Verfahren der 

Personalauswahl. In H. Schuler (Hrsg.), Lehrbuch der 

Personalpsychologie (S. 145-187). Göttingen: Hogrefe. 

Holtmeier, S. (2008). KI.BOX Der elektronische Postkorb für Ihr Assessment 

Center. [Online]. Verfügbar unter HTTP: http://www.ki-bit.com 

Verzeichnis: web/content/view/8/10/ [08.07.2008]. 

Hösch, G. (1995). Evaluation eines computergestützten Planspiels. Dissertation 

Johannes Gutenberg-Universität Mainz, Fachbereich 12 

Hossiep, R. & Paschen, M. (1998). BIP: Bochumer Inventar zur 

berufsbezogenen Persönlichkeitsbeschreibung. Göttingen: Hogrefe. 

1 7 6


Hossiep, R., Paschen, M. & Mühlhaus, O. (2003). BIP: Bochumer Inventar zur 

berufsbezogenen Persönlichkeitsbeschreibung. Zweite, vollständig 

überarbeitete Auflage. Göttingen: Hogrefe. 

Hussy, W. & Jain, A. (2002). Experimentelle Hypothesenprüfung in der 

Psychologie. Göttingen: Hogrefe. 

Jäger, A. O., Süß, H. M. & Beauducel, A. (1997). Berliner Intelligenzstruktur- 

Test. Form 4. Göttingen: Hogrefe 

Jerusalem, R. (2003). Soziale Faktoren im Kontext eines Assessment Centers. 

Münster: LIT Verlag. 

Jeserich, W. (1981). Mitarbeiter auswählen und fördern: Assessment-Center- 

Verfahren. München: Hanser. 

Jeserich, W. (1995): Assessment-Center (AC). In: W. Sarges (Hrsg.) 

Management Diagnostik (S. 717-728). Göttingen: Hogrefe. 

Jung, P. (1995): Rollenspiele. In: W. Sarges (Hrsg.) Management Diagnostik (S. 

591-596). Göttingen: Hogrefe. 

Kersting, M. (2001). Zur Konstrukt- und Kriteriumsvalidität von 

Problemlöseszenarien anhand der Vorhersage von Vorgesetztenurteilen 

über die berufliche Bewährung. Diagnostica, 47, 67-76. 

Kersting, M. (2003). Augenscheinvalidität. In K. D. Kubinger und R. S. Jäger 

(Hrsg.), Schlüsselbegriffe der psychologischen Diagnostik (S. 54-55). 

Weinheim: Beltz, PVU. 

Klauer, K. J. (1987). Kriteriumsorientierte Tests. Göttingen: Hogrefe. 

1 7 7


Kleinmann, M. & Strauß, B. (1995): Softwareergonomische Voraussetzungen 

computersimulierter Szenarien. In: B. Strauß & M. Kleinmann (Hrsg.) 

Computersimulierte Szenarien in der Personalarbeit (S. 127-141). 


Krause, D. & Gebert, D. (2005). Die Entwicklung, Durchführung und Evaluation 

des Assessment Centers in der deutschsprachigen und U.S.- 

amerikanischen Wirtschaft. In K. Sünderhauf, S. Stumpf & S. Höft 

(Hrsg.), Assessment Center - von der Auftragsklärung bis zur 

Qualitätssicherung (S. 410-436). Lengerich: Pabst Science Publishers. 

Krause, D.E., Meyer zu Kniendorf, C. & Gebert, D. (2001). Das Assessment 

Center in der deutschsprachigen Wirtschaft. Personal - Zeitschrift für 

Human Resource Management, 53, 638-642. 

Kelbetz, G. & Schuler, H. (2002). Verbessert Vorerfahrung die Leistung im 

Assessment Center? Zeitschrift für Personalpsychologie, 1/2002, 4-18. 

Kluwe, R.H. (1995): Computergestützte Systemsimulationen. In: W. Sarges 

(Hrsg.) Management Diagnostik (S. 572-577). Göttingen: Hogrefe. 

Kubinger, K. D. (1993). Testtheoretische Probleme der Computerdiagnostik. 

Zeitschrift für Arbeits- und Organisationspsychologie, 37, 139-137. 

Kupka, R. (2005). Personalpolitische Rahmenbedingungen für die Einführung 

und Verankerung von Assessment Centern in Unternehmen. In K. 

Sünderhauf, S. Stumpf & S. Höft (Hrsg.), Assessment Center- Von der 

Auftragsklärung bis zur Qualitätssicherung (S. 19-34). Lengerich: Pabst 

Science Publishers. 

Lerner, J.S. & Tetlock, P.E. (1999). Accounting for the effects of accountability. 

Psychological Bulletin, 125(2), 255-275. 

1 7 8


Lienert, G. A. (1969). Testaufbau und Testanalyse. Weinheim: Beltz. 

Marggraf-Micheel, C., Höft, S. & Bonnist, H. (2004): Coaching statt faking - wie 

bereite ich Teilnehmer auf ihr Assessment Center vor? 6. Deutscher 

Assessment-Center-Kongress des Arbeitskreis Assessment Center e.V., 

Dresden, 18.-19. Nov. 2004. 

Marschner, G. (1981). Büro-Test, 2. ergänzte und erweiterte Auflage. 

Göttingen: Hogrefe 

Meyer, H. H. (1970). The validity of the in-basket as a measure of managerial 

performance. Personnel Psychology, 23, 297-307 

Musch, J. & Lieberei, W. (1997). Eine auswertungsobjektive Postkorbübung für 

Assessment Center. Berichte aus dem Psychologischen Institut der 

Universität Bonn, Band 23, Heft 1 

Musch, J., Rahn, B., Lieberei, W. (2001). Bonner Postkorb-Module (BPM): die 

Postkörbe CaterTrans, Chronos, Minos und AeroWings. Göttingen: 

Hogrefe. 

Naumann, J., Richter, T. & Groeben, N. (2002). Validierung des Inventars zur 

Computerbildung (INCOBI) anhand eines Vergleichs von 

Anwendungsexperten und Anwendungsnovizen. Zeitschrift für 

Pädagogische Psychologie, 15, 219-232. 

Neubauer, R. (2005). AC-Studie 2001: Was machen eigentlich die anderen 

Unternehmen im AC? In K. Sünderhauf, S. Stumpf & S. Höft (Hrsg.), 

Assessment Center- Von der Auftragsklärung bis zur Qualitätssicherung 

(S. 89-106). Lengerich: Pabst Science Publishers. 

1 7 9


Neubauer, R. & Volkmann, D. (1995). Beobachtungs- und 

Beurteilungsprozesse im Assessment Center. In Arbeitskreis 

Assessment Center e.V. (Hg.), Assessment-Center in der betrieblichen 

Praxis. Erfahrungen und Perspektiven (Reihe Assessment-Center, Bd. 1, 

S.83-107). 2., überarb. Aufl. Hamburg. 

Nienaber, C. (1997). Psychische Beanspruchung im Assessment Center. 

Dissertation, Westfälische Wilhelms-Universität Münster, Fachbereich 

Psychologie. Münster: LIT Verlag 

Obermann, C. (1994). Wer profitiert von Führungstrainings? Interindividuelle 

Determinanten des Lernerfolgs bei Führungstrainings. Unveröffentlichte 

Dissertation, Ruhrgebiet Universität Bochum, Fakultät für Psychologie. 

Obermann, C. (2006). Assessment Center: Entwicklung, Durchführung, Trends. 

Wiesbaden: Gabler. 

Paschen, M., Weidemann, A., Turck, D. & Stöwe, C. (2005). Assessment 

Center Professionell - Worauf es ankommt und wie Sie vorgehen. 


Pearson, M. M., Barnes, J. W. & Onken, M. H. (2006). Development of a 

Computerized In-Basket Exercise for the Classroom: A Sales 

Management Example. Journal of Marketing Education, 28, 227-236. 

Reiter, M. (1995): Gruppendiskussionen. In: W. Sarges (Hrsg.) Management 


Richter, T., Naumann, J. & Groeben, N. (2001). Das Inventar zur 

Computerbildung (INCOBI): Ein Instrument zur Erfassung von Computer 

Literacy und computerbezogenen Einstellungen bei Studierenden der 

Geistes- und Sozialwissenschaften. Psychologie in Erziehung und 

Unterricht, 48, 1-13. 

1 8 0


Riediger, M. & Rolfs, H. (1998). Instrumente der Arbeits- und 

Organisationspsychologie. Computergestützte Postkorbverfahren: 

Mailbox’90, PC-Office und PC-Postkorb „Seeblick“. Zeitschrift für Arbeitsund 

Organisationspsychologie, 42, 43-50. 

Roest, F., Scherzer, A., Urban, E., Gangl, H. & Brandstätter, C. (1989). 

MAILBOX’90. Ein computergestütztes Test- und Trainingsverfahren zur 

Personalentwicklung. Wien und Weinheim: Scicon und Beltz. 

Roest, F. & Horn, R. (1990). Mailbox’90: Computergestützte Diagnostik im 

Assessment Center. Diagnostica, 36 (2), 213-219. 

Sackett, P. R. & Dreher, G. F. (1982). Constructs and assessment center 

dimensions: Some troubling empirical findings. Journal of Applied 

Psychology, 67, 401-410 

Sarges, W. (1995): Interviews. In: W. Sarges (Hrsg.) Management Diagnostik 

(S. 475-489). Göttingen: Hogrefe. 

Sarges, W. (2000). Personal: Auswahl, Beurteilung und Entwicklung. In: 

J.Straub, A. Kochinka und H. Werbik (Hrsg.) Psychologie in der Praxis. 

Anwendung und Berufsfelder einer modernen Wissenschaft (S. 487- 

522). München: Deutscher Taschenbuchverlag. 

Sarges, W. & Wottawa, H. (2001) Handbuch wirtschaftspsychologischer 

Testverfahren. Lengerich: Pabst Science Publishers. 

Scharley & Partners. (1991). Seeblick/Lakeview computerized In-basket-test. 

Konstanz: Scharley & Partner GmbH. 

1 8 1


Scharley & Partner (2007). PC-Postkorb Seeblick. Ein effizientes 

Beurteilungsinstrument. [Online]. Verfügbar unter HTTP: 

www.scharley.com Verzeichnis: pc-postkorb/ Dateiname: 

PKS_16.04.08.pdf [06.06.2008]. 

Schippmann, J., Prien, E., Katz, J. (1990). Reliability and Validity of In-Basket 

performance measures. Personnel Psychology, 43 , 837-859 

Schmidt-Atzert, L. (2006). Verfahren zur Studierendenauswahl. Vortag 

anlässlich der Informationsveranstaltung der Deutschen Gesellschaft für 

Psychologie, Frankfurt/Main: Januar 2006, Berlin: Februar 2006. 

Schmidt, F. & Hunter, J. (1998). The validity and utility of selection methods in 

personnel psychology: Practical and theoretical implications of 85 years 

of research findings. Psychological Bulletin, Vol 124(2), 262-274. 

Schuler, H. (1987): Assessment-Center als Auswahl- und 

Entwicklungsinstrument. Ein Überblick. In H. Schuler & W. Stehle (Hrsg.): 

Assessment-Center als Methode der Personalentwicklung (S.1-35). 

Stuttgart: Verlag für Angewandte Psychologie. 

Schuler, H. (1996). Psychologische Personalauswahl: Einführung in die 

Berufseignungsdiagnostik. Göttingen: Hogrefe. 

Schuler, H., Funke, U., Moser, K., Donat, M. (1995). Personalauswahl in 

Forschung und Entwicklung. Göttingen: Hogrefe 

Schuler, H. & Moser, K. (1995). Geschichte der Managementdiagnostik. In: W. 

Sarges (Hrsg.) Management Diagnostik (S. 32-42). Göttingen: Hogrefe. 

Schuler, H. & Klingner, Y. (2005). AZUBI-BK: Arbeitsprobe zur 

berufsbezogenen Inteligenz - Büro- und kaufmännische Tätigkeiten. 


1 8 2


Sünderhauf, K., Stumpf, S. & Höft, S. (2005). Assessment Center - von der 

Auftragsklärung bis zur Qualitätssicherung. Lengerich: Pabst Science 

Publishers. 

Thornton, G. & Byham, W. (1982). Assessment centers and managerial 

performance. New York: Academic Press. 

Wandmacher, J. (1993). Software-Ergonomie. Berlin: de Gruyter. 

Weiss, M. (2006). Die Postkorb-Übung - ein Instrument des Assessment 

Centers unter der Lupe. Unveröffentlichte Diplomarbeit, Züricher 

Fachhochschule, Hochschule für Angewandte Psychologie 

Wernimont, P. F. & Campbell, J.P. (1968). Signs, samples, and criteria. Journal 

of Applied Psychologie, 52, 372 - 376 

Will, D. (2006). Evaluation eines computergestützten Tests zur 

Konzentrationsmessung. Unveröffentlichte Diplomarbeit, Universität zu 

Köln, Fakultät für Psychologie 

Wottawa, H. & Hossiep, R. (1997). Anwendungsfelder psychologischer 

Diagnostik. Göttingen: Hogrefe. 

1 8 3

Anhang 

9 Anhang 

A: Instruktion für die KI.BOX 

A.1: Teilnehmerunterlage der KI.BOX 

B: eingesetzte Fragebögen 

B.1: Instruktionsseite des Fragebogens 

B.2: Fragebogen Teil 1: BIP Subskala zur Gewissenhaftigkeit 

B.3: Fragebogen Teil 2: SUCA 

B.4: Fragebogen Teil 3: VECA 

B.5: Fragebogen Teil 4: Selbsteinschätzung 

B.6: Fragebogen Teil 5: Demographische Daten 

C: Statistik 

C.1: Demographische Verteilung der Stichprobe 

C.2: Deskriptive Statistik der KI.BOX-Ergebnisse 

C.3: Korrelationskoeffizienten der Prüfkriterien 

C.4: Korrelationskoeffizienten der Bearbeitungsgeschwindigkeiten 

D: Selbstständigkeitserklärung 

1 8 4



Teilnehmerunterlage 

Postkorb 

_______________________________________________________ 

1 8 5




Hintergrund 

Die Absolventenmesse „Career4U“ steht in sechs Wochen vor der Tür. Ab heute unterstützen 

Sie das Projektteam "Nachwuchs", das sich aus Ihrem Vorgesetzten Thomas Friedrichs und 

Ihrer Kollegin Alexandra Maier zusammensetzt. 

Es ist früh am Morgen. Sie haben gerade Ihren Computer eingeschaltet. Bevor Sie Ihren 

nächsten Termin wahrnehmen, müssen Sie noch Ihren Postkorb bearbeiten. Dieser besteht aus 

den folgenden vier Aufgabenbereichen: Ihrem Posteingang für E-Mails, verschiedenen Excel- 

Tabellen, Ihrem Kalender für die Messeplanung und einer Prioritätenliste für heute. 

Ziel dabei ist es, Ihren Postkorb innerhalb der vorgegebenen Zeit möglichst umfassend und 

korrekt zu bearbeiten. 

Nach der Durchsicht dieser Unterlage steht Ihnen zusätzlich eine zehnminütige 

„Aufwärmphase“ am Computer zur Verfügung, in der Sie sich mit der Bedienung des 

Postkorbs und den Erläuterungen zu den einzelnen Bereichen vertraut machen können. 

Anschließend haben sie für die Bearbeitung des Postkorbs exakt 60 Minuten Zeit. 

Aufgabe 

Ihre Aufgabe ist es, Ihren Postkorb zu bearbeiten. Er umfasst vier Aufgabenbereiche: 

1. Posteingang: 

In Ihrem Posteingang finden Sie bereits eine Vielzahl unterschiedlicher E-Mails. Es ist 

nicht auszuschließen, dass während der Bearbeitung der E-Mails noch weitere 

hinzukommen. Einige E-Mails sind rein informativer Natur, andere beinhalten konkrete 

Fragen oder Aufgabenstellungen. 

2. Excel (Tabellen): 

Bei der Bearbeitung Ihrer E-Mails müssen Sie zum Teil auf Tabellen (Excel) 

zurückgreifen, die wichtige Informationen für Sie beinhalten. Wenn das der Fall sein 

sollte, wird explizit auf die entsprechende Tabelle in der E-Mail hingewiesen. 

3. Kalender Messeplanung: 

Die beiden Messetage der Absolventenmesse Career4U müssen in Ihrem Kalender 

geplant werden. Tragen Sie bitte in den Kalender alle Termine ein, die Sie oder einer 

Ihrer Kollegen auf der Messe wahrnehmen müssen. 

4. Prioritäten für heute: 

In einer Prioritätenliste sollen Sie Ihre fünf wichtigsten ToDos für den heutigen Tag 

festlegen. 

Ziel 

• Sie haben für die Durchsicht dieser Informationen 10 Minuten Zeit. 

• Danach erfolgt eine zehnminütige Einarbeitungszeit am Computer. 

• Für die anschließende Bearbeitung des Postkorbs haben Sie 60 Minuten Zeit. 

1 8 6




Allgemeine Hinweise zur Bearbeitung des Postkorbs 

1. Bearbeiten Sie bitte alle Aufgabenbereiche, da alle gleichermaßen in die Auswertung 

einfließen. 

2. Gehen Sie bitte bei der Bearbeitung Ihrer Aufgaben nicht ausschließlich sequentiell vor, 

da Sie mitunter die benötigten Informationen an unterschiedlichen Stellen finden. 

3. Da sich in Ihrem Postkorb viele zu erledigende Aufgaben angesammelt haben, ist es 

durchaus möglich, dass Sie in der vorgegebenen Zeit (60 Minuten) nicht alle Aufgaben 

bearbeiten und lösen können. 

4. Klicken Sie während der Bearbeitungszeit mit der Maus alles das an, was Sie anklicken 

möchten! 

5. Nutzen Sie Ihre EDV-Kenntnisse bei der Bearbeitung Ihres Postkorbs! Sie können 

beispielsweise mit Hilfe der Maus in Ihrem Posteingang und in den Tabellen die 

Spaltenbreite verändern, Zeilen markieren oder sie so sortieren, dass Ihnen die 

gewählte Anordnung das Arbeiten erleichtert. 

6. Bedenken Sie, dass falsche Antworten in der Auswertung als Negativpunkte 

berücksichtigt werden. 

7. Sie können bei Bedarf einen Taschenrechner zur Hilfe nehmen. 

Einführung in die Bearbeitung des Postkorbs 

Nach dem Start des computergestützten Postkorbs erhalten Sie auf der Startseite (siehe 

Screenshot auf Seite 4 dieser Teilnehmerunterlage) zunächst einige Hinweise zur Bearbeitung 

des Postkorbs, die Sie auch in dieser Teilnehmerunterlage vermittelt bekommen. Ihnen werden 

noch einmal die Rahmenhandlung und Ihre Aufgaben bei der Bearbeitung des Postkorbs 

erläutert. 

Am unteren Bildschirmrand (oberhalb der Windows-Startzeile) ist eine Zeitleiste für Sie 

eingeblendet, die Ihnen in Form eines Balkens angibt, wie viel Zeit seit dem Programmstart 

bereits verstrichen ist. Eine genaue Zeitangabe erhalten Sie, wenn Sie mit der Maus auf die 

Zeitleiste zeigen. Ihnen stehen ab dem Programmstart 60 Minuten zur Verfügung, danach 

deaktiviert sich das Programm automatisch. 

Am linken Bildschirmrand befindet sich Ihre Menüleiste. Wenn Sie in dieser Leiste auf die 

einzelnen Menüpunkte klicken, gelangen Sie zu Ihren einzelnen Aufgaben. 

Nähere Informationen zur Bearbeitung der vier Aufgabenbereiche erhalten Sie, wenn Sie mit 

der Maus auf der Startseite im Abschnitt „Ihre Aufgabe“ auf die unter der Überschrift 

„Navigation“ stehenden Links „Erläuterung: Posteingang“, „Erläuterung: Excel“, „Erläuterung: 

Kalender Messeplanung“ sowie „Erläuterung: Prioritäten heute“ klicken. Über den Link „Zurück 

zur Startseite“ gelangen Sie jeweils zurück zur Startseite. 

1 8 7




Startseite 

Hier gelangen Sie zu 

Ihren Aufgaben! 

Hier erhalten Sie Erklärungen zu den 4 

Aufgabenbereichen (siehe folgende 

Screenshots)! 

Ihre Zeit-Leiste 

1 8 8




Erläuterungen zum „Posteingang“ 

1 8 9




Erläuterungen zu „Excel (Tabellen)“ 

1 9 0




Erläuterungen zum „Kalender Messeplanung“ 

1 9 1




Erläuterungen zu den „Prioritäten für heute“ 

1 9 2



Code: 

Liebe Untersuchungsteilnehmerin, lieber Untersuchungsteilnehmer, 

Noch einmal vielen Dank, dass Du an meiner Untersuchung „Career4U“ teilnimmst und mit 

Deinem Einsatz die Datenerhebung für meine Diplomarbeit unterstützt. 

Um die Anonymität Deiner Daten zu gewährleisten, trage bitte JETZT oben deinen 

persönlichen Code ein. Zur Erinnerung: 

1. Kästchen: Der dritte Buchstabe deines Vornamens (z.B. R für Christian) 

2. Kästchen: Der erste Buchstabe des Vornamens deiner Mutter (z.B. C für Carola) 

3. und 4. Kästchen: Der Tag deines Geburtstag (z.B. 0 und 9 für 09. März) 

5. Kästchen: Der letzte Buchstabe des Vornamens deines Vaters (z.B. Z für Heinz) 

In diesem Beispiel würde der Code also lauten: R C 0 9 Z 

Bitte erst weitermachen, wenn Du den Code eingetragen hast. 

Du wirst nun im Folgenden 5 kurze Fragebögen vorfinden. 

Bei der Beantwortung der Fragen gibt es keine richtigen oder falschen Antworten. Überlege 

deshalb nicht lange, sondern kreuze spontan das Kästchen an, welches Deine Einschätzung 

am besten ausdrückt. Bitte sei bei der Beantwortung des Fragebogens ganz offen und ehrlich, 

denn Deine persönliche Einschätzung ist gefragt. Natürlich bleiben alle deine Angaben anonym. 

Du kannst jetzt mit der Beantwortung des Fragebogens beginnen. Wenn Du fertig bist, 

vergewissere Dich bitte noch einmal, ob Du auch alle Fragen beantwortest hast. 

Anschließend gib dem Versuchsleiter bitte ein Zeichen, dass Du fertig bist. 

Vielen Dank für das Ausfüllen dieses Fragebogens. 

1 9 3



Fragebogen zur Sicherheit im Umgang mit Computern und Computeranwendungen 

(SUCA) 

Bei diesem Fragebogen geht es darum, wie sicher Sie selbst Ihren Umgang mit dem Computer 

und verschiedenen Computeranwendungen einschätzen. Auf dieser und der folgenden Seite 

sind elf Feststellungen aufgeführt, die sich auf Ihren Umgang mit dem Computer beziehen. Wir 

möchten Sie bitten, jeweils anzugeben, in welchem Ausmaß die Aussagen auf Sie zutreffen. 

Hier ein Beispiel: 

trifft zu 

trifft 

Neutral 

trifft 

trifft 

keine Ein- 

eher zu 

eher 

nicht 

schätzung 

nicht zu 

zu 

Bei der Arbeit am Computer fühle 

ich mich so sicher wie beim 

täglichen Zähneputzen. 

Wenn die Aussage auf Sie zutrifft, kreuzen Sie das Feld bei "trifft zu" an, wenn die Aussage 

tendenziell auf Sie zutrifft, kreuzen Sie das Feld bei "trifft eher zu an", wenn die Aussage Ihrer 

Einschätzung nach auf Sie eher nicht zutrifft, kreuzen Sie das Feld bei "trifft eher nicht zu" an 

usw. Wenn Sie keine Einschätzung abgeben können oder wollen, haben Sie die Möglichkeit, 

das Feld in der Spalte "keine Einschätzung" zu markieren. Beachten Sie bitte, daß es hier keine 

'richtigen' oder 'falschen' Antworten gibt. Versuchen Sie, spontan zu antworten, jedoch nicht, 

ohne die jeweilige Aussage gründlich gelesen zu haben. 

1 9 8


Bitte bearbeiten Sie alle elf Aussagen. 

trifft zu 

trifft 

Neutral 

trifft 

trifft 

keine 

eher zu 

eher 

nicht zu 

Einschät 

nicht zu 

zung 

1. Im Umgang mit Computern fühle ich 

mich sicher. 

2. Die Verwendung unbekannter 

Software-Programme kann ich 

schnell erlernen. 

3. Bei der Arbeit mit dem Computer 

lasse ich mich durch auftretende 

(computerbedingte) Schwierigkeiten 

leicht frustrieren. 

4. Im Allgemeinen bereitet mir die 

Arbeit mit Computern wenige 

Probleme. 

5. Bei Problemen mit einem 

Computerprogramm würde ich eher 

das Handbuch als die Online-Hilfe 

heranziehen. 

6. Bei auftretenden 

Computerproblemen frage ich 

meistens andere Leute. 

7. Ich schätze mich so ein, daß ich von 

der Informationssuche im Internet 

profitieren kann. 

8. Mit der Computer-Maus 

umzugehen, bereitet mir manchmal 

Schwierigkeiten. 

9. Bei Literaturrecherchen würde ich 

elektronische Datenbanken 

Bibliographien in Buchform in der 

Regel den Vorzug geben. 

10. Mit den Fehlermeldungen meines 

Computers kann ich in der Regel 

etwas anfangen. 

11. Das Formatieren eines längeren 

Textdokuments ist für mich kein 

Problem. 

Teil 2 des Fragebogens ist damit beendet. 

Bitte umblättern, um mit Teil 3 fortzufahren. 

1 9 9



Fragebogen zur Vertrautheit mit verschiedenen Computeranwendungen (VECA) 

Bei diesem Fragebogen geht es um Ihre Vertrautheit mit verschiedenen Computeranwendungen. Sie 

sollen sich selbst daraufhin einschätzen, wie vertraut Sie im Umgang mit einzelnen 

Computeranwendungen sind. Im Folgenden sind einige Computeranwendungen aufgelistet. Wir 

möchten Sie bitten, jeweils zu beurteilen, ob Sie meinen, im Umgang mit den jeweiligen Anwendungen 

im Vergleich zu anderen Studentinnen und Studenten "weit überdurchschnittlich", 

"überdurchschnittlich", "durchschnittlich", "unterdurchschnittlich" oder "weit 

unterdurchschnittlich" vertraut zu sein. 

Ich bin vertraut im Umgang mit 

weit über- 

über- 

durch- 

unter- 

weit 

durch- 

durch- 

schnitt- 

durch- 

unter- 

 

schnittlich 

schnitt- 

lich 

lich 

schnitt- 

lich 

durch- 

schnittlich 

1. Computern im allgemeinen 

2. Textverarbeitung 

3. Multimedia-Anwendungen 

4. Programmiersprachen 

5. Tabellenkalkulation 

6. Statistik-Programmen 

7. E-Mail 

8. Datenbanken 

9. Internet/WWW 

10. Computerspielen 

11. Graphikprogrammen 

12. Terminplanungsprogrammen 


Bitte umblättern, um mit Teil 4 fortzufahren. 

2 0 0



Selbsteinschätzung: 

1. Im Vergleich zu anderen Studierenden schätze ich meine analytischen Fähigkeit ein als: 

 

unterdurchschnittlich 

überdurchschnittlich 

2. Im Vergleich zu anderen Studierenden schätze ich meine organisatorisch-konzeptionellen 

Fähigkeit ein als: 

 

unterdurchschnittlich 

überdurchschnittlich 

3. Ich habe Erfahrung mit kaufmännisch Tätigkeiten und / oder Büroarbeit. 

 

trifft gar nicht zu 

trifft vollkommen zu 

4. Ich habe theoretisches über Assessment Center. 

 



5. Ich habe schon an Assessment Centern teilgenommen. 

 



6. Ich habe theoretisches Wissen über Postkorb-Übungen. 

 



7. Ich habe schon einmal eine Postkorb-Übung durchlaufen. 

 




Bitte umblättern, um mit Teil 5 fortzufahren 

2 0 1



Demographische Daten: 

Geschlecht: weiblich männlich 

Alter: ______ 

Studienfach:___________________________ 

Semester: _______ 

Abitur-Durchschnitt: ___________ 

Letzte Schulnote in Deutsch: ___________ 

Letzte Schulnote in Mathematik: ___________ 

Deutschkenntnisse: 

 

 

 

Deutsch als 1. Muttersprache 

Deutsch als 2. Muttersprache 

Deutsch als Fremdsprache 

Berufserfahrung: 

 

 

 

 

keine Berufserfahrung 

abgebrochene Ausbildung als: 

_________________________ 

abgeschlossene Ausbildung als: 

_________________________ 

abgeschlossenes Studium: 

_________________________ 

Ja, ich möchte ein anonymes schriftliches Feedback über meine Ergebnisse in dieser 

Untersuchung erhalten. 

Vielen Dank für das Ausfüllen dieses Fragebogens! 

Die Untersuchung ist nun beendet. 

Gib dem Untersuchungsleiter bitte ein Zeichen, dass Du fertig bist. 

2 0 2



Geschlecht 

Häufigkeit 

Prozent 

Kumulierte 

Prozente 

weiblich 52 75,4 75,4 

männlich 17 24,6 100,0 

Gesamt 69 100,0 

Alter 

Häufigkeit 

Prozent 

Kumulierte 

Prozente 

18 1 1,4 1,4 

19 8 11,6 13,0 

20 11 15,9 29,0 

21 2 2,9 31,9 

22 5 7,2 39,1 

23 7 10,1 49,3 

24 6 8,7 58,0 

25 7 10,1 68,1 

26 1 1,4 69,6 

28 3 4,3 73,9 

29 5 7,2 81,2 

31 1 1,4 82,6 

32 2 2,9 85,5 

33 1 1,4 87,0 

36 2 2,9 89,9 

40 3 4,3 94,2 

41 1 1,4 95,7 

42 1 1,4 97,1 

44 1 1,4 98,6 

49 1 1,4 100,0 

Gesamt 69 100,0 

2 0 3


Studienfach 

Häufigkeit 

Prozent 

Kumulierte 

Prozente 

Psychologie 62 89,9 89,9 

Wirtschaftspsychologie 1 1,4 91,3 

BWL 3 4,3 95,7 

Soziologie 2 2,9 98,6 

Landschaftsarchitektur 1 1,4 100,0 

Gesamt 69 100,0 

Semesteranzahl 

Häufigkeit 

Prozent 

Kumulierte 

Prozente 

1 32 46,4 46,4 

3 21 30,4 76,8 

5 7 10,1 87,0 

6 1 1,4 88,4 

7 1 1,4 89,9 

8 1 1,4 91,3 

9 3 4,3 95,7 

10 1 1,4 97,1 

11 1 1,4 98,6 

14 1 1,4 100,0 

Gesamt 69 100,0 

Berufserfahrung 

Häufigkeit 

Prozent 

Kumulierte 

Prozente 

keine Berufsausbildung 46 66,7 66,7 

abgebrochene Ausbildung 2 2,9 69,6 

abgeschlossene Ausbildung 11 15,9 85,5 

abgeschlossenes Studium 9 13,0 98,6 

keine Angaben 1 1,4 100,0 

Gesamt 69 100,0 

2 0 4


wenn Berufserfahrung, dann abgebrochene Ausbildung im Bereich: 

Häufigkeit 

Prozent 

Kumulierte 

Prozente 

Naturwissenschaft 1 1,4 1,4 

Technik 1 1,4 2,9 


Gesamt 69 100,0 

wenn Berufserfahrung, dann abgeschlossene Ausbildung im Bereich: 

Häufigkeit 

Prozent 

Kumulierte 

Prozente 

Technik 1 1,4 1,4 

kaufmännisch 8 11,6 13,0 

Sozialwesen 3 4,3 17,4 


Gesamt 69 100,0 

wenn Berufserfahrung, dann abgeschlossenes Studium im Bereich: 

Häufigkeit 

Prozent 

Kumulierte 

Prozente 

Technik 1 1,4 1,4 

kaufmännisch 1 1,4 2,9 

Geisteswissenschaft 7 10,1 13,0 


Gesamt 69 100,0 

2 0 5


„Ich habe Erfahrung mit kaufmännisch Tätigkeiten und / oder Büroarbeit.“ 

(1 = trifft nicht zu, 6 = trifft vollkommen zu) 

Häufigkeit 

Prozent 

Kumulierte 

Prozente 

1 23 33,3 33,3 

2 16 23,2 56,5 

3 3 4,3 60,9 

4 10 14,5 75,4 

5 11 15,9 91,3 

6 6 8,7 100,0 

Gesamt 69 100,0 

Abitur Durchschnitt 

Häufigkeit 

Prozent 

Kumulierte 

Prozente 

1,0 3 4,3 4,3 

1,1 5 7,2 11,6 

1,2 2 2,9 14,5 

1,3 5 7,2 21,7 

1,4 1 1,4 23,2 

1,5 9 13,0 36,2 

1,6 4 5,8 42,0 

1,7 6 8,7 50,7 

1,8 2 2,9 53,6 

1,9 1 1,4 55,1 

2,0 4 5,8 60,9 

2,1 3 4,3 65,2 

2,2 3 4,3 69,6 

2,3 2 2,9 72,5 

2,4 1 1,4 73,9 

2,5 3 4,3 78,3 

2,6 3 4,3 82,6 

2,7 5 7,2 89,9 

2,8 2 2,9 92,8 

2,9 1 1,4 94,2 

3,0 2 2,9 97,1 

3,2 1 1,4 98,6 

3,5 1 1,4 100,0 

Gesamt 69 100,0 

2 0 6


letzte Schulnote in Deutsch (in Punkten) 

Häufigkeit 

Prozent 

Kumulierte 

Prozente 

2 1 1,4 1,4 

5 1 1,4 2,9 

7 3 4,3 7,2 

8 7 10,1 17,4 

9 1 1,4 18,8 

10 3 4,3 23,2 

11 17 24,6 47,8 

12 4 5,8 53,6 

13 8 11,6 65,2 

14 16 23,2 88,4 

15 8 11,6 100,0 

Gesamt 69 100,0 

letzte Schulnote in Mathematik (in Punkten) 

Häufigkeit 

Prozent 

Kumulierte 

Prozente 

1 3 4,3 4,3 

2 4 5,8 10,1 

5 7 10,1 20,3 

7 3 4,3 24,6 

8 12 17,4 42,0 

9 1 1,4 43,5 

10 1 1,4 44,9 

11 13 18,8 63,8 

12 4 5,8 69,6 

13 10 14,5 84,1 

14 7 10,1 94,2 

15 4 5,8 100,0 

Gesamt 69 100,0 

2 0 7


Deutschkenntnisse 

Häufigkeit 

Prozent 

Kumulierte 

Prozente 

Deutsch als 1. Muttersprache 56 81,2 81,2 

Deutsch als 2. Muttersprache 4 5,8 87,0 

Deutsch als Fremdsprache 9 13,0 100,0 

Gesamt 69 100,0 

2 0 8



Deskriptive Statistik 

N Minimum Maximum Mittelwert 

Standard- 

abweichung 


Mengenleistung 69 ,0 17,0 8,710 3,6866 


erreichte Punkte 69 -3,0 9,0 2,710 2,4441 


Mengenleistung 69 15,0 42,0 25,290 7,2398 


erreichte Punkte 69 -31,0 13,0 -1,674 8,1411 

bearbeitete Items in den Analytischen Fähigkeiten (KI.BOX) 

Häufigkeit Prozent Kumulierte Prozente 

0 1 1,4 1,4 

3 1 1,4 2,9 

4 4 5,8 8,7 

5 9 13,0 21,7 

6 8 11,6 33,3 

7 9 13,0 46,4 

8 4 5,8 52,2 

9 6 8,7 60,9 

10 4 5,8 66,7 

11 7 10,1 76,8 

12 4 5,8 82,6 

13 1 1,4 84,1 

14 7 10,1 94,2 

15 1 1,4 95,7 

16 2 2,9 98,6 

17 1 1,4 100,0 

Gesamt 69 100,0 

2 0 9


erreichte Punkte in den Analytischen Fähigkeiten (KI.BOX) 


-3 1 1,4 1,4 

-2 2 2,9 4,3 

-1 4 5,8 10,1 

0 4 5,8 15,9 

1 10 14,5 30,4 

2 11 15,9 46,4 

3 14 20,3 66,7 

4 6 8,7 75,4 

5 9 13,0 88,4 

6 5 7,2 95,7 

7 1 1,4 97,1 

9 2 2,9 100,0 

Gesamt 69 100,0 

bearbeitete Items in den Organisatorisch-konzeptionellen Fähigkeiten (KI.BOX) 


15 4 5,8 5,8 

16 1 1,4 7,2 

17 2 2,9 10,1 

18 7 10,1 20,3 

19 2 2,9 23,2 

20 5 7,2 30,4 

21 5 7,2 37,7 

22 3 4,3 42,0 

23 4 5,8 47,8 

24 6 8,7 56,5 

25 1 1,4 58,0 

26 3 4,3 62,3 

27 3 4,3 66,7 

29 4 5,8 72,5 

30 3 4,3 76,8 

31 3 4,3 81,2 

32 2 2,9 84,1 

34 2 2,9 87,0 

35 2 2,9 89,9 

36 1 1,4 91,3 

39 1 1,4 92,8 

40 3 4,3 97,1 

42 2 2,9 100,0 

Gesamt 69 100,0 

2 1 0


erreichte Punkte in den Organisatorisch-konzeptionellen Fähigkeiten (KI.BOX) 


-31 1 1,4 1,4 

-19 1 1,4 2,9 

-18,5 1 1,4 4,3 

-18 1 1,4 5,8 

-16 1 1,4 7,2 

-13 1 1,4 8,7 

-11 2 2,9 11,6 

-10 1 1,4 13,0 

-9,5 1 1,4 14,5 

-9 2 2,9 17,4 

-8,5 2 2,9 20,3 

-8 1 1,4 21,7 

-7 1 1,4 23,2 

-6,5 1 1,4 24,6 

-6 1 1,4 26,1 

-5,5 1 1,4 27,5 

-5 1 1,4 29,0 

-4 3 4,3 33,3 

-3,5 2 2,9 36,2 

-3 2 2,9 39,1 

-2 4 5,8 44,9 

-1,5 1 1,4 46,4 

-1 4 5,8 52,2 

-0,5 1 1,4 53,6 

0 2 2,9 56,5 

0,5 3 4,3 60,9 

1 2 2,9 63,8 

2 3 4,3 68,1 

3 4 5,8 73,9 

4 5 7,2 81,2 

5 2 2,9 84,1 

6 3 4,3 88,4 

8 1 1,4 89,9 

9 1 1,4 91,3 

10 2 2,9 94,2 

11 2 2,9 97,1 

12 1 1,4 98,6 

13 1 1,4 100,0 

Gesamt 69 100,0 

2 1 1



Analytische 

Fähigkeiten 

(erreichte 

Punkte) 


Fähigkeiten 

(erreichte 

Punkte) 

Abitur Durchschnitt Korrelation nach Pearson -.08 -.04 


N 69 69 

letzte Schulnote in Deutsch 

(in Punkten) Korrelation nach Pearson -.05 -.05 

Signifikanz (2-seitig) .66 ,69 

N 69 69 

letzte Schulnote in Mathematik 

(in Punkten) Korrelation nach Pearson .31** .16 



eigenen analytischen 

Fähigkeiten 


eigenen orga.-konzept. 

Fähigkeiten 

N 69 69 

Korrelation nach Pearson .29* .30* 


N 69 69 

Korrelation nach Pearson -.05 .14 


N 69 69 

AZUBI-BK Gesamttestwert Korrelation nach Pearson .48** .52** 


N 69 69 

AZUBI-BK Grundmodul Korrelation nach Pearson .44** .51** 


N 69 69 

AZUBI-BK Postmodul Korrelation nach Pearson .52** .53** 


N 69 69 

BIP Gewissenhaftigkeit Korrelation nach Pearson .10 .29* 


N 69 69 

SUCA Korrelation nach Pearson .06 .06 


N 69 69 

2 1 2


VECA Korrelation nach Pearson .06 -.08 


N 69 69 

Vertrautheit mit 

Textverarbeitung (VECA) Korrelation nach Pearson -.09 -.06 


N 69 69 

Vertrautheit mit E-Mail (VECA) Korrelation nach Pearson -.12 -.23 


N 69 69 

Vertrautheit mit Terminplanungsprogrammen 

(VECA) Korrelation nach Pearson .04 .08 


N 69 69 

Alter Korrelation nach Pearson -.30** -.28* 


N 69 69 

Semesteranzahl Korrelation nach Pearson -.04 -.05 


N 69 69 

theoretische Vorerfahrung mit 

Assessment Center Korrelation nach Pearson .25* .27* 


N 69 69 

schon teilgenommen an 

Assessment Centern Korrelation nach Pearson .11 .07 


N 69 69 

theoretische Vorerfahrung mit 

Postkorb-Übungen Korrelation nach Pearson -.00 .29* 


N 69 69 

schon Postkorb-Übungen 

durchlaufen Korrelation nach Pearson .06 .23 


N 69 69 



2 1 3



AZUBI-BK 

durchschnittliche 


sprachgebundene 

Bearbeitungszeit in der AZUBI-BK 

Bearbeitungsgeschwindigkeit beim 

Bearbeiten von Mehrfachkategorien 

in der AZUBI-BK 

Bearbeitungsgeschwindigkeit beim 

Prüfen und Vergleichen von Details 

in der AZUBI-BK 

Bearbeitungsgeschwindigkeit im 

Umgang mit Tabellen in der 

AZUBI-BK 

Summe der 

bearbeitete 

n Items in 

der KI.BOX 

bearbeitete 

Items in den 

Analytische 

Fähigkeiten 

(KI.BOX) 

bearbeitete 

Items in den 

Orga.- 

konzept. 

Fähigkeiten 

(KI.BOX) 

Korrelation 

nach Pearson .19 .04 .23 

Signifikanz 

(2-seitig) 

.11 .77 .06 

N 69 69 69 

Korrelation 

nach Pearson 

.20 .06 .22 

Signifikanz 

(2-seitig) 

.10 .62 .07 

N 69 69 69 

Korrelation 

nach Pearson .18 .09 .19 

Signifikanz 

(2-seitig) 

.13 .45 .13 

N 69 69 69 

Korrelation 

nach Pearson -.05 .00 -.06 

Signifikanz 

(2-seitig) 

.71 .97 .63 

N 69 69 69 

Korrelation 

nach Pearson .24* -.02 .32** 

Signifikanz 

(2-seitig) 

.05 .87 .01 

N 69 69 69 



2 1 4



Ich versichere hiermit, dass ich die vorliegende Arbeit mit dem Titel 

„Der computergestützte Postkorb KI.BOX - eine Validierungsstudie.“ 

selbstständig verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel 

benutzt habe. Die Stellen, die anderen Werken im Wortlaut oder dem Sinn nach 

entnommen sind, wurden durch Quellenangaben im Text kenntlich gemacht. 

Köln, den ………………………………… 

……………………………………………. 

Christian Srbeny 

2 1 5

Diplomarbeit Christian Srbeny - EDV-Postkorb

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?