Diplomarbeit Christian Srbeny - EDV-Postkorb
Diplomarbeit Christian Srbeny - EDV-Postkorb
Diplomarbeit Christian Srbeny - EDV-Postkorb
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Der computergestützte <strong>Postkorb</strong> KI.BOX<br />
- eine Validierungsstudie.<br />
Als <strong>Diplomarbeit</strong> vorgelegt dem Vorsitzenden des Prüfungsausschusses<br />
für die Diplomprüfung im Fach Psychologie<br />
an der Universität zu Köln<br />
von<br />
<strong>Christian</strong> <strong>Srbeny</strong><br />
angefertigt bei Dr. W. Follmann<br />
Köln, November 2008
Danksagung<br />
An dieser Stelle möchte ich mich ganz herzlich bei all jenen bedanken, die das<br />
Entstehen dieser Arbeit unterstützt und ermöglicht haben.<br />
Ganz besonders danken möchte ich zunächst meinem Betreuer an der Universität zu<br />
Köln, Dr. Wilfried Follmann. Er gab mir stets wertvolle Rückmeldungen zu meiner<br />
Arbeit, stand mir bei aufkommenden Problemen schnell und hilfreich zur Seite und<br />
gewährte mir dabei den gewünschten Freiraum, den ich aufgrund anderer neben<br />
dieser Arbeit laufender Projekte benötigt habe. Eine solche Betreuung ist sicherlich<br />
nicht selbstverständlich.<br />
Weiterhin großen Dank möchte ich an die kibit GmbH und das Kölner Institut für<br />
Managementberatung (KIM) richten, die mich so freundlich in ihr Team aufgenommen<br />
haben und ohne die die Realisierung dieser Arbeit nicht möglich gewesen wäre. Hier<br />
ist insbesondere Stephan Holtmeier zu nennen, der mir die KI.BOX sowie neueste<br />
Technik für meine Untersuchung zur Verfügung stellte, sich besonders in der<br />
Konzeptionsphase viel Zeit für mein Projekt nahm, mit mir an Publikationen für die<br />
Fachpresse schrieb und mich bei theoretischen und methodischen Fragestellungen<br />
immer voll und ganz unterstützte.<br />
Ebenso danke ich Prof. Dr. Stephan und dem Lehrstuhl für Diagnostik und<br />
Intervention der Universität zu Köln für die Übernahme der Lizenzgebühren für die<br />
Testauswertung sowie die Bereitstellung von Laborräumen. Dabei gilt mein Dank<br />
insbesondere Joachim Radt für seine freundliche Unterstützung und seine Fähigkeit,<br />
jede Hürde mit einem Lächeln aus der Welt zu schaffen.<br />
Ein großes Dankeschön geht außerdem raus an meine Freunde, die nicht nur bei der<br />
Korrektur dieser Arbeit geholfen haben, sondern auch für physischen und psychischen<br />
Ausgleich sorgten, wenn meine Motivation nachließ. Besonders hervorheben möchte<br />
ich dabei Sonja Cremer für fachliche und konzeptionelle Diskussionen und Franziska<br />
Brandt für ihren emotionalen Beistand.<br />
Nicht zuletzt möchte ich ganz besonders meiner Mutter dafür danken, dass sie an<br />
mich glaubt und mich stets dabei unterstützt, meine Ziele im Studium wie im Leben zu<br />
erreichen.<br />
Vielen Dank!
Inhaltsverzeichnis<br />
1 Einleitung ....................................................................................................8<br />
2 Theoretischer Hintergrund ......................................................................11<br />
2.1 Testtheorien im Überblick .................................................................................11<br />
2.1.1 Klassische Testtheorie .............................................................................11<br />
2.1.1.1 Objektivität ...............................................................................13<br />
2.1.1.2 Reliabilität.................................................................................14<br />
2.1.1.3 Validität ....................................................................................15<br />
2.1.1.4 Nebengütekriterien ...................................................................18<br />
2.1.2 Kritik an der klassischen Testtheorie ........................................................19<br />
2.1.3 Kriteriumsorientierten Leistungsmessung .................................................22<br />
2.2 Das Assessment Center als eignungsdiagnostisches Instrument.................26<br />
2.2.1 Definition des Assessment Centers..........................................................26<br />
2.2.2 Ablauf eines Assessment Centers............................................................28<br />
2.2.3 Zentrale Komponenten des Assessment Centers.....................................29<br />
2.2.3.1 Anforderungsanalyse ...............................................................29<br />
2.2.3.2 Simulation ................................................................................30<br />
2.2.3.3 Methodenvielfalt .......................................................................31<br />
2.2.3.4 Mehrfachbeurteilungen.............................................................32<br />
2.2.3.5 Transparenz.............................................................................33<br />
2.2.4 Bedeutung von Reihenfolgeeffekten im Assessment Center ....................34<br />
2.2.5 Methodenüberblick ...................................................................................36<br />
2.2.5.1 Interview...................................................................................36<br />
2.2.5.2 Rollenspiel................................................................................37<br />
2.2.5.3 Gruppendiskussion...................................................................37<br />
2.2.5.4 Präsentation .............................................................................39<br />
2.2.5.5 Psychologische Testverfahren..................................................40<br />
2.2.5.6 Planspiele.................................................................................42<br />
2.2.5.7 Fallstudien................................................................................43<br />
2.2.5.8 Postkörbe.................................................................................45<br />
2.3 Der klassische <strong>Postkorb</strong>....................................................................................46<br />
2.3.1 Was ist eine <strong>Postkorb</strong>-Übung?..............................................................46<br />
2.3.2 Durchführung .........................................................................................47<br />
2.3.3 Auswertung ............................................................................................49<br />
2.3.4 Gemessene Kriterien..............................................................................51<br />
2.3.5 Empirische Ergebnisse..........................................................................52<br />
2.3.5.1 Demographische Daten............................................................52<br />
2.3.5.2 Objektivität ...............................................................................53<br />
2.3.5.3 Reliabilität.................................................................................54<br />
2.3.5.4 Validität ....................................................................................54<br />
2.3.5.5 Zusammenfassung...................................................................56<br />
2.3.6 Kritische Betrachtung ............................................................................57
2.4 Der computergestützte <strong>Postkorb</strong>......................................................................60<br />
2.4.1 Was ist ein computergestützter <strong>Postkorb</strong>? ..........................................60<br />
2.4.1.1 Vorteile.....................................................................................61<br />
2.4.1.2 Nachteile ..................................................................................64<br />
2.4.2 Interaktion von Mensch und Computer ................................................65<br />
2.4.3 Verfahren im Überblick ..........................................................................67<br />
2.4.3.1 Mailbox’90 ................................................................................68<br />
2.4.3.2 PC-Office..................................................................................72<br />
2.4.3.3 PC-<strong>Postkorb</strong> "Seeblick“ ............................................................75<br />
2.4.3.4 Zusammenfassung...................................................................79<br />
3 Der computergestützte <strong>Postkorb</strong> KI.BOX...............................................81<br />
3.1 Beschreibung des Verfahrens...........................................................................81<br />
3.2 Instruktion ..........................................................................................................82<br />
3.3 Durchführung .....................................................................................................84<br />
3.4 Erfasste Kriterien ...............................................................................................89<br />
3.5 Auswertung ........................................................................................................89<br />
4 Fragestellung und Hypothesen...............................................................93<br />
4.1 Hypothesen zur Validitätsprüfung ....................................................................93<br />
4.2 Hypothesen zum Zusammenhang von Computererfahrung und<br />
Leistung in der KI.BOX ......................................................................................98<br />
4.3 Hypothese zur Wirkung von Reihenfolgeeffekten .........................................100<br />
4.4 Hypothesen zum Zusammenhang der demographischen Daten und<br />
Leistung in der KI.BOX ....................................................................................101<br />
5 Methodik..................................................................................................104<br />
5.1 Stichprobe ........................................................................................................104<br />
5.2 Übersicht über die verwendeten Verfahren und Prüfkriterien ......................105<br />
5.2.1 AZUBI-BK...............................................................................................106<br />
5.2.2 BIP .........................................................................................................107<br />
5.2.3 SUCA / VECA.........................................................................................108<br />
5.2.4 Abiturnote und letzte Schulnoten in Deutsch und Mathematik ................109<br />
5.2.5 Selbsteinschätzung und Vorerfahrung....................................................110<br />
5.2.6 Demographischer Fragebogen ...............................................................111<br />
5.3 Durchführung der Untersuchung....................................................................112<br />
5.4 Zusammenfassung ..........................................................................................114<br />
6 Ergebnisse ..............................................................................................115<br />
6.1 Deskriptive Statistik.........................................................................................115<br />
6.2 Tests der Hypothesen zur Validitätsprüfung .................................................118<br />
6.2.1 Zusammenfassung...............................................................................127<br />
6.3 Tests der Hypothesen zum Zusammenhang von Computererfahrung<br />
und Leistung in der KI.BOX.............................................................................128<br />
6.3.1 Zusammenfassung...............................................................................134
6.4 Test der Hypothese zur Wirkung von Reihenfolgeeffekten...........................134<br />
6.4.1 Zusammenfassung...............................................................................137<br />
6.5 Test der Hypothesen zum Zusammenhang von demographischen<br />
Daten und Leistung in der KI.BOX..................................................................137<br />
6.5.1 Zusammenfassung...............................................................................146<br />
7 Diskussion ..............................................................................................147<br />
7.1 Gütekriterien der KI.BOX.................................................................................147<br />
7.1.1 Objektivität............................................................................................148<br />
7.1.2 Reliabilität .............................................................................................150<br />
7.1.3 Validität .................................................................................................150<br />
7.1.3.1 Äußere Validität......................................................................151<br />
7.1.3.2 Innere Validität .......................................................................155<br />
7.1.4 Nebengütekriterien...............................................................................157<br />
7.2 Zusammenhang von Computererfahrung und Leistung in der KI.BOX .......158<br />
7.3 Auswirkung von Reihefolgeeffekten...............................................................161<br />
7.4 Einfluss der demographischen Daten ............................................................162<br />
7.5 Fazit und Ausblick ...........................................................................................167<br />
8 Literaturverzeichnis ...............................................................................173<br />
9 Anhang ....................................................................................................184
Abbildungsverzeichnis<br />
Abbildung 1: Display des Schreibtisches der Mailbox'90 .............................................68<br />
Abbildung 2: Desktop des PC-<strong>Postkorb</strong>es „Seeblick“. .................................................76<br />
Abbildung 3: Startseite der KI.BOX..............................................................................82<br />
Abbildung 4: Erläuterungsseite zum Posteingang der KI.BOX.....................................83<br />
Abbildung 5: Posteingang der KI.BOX.........................................................................85<br />
Abbildung 6: Excel-Funktion der KI.BOX .....................................................................86<br />
Abbildung 7: Kalender der KI.BOX ..............................................................................87<br />
Abbildung 8: Prioritätenliste der KI.BOX ......................................................................88<br />
Abbildung 9: automatisch generierter Ergebnisbericht des KI.BOX Reporters.............90<br />
Abbildung 10: Auswertungstabelle des KI.BOX Reporters...........................................91<br />
Abbildung 11: Darstellung der Rohwerte im KI.BOX-Reporter.....................................92<br />
Abbildung 12: Ablauf der Untersuchung. ...................................................................113<br />
Abbildung 13: Verteilung der Häufigkeiten zu den erzielten Punkten bzgl.<br />
Analytischer Fähigkeiten. ..........................................................................................117<br />
Abbildung 14: Verteilung der Häufigkeiten zu den erzielten Punkten bzgl.<br />
Organisatorisch-konzeptioneller Fähigkeiten. ............................................................118<br />
Abbildung 15: Zusammenhang von Alter und Punktzahlen in der KI.BOX. ................163
Tabellenverzeichnis<br />
Tabelle 1: Zuordnung der häufigsten AC-Übungen zu einer Auswahl möglicher<br />
Beurteilungskriterien....................................................................................................32<br />
Tabelle 2: Typologie von Fallstudien ...........................................................................44<br />
Tabelle 3: Erfassbare Kriterien durch <strong>Postkorb</strong>-Übungen............................................51<br />
Tabelle 4: Ergebnisse in der KI.BOX .........................................................................116<br />
Tabelle 5: Korrelationen von Abiturnote und KI.BOX-Ergebnissen ............................119<br />
Tabelle 6: Korrelationen der letzten Schulnote in Mathematik und KI.BOX-<br />
Ergebnissen ..............................................................................................................120<br />
Tabelle 7: Korrelationen der letzten Schulnote in Mathematik und KI.BOX-<br />
Ergebnissen im Kriterium Analytische Fähigkeiten ....................................................120<br />
Tabelle 8: Korrelationen von Selbsteinschätzungen der eigenen analytischen<br />
Fähigkeiten und KI.BOX-Ergebnissen im Kriterium Analytische Fähigkeiten .............121<br />
Tabelle 9: Korrelationen von Selbsteinschätzungen der eigenen organisatorischkonzeptionellen<br />
Fähigkeiten und KI.BOX-Ergebnissen im Kriterium<br />
Organisatorisch-konzeptionelle Fähigkeiten ..............................................................122<br />
Tabelle 10: Korrelationen des Gesamttestwertes der AZUBI-BK und KI.BOX-<br />
Ergebnissen ..............................................................................................................123<br />
Tabelle 11: Korrelationen des Grundmoduls der AZUBI-BK und KI.BOX-<br />
Ergebnissen zum Kriterium Analytische Fähigkeiten .................................................123<br />
Tabelle 12: Korrelationen des Postmoduls der AZUBI-BK und KI.BOX-<br />
Ergebnissen zum Kriterium Organisatorisch-konzeptionelle Fähigkeiten...................124<br />
Tabelle 13a: Korrelationen der durchschnittlichen Bearbeitungsgeschwindigkeit in<br />
der AZUBI-BK und der bearbeiteten Items in der KI.BOX.........................................125<br />
Tabelle 13b: bedeutende Korrelationen der einzelnen<br />
Bearbeitungsgeschwindigkeiten in der AZUBI-BK und der bearbeiteten Items in<br />
der KI.BOX für beide Kriterien. ..................................................................................126<br />
Tabelle 14: Korrelationen der Subskala zur Gewissenhaftigkeit aus dem BIP und<br />
der Ergebnisse in der KI.BOX für beide Kriterien.......................................................127<br />
Tabelle 15a: Korrelationen des SUCA und den Ergebnissen in der KI.BOX für<br />
beide Kriterien. ..........................................................................................................129<br />
Tabelle 15b: Auswirkungen der Auspartialisierung der Sicherheit im Umgang mit<br />
Computern und Computeranwendungen auf die Korrelationen der Ergebnisse<br />
von KI.BOX zu AZUBI-BK .........................................................................................130<br />
Tabelle 15c: Auswirkungen der Auspartialisierung der Sicherheit im Umgang mit<br />
Computern und Computeranwendungen auf die Korrelation der<br />
Bearbeitungsgeschwindigkeiten in KI.BOX und AZUBI-BK........................................130
Tabelle 16a: Korrelationen des VECA und den Ergebnissen in der KI.BOX für<br />
beide Kriterien. ..........................................................................................................131<br />
Tabelle 16b: Auswirkungen der Auspartialisierung der Vertrautheit der<br />
Teilnehmer mit verschiedenen Computeranwendungen auf die Korrelationen der<br />
Ergebnisse von KI.BOX zu AZUBI-BK.......................................................................132<br />
Tabelle 16c: Auswirkungen der Auspartialisierung der Vertrautheit der<br />
Teilnehmer mit verschiedenen Computeranwendungen auf die Korrelation der<br />
Bearbeitungsgeschwindigkeiten in KI.BOX und AZUBI-BK........................................132<br />
Tabelle 17: Korrelationen der drei für die KI.BOX bedeutsamsten Icons des<br />
VECA und den Ergebnissen in der KI.BOX für beide Kriterien...................................133<br />
Tabelle 18: T-Test für die Bedingung Reihenfolge der Verfahren bei den<br />
Analytischen Fähigkeiten in der KI.BOX ....................................................................135<br />
Tabelle 19: T-Test für die Bedingung Reihenfolge der Verfahren bei den<br />
Organisatorisch-konzeptionellen Fähigkeiten in der KI.BOX......................................136<br />
Tabelle 20: T-Test für die Variable Geschlecht bei den Ergebnissen der KI.BOX......138<br />
Tabelle 21: Korrelationen des Alters der Teilnehmer mit den Ergebnissen in der<br />
KI.BOX für beide Kriterien .........................................................................................139<br />
Tabelle 22: Varianzanalyse für die Variable Studienfach und die Ergebnisse in<br />
der KI.BOX für beide Kriterien ...................................................................................140<br />
Tabelle 23: Korrelationen der Semesterzahl der Teilnehmer mit den Ergebnissen<br />
in der KI.BOX für beide Kriterien ...............................................................................141<br />
Tabelle 24: Varianzanalyse für die Variable Deutschkenntnisse und die<br />
Ergebnisse in der KI.BOX für beide Kriterien.............................................................142<br />
Tabelle 25: Varianzanalyse für die Variable Berufserfahrung und die Ergebnisse<br />
in der KI.BOX für beide Kriterien ...............................................................................143<br />
Tabelle 26: Korrelationen der theoretischen und praktischen Vorerfahrungen der<br />
Teilnehmer mit Postkörben und Assessment Centern und den Ergebnissen in der<br />
KI.BOX für beide Kriterien .........................................................................................145
Einleitung<br />
1 Einleitung<br />
Die Identifikation geeigneter Mitarbeiter für einen Arbeitsplatz und die<br />
zielgerichtete Entwicklung ihrer Fähigkeiten und Fertigkeiten sind heutzutage<br />
die erfolgsentscheidenden Kriterien für Unternehmen (Sarges, 2000). Es gilt<br />
also, eine optimale Passung zwischen den Kompetenzen eines Mitarbeiters und<br />
den Anforderungen einer Arbeitsstelle zu erreichen. Die diagnostische Qualität<br />
von Instrumenten zur Auswahl, Beurteilung und Weiterentwicklung von<br />
Personal ist daher von zentraler Bedeutung.<br />
Das nicht mehr nur ausschließlich in Großunternehmen eingesetzte<br />
Assessment Center (AC) stellt zwar „eines der kostenintensivsten Verfahren der<br />
Personalauswahl und Personalentwicklung“ (Fisseni & Preusser, 2007, S. 236)<br />
dar, bietet aber eine methodisch weitgehend gesicherte und anerkannte<br />
Beurteilung des Potentials von Mitarbeitern (Kupka, 2005). Diese Beurteilung<br />
erfolgt anhand verschiedener Übungen, welche die beruflichen Anforderungen<br />
der Zielposition simulieren sollen und eine Kombination vielfältiger Methoden<br />
darstellen (Höft & Funke, 2006).<br />
Die <strong>Postkorb</strong>-Übung ist eines der bekanntesten und am häufigsten<br />
angewandten Verfahren in Assessment Centern. Es handelt sich dabei um eine<br />
Mischform aus kognitiven Fähigkeitstests und situativer Arbeitsprobe (Höft,<br />
2003), wodurch Kriterien wie Organisationskompetenz, analytische Fähigkeiten<br />
oder Entscheidungsvermögen erfasst werden sollen. Über die diagnostische<br />
Güte der Verfahren können jedoch kaum generell gültige Aussagen getroffen<br />
werden. Oft entwickeln Organisationen ein auf ihre spezifischen Bedürfnisse<br />
zugeschnittenes <strong>Postkorb</strong>-Verfahren, das der wissenschaftlichen Analyse nicht<br />
zugänglich gemacht wird. Andere wiederum verwenden auf dem Markt<br />
erhältliche vorgefertigte Übungen, deren Validierungen jedoch meist als<br />
unzureichend angesehen werden müssen (Funke, 1993, a).<br />
Mit dem enormen technischen Fortschritt sowohl im Software- als auch im<br />
Hardwarebereich werden zunehmend auch computergestützte<br />
Auswahlverfahren im Rahmen der Eignungsdiagnostik angewendet, nicht<br />
zuletzt auch aus Effizienzgründen. Computergestützte Verfahren haben unter<br />
anderem den Vorteil einer objektiveren Durchführung und Auswertung, ihre<br />
Ergebnisse sind schneller verfügbar und eine separate Dateneingabe für<br />
8
Einleitung<br />
spätere Analysen entfällt (Schuler, Funke, Moser & Donat, 1995). Zudem kann<br />
die Übung selbst durch die vielfältigen technischen Möglichkeiten deutlich<br />
dynamischer und somit realitätsnäher gestaltet werden. Nichts desto trotz<br />
stehen computergestützte <strong>Postkorb</strong>-Übungen vor ähnlichen Problemen wie ihre<br />
Paper-Pencil-Vorgänger. Eine hohe Augenscheinvalidität reicht offenbar vielen<br />
Testentwicklern und -anwendern aus, um auf vergleichsweise aufwändige<br />
Validierungsstudien zu verzichten (Obermann, 2006). Zudem weisen manche<br />
dieser Verfahren immer noch Mängel in Form einer unzureichenden<br />
Standardisierung, einer nicht anwenderfreundlichen Bedienung oder der<br />
fehlenden Explikation eines normativen Bezugssystems auf.<br />
Die Unternehmensberatung „kibit GmbH“ hat als Reaktion auf diese<br />
Problematik den computergestützten <strong>Postkorb</strong> KI.BOX entwickelt, welcher<br />
besonders zur Auswahl von Hochschulabsolventen und<br />
Führungskräftenachwuchs eingesetzt werden soll. Die Neuentwicklung des<br />
Verfahrens verfolgt das Ziel, die bestehenden Lücken anderer Verfahren zu<br />
schließen und zugleich den wissenschaftlichen Anforderungen Rechnung zu<br />
tragen.<br />
Die vorliegende <strong>Diplomarbeit</strong> soll als erste Validierungsstudie dieses<br />
Verfahrens zu diesen Zielen beitragen. Zu diesem Zweck wurde eine<br />
Untersuchung durchgeführt, mittels derer beurteilt werden soll, ob die KI.BOX<br />
die zu erfassenden Kriterien valide misst, ihre Softwareergonomie<br />
computererfahrenen Benutzern Vorteile bringt und ob die Ergebnisse durch<br />
Reihenfolgeeffekte verfälscht werden, welche durch die Positionierung des<br />
Verfahrens innerhalb einer Sequenz von Auswahlübungen entstehen können.<br />
Der theoretische Hintergrund dieser Thematik wird im zweiten Kapitel<br />
dargestellt und erfolgt zunächst als Überblick über verschiedene Testtheorien<br />
und ihre Gütekriterien, um herauszustellen, welche Aspekte bei der Validierung<br />
einer AC-Übung bedeutsam sind. Anschließend wird auf das Assessment<br />
Center im Allgemeinen eingegangen, um damit die <strong>Postkorb</strong>-Übung thematisch<br />
einzuordnen, bevor dann der klassische Paper-Pencil-<strong>Postkorb</strong> als Vorläufer<br />
des computergestützten <strong>Postkorb</strong>es dargestellt wird. Auf letzteren wird im<br />
Anschluss eingegangen. Im Vergleich dazu wird im dritten Kapitel die KI.BOX<br />
beschrieben, was aufgrund eines bisher noch nicht publizierten<br />
9
Einleitung<br />
Testhandbuches ausführlicher erfolgt. In Kapitel 4 werden die zu untersuchende<br />
Fragestellung sowie die Ziele der Untersuchung formuliert. Die Erläuterung der<br />
methodischen Vorgehensweise dieser Studie erfolgt im fünften Kapitel. Im<br />
sechsten Kapitel werden die Ergebnisse der Untersuchung dargestellt und im<br />
Anschluss daran im siebten Kapitel diskutiert. Die Arbeit schließt mit<br />
Vorschlägen an die Testentwickler, wie das Verfahren weiter verbessert werden<br />
und zukünftige Validierungsstudien erfolgen könnten.<br />
10
Theoretischer Hintergrund<br />
2 Theoretischer Hintergrund<br />
2.1 Testtheorien im Überblick<br />
Psychologische Tests und andere Instrumente zur Messung psychischer<br />
Merkmale und deren Ausprägung können auf verschiedenen Messmodellen<br />
basieren. Die klassische Testtheorie (Kapitel 2.1.1) ist sicher das<br />
traditionsreichste und am weitesten verbreitete Modell für die Konstruktion von<br />
Tests. Allerdings sieht sie sich inzwischen vermehrter Kritik (Kapitel 2.1.2)<br />
ausgesetzt, besonders aus Reihen der Eignungsdiagnostiker. Für neuere und in<br />
der Praxis weit verbreitete Methoden, wie beispielsweise dem Assessment<br />
Center, wird sich deshalb zunehmend auf den Ansatz der kriteriumsorientierten<br />
Leistungsmessung (Kapitel 2.1.3) verlassen. Diese Entwicklung soll im<br />
folgenden Kapitel detaillierter dargestellt werden.<br />
2.1.1 Klassische Testtheorie<br />
Der Schwerpunkt des Modells der klassischen Testtheorie liegt auf der<br />
Genauigkeit einer Messung bzw. auf der Größe des jeweiligen Messfehlers.<br />
Daher wird sie auch als „Messfehlertheorie“ bezeichnet (Schuler, 1996). Sie<br />
versucht, ausgehend von einem Testwert einer Versuchsperson, zu klären, wie<br />
auf die wahre Ausprägung des zu messenden Persönlichkeitsmerkmals<br />
geschlossen werden kann (Fisseni, 1990). Die meisten Tests, die heutzutage in<br />
der psychologischen Eignungsdiagnostik eingesetzt werden, sind nach den<br />
Regeln der klassischen Testtheorie konzipiert worden (Bortz & Döring, 2002).<br />
Die Konstruktion von psychologischen Tests orientiert sich dabei seit Beginn<br />
des 20. Jahrhunderts an klar definierten syntaktischen Aussagen und<br />
Richtlinien (ausführlich zu den Axiomen der klassischen Testtheorie: Lienert,<br />
1969; Fisseni, 1990; Bortz & Döring, 2002). Lienert (1969) definiert einen Test<br />
demnach als:<br />
„wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer<br />
abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst<br />
quantitativen Aussage über den relativen Grad der individuellen<br />
Merkmalsausprägung“ (S.7).<br />
11
Theoretischer Hintergrund<br />
Etwas umfangreicher ist die Definition von Grubitzsch (1999), der mehrere<br />
gängige Definitionen von Tests auf einen Nenner zu bringen versucht:<br />
„Ein psychologischer Test ist ein<br />
• wissenschaftliches Routineverfahren für die objektive und zuverlässige<br />
Entnahme<br />
• einer gültigen Stichprobe aus dem Verhalten und Erleben eines<br />
Menschen unter Standardbedingungen (die Wiederholbarkeit und<br />
Vergleichbarkeit garantieren),<br />
• um vor dem Hintergrund einer Norm einen wissenschaftlich begründeten<br />
Rückschluss auf die individuelle Ausprägung eines oder mehrerer<br />
empirisch abgrenzbarer Persönlichkeitsmerkmale, die dem beobachteten<br />
Verhalten als zugrunde liegend angenommen werden, ziehen zu können<br />
• mit dem Ziel der Unterscheidung und zweckgerichteten Vorhersage<br />
individueller Verhaltensmöglichkeiten auch für künftige Situationen“<br />
(S.21).<br />
Eine entscheidende Neuerung in der Definition ist hierbei der Aspekt der<br />
Normstichprobe. So geht die klassische Testtheorie von relativ stabilen<br />
Persönlichkeitsmerkmalen aus, die über unterschiedliche Situation und Zeiten<br />
hinweg verhältnismäßig konstant bleiben und deren individuelle Ausprägungen<br />
sich durch Tests erfassen lassen (Obermann, 2006). Dies geschieht dadurch,<br />
dass die Testleistung eines einzelnen Probanden mit einer Normstichprobe<br />
verglichen wird, d.h. einer möglichst großen Probandenzahl, die repräsentativ<br />
für die Gesamtpopulation stehen soll (Fisseni, 1990).<br />
Des Weiteren entstammen der klassischen Testtheorie drei Haupt- und vier<br />
Nebengütekriterien, die als zu erfüllende Forderung an einen guten Test gestellt<br />
werden sollen (Lienert, 1969). Als Hauptgütekriterien gelten Objektivität,<br />
Reliabilität und Validität, als Nebengütekriterien wird gefordert, dass der Test<br />
normiert, vergleichbar, ökonomisch und nützlich ist. Hierauf wird im Folgenden<br />
näher eingegangen, da die Validierung des computergestützten <strong>Postkorb</strong><br />
KI.BOX (siehe Kapitel 3) Hauptanliegen der vorliegenden Arbeit ist.<br />
12
Theoretischer Hintergrund<br />
2.1.1.1 Objektivität<br />
Als Objektivität bezeichnet Lienert (1969) den Grad, mit dem das Ergebnis<br />
eines Testes unabhängig vom Untersucher ist. Das bedeutet, dass ein Test<br />
dann als objektiv einzustufen ist, wenn das gleiche Verhalten eines Probanden<br />
von unterschiedlichen Beurteilern immer in der gleichen Weise quantifiziert wird<br />
(Fisseni, 1990). Die Objektivität gibt somit Aufschluss darüber, in wieweit die<br />
Standardisierung eines Tests gelungen ist. Dabei werden drei Stufen der<br />
Objektivität unterschieden:<br />
• Die Durchführungsobjektivität bezeichnet die Unabhängigkeit der<br />
Testergebnisse von zufälliger oder systematischer Variation des<br />
Versuchsleiterverhaltens sowie der Situationsparameter. Sie ist umso<br />
höher, je standardisierter die Testsituation ist, was beispielsweise zur<br />
Folge hat, dass die Instruktionen den Teilnehmern in schriftlicher Form<br />
ausgegeben werden, Raum- und Zeitfaktoren gleichzuhalten sowie<br />
soziale Interaktionen mit dem Versuchsleiter generell möglichst zu<br />
minimieren sind (Jeserich, 1981).<br />
• Die Auswertungsobjektivität ist gegeben, wenn gleichen Itemantworten<br />
die gleichen numerischen Werte zugeordnet werden bzw. wenn<br />
verschiedene Auswerter dasselbe Testverhalten identisch auswerten<br />
(Fisseni, 1990). Sie gilt nach Lienert (1969) bei Aufgaben mit<br />
festgelegtem Antwortenschlüssel als erfüllt, d.h. bei Ja-Nein-Fragen oder<br />
bei Tests, in denen der Proband aus mehreren vorgegebenen Lösungen<br />
die Antwort ankreuzen soll, die ihm richtig erscheint. Bei offenen Fragen<br />
oder projektiven Verfahren ist die Auswertungsobjektivität kaum<br />
einzuhalten.<br />
• Die Interpretationsobjektivität gibt die Unabhängigkeit der Interpretation<br />
der Testergebnisse vom Interpretierenden ab, d.h. dass verschiedene<br />
Versuchsleiter aufgrund der Testauswertung zu den gleichen Schlüssen<br />
kommen. Lienert (1969) nimmt die Interpretationsobjektivität als<br />
vollkommen gegeben an, wenn die Testauswertung einen numerischen<br />
Wert liefert, der die Position eines Probanden innerhalb einer Testskala<br />
angibt.<br />
13
Theoretischer Hintergrund<br />
2.1.1.2 Reliabilität<br />
Mit Reliabilität ist das Maß an Messgenauigkeit bzw. Zuverlässigkeit gemeint,<br />
mit dem ein Test ein bestimmtes Merkmal misst. Dies gilt unabhängig davon, ob<br />
der Test auch das misst, was er messen soll, d.h. ob er auch valide ist<br />
(Obermann, 2006). Ein Test ist demnach gemäß den Axiomen der klassischen<br />
Testtheorie vollkommen reliabel, wenn der Messfehler gleich null ist, d.h. die<br />
Ergebnisse des Tests den Probanden in seiner Merkmalsausprägung fehlerfrei<br />
beschreiben (Fisseni, 1990; Schuler, 1996). Zur Bestimmung dessen wird ein<br />
Reliabilitätskoeffizient ermittelt, der angibt, wie sehr das Testergebnis mit<br />
demselben Probanden unter gleichen Bedingungen reproduzierbar ist (Lienert,<br />
1969). Die folgenden Methoden ermöglichen die Bestimmung dieses<br />
Reliabilitätskoeffizenten:<br />
• Paralleltest-Methode: Einer Stichprobe von Probanden werden zwei<br />
einander ähnliche und vergleichbare Tests vorgelegt und deren<br />
Ergebnisse korreliert (Fisseni, 1990). Zu diesem Zweck entwickeln<br />
Testautoren oft eine Form A und eine Form B des jeweiligen Instruments.<br />
• Retest-Methode: Dieselbe Stichprobe bearbeitet einen Test zweimal, so<br />
dass die Korrelation der beiden Ergebnisreihen berechnet werden kann.<br />
Nach Schuler (1996) erhalten die Messwerte durch die<br />
Messwiederholung Stabilität. Diese Methode kann jedoch je nach Test<br />
sehr zeitaufwändig sein sowie Übungs- und Transfereffekte erzeugen.<br />
• Split-Half-Methode: Nach der Bearbeitung durch eine Stichprobe wird der<br />
Test in zwei gleichwertige Hälften geteilt, und das Testergebnis jedes<br />
Probanden für jede Hälfte einzeln ermittelt. Anschließend werden die<br />
Testergebnisse beider Hälften korreliert. Diese Methode ist jedoch nur<br />
bei sehr homogenen Tests sinnvoll (Lienert, 1969), beispielsweise dem<br />
Aufmerksamkeits-Belastungs-Test d2 von Brickenkamp oder dem<br />
Konzentrations-Leistungs-Test von Düker und Lienert (vgl. Sarges &<br />
Wottawa, 2001; Brickenkamp, 2002). Besonders bei situativen oder<br />
dynamischen Verfahren wie z.B. einem <strong>Postkorb</strong> oder einem Planspiel ist<br />
diese Methode nicht anwendbar, da die einzelnen Items nicht<br />
unabhängig voneinander sind (Schuler, 1996).<br />
14
Theoretischer Hintergrund<br />
• Konsistenzanalyse: Die Konsistenzanalyse kann als Verallgemeinerung<br />
oder Weiterentwicklung der Split-Half-Methode angesehen werden<br />
(Fisseni, 1990). Dabei wird der Test nicht nur in zwei Teile zerlegt,<br />
sondern in so viele, wie er Items hat. Nun kann entweder die Korrelation<br />
zwischen den Items oder mittels Varianzanalysen<br />
Konsistenzkoeffizienten aufgrund von Itemschwierigkeit, Trennschärfe<br />
oder Standardabweichung berechnet werden (Lienert, 1969). Allerdings<br />
dürften hier ähnliche Einschränkungen wie für die Split-Half-Methode<br />
gelten. Hinzu kommt, dass die Konsistenzmethode nur Aussagen über<br />
Kennwerte macht, die auf Testscores basieren, welche aus der Summe<br />
der Itemscores bestimmt werden. Testscores wie Bearbeitungsmenge<br />
bzw. -geschwindigkeit oder Bearbeitungsgüte, bei der richtige und<br />
falsche Antworten verrechnet werden, basieren jedoch nur teilweise auf<br />
der Summe der Itemscores (Will, 2006).<br />
2.1.1.3 Validität<br />
Die Validität eines Tests gibt Auskunft über seine Gültigkeit. Das bedeutet, dass<br />
ein Test dann valide ist, wenn er die Merkmale oder die Verhaltensweisen, die<br />
er messen soll, auch tatsächlich misst (Lienert, 1969). Erst dann lassen seine<br />
Ergebnisse einen fehlerfreien Rückschluss auf den Ausprägungsgrad des<br />
Merkmals oder des Verhaltens zu. Allerdings gibt es nicht die eine Validität<br />
(Obermann, 2006), sondern bezogen auf die jeweilige Fragestellung muss<br />
zwischen verschiedenen Validitätsaspekten unterschieden werden. Die<br />
wichtigsten Validitätsarten sind nach Schuler (1996) Augenscheinvalidität,<br />
Inhaltsvalidität, Kriteriumsvalidität und Konstruktvalidität, zu deren Ermittlung<br />
jeweils unterschiedliche Methoden entwickelt wurden.<br />
• Augenscheinvalidität: Ein Aspekt der Validität betrifft die Gültigkeit, die<br />
ein bestimmtes Verfahren in den Augen der Getesteten und der<br />
Testanwender hat. Diese Augenscheinvalidität ist wichtig für die<br />
Akzeptanz eines Verfahrens und damit auch für seine Gültigkeit, da eine<br />
geringe Augenscheinvalidität unter anderem dazu führen kann, dass die<br />
15
Theoretischer Hintergrund<br />
Kandidaten den Test nicht ernst nehmen und deshalb nicht ihre optimale<br />
Leistung zeigen (Kersting, 2003). Erhöht werden kann sie beispielsweise<br />
durch gezielte Informationen über den Sinn des Tests oder eine<br />
Realitätsnähe zum zu erfassenden Merkmal. Assessment Centern und<br />
deren Übungen wird im Allgemeinen eine hohe Augenscheinvalidität<br />
zugesprochen (Schuler & Moser, 1995; Kersting, 2003). Dabei ist jedoch<br />
zu beachten, dass die Augenscheinvalidität nicht über wissenschaftliche<br />
Verfahren und Kennwerte ermittelt wird, sondern eher als gegeben oder<br />
nicht gegeben angenommen wird und nicht fälschlicherweise mit der<br />
wissenschaftlich fundierteren inhaltlichen Validität gleichgesetzt werden<br />
darf (Kersting, 2003).<br />
• Inhaltsvalidität: Die inhaltliche Validität oder Kontentvalidität gibt das<br />
Ausmaß an, mit dem die Test-Items geeignet sind, das Zielmerkmal zu<br />
erfassen und hinreichend genau zu definieren (Fisseni, 1990). Bei<br />
vollkommener inhaltlichen Validität stellt ein Test somit selbst das<br />
optimale Kriterium für das zu erfassende Merkmal dar (Lienert, 1969).<br />
Dies wäre etwa bei einer Klassenarbeit der Fall, die den behandelten<br />
Unterrichtsstoff abfragt, oder der Führerscheinprüfung, bei der sowohl<br />
der theoretische als auch der praktische Teil der Fahreignung getestet<br />
wird. Zur Bestimmung der inhaltlichen Validität wird auf einen<br />
numerischen Kennwert verzichtet. Stattdessen befragt man Experten, die<br />
mit dem jeweiligen Merkmal vertraut sind, über den Grad der Validität<br />
und lässt sie entscheiden, ob der Test diesbezüglich akzeptiert oder<br />
verworfen wird (Fisseni, 1990). Allerdings wäre es aufgrund dieser<br />
subjektiven und meist qualitativen Beurteilung noch immer unzureichend,<br />
bei der Konstruktion von Tests und Auswahlverfahren allein auf die<br />
Inhaltsvalidität zurückzugreifen (Schuler, 1996).<br />
• Kriteriumsvalidität: Die Bestimmung der Kriteriumsvalidität gilt gemeinhin<br />
als wichtigste Validierungsstrategie (Schuler, 1996). Ermittelt wird sie<br />
durch einen Vergleich von Testscore und Kriterien-Score, d.h. es wird ein<br />
Korrelationskoeffizient für den Zusammenhang von den empirisch<br />
gemessenen Testergebnissen und den Messungen eines für sinnvoll<br />
16
Theoretischer Hintergrund<br />
erachteten Kriteriums bestimmt (Fisseni, 1990). Nach Bortz und Döring<br />
(2002) gilt eine Validität von .4 bis .6 als mittelmäßig, über .6 hinaus wird<br />
sie als hoch eingeschätzt. Häufig wird die Kriteriumsvalidität nach<br />
Vorhersagevalidität und Übereinstimmungsvalidität unterschieden:<br />
o Vorhersagevalidität: Man spricht von Vorhersagevalidität, wenn<br />
ein psychologischer Test Vorhersagen über zukünftiges Verhalten<br />
macht, d.h. bestimmte Merkmale prognostizieren soll (Lienert,<br />
1969). Sie wird daher auch prognostische Validität genannt. Die<br />
zur Validierung herangezogenen Kriterien werden somit erst<br />
deutlich später als der Testscore erfasst (Fisseni, 1990).<br />
o Übereinstimmungsvalidität: Bei der Übereinstimmungsvalidität<br />
stehen keine zeitlichen Vorhersagen, sondern diagnostische<br />
Gesichtspunkte im Mittelpunkt. Vom Testscore soll dabei auf das<br />
Verhalten außerhalb der Testsituation geschlossen werden, was<br />
beispielsweise in der Eignungsdiagnostik von größter Wichtigkeit<br />
ist (Lienert, 1969). Die Kriterien-Scores werden zu diesem Zweck<br />
zeitgleich mit den Test-Scores erhoben. Dies ist beispielsweise<br />
der Fall, wenn zur Validierung eines Intelligenztest die Probanden<br />
an einem Tag den zu validierenden und einen anderen bereits<br />
bewährten Intelligenztest mit ähnlichen Dimensionen bearbeiten<br />
würden. Dadurch lägen von jedem Probanden zwei zeitgleiche<br />
Messwertreihen vor, aus denen der Korrelationskoeffizient<br />
errechnet würde. (Fisseni, 1990)<br />
Des Weiteren kann nach äußerer und innerer (Kriteriums-)Validität<br />
differenziert werden:<br />
o Äußere Validität: Bei der äußeren Validität wird zur Berechnung<br />
des Validitätskoeffizienten ein äußeres Kriterium verwendet, also<br />
ein Kriterium, das außerhalb der Testpsychologie liegt (Lienert,<br />
1969). Gemeint ist dabei beispielsweise eine objektiv bewertbare<br />
Kriteriumsleistung wie etwa die gezählten Anschläge auf der<br />
Schreibmaschine pro Minute, oder aber Schätzurteile wie<br />
17
Theoretischer Hintergrund<br />
Vorgesetzten- oder Lehrerbeurteilungen und Schulnoten.<br />
o Innere Validität: Bei der inneren Validierung wird der Test-Score<br />
mit dem eines bereits bestehenden Tests, der dasselbe Merkmal<br />
misst, korreliert (Lienert, 1969). Auch hier trifft das Beispiel zu, in<br />
dem der Test-Score eines Intelligenztests mit dem eines anderen<br />
Intelligenztests mit ähnlichen Dimensionen korreliert werden<br />
würde. Wichtig ist dabei jedoch, dass der Test, der das Kriterium<br />
darstellt, bereits ausreichend an einem oder mehreren<br />
Außenkriterien validiert wurde.<br />
• Konstruktvalidität: Als Konstrukt bezeichnet man ein postuliertes<br />
Persönlichkeitsmerkmal, welches im Sinne der klassischen Testtheorie<br />
als relativ stabil gilt und über unterschiedliche Situation und Zeiten<br />
hinweg verhältnismäßig konstant bleibt (Obermann, 2006). Als Beispiel<br />
sind etwa Konstrukte wie Intelligenz oder soziale Kompetenz zu nennen.<br />
Diese sind jedoch unmöglich direkt und objektiv beobachtbar, im<br />
Gegensatz etwa zu Rechtschreibefähigkeit oder dem schnellen und<br />
fehlerfreien Tippen auf der Schreibmaschine. Dies wiederum hat zur<br />
Folge, dass ein Konstrukt durch bestimmte messbare oder beobachtbare<br />
Indikatoren repräsentiert werden muss (Lienert, 1969). Bei der<br />
Konstruktvalidität geht es also um die Frage, inwieweit ein Test und sein<br />
Test-Score in ein derartiges nicht klar operationalisierbares Konstrukt<br />
eingebettet werden kann. Nach Lienert (1969) liegt ihre Bedeutung somit<br />
weniger in einer unmittelbaren praktischen Verwertbarkeit, weshalb zu<br />
ihrer Bestimmung auch kein eindeutiges Maß angegeben werden kann,<br />
sondern vielmehr in der theoretischen Aufklärung der psychologischen<br />
Faktoren, die hinter einem Test stehen. Erheblich bedeutsamer für die<br />
Praxis sei jedoch eher die Bestimmung der Kriteriumsvalidität.<br />
2.1.1.4 Nebengütekriterien<br />
Im Folgenden sollen die Nebengütekriterien zur Beurteilung eines Tests<br />
beschrieben werden. Diese lassen sich nicht mit einem numerischen Kennwert<br />
18
Theoretischer Hintergrund<br />
ausdrücken, sondern sind eher Indikator für die Anwendbarkeit eines Tests in<br />
der Praxis.<br />
• Normierung: Mit Hilfe der Normierung kann ein individuelles<br />
Testergebnis in ein Bezugssystem von Vergleichswerten eingeordnet<br />
werden, um zu sehen, welche Position ein Proband hinsichtlich eines<br />
Merkmals im Vergleich zu den Testergebnissen anderer Probanden<br />
einnimmt (Fisseni, 1990).<br />
• Vergleichbarkeit: Ein Test sollte mit sich selbst oder ähnlichen Tests<br />
vergleichbar sein. Dies geschieht entweder durch die Paralleltest-<br />
Methode im Sinne einer intraindividuellen Reliabilitätskontrolle oder<br />
durch eine innere Validierung des Tests mit einem verwandten Test, der<br />
dasselbe Merkmal misst, als intraindividuelle Validitätskontrolle (Lienert,<br />
1969).<br />
• Ökonomie: Als ökonomisch wird ein Test dann bezeichnet, wenn die<br />
Testvorbereitung, -durchführung und -auswertung insgesamt wenig Zeit<br />
sowie finanzielle Ressourcen und Personal beansprucht, er einfach zu<br />
handhaben ist, wenig Material verbraucht und als Gruppentest<br />
durchführbar ist (Lienert, 1969).<br />
• Nützlichkeit: Ein Test gilt dann als nützlich, wenn er ein Merkmal erfasst,<br />
für dessen Untersuchung es noch keinen anderen Test gibt, der dieses<br />
Merkmal ebenso gut oder besser erfassen könnte (Lienert, 1969).<br />
• Weitere Kriterien: Zusätzlich zu den bereits erwähnten Haupt- und<br />
Nebengütekriterien werden in der Literatur noch weitere Aspekte wie<br />
ethische Rahmenbedingungen oder rechtliche Richtlinien erwähnt<br />
(Obermann, 2006). Auf diese wird in der vorliegenden Arbeit jedoch nicht<br />
weiter eingegangen.<br />
2.1.2 Kritik an der klassischen Testtheorie<br />
Es steht außer Frage, dass sich psychologische Tests, die auf der Grundlage<br />
der klassischen Testtheorie konstruiert wurden, in der<br />
Berufseignungsdiagnostik längst bewährt haben (Fisseni, 1990). Als besonders<br />
19
Theoretischer Hintergrund<br />
beliebt und wissenschaftlich fundiert gelten dabei Intelligenztests wie<br />
beispielsweise der Intelligenz-Struktur-Test von Amthauer oder der Wilde-<br />
Intelligenz-Test von Kersting, Althoff und Jäger sowie Leistungstests wie etwa<br />
der Aufmerksamkeits-Belastungs-Test d2 von Brickenkamp zur Erfassung der<br />
Konzentrationsleistung (vgl. Sarges & Wottawa, 2001; Brickenkamp, 2002).<br />
Dennoch gibt es auch Kritik an derartigen Instrumenten, insbesondere zur<br />
Anwendung im Rahmen von Assessment Centern (siehe Kapitel 2.2.5.5). Diese<br />
Kritik liegt nach Obermann (2006) in den Grundansätzen der Testtheorie<br />
begründet. Psychologische Tests sollen Merkmale wie Problemlösefähigkeit,<br />
Intelligenzaspekte, Gedächtnisleistung oder Aufmerksamkeit erfassen, wobei in<br />
der klassischen Testtheorie davon ausgegangen wird, dass diese Merkmale<br />
zeitlich sowie über unterschiedliche Situationen hinweg stabil sind und sich<br />
somit durch standardisierte, meist sehr homogene Verfahren messen lassen.<br />
Variabilitäten in den Messwerten werden gemäß dem Stabilitätsaxiom als<br />
Fehlervarianz betrachtet. Diese Annahmen sind jedoch mit dem situativen<br />
Ansatz der zum Teil komplexen sozialen Simulationen des Assessment Center<br />
unvereinbar. Hier wird davon ausgegangen, dass Verhalten, beispielsweise<br />
Teamführung oder Kundenorientierung, neben den individuellen<br />
Persönlichkeitsdispositionen immer auch auf Einflussfaktoren der Situation<br />
zurückzuführen ist, und diese Dispositionen je nach Situation unterschiedlich<br />
stark eingebracht werden. Die zu erfassenden Kriterien im AC werden also<br />
keinesfalls als stabil betrachtet. Diese Ansicht entspricht nach Obermann<br />
(2006) auch dem Ansatz der Sozialpsychologie, welche mit einer Vielzahl von<br />
Experimenten diese Interaktion von Person und Situation belegt hat. Hinzu<br />
kommt, dass AC-Übungen, besonders Rollenspiele und Gruppendiskussionen,<br />
nur schwer zu standardisieren sind. Dies ist jedoch auch gar nicht die Absicht<br />
von situativen Übungen, da ja gerade das individuelle Verhalten in diesen<br />
komplexen kritischen Situationen im Mittelpunkt des Interesses steht. Einzig<br />
beobachterunabhängige Übungen, wie bestimmte Planspiele oder Postkörbe,<br />
können trotz des Simulationsprinzips die Standardisierungsforderung<br />
weitgehend erfüllen. Insgesamt wird also deutlich, dass die klassische<br />
Testtheorie nicht für situative Übungen, wie sie in Assessement Centern zum<br />
Einsatz kommen, geeignet ist.<br />
20
Theoretischer Hintergrund<br />
Ein weiterer Kritikpunkt an der klassischen Testtheorie ist, dass alle ihre<br />
Messwerte stichproben- oder populationsabhängig sind (Fisseni, 1990;<br />
Obermann, 2006). Nach Meinung der Autoren ist es deswegen fraglich,<br />
inwieweit sich die gefundenen Ergebnisse generalisieren lassen, da es<br />
innerhalb von Populationen auch stets Teil-Populationen gibt, auf die sich die<br />
Test-Kennwerte nicht übertragen lassen. Obermann (2006) sieht als<br />
hypothetische Lösung, möglichst viele homogene Teilgruppen von Prädiktoren<br />
und Subpopulationen zu ermitteln und für diese Validitätskennwerte zu<br />
berechnen. Allerdings, so der Autor, wird dies nur eine theoretische Forderung<br />
bleiben, da es für die Praxis viel zu aufwändig wäre.<br />
Des Weiteren führt die Abhängigkeit der Messwerte von Normstichproben dazu,<br />
dass die Höhe der ermittelten Koeffizienten nicht nur über die Validität und<br />
Reliabilität eines Tests Auskunft gibt, sondern durch bestimmte Aspekte<br />
künstlich beeinflusst werden kann (Fisseni, 1990; Obermann, 2006):<br />
• Die Reliabilität wird dadurch erhöht, dass ein Verfahren einer Gruppe<br />
vorgelegt wird, die bzgl. des zu erfassenden Merkmals sehr heterogen<br />
ist. Die Reliabilität wird gesenkt, wenn die Gruppe sehr homogen ist.<br />
• Eine hohe Streuung der Testwerte, also bei vielen „schlechten“ und<br />
vielen „guten“ Probanden, führt zu einer Erhöhung der Korrelations-<br />
Kennziffern.<br />
• Je länger ein Test ist, d.h. je mehr Items er hat, desto höher ist die<br />
interne Konsistenz.<br />
• Die interne Konsistenz wird ebenfalls erhöht, wenn der Test aus vielen<br />
Items besteht, die eine mittlere Schwierigkeit, d.h. eine<br />
Lösungswahrscheinlichkeit um die 50 Prozent aufweisen.<br />
Weitere Kritikpunkte an der klassischen Testtheorie finden sich bei Fisseni<br />
(1990, S.101). Im Anschluss soll nun eine diagnostische Modellvorstellung<br />
vorgestellt werden, die mit dem AC-Ansatz und dem Thema der vorliegenden<br />
Arbeit eher zu vereinbaren ist.<br />
21
Theoretischer Hintergrund<br />
2.1.3 Kriteriumsorientierten Leistungsmessung<br />
Die kriteriumsorientierte Leistungsmessung wird als eine Erweiterung der<br />
klassischen Testtheorie verstanden. Hierbei werden die Leistungen des<br />
Probanden nicht mit stichprobenbezogenen Durchschnittsnormen, wie in der<br />
klassischen Testtheorie, sondern mit inhaltlich definierten Zielen, d.h. Kriterien<br />
verglichen (Fisseni, 1990). Das Kriterium wird in diesem Kontext als<br />
Leistungskontinuum definiert, auf dem unterschiedlich „tüchtige“ Probanden<br />
entsprechend ihrer Leistung positioniert werden. Alternativ kann es für einen<br />
Leistungsstandard stehen, an dem sich Vorhersagen bestätigen oder<br />
widerlegen lassen (Klauer, 1987).<br />
Ein bekanntes Beispiel für einen kriteriumsorientierten Test stellt die<br />
Führerscheinsprüfung dar. Hierbei wären die Kriterien beispielsweise das<br />
Kennen und Anwenden können der Verkehrregeln, das sichere Steuern eines<br />
Kraftfahrzeugs durch den Straßenverkehr, Kenntnisse um bestimmte<br />
technische Fakten, etc. Diese Kriterien werden durch exakte Beobachtung und<br />
Beschreibung menschlichen Verhaltens bewertet, in diesem Fall vom<br />
Fahrlehrer und dem Fahrprüfer. Ähnlich verhält es sich beim Assessment<br />
Center und dessen Übungen. Bei einem <strong>Postkorb</strong> wird beispielsweise das<br />
Kriterium Analytische Fähigkeiten erfasst. Dieses könnte wiederum<br />
folgendermaßen definiert werden: „Der Teilnehmer arbeitet sich in neue<br />
Themen ein, er durchdringt komplexe Sachverhalte, fokussiert relevante<br />
Themen, analysiert Informationen und strukturiert diese, findet neue<br />
Lösungsansätze und wendet diese erfolgreich an.“ Auch hierbei wird die<br />
Leistung bzw. das Verhalten eines Teilnehmers durch geschulte Beobachter<br />
beurteilt. Je genauer die Kriterien dabei definiert sind, d.h. je mehr die<br />
Operationalisierungen des Kriteriums den jeweiligen Sachverhalt in seiner<br />
Gesamtheit erfassen und repräsentieren, desto aussagekräftiger ist der Test<br />
bzw. das Messverfahren (Fisseni, 1990).<br />
Zur Bestimmung der Leistung eines Probanden wird nicht wie in der<br />
klassischen Testtheorie der Test-Score mit einer Normstichprobe verglichen<br />
und das Ergebnis daraufhin beispielsweise als unterdurchschnittlich,<br />
durchschnittlich oder überdurchschnittlich eingestuft. Bei der<br />
kriteriumsorientierten Leistungsmessung wird der individuelle Test-Score einer<br />
22
Theoretischer Hintergrund<br />
Person durch die Nähe zum Kriterium charakterisiert (Fisseni, 1990). Dazu wird<br />
entweder ein kritischer Punktwert oder Cut-off-point bestimmt oder alternativ ein<br />
Vertrauensbereich. Beim Cut-off-point gilt das Kriterium als erreicht, wenn der<br />
Proband diesen kritischen Punktwert erzielt. Bleibt der Proband unterhalb<br />
dieses Punktwerts gilt das Kriterium als nicht erreicht. Auf diese Art wird<br />
beispielsweise bei Schulzeugnissen verfahren: Als Cut-off-point ist hier die Note<br />
„Ausreichend“ festgelegt. Bessere oder gleiche Noten besagen „Ziel erreicht“,<br />
schlechtere Noten signalisieren „Ziel nicht erreicht“. Bei der Bestimmung des<br />
Vertrauensbereiches wird ähnlich verfahren. Hierbei wird anstatt eines<br />
kritischen Wertes ein Bereich festgelegt, innerhalb dessen die Leistung des<br />
Probanden liegen muss, um das Ziel zu erreichen, also beispielsweise<br />
zwischen 50 und 75 Prozent der Punkte. Beim Assessment Center wird ebenso<br />
vorgegangen: Je nach Unternehmen wird ein Cut-off-Point oder ein<br />
Vertrauensbereich festgelegt, der wiederum zwischen den Hierarchiestufen der<br />
Managementebenen variieren kann. Die quantifizierten Beurteilungen der<br />
Beobachter ergeben entsprechende Punktwerte für die einzelnen Übungen, die<br />
dann summiert Aussagen über die Nähe zum Kriterium zulassen.<br />
Nach Fricke (1974) können von der klassischen Testtheorie die wichtigsten<br />
Testgütekriterien wie Objektivität Reliabilität und Validität in die<br />
kriteriumsorientierte Leistungsmessung übernommen werden. Der Autor äußert<br />
sich dazu wie folgt:<br />
„Wir verlangen erstens, dass ein kriteriumsorientierter Test auch das misst, was<br />
er zu messen vorgibt, dass zweitens verschiedene Beurteiler bei Einsatz des<br />
gleichen kriteriumsorientierten Tests zu gleichen Ergebnissen kommen und<br />
dass drittens die erhaltenen Testwerte nur mit einem geringen Messfehler<br />
behaftet sind“ (S.19).<br />
Zu den drei Hauptgütekriterien ist darüber hinaus ist folgendes festzustellen:<br />
• Validität: Nach Klauer (1987) und Fricke (1974) definieren sich<br />
kriteriumsorientierte Tests über ihren Inhalt, d.h. ein Test ist dann valide,<br />
wenn seine Items die Inhalte des Kriteriums vollständig enthalten oder<br />
repräsentativ abbilden. Aus diesem Grund ist nach Meinung der Autoren<br />
die Inhaltsvalidität der entscheidende Validitätsaspekt bei diesem<br />
23
Theoretischer Hintergrund<br />
diagnostischen Modell und reicht vollkommen aus, wenn diese durch<br />
eine theoriegeleitete Präzisierung der benötigten Konstrukte oder<br />
Expertenbefragungen sichergestellt wird. Andere Validitätsaspekte<br />
hätten erst Bedeutung, wenn gefragt würde, welche Konstrukte dem<br />
Verfahren zugrunde liegen, oder welche Entscheidungsrelevanz einem<br />
Instrument innewohnt, so dass Kriterien- und Konstruktvalidität zwar<br />
auch geprüft werden sollten, jedoch eher von untergeordneter Rolle<br />
seien. Diese Meinung widerspricht jedoch neueren Ansichten in der<br />
Literatur. Nach Schuler (1996) genügt die Berufung auf Inhaltsvalidität<br />
keineswegs zur Konzeption von AC-Übungen, die, wie bereits<br />
festgestellt, Charakteristika der kriteriumsorientierten Testtheorie<br />
aufweisen. Als in diesem Zusammenhang wichtiger gilt die<br />
Kriteriumsvalidität. Dieser Meinung ist auch Obermann (2006), der<br />
hinzufügt, dass besonders die Vorhersagevalidität als Teil der<br />
Kriteriumsvalidität in der Eignungsdiagnostik den wichtigsten Stellenwert<br />
besitzt, da mit dem AC ja gerade externe Faktoren wie beruflicher Erfolg<br />
prognostiziert werden sollen. Konstruktvalidität hat jedoch auch nach<br />
Obermann (2006) einen geringeren Stellenwert. Die Tatsache, dass viele<br />
Studien zur Konstruktvalidität von Assessment Centern unzureichende<br />
Ergebnisse liefern (Sackett & Dreher, 1982; vgl. auch Jeserich, 1995,<br />
Schuler, 1996, Nienaber, 1997, Obermann, 2006), wird damit begründet,<br />
dass diese ein Modell der klassischen Testtheorie ist. Als Konstrukt gilt<br />
demnach ein postuliertes Persönlichkeitsmerkmal, welches als relativ<br />
stabil gilt und über unterschiedliche Situationen und Zeiten hinweg<br />
verhältnismäßig konstant bleibt. Wie bereits herausgestellt, soll das AC<br />
aber gerade das individuelle Verhalten in verschiedenen Situationen<br />
erfassen.<br />
• Reliabilität: Die Anforderungen an die Reliabilität von<br />
kriteriumsorientierten Verfahren sind grundsätzlich analog zu denen der<br />
klassischen Testtheorie (Fisseni, 1990). Allerdings ist zu beachten, dass<br />
ihre Bestimmung deutlich schwieriger ist, da man beispielsweise in<br />
situativen Test nicht ohne Probleme die Split-half-Methode oder<br />
Konsistenzanalyse anwenden kann (Schuler, 1996). Was man also<br />
24
Theoretischer Hintergrund<br />
genau unter der Reliabilität eines kriteriumsorientierten Tests zu<br />
verstehen hat, ist nach Klauer (1987) nicht völlig klar auszumachen.<br />
• Objektivität: Auch für die Objektivität gelten gleiche Anforderungen wie in<br />
der klassischen Testtheorie. Fisseni (1990) befasst sich in Bezug auf die<br />
kriteriumsorientierte Leistungsmessung lediglich mit der<br />
Auswertungsobjektivität, jedoch dürften auch die Durchführungs- sowie<br />
Interpretationsobjektivität in diesem Messmodell Gültigkeit besitzen.<br />
Die beiden Messmodelle der klassischen Testtheorie und der<br />
kriteriumsorientierten Leistungsmessung haben samt ihrer Gütekriterien eine<br />
entscheidende Bedeutung für das Thema der vorliegenden Arbeit, da es sich<br />
um eine Validierungsstudie handelt. Das zu validierende Instrument ist ein<br />
computergestützter <strong>Postkorb</strong>, welcher eine Mischform aus situativer Übung und<br />
Leistungstest darstellt (Höft, 2003) und der als ein Teil des AC eingesetzt wird.<br />
Deshalb soll im nachfolgenden Kapitel auf das Assessment Center allgemein<br />
eingegangen werden, um die vorliegende Studie thematisch einzuordnen.<br />
25
Theoretischer Hintergrund<br />
2.2 Das Assessment Center als eignungsdiagnostisches<br />
Instrument<br />
Um eine thematische Einordnung des Gegenstands der vorliegenden Arbeit zu<br />
schaffen, wird im Folgenden Kapitel auf das Assessment Center (AC) genauer<br />
Bezug genommen. Zunächst erfolgt eine Begriffsklärung und Definition (2.2.1).<br />
Daran anschließend folgt die Darstellung eines typischen AC-Ablaufs (2.2.2)<br />
sowie der zentralen Komponenten, die bei der Konzeption des AC unbedingt<br />
beachtet werden sollten (2.2.3). In Kapitel 2.2.4 wird schließlich ein Überblick<br />
über die wichtigsten AC-Übungen gegeben, bevor dann in Kapitel 2.3 der<br />
<strong>Postkorb</strong> herausgegriffen und detaillierter beschrieben wird.<br />
2.2.1 Definition des Assessment Centers<br />
Aufgrund der Breite an theoretisch beschriebenen und praktisch angewandten<br />
Assessment Center (AC) Varianten hat sich bis heute keine allgemein gültige<br />
Definition des Verfahrens durchgesetzt (Jeserich, 1995; Paschen, Weidemann,<br />
Turck & Stöwe, 2005). Obermann (2006) definiert das AC wie folgt:<br />
„Ein Assessment Center ist ein ein- bis dreitägiges Seminar mit acht bis zwölf<br />
Mitarbeitern oder Bewerbern, die von Führungskräften und Personalfachleuten<br />
in Rollenübungen und Fallstudien beobachtet und beurteilt werden. Diese<br />
Rollenübungen und Fallstudien sind charakteristisch für bestehende zukünftige<br />
Arbeitssituationen und Aufgabenfelder“ (S.12).<br />
Diese Beschreibung kann jedoch als zu eingeschränkt betrachtet werden. So<br />
findet eine Vielzahl abgewandelter Formen inzwischen Verwendung, wozu<br />
beispielsweise das Reality-Assessment Center oder das Lernpotential-<br />
Assessment Center zählen (Jerusalem, 2003; Paschen et al., 2005).<br />
Hinsichtlich seiner Merkmale, wie der Dauer des Verfahrens, Anzahl der<br />
Teilnehmer, Menge und Auswahl der festgelegten Anforderungen sowie der Art<br />
der eingesetzten Übungen (siehe Kapitel 2.2.5) differieren Assessment Center<br />
innerhalb Deutschlands und im internationalen Vergleich teils erheblich (Krause<br />
& Gebert, 2005).<br />
26
Theoretischer Hintergrund<br />
Angesichts dessen scheint eine generellere Umschreibung angebrachter.<br />
Jeserich (1981) definiert das Assessment Center als:<br />
„systematisches Verfahren zur qualifizierten Feststellung von<br />
Verhaltensleistungen und -defiziten, das von mehreren Beobachtenden<br />
gleichzeitig für mehrere Teilnehmende in Bezug auf vorher definierte<br />
Anforderungen angewandt wird“ (S. 33).<br />
Es handelt sich demnach um ein eignungsdiagnostisches Instrument, dessen<br />
zentrale Funktion in der Beurteilung der aktuellen oder zukünftigen Eignung für<br />
eine berufliche Tätigkeit liegt (Jerusalem, 2003).<br />
Bereits Mitte der 1920er Jahre wurde ein AC-ähnliches Instrument zur Auswahl<br />
von Offizieren in der deutschen Wehrmacht eingesetzt (Schuler & Moser,<br />
1995). Nachdem es ab dem zweiten Weltkrieg auch in Großbritannien und den<br />
USA Verwendung fand, ebenfalls zur Auswahl geeigneter Offiziersanwärter,<br />
gelangte das Assessment Center über amerikanische Universitäten und<br />
Unternehmen wie IBM, AT&T und General Electrics zurück in die<br />
Bundesrepublik, wo es erstmalig im Jahr 1969 bei IBM Deutschland eingesetzt<br />
wurde (Jeserich, 1995). Seit Anfang der 1980er Jahre steigt die Verwendung<br />
von Assessment Centern in der deutschen Wirtschaft nun kontinuierlich an<br />
(Obermann, 2006). Inzwischen wird das AC von mehr als 50 Prozent der<br />
Unternehmen in Deutschland eingesetzt (Neubauer, 2005; ausführlich zur<br />
Geschichte des AC: Domsch & Jochum, 1989; Jeserich, 1995; Schuler &<br />
Moser, 1995)<br />
Verwendet wird das Instrument für vielfältige Zwecke, die zum größten Teil der<br />
internen und externen Führungs- und Personalauswahl oder der<br />
Personalentwicklung, wie beispielsweise im Rahmen von Potentialanalysen,<br />
zuzuordnen sind (Fisseni & Preusser, 2007; Obermann, 2006; Schuler, 1996,<br />
Jeserich, 1981).<br />
27
Theoretischer Hintergrund<br />
2.2.2 Ablauf eines Assessment Centers<br />
Wie bereits beschrieben, wird in der Praxis eine Reihe verschiedener<br />
Ausgestaltungen des Assessment Centers angewandt. Grundsätzlich<br />
gemeinsam sind den verschiedenen Verfahrensarten jedoch die Phasen der<br />
Vorbereitung, Durchführung und Nachbereitung (Jeserich, 1981). Im Folgenden<br />
soll dieser zeitliche Ablauf exemplarisch dargestellt werden.<br />
Im Rahmen der Vorbereitung eines Assessment Centers werden zunächst die<br />
Ziele seines Einsatzes definiert und die Zielgruppe bestimmt, die das Verfahren<br />
durchlaufen soll (Obermann, 2006). So haben Studien gezeigt, dass man<br />
beispielsweise ausschließlich Teilnehmer gleicher Hierarchiestufen zusammen<br />
ein AC durchlaufen lässt, um Effekte in Gruppenübungen und andere<br />
Verzerrungen zu verhindern (Jeserich, 1995). Weiterhin erfolgen in dieser<br />
Vorbereitungsphase die Auswahl der Beobachter und die Ermittlung des<br />
Anforderungsprofils (Jerusalem, 2003; Jeserich, 1981), indem durch eine<br />
Tätigkeitsanalyse Aufgabenstellungen und erfolgskritische Anforderungen der<br />
Zielstelle erfasst werden (siehe Kapitel 2.2.3.1). Aus diesem Profil werden die<br />
zu beurteilenden Kriterien abgeleitet und die passenden Übungen konzipiert<br />
bzw. ausgewählt (siehe Kapitel 2.2.3.3). Hierbei ist empfehlenswert, diese<br />
sinnvoll in einen fiktiven Kontext einzubetten und mithilfe einer<br />
Rahmenhandlung eine allgemeine Ausgangslage zu schaffen (Paschen et al.,<br />
2005). Den Abschluss der Vorbereitungsphase bilden organisatorische<br />
Vorbereitungen, wie etwa Buchung von Seminarräumen oder die Einladung und<br />
Vorinformation der Teilnehmer.<br />
Die Phase der Durchführung beginnt mit einer Schulung der Beobachter, in der<br />
diese auf die anstehenden Aufgaben vorbereitet werden (Jeserich, 1981; siehe<br />
Kapitel 2.2.3.4). Anschließend werden die Teilnehmer empfangen und über<br />
Organisatorisches sowie Ziele und Inhalte des Verfahrens informiert (siehe Kap.<br />
2.2.3.5). Danach durchlaufen die Kandidaten die einzelnen Übungen und<br />
werden dabei von den Assessoren hinsichtlich der vorgegeben<br />
Anforderungsdimensionen beobachtet und bewertet (Jeserich, 1981). Während<br />
der Durchführungsphase übernimmt ein Moderator zum einen organisatorische<br />
und koordinierende Aufgaben und supervidiert zum anderen den<br />
Beurteilungsprozess im Sinne der einzuhaltenden Qualitätsstandards (Höft &<br />
28
Theoretischer Hintergrund<br />
Funke, 2006; Obermann, 2006).<br />
In der letzten Phase des Verfahrens werden die abgegebenen Bewertungen<br />
aller Kandidaten im Rahmen einer Beobachterkonferenz zu einem Gesamturteil<br />
zusammengetragen und ggf. in Form schriftlicher Ergebnisberichte bzw.<br />
Gutachten festgehalten, welche wiederum für die zukünftige<br />
Personalentwicklungsplanung des Unternehmens von großer Bedeutung sind<br />
(Paschen et al., 2005). In Abhängigkeit von der Zielsetzung des Verfahrens<br />
werden dabei Empfehlungen bzgl. der Auswahlentscheidungen und/oder<br />
weiterer Entwicklungsmaßnahmen getroffen (Jeserich, 1995). Abschließend<br />
erfolgt die Information der Kandidaten über die entsprechenden Ergebnisse im<br />
Rahmen eines Feedbackgesprächs, welches je nach Unternehmen und<br />
Bewerberzusammensetzung unterschiedlich ausführlich ausfallen kann<br />
(Jeserich, 1981; Jerusalem, 2003).<br />
2.2.3 Zentrale Komponenten des Assessment Centers<br />
Wegen der Vielfältigkeit der in der Praxis angewandten Verfahren fällt es<br />
schwer, allgemeingültige Aussagen über Assessment Center zu treffen. Die<br />
folgenden Ausführungen fokussieren daher auf die Darstellung der zentralen<br />
Komponenten, aus denen jedes AC bestehen sollte (Arbeitskreis Assessment<br />
Center e.V., 2004; Obermann, 2006).<br />
2.2.3.1 Anforderungsanalyse<br />
Ein Assessment Center ist durch das Grundprinzip der Anforderungsanalyse<br />
charakterisiert (Jerusalem, 2003; Obermann, 2006). Nach diesem Prinzip<br />
werden die Inhalte des AC auf die interessierende berufliche Position<br />
zugeschnitten, indem im Vorfeld der Konzeption eine Analyse der konkreten<br />
Stellenanforderungen erfolgt und das Verfahren diesbezüglich operationalisiert<br />
wird (Arbeitskreis Assessment Center e.V., 2004). Oft wird dafür die Strategie<br />
der Critical Incidents angewandt, d.h. es wird nach typischen, aber auch<br />
besonders herausfordernden Ereignissen und Vorfällen auf der angestrebten<br />
Zielposition oder -ebene gefragt und anschließend ermittelt, mit welchen<br />
29
Theoretischer Hintergrund<br />
Verhaltensweisen erfolgreiche sowie weniger erfolgreiche Führungskräfte diese<br />
Situationen bewältigen (Jeserich, 1995). Fachliche Kompetenzen spielen in<br />
diesem Kontext eine untergeordnete Rolle, vielmehr geht es dabei um<br />
Dimensionen wie soziale Kompetenzen, Denk- und Planungsfähigkeit oder<br />
Führungskompetenz. Allerdings weisen in der AC-Praxis fast alle<br />
Anforderungsprofile unterschiedliche Dimensionen auf. Dies ist sicherlich zum<br />
einen durch Uneinigkeiten in den Definitionen psychologischer Begrifflichkeiten<br />
begründet, zum anderen aber auch durch subjektive Einfärbungen der<br />
jeweiligen Unternehmenskulturen oder -beratungen erklärbar (Jeserich, 1981).<br />
Umso wichtiger ist eine genaue Definition und Operationalisierung der<br />
Verhaltenskategorien in der Anforderungsanalyse. Je genauer die Zielposition<br />
erfasst und deren Anforderungen in den Übungen des AC umgesetzt wird,<br />
desto höher ist die Genauigkeit von Prognosen über das spätere<br />
Arbeitsverhalten (Obermann, 2006).<br />
2.2.3.2 Simulation<br />
Die so ermittelten eignungsrelevanten Aufgaben werden im Rahmen<br />
verschiedener AC-Übungen umgesetzt, die den beruflichen Alltag der<br />
Zielposition möglichst realistisch simulieren sollen (Sünderhauf, Stumpf & Höft,<br />
2005). Kernidee dieses Simulationsprinzips ist, dass die Teilnehmer des<br />
Assessment Centers relevante Anforderungen und Aufgaben praktisch<br />
erfahren, anstatt beispielsweise in einem Interview lediglich darüber zu<br />
sprechen (Fisseni & Preusser, 2007). Deshalb wird in den Übungen das<br />
realisiert, was später auch vom potenziellen Inhaber der angestrebten Position<br />
erwartet wird: Ein Verkäufer durchläuft beispielsweise Verkaufs-Rollenspiele,<br />
ein zukünftiger Vorgesetzter soll Mitarbeitergespräche führen, ein Administrator<br />
bearbeitet eine <strong>Postkorb</strong>-Übung und ein Bewerber um eine verhandelnde<br />
Position leitet eine simulierte Konferenz. Je ähnlicher diese Arbeitssimulationen<br />
den tatsächlichen Aufgaben der Zielstelle sind, desto genauer ist die<br />
Eignungsaussage bezüglich zukünftigen Arbeitsverhaltens (Obermann, 2006).<br />
30
Theoretischer Hintergrund<br />
2.2.3.3 Methodenvielfalt<br />
Im Sinne der Methodenvielfalt handelt es sich bei AC-Übungen um eine<br />
Kombination verschiedenster Methoden, welche die erfolgskritischen<br />
Leistungen der Teilnehmer auf unterschiedliche Weise erfassen sollen (Höft &<br />
Funke, 2006). Wichtig dabei ist, dass jedes der in der Anforderungsanalyse<br />
ermittelten Kriterien in unterschiedlichen Übungen mehrfach und unabhängig<br />
voneinander beobachtet werden muss (Obermann, 2006). So werden im<br />
Assessment Center mit den beschriebenen Arbeitssimulationen zum<br />
überwiegenden Teil Übungen wie Rollenspiele, Gruppendiskussionen und<br />
Präsentationen eingesetzt (Fisseni & Preusser, 2007). Ergänzt werden sie<br />
durch weitere Methoden wie Postkörbe, Fallstudien, Planspiele, Leistungs- und<br />
Persönlichkeitstests sowie Interviews (siehe Kapitel 2.2.5). Am häufigsten<br />
erfasst werden dabei Beurteilungsdimensionen oder -kriterien wie<br />
Kommunikationsfähigkeit, Durchsetzungsfähigkeit, Kooperations- und<br />
Konfliktfähigkeit, Führungskompetenzen sowie systematisches Denken und<br />
Problemlösefähigkeit (Krause, Meyer zu Kniendorf & Gebert, 2001). Eine grobe<br />
Übersicht ohne Anspruch auf Vollständigkeit stellt dabei Tabelle 1 in Anlehnung<br />
an Obermann (2006) dar:<br />
31
Theoretischer Hintergrund<br />
Tabelle 1: Zuordnung der häufigsten AC-Übungen zu einer Auswahl möglicher<br />
Beurteilungskriterien, in Anlehnung an Obermann (2006). Siehe dazu auch Kapitel 2.2.5.<br />
Zwischenmenschliches Verhalten Leistungsverhalten Intellekt.<br />
Fähigkeiten<br />
Delegation<br />
Kontrolle<br />
Motivationsfähigkeit<br />
Sensibilität<br />
Durchsetzung<br />
Teamfähigkeit<br />
Kommunikationsfähigkeit<br />
Entscheidungsverhalten<br />
Überzeugungsfähigkeit<br />
Ausdauer<br />
Zielsetzung<br />
Energie<br />
Belastbarkeit<br />
Leistungsmotivation<br />
Analytisches Denken<br />
Kreativität<br />
Organisation / Systematik<br />
Werte / Interessen<br />
Selbstbild<br />
AC-Simulationen<br />
Gruppendiskussionen X X X X X X X X X X X<br />
Präsentationen X X X X X X<br />
Rollenspiele X X X X X X X X X X X X X X<br />
Fallstudien X X X X X X X X X X X X X X X<br />
Planspiele X X X X X X X X X X X X X X<br />
Postkörbe X X X X X X X X X<br />
Psychologische Tests<br />
Intelligenztests X X X<br />
Leistungstests X X X X X<br />
Persönlichkeitstests X X X X X X<br />
2.2.3.4 Mehrfachbeurteilungen<br />
In diesen vielfältigen Simulationen dient die Beobachtung durch mehrere<br />
Assessoren als zentrales Mittel der Datenerhebung (Arbeitskreis Assessment<br />
Center e. V., 2004).<br />
Die Teilnehmer werden dabei von mehreren Beobachtern und in<br />
unterschiedlichen Übungen beurteilt, um Verzerrungseffekte sowie<br />
unterschiedliche Wahrnehmungen auszugleichen und Subjektivität zu<br />
32
Theoretischer Hintergrund<br />
vermindern (Jeserich, 1995; Obermann, 2006).<br />
Als weitere Maßnahme der Qualitätssicherung sollte sich das Beobachterteam<br />
sowohl aus Vertretern der Personalabteilung und Führungskräften des<br />
Unternehmens als auch aus externen Beratern zusammensetzen (Fisseni &<br />
Preusser, 2007). So können die unternehmensinternen Beobachter besonders<br />
gut die Passung von Bewerbern bzw. Mitarbeitern in die Unternehmenskultur<br />
beurteilen, da sie als Führungskräfte diese Kultur mitprägen und selbst<br />
jahrelang von ihr geprägt wurden. Auf der anderen Seite verfügen externe<br />
Berater meist über tieferes psychologisches und diagnostisches Know-how und<br />
sind mit der Verfahrensdurchführung besser vertraut (Obermann, 2006). Diese<br />
Kombination von Beobachtern mit verschiedenen fachlichen Hintergründen<br />
empfiehlt sich, um eine möglichst adäquate Eignungsaussage treffen zu können<br />
(Neubauer & Volkmann, 1995). Als notwendige Bedingung dafür gilt jedoch,<br />
dass alle Beobachter, besonders diejenigen ohne psychologische<br />
Fachausrichtung, in einer Beobachterschulung angemessen trainiert werden<br />
(Schuler, 1987). Dabei soll besonders die Trennung von Beobachten und<br />
Bewerten bewusst gemacht sowie intensiv auf potenzielle Fehlerquellen bei der<br />
Beurteilung, beispielsweise Attributionsfehler, Halo-Effekt, Erwartungseffekt<br />
oder Kontrasteffekt, hingewiesen werden (Obermann, 2006; Jeserich, 1981).<br />
Zudem sollen die Beobachter mit den vorliegenden Verhaltenskriterien und ggf.<br />
durchzuführenden Rollenspielen vertraut gemacht werden. Nur durch eine<br />
solche Beobachterschulung kann eine hinreichende Urteilshomogenität und ein<br />
gewisses Maß an Standardisierung gewährleistet werden (Jeserich, 1995).<br />
2.2.3.5 Transparenz<br />
Gemäß dem Transparenzprinzip sollen die beobachteten Kriterien,<br />
Zielsetzungen und Inhalte der Übungen allen Beteiligten, also auch den<br />
Teilnehmern, offen gelegt werden (Arbeitskreis Assessment Center e.V., 2004;<br />
Jerusalem, 2003; Jeserich, 1981). Dadurch wird gewährleistet, dass das<br />
Verfahren für die Kandidaten nachvollziehbar wird und sie sich in den Übungen<br />
adäquat verhalten können (Bolte & Sünderhauf, 2005). Auch soll den<br />
Teilnehmern nach dem Verfahren ein ausführliches, am Anforderungsprofil<br />
33
Theoretischer Hintergrund<br />
orientiertes Feedback über ihre Stärken und Verbesserungsmöglichkeiten<br />
gegeben werden. Dadurch bekommt der Bewerber die Möglichkeit, an seinen<br />
indizierten Schwächen zu arbeiten und ggf. Förderangebote in Anspruch zu<br />
nehmen, so dass auch im AC gescheiterte Teilnehmer ihre Vorteile daraus<br />
ziehen können (Jeserich, 1995; Obermann, 2006). Durch diese Maßnamen<br />
trägt die Transparenz dazu bei, dass die Akzeptanz des Assessment Centers<br />
im Vergleich zu anderen eignungsdiagnostischen Instrumenten, wie etwa der<br />
ausschließlichen Verwendung eines Interviews oder Testverfahren, als sehr<br />
hoch einzustufen ist (Obermann, 2006).<br />
2.2.4 Bedeutung von Reihenfolgeeffekten im Assessment Center<br />
Die bisherige Forschung zum Assessment Center beschäftigt sich überwiegend<br />
mit Fragen zur Validität oder Akzeptanz des Verfahrens, zum<br />
Beobachterverhalten oder weiteren methodischen Fragestellungen. Der<br />
möglichen Auswirkung von Reihenfolgeeffekten durch die unterschiedliche<br />
Abfolge der Aufgaben wurde bislang kaum Beachtung geschenkt (Fruhner,<br />
2005). Dennoch wird oft von AC-Teilnehmern berichtet, dass sie zu Beginn des<br />
AC noch stark verunsichert und nervös seien und die Art der gestellten<br />
Aufgaben und die damit verbundene Bewertungssituation für sie neu sei<br />
(Nienaber, 1997). Für Aufgaben, die im ersten Teil des AC durchgeführt<br />
werden, bedeutet dies, dass die tatsächliche Leistung eines Teilnehmers durch<br />
die eigene Unsicherheit und Nervosität stärker beeinflusst werden könnte als<br />
später durchgeführte Aufgaben. So könnte die Bewältigung der eigenen<br />
Nervosität in einer frühen AC-Aufgabe für den Teilnehmer eher im Vordergrund<br />
stehen als die eigentlichen Aufgabenmerkmale, wie beispielsweise analytische<br />
Anforderungen. Hinzu kommt, dass die Erfahrung, die ein Teilnehmer in einer<br />
vorherigen Übung gemacht hat, einen Einfluss auf sein weiteres Verhalten und<br />
damit auf sein Gesamtergebnis haben kann (Fruhner, 2005). Diese Vermutung<br />
liegt besonders bei AC-Übungen nahe, deren Anforderungen ähnlich sind, z.B.<br />
bei einem Intelligenztest, einem <strong>Postkorb</strong>, einem Planspiel und einer Fallstudie<br />
(siehe Kapitel 2.2.5). Aufgrund der Verwandtschaft bestimmter Übungen<br />
könnten folglich durchaus Übungseffekte auftreten.<br />
34
Theoretischer Hintergrund<br />
Entgegen all diesen Überlegungen deuten die wenigen empirischen Befunde<br />
jedoch darauf hin, dass sich Reihenfolgeeffekte im AC nicht auf die Ergebnisse<br />
eines Teilnehmers auswirken. Nienaber (1997) untersuchte die Auswirkung<br />
solcher Effekte auf die Gesamtbeanspruchung des Teilnehmers, auf<br />
analytische, psychische und verhaltensbezogene Anforderungen sowie auf<br />
physiologische Indikatoren wie Herzratenveränderungen. Dabei fand er jedoch<br />
keine nennenswerten Positionseffekte über die verschiedenen Übungen<br />
hinweg, so dass die Hypothese, dass sich durch zurückgehende Nervosität im<br />
Laufe des AC die auftretende Beanspruchung verringern und somit die<br />
tatsächliche Leistung erhöhen würde, abgelehnt wurde. Bezüglich der<br />
Leistungsverzerrung durch die eigene Unsicherheit und Nervosität eines<br />
Teilnehmers spielt die Positionierung einer Übung im Assessment Center<br />
demnach keine Rolle. In einer weiteren Studie, die im Rahmen von mehrtägigen<br />
Assessment Centern stattfand, untersuchte Fruhner (2005), ob die<br />
unterschiedliche Abfolge von Aufgaben einen Einfluss auf das individuelle<br />
Abschneiden der Teilnehmer hat. Das Ergebnis war, dass sich die Leistungen<br />
der vier Teilnehmergruppen trotz variierender Übungsreihenfolge nur in der<br />
Übung Vortrag unterschied. Genauer gesagt unterschied sich lediglich eine<br />
Gruppe (Gruppe 3) von den Ergebnissen der anderen drei Gruppen in der<br />
Übung Vortrag. Der Autor begründet dieses Ergebnis jedoch durch einen<br />
eigenen Konzeptionsfehler, da die Gruppe 3 laut Zeitplan als einzige Gruppe<br />
den Vortrag noch vor dem gemeinsamen Abendessen hielt. Somit konnten die<br />
anderen Teilnehmergruppen von den Erfahrungen der Gruppe 3 profitieren,<br />
beispielsweise bzgl. der Visualisierungsmöglichkeiten. Zudem seien die<br />
Beobachter möglicherweise nach dem Abendessen bei den anderen drei<br />
Gruppen wohlwollender in der Beurteilung des Vortrages gewesen. Unter<br />
gleichen Durchführungsbedingungen für alle Gruppen in allen Übungen geht<br />
Fruhler (2005) deshalb davon aus, dass keine Reihenfolgeeffekte im AC durch<br />
die Positionierung der Übungen ausgelöst werden, so wie die Ergebnisse der<br />
anderen Übungen in seiner Studie es zeigen würden. Dennoch weist er darauf<br />
hin, dass zukünftige Studien die Auswirkungen dieser methodischen<br />
Veränderung, d.h. wenn alle Gruppen den Vortrag nach dem Abendessen<br />
halten würden, untersuchen müssten. Auch Nienaber (1997) schließt sein Fazit<br />
35
Theoretischer Hintergrund<br />
damit, dass trotz der vorliegenden Ergebnisse bei der Konzeption eines AC auf<br />
Positionseffekte geachtet werden müsse und diese nie ganz ausgeschlossen<br />
werden könnten.<br />
2.2.5 Methodenüberblick<br />
Nach der Begriffsklärung zum Assessment Center und der geschichtlichen<br />
Einordnung sind ein typischer zeitlicher Ablauf, seine zentralen Komponenten<br />
und Qualitätsanforderungen und die Bedeutung von Reihenfolgeeffekten<br />
dargestellt worden. Im Folgenden soll nun ein kurzer Überblick über die in der<br />
Praxis am häufigsten eingesetzten Methoden gegeben werden. Hierbei soll der<br />
Fokus auf den psychologischen Testverfahren, dem Planspiel und der<br />
Fallstudie liegen, da diese in Beziehung zu dem in dieser Arbeit untersuchten<br />
Konstrukt stehen.<br />
2.2.5.1 Interview<br />
Interviews gehören in der Personalauswahl und -beurteilung zu den am<br />
weitesten verbreiteten Instrumenten (Sarges, 1995; Jeserich, 1981). In der<br />
Praxis liegen jedoch unterschiedlichste Variationen vor, da Interviewformen<br />
besonders bzgl. des Strukturierungsgrades, ihrer Teilnehmerzahl und ihrem<br />
Durchführungsmodus variieren können (Hösch, 1995). Generell lässt sich das<br />
Interview jedoch als eine zielgerichtete mündliche Kommunikation zwischen<br />
einem oder mehreren Befragern und einem oder mehreren Befragten<br />
beschreiben, bei der eine Informationssammlung über das Verhalten und<br />
Erleben der zu befragenden Person(en) im Vordergrund steht (Sarges, 1995).<br />
In der Eignungsdiagnostik soll das Interview also dem Zweck dienen, Fragen<br />
zur Eignung eines Kandidaten zu beantworten. Außerdem soll auch die<br />
Passung eines Bewerbers zum Unternehmen geprüft werden, ebenso wie der<br />
Bewerber die Möglichkeit hat herauszufinden, ob er sich selbst mit der<br />
jeweiligen Unternehmenskultur identifizieren kann (Hösch, 1995). Zur<br />
prognostischen Validität des Interviews gibt es in der Literatur jedoch geteilte<br />
Ansichten: Verschiedenen Metaanalysen zufolge liegt die Vorhersagekraft von<br />
36
Theoretischer Hintergrund<br />
Interviews für den Berufserfolg zwischen .38 und .63 (ausführlich zur Validität<br />
des Interviews und den Möglichkeiten seiner Qualitätssicherung: Sarges, 1995).<br />
Die in der Praxis am häufigsten anzutreffende Variante ist das halbstrukturierte<br />
Interview in dyadischer Form, d.h. ein Interviewer befragt einen Kandidaten.<br />
Dass dabei durch die subjektive Beurteilung erhebliche Verzerrungseffekte<br />
auftreten können, scheint die Anwender nicht zu stören (Jeserich, 1981).<br />
2.2.5.2 Rollenspiel<br />
Rollenspiele bilden zumeist das Herzstück eines jeden Assessment Centers.<br />
Dabei handelt es sich um Dialogsituationen mit einem „Als-Ob-Charakter“, d.h.<br />
dass beispielsweise eine Verhandlung, ein Mitarbeitergespräch oder ein<br />
Zielvereinbarungsgespräch simuliert wird (Jung, 1995; Fisseni & Preusser,<br />
2007). Die Teilnehmer interagieren dabei mit geschulten Rollenspielern, die<br />
sich möglichst nah an die schriftlichen Verhaltensinstruktionen halten sollen, die<br />
sich aus der vorher erfolgten Anforderungsanalyse (siehe Kapitel 2.2.3.1)<br />
ergeben haben (Obermann, 2006). Nur wenn die Simulation sowohl typisch als<br />
auch bedeutsam für die angestrebte Position ist und sich der Rollenspieler bei<br />
allen Durchführungen ähnlich verhält, wobei natürlich bestimmte<br />
Handlungsspielräume gegeben sein müssen, kann das Rollenspiel als<br />
möglichst standardisiert und aussagekräftig angesehen werden (Jung, 1995).<br />
Anschließend erfolgt anhand der definierten Anforderungskriterien eine<br />
Bewertung, ob das gezeigte Verhalten für die zugrunde liegende kritische<br />
Situation adäquat war oder nicht (Jeserich, 1981). Die Nützlichkeit von<br />
Rollenspielen ergibt sich aus den recht „weichen“ Kriterien, die durch sie erfasst<br />
werden sollen und die durch andere Methoden nur sehr schwer greifbar<br />
gemacht werden, so z.B. Kooperationsfähigkeit, Motivationsfähigkeit oder<br />
Überzeugungskraft (Obermann, 2006).<br />
2.2.5.3 Gruppendiskussion<br />
Die Teilnehmer werden in dieser Übung aufgefordert, als Gruppe ein<br />
bestimmtes Thema zu diskutieren, wobei die Strukturierung und<br />
37
Theoretischer Hintergrund<br />
Vorgehensweise in der Diskussion den Teilnehmern selbst überlassen bleibt<br />
(Fisseni & Preusser, 2007). Nach Reiter (1995) gelten hierbei als häufigste<br />
Kriterien vor allem Aktivität, Initiative, Durchsetzungsvermögen,<br />
Lösungsorientierung, Kommunikationsfähigkeit, Urteilsvermögen, emotionale<br />
Stabilität, soziale Sensibilität, Teamfähigkeit und Kooperationsfähigkeit. Diese<br />
seien besonders in führerlosen Gruppendiskussionen ohne fachbezogene<br />
Problemstellung und Lösungszwang auch von nicht psychologisch geschulten<br />
Beobachtern sehr gut zu beurteilen. Während der Diskussion sitzen die<br />
Beobachter abseits der Gruppe und beteiligen sich nicht aktiv am<br />
Gesprächsverlauf, da sonst die Objektivität des Verfahrens gestört würde und<br />
sich die Teilnehmer nach einer Beobachteräußerung in den meisten Fällen nur<br />
noch sozial angepasst verhalten würden (Reiter, 1995).<br />
Die Vorteile der Gruppendiskussion liegen besonders in ihrer hohen<br />
Augenscheinvalidität für Teilnehmer und Beobachter, da entsprechende<br />
Meetings und Arbeitsgruppen auch im realen Arbeitsalltag oft vorkommen.<br />
Zusätzlich ist sie sehr ökonomisch, da nach nur etwa einer Stunde Aussagen<br />
über alle Teilnehmer möglich sind (Fisseni & Preusser, 2007). Allerdings<br />
werden bei Obermann (2006) auch zwei entscheidende Nachteile dargestellt,<br />
die am Nutzen der häufigen Verwendung der Gruppendiskussion im AC<br />
zweifeln lassen. Zum einen gibt es oft Teilnehmer, die aufgrund von<br />
ausgeprägter Introversion oder einfach Nervosität fast die ganze Diskussion<br />
über gar nichts sagen und höchstens gegen Ende etwas „auftauen“. Hier<br />
besteht die Gefahr, dass diese Teilnehmer fälschlicherweise in allen Kriterien<br />
von den Beobachtern abgewertet werden oder das hervorstechendste Merkmal<br />
der wenigen Wortbeiträge, wie z.B. Eloquenz, die anderen Dimensionen<br />
überstrahlt. Die zweite nach Obermann (2006) genannte Problematik liegt in der<br />
generellen Laborhaftigkeit und Reaktivität von AC-Übungen begründet. In<br />
Gruppendiskussionen mit bis zu zwölf Teilnehmern sind die Redeanteile des<br />
einzelnen deutlich geringer als bei einem Rollenspiel mit einem Teilnehmer und<br />
einem Rollenspieler. Dadurch besteht in der Gruppendiskussion für jeden<br />
Teilnehmer mehr Zeit, sich zu überlegen, was wohl das von den Beobachtern<br />
gewünschte Verhalten sei. Dies hat naturgemäß großen Einfluss auf das<br />
Verhalten des Teilnehmers, da zum einen seine Authentizität verloren geht, und<br />
38
Theoretischer Hintergrund<br />
er zum anderen das gewünschte Verhalten in den seltensten Fällen aufgrund<br />
variierender Unternehmenskulturen antizipieren kann.<br />
2.2.5.4 Präsentation<br />
Nach Obermann (2006) sollen die Teilnehmer in Präsentationsübungen ein<br />
bestimmtes Thema oder vorgegebenes Material aufbereiten, strukturieren und<br />
dann vor einer Gruppe von Beobachtern vortragen. Oft schließt sich an den<br />
reinen Vortrag noch ein Frageteil an, bei dem der Teilnehmer seine<br />
Ausführungen begründen und gegen Einwände der Beobachter verteidigen soll.<br />
Häufig erfasste Kriterien in Präsentationen sind systematisches Denken,<br />
sprachlicher Ausdruck, Überzeugungskraft und selbstsicheres Auftreten<br />
(Jeserich, 1981).<br />
Analog zur Gruppendiskussion gibt es auch beim Einsatz von Präsentationen<br />
im AC kritische Aspekte zu bedenken. Das hier ebenfalls starke<br />
Reaktivitätseffekte wirken können, belegt eine Studie von Bungard (1987, zit. n.<br />
Eggers & Oetting, 1995), in der er die Hypothesen der Teilnehmer über die<br />
Zielsetzung der Präsentationsübung erfasste. Je nach Vermutung über die Ziele<br />
und Absichten der Beobachter richteten sich die Selbstdarstellungsstrategien<br />
der Teilnehmer danach und es wurden diejenigen Präsentatoren über alle<br />
Kriterien hinweg günstiger beurteilt, deren Hypothesen mit den tatsächlich<br />
geprüften Beurteilungsdimensionen übereinstimmten. Ein weiterer<br />
Verzerrungseffekt kann zum Tragen kommen, wenn eine nur ungenügend<br />
differenzierte Unterscheidung seitens der Beobachter getroffen wird zwischen<br />
Merkmalen der Kommunikation (Rhetorik, Argumentationstechniken, Einflüssen<br />
des Gesprächinhaltes oder Verständlichkeit) und Merkmalen des<br />
Kommunikators, insbesondere Glaubwürdigkeit und Beliebtheit (Frey, 1979).<br />
Sprachliche Ausdrucksfähigkeit wird demnach oft mit intellektuellen Aspekten<br />
gleichgesetzt, genauso wie beispielsweise ein gelungener oder misslungener<br />
Einsatz von Präsentationsmedien die Beurteilung verzerren kann (Eggers &<br />
Oetting, 1995; Obermann, 2006).<br />
39
Theoretischer Hintergrund<br />
2.2.5.5 Psychologische Testverfahren<br />
Psychologische Tests sind zum Großteil auf der Basis der klassischen<br />
Testtheorie konstruiert und somit nicht optimal für den Einsatz innerhalb eines<br />
Assessment Centers geeignet (siehe Kapitel 2.1.2). Zur Klassifikation lassen sie<br />
sich unterteilen in Intelligenz-, Leistungs- und Persönlichkeitstests (Fisseni &<br />
Preusser, 2007; Hösch, 1995; Jeserich, 1981). Die beiden ersten Gruppen<br />
lassen sich meist als „Power“-Tests kategorisieren, d.h. dass möglichst viele<br />
Aufgaben in vorgegebener Zeit zu lösen sind und damit in der<br />
Eignungsdiagnostik besonders Kriterien wie sprachliche oder rechnerische<br />
Intelligenz, Gedächtnis, Problemlösefähigkeit oder Konzentration gemessen<br />
werden sollen (Obermann, 2006). Persönlichkeitstests dagegen sollen die<br />
Ausprägung von bestimmten emotionalen, motivationalen oder<br />
zwischenmenschlichen Neigungen und Einstellungen erfassen, beispielsweise<br />
Extraversion oder Dominanz (Hösch, 1995). In einer umfangreichen Befragung<br />
verschiedener Unternehmen und Behörden zur Anwendungshäufigkeit<br />
psychologischer Testverfahren hat Brambring (1983, zit. n. Obermann, 2006)<br />
als häufigste eingesetzte Verfahren den Intelligenz-Struktur-Test (IST), das<br />
Leistungsprüfsystem (LPS), den Aufmerksamkeits-Belastungs-Test (d2), den<br />
Mechanisch-Technischen Verständnistest (MTVT), das Freiburger<br />
Persönlichkeitsinventar (FPI) und den Berufs-Interessen-Test (BIT) ermittelt<br />
(vgl. Sarges & Wottawa, 2001; Brickenkamp, 2002). Zudem bestehe ein Trend<br />
zur Entwicklung von Tests zur speziellen Fähigkeitsmessung für bestimmte<br />
Berufe, beispielsweise die Eignungsuntersuchungsbatterie (EUB) der<br />
Bundesagentur für Arbeit. Als weiteres Beispiel kann die Arbeitsprobe zur<br />
berufsbezogenen Intelligenz für büro- und kaufmännische Tätigkeiten (AZUBI-<br />
BK) von Schuler und Klingner (2005, siehe Kapitel 2.5.1) gelten. Auf eine<br />
detaillierte Auflistung der in der Praxis verwendeten Verfahren sei an dieser<br />
Stelle verzichtet und stattdessen auf Sarges & Wottawa (2001) sowie<br />
Brickenkamp (2002) verwiesen.<br />
Psychologische Testverfahren werden im Rahmen von Assessment Centern<br />
immer wieder eingesetzt, obwohl Validitätsprüfungen oft zeigen, dass ihr<br />
Nutzen in diesem Kontext vergleichsweise gering ist (Daumenlang, 1995;<br />
Jeserich, 1995). Eine Begründung dafür ist sicherlich, dass die Tests nicht für<br />
40
Theoretischer Hintergrund<br />
die speziellen Anforderungsdimensionen des jeweiligen AC konstruiert wurden<br />
und somit nur bedingt homogene Ergebnisse im Vergleich mit anderen AC-<br />
Methoden liefern können (Jeserich, 1981). Der Arbeitskreis Assessment Center<br />
e.V. (2004) zählt ihren Gebrauch deshalb sogar zu den Verstößen gegen die<br />
Standards des AC, da sie weder situativ sind (siehe Kapitel 2.2.3.2) noch einer<br />
genauen Anforderungsanalyse der jeweiligen Zielposition entstammen (siehe<br />
Kapitel 2.2.3.1). Ein weiteres Argument dafür, dass psychologische Tests im<br />
Assessment Center bestenfalls als Ergänzung zu anderen Methoden<br />
angesehen werden können, liefert die von Wernimont und Campbell (1968)<br />
schon früh postulierte Unterscheidung von signs und samples. Unter dem<br />
Begriff signs werden sämtliche Tests, Fragebögen und andere Verfahren<br />
zusammengefasst, die allgemeine Prädispositionen für bestimmte<br />
Verhaltensweisen, oder anders gesagt situationsübergreifende, grundlegende<br />
psychologische Dimensionen messen sollen (Fisseni & Preusser, 2007). Dabei<br />
kann das Verhalten, in dem sich ein solches sign, also Zeichen, ausdrückt, im<br />
kritischsten Fall nur das Ankreuzen einer Antwort auf dem Papier sein.<br />
Wermington und Campbell (1968) empfehlen für die Personaldiagnostik<br />
dagegen eher samples, also Arbeitsproben, womit komplexe<br />
Verhaltenssequenzen, in die gleich mehrere Fähigkeits- oder<br />
Persönlichkeitsdimensionen hineinwirken, gemeint sind. Welche Dimensionen<br />
in diesem Zusammenhang genau gemessen werden, ist dabei sekundär. Viel<br />
wichtiger ist die Situation selbst und ihre adäquate Bewältigung durch den<br />
Bewerber (Obermann, 2006). Diese bereits in den 1960er Jahren vorgebrachte<br />
Forderung nach samples statt signs steht im Einklang mit der heutigen<br />
Qualitätsanforderung an Assessment Center nach Simulation (siehe Kapitel<br />
2.2.3.2). Erschwerend hinzu kommt noch, dass die meisten Tests nicht an den<br />
für ein AC typischen Teilnehmergruppen geeicht sind (Jeserich, 1995).<br />
Besonders bei Intelligenztests wie dem Hamburg-Wechsler-Intelligenztest für<br />
Erwachsene (HAWIE) oder dem Intelligenz-Struktur-Test (IST) (vgl. Sarges &<br />
Wottawa, 2001; Brickenkamp, 2002) wird oft für die kriterienbezogene Validität<br />
nur ein Zusammenhang mit Schulnoten und Lehrerurteilen angegeben. Bei der<br />
Testung von Auszubildenden und allenfalls noch Hochschulabsolventen mag<br />
dies noch zulässig sein, für eine Diagnostik von erwachsenen Bewerbern für<br />
41
Theoretischer Hintergrund<br />
komplexe und anspruchsvolle Tätigkeiten wird dieser Validitätsbereich<br />
allerdings verlassen (Daumenlang, 1995; Hösch, 1995). Augrund all dessen<br />
prognostiziert Obermann (2006) für die Zukunft einen eher rückläufigen Einsatz<br />
von psychologischen Testverfahren in Assessment Centern.<br />
2.2.5.6 Planspiele<br />
Das herkömmliche Planspiel wird häufig als Gruppenübung durchgeführt, bei<br />
der eine Situation simuliert wird, in der die Teilnehmer die Positionen von<br />
Führungskräften in miteinander konkurrierenden Unternehmen übernehmen. In<br />
einer vorgegebenen Zeit muss jeder Teilnehmer Entscheidungen bzgl. einer<br />
vorgegeben Thematik und vorliegenden Informationen treffen. Dafür müssen<br />
die aktuelle Situation analysiert und Lösungsvorschläge ausgearbeitet werden,<br />
welche im Anschluss in der Gruppe diskutiert und gegen die anderen<br />
Teilnehmer durchgesetzt werden sollen (Friedrich & Schwarz, 1989; Obermann,<br />
2006). Diese Entscheidungen werden periodenweise von der Spielleitung oder<br />
einem <strong>EDV</strong>-Programm ausgewertet und die Resultate an die Teilnehmer<br />
rückgemeldet, was wiederum die Informationsgrundlage für die nächste Periode<br />
darstellt (Fassheber, 1995). Die Teilnehmer beeinflussen sich also durch ihre<br />
Entscheidungen gegenseitig, da diese den vernetzten simulierten Markt<br />
verändern. Die vorgegebenen Fragestellungen haben dabei meist realitäts- und<br />
unternehmensnahen Charakter, wie etwa Themen der Preis-, Produkt- und<br />
Kommunikationspolitik oder Personalangelegenheiten (Obermann, 2006).<br />
Dadurch soll das Planspiel eine geraffte Simulation der Realität darstellen, in<br />
der man Kriterien wie Entscheidungsverhalten, analytische Fähigkeiten,<br />
Problemlösefähigkeit oder Durchsetzungsvermögen besonders präzise und<br />
realitätsnäher als in anderen Methoden beobachten kann (Friedrich & Schwarz,<br />
1989; Fassheber, 1995).<br />
Besonderer Beliebtheit erfreuen sich inzwischen zahlreiche <strong>EDV</strong>-Versionen<br />
solcher Planspiele, wobei das Prinzip des Planspiels für eine Bearbeitung per<br />
Computer implementiert worden ist (Kluwe, 1995). Somit kann das Instrument<br />
auch als Einzelverfahren verwendet werden, da die Reaktionen des Marktes<br />
durch den Computer simuliert werden. Solche „computergestützten<br />
42
Theoretischer Hintergrund<br />
Simulationen“, wie sie in der Literatur häufig betitelt werden (Funke & Rasche,<br />
1992; Fassheber, 1995; Hösch, 1995; Kluwe, 1995; Kersting, 2001; Obermann,<br />
2006), basieren grundsätzlich auf den Arbeiten von Dörner et al. aus den<br />
1970er und 80er Jahren, wie beispielsweise der Lohhausen-Simulation (Hösch,<br />
1995). Ihre Vorteile werden in einem noch dynamischeren und somit<br />
realitätsnäheren Übungsaufbau, der dadurch resultierenden Akzeptanz durch<br />
die hohe Augenscheinvalidität und einer ausschließlich computergestützten und<br />
dadurch objektiveren Auswertung gesehen (Funke & Rasche, 1992; Kluwe,<br />
1995). Allerdings bleibt zu bemängeln, dass bisher kaum wissenschaftliche<br />
Evaluationen derartiger Verfahren vorliegen, und zudem die wenigen<br />
veröffentlichten Arbeiten insbesondere hinsichtlich ihrer Validität enttäuschende<br />
Ergebnisse zeigen. So ergeben beispielsweise Studien von Kersting (2001),<br />
dass sich der Großteil der kriterienbezogenen Varianz der<br />
Simulationsergebnisse durch Intelligenz- und Wissensindikatoren empirisch<br />
abbilden lässt. Zudem wiesen Wolfe und Roberts (1986, zit. n. Kluwe, 1995)<br />
durch Längstschnittstudien nach, dass die Leistung in solchen „Business<br />
Games“ nicht bzw. nur gering mit dem späteren Karriereerfolg der<br />
Versuchspersonen zusammenhängt. Eine solch unbefriedigende<br />
Evaluationslage scheint verwunderlich angesichts der explosionsartigen<br />
Verbreitung solcher Instrumente in den 1990er Jahren. Allerdings befindet sich<br />
die wissenschaftliche Auseinandersetzung mit computergestützten<br />
Simulationen damit auf einem ähnlichen Stand wie die Forschung zu<br />
computergestützten <strong>Postkorb</strong>übungen (siehe Kapitel 2.4).<br />
2.2.5.7 Fallstudien<br />
Als Fallstudie wird die Beschreibung einer Problemsituation verstanden. Diese<br />
wird von den Teilnehmern eigenständig bearbeitet und mit dem Ziel des<br />
Herausfilterns von relevanten Informationen analysiert, so dass anschließend<br />
die entwickelte Lösungsstrategie dem Beobachterteam oder den anderen<br />
Teilnehmern des AC vorgestellt und darüber diskutiert werden kann (Domsch,<br />
1995; Fisseni & Preusser, 2007). Im Gegensatz zum Planspiel erhält der<br />
43
Theoretischer Hintergrund<br />
Teilnehmer jedoch während der Bearbeitung kein Feedback über die<br />
Auswirkungen seiner Lösungsstrategie (Obermann, 2006). Je nach<br />
Anforderungsprofil sollte bei der Fallstudie darauf geachtet werden, dass es<br />
mehr als eine mögliche Lösung gibt, da die Lösungsstrategie und<br />
Verhaltensmerkmale im Fokus der Beobachtung stehen sollen, und nicht eine<br />
Bewertung im Sinne von richtig oder falsch, wie es z.B. bei der Erfassung von<br />
fachspezifischen Fähigkeiten der Fall wäre (Domsch, 1995). Als<br />
Problemstellung eignen sich des Realitätsbezugs wegen besonders Themen<br />
aus dem Marketing oder Vertrieb, der Personalentwicklung, Führungsprobleme<br />
oder zwischenmenschliche Konflikte (Obermann, 2006). Häufig beobachtete<br />
Kriterien sind beispielsweise systematisches Denken und Handeln,<br />
Planungsfähigkeit, Entscheidungsverhalten, Unternehmerisches Denken oder<br />
Überzeugungskraft.<br />
Unter dem Begriff „Fallstudie“ werden diverse Varianten zusammengefasst.<br />
Domsch (1995) gibt ein Beispiel einer Typologie von Fallstudien, die in Tabelle<br />
2 dargestellt wird.<br />
Tabelle 2: Typologie von Fallstudien, nach Domsch (1995, S.605)<br />
Fallstudientyp<br />
Case-Problem-Method<br />
Incident-Method<br />
In-Basket-Exercise-Method<br />
(<strong>Postkorb</strong>)<br />
Case-Study-Method<br />
Kurzbeschreibung<br />
Kurze und vereinfachte Darstellung einer<br />
Problemsituation, die so zurechtgeschnitten ist, dass<br />
nur eine einzige Antwort bzw. Lösung möglich ist.<br />
Nur ein „Fall-Torso“ wird vorgegeben. Um den Fall<br />
lösen zu können, müssen erst die relevanten Daten<br />
ermittelt werden.<br />
Fallbearbeiter wird in eine Rollensituation<br />
hineinversetzt und muss Entscheidungen unter<br />
Zeitdruck über Problemstellungen treffen, die er in<br />
seinem <strong>Postkorb</strong> vorfindet.<br />
Umfangreiche (häufig 20 – 50 Seiten)<br />
wirklichkeitsgetreue Wiedergabe eines sich<br />
entwickelnden (Geschäfts-/Problem-) Ablaufs, der<br />
dann an dem Punkt unterbrochen wird, an dem<br />
Entscheidungen zu treffen sind.<br />
44
Theoretischer Hintergrund<br />
Die typischste Variante der Fallstudie ist wohl die umfangreiche Case-Study-<br />
Method. Aber auch der <strong>Postkorb</strong> (engl. In-Basket-Exercise) kann als Variante<br />
der Fallstudie gesehen werden und ist eine der am häufigsten verwendeten AC-<br />
Übungen.<br />
2.2.5.8 Postkörbe<br />
Der <strong>Postkorb</strong> ist eine der klassischen Übungen in Assessment Centern<br />
(Obermann, 2006) und eine spezielle Version der Fallstudie. Dabei geht es um<br />
einen Fall, der, verglichen mit einer typischen Fallstudie, noch mehr Flexibilität,<br />
mehr Realitätsnähe und einen leichteren Transfer des gelernten Verhaltens<br />
produziert (Güllich, 1992). Auf die <strong>Postkorb</strong>-Übung wird in den folgenden<br />
Kapiteln dieser Arbeit detaillierter eingegangen.<br />
45
Theoretischer Hintergrund<br />
2.3 Der klassische <strong>Postkorb</strong><br />
Eine der gängigsten AC-Übungen stellt der klassische Paper-Pencil-<strong>Postkorb</strong><br />
dar. Im nachfolgenden Kapitel soll diese Übung zunächst definiert werden<br />
(2.3.1), anschließend wird seine Durchführung (2.3.2) und Auswertung (2.3.3)<br />
beschrieben. Darauf folgen eine Darstellung der erfassten Kriterien (2.3.4)<br />
sowie ein Überblick über empirische Ergebnisse zu den Gütekriterien des<br />
<strong>Postkorb</strong>es (2.3.5). Im Anschluss erfolgt eine kritische Betrachtung des<br />
Verfahrens (2.3.6), bevor dann in Kapitel 2.4 auf den computergestützten<br />
<strong>Postkorb</strong> eingegangen wird.<br />
2.3.1 Was ist eine <strong>Postkorb</strong>-Übung?<br />
Der <strong>Postkorb</strong> (engl. in-basket) ist eines der beliebtesten Instrumente innerhalb<br />
von Assessment Centern (Didi, 2002). In der Einsatzhäufigkeit haben nur<br />
Gruppendiskussionen, Interviews und (andere Arten von) Fallstudien (siehe<br />
Kapitel 2.2.5) eine ähnliche Bedeutung (Obermann, 2006). Nach einer Zählung<br />
von Thornton und Byham im Jahre 1982 wurde eine solche <strong>Postkorb</strong>-Übung in<br />
mehr als 95% der Assessment Center eingesetzt, über die ein publizierter<br />
Bericht vorlag. Die Entwicklung des <strong>Postkorb</strong>es wird Frederiksen, Saunders und<br />
Wand im Jahr 1957 zugeschrieben, obwohl diese Errungenschaft nicht nur der<br />
amerikanischen Forschung, sondern auch dem Einfluss von praktischen<br />
Arbeitsproben aus dem deutschsprachigen Raum zu dieser Zeit sowie der<br />
Psychodiagnostik der 1920er Jahre angerechnet werden muss (Funke, 1993,<br />
a). Rein methodisch stellt der <strong>Postkorb</strong> eine Mischung aus kognitiven<br />
Fähigkeitstests und situativen Arbeitsproben für manuelle Tätigkeiten dar (Höft,<br />
2003). Genauer gesagt handelt es sich um ein situatives Verfahren zur<br />
Erfassung von analytisch-konzeptionellen Managementfähigkeiten (Paschen et<br />
al., 2005). Zu diesem Zweck werden die Teilnehmer aufgefordert, komplexe<br />
Sachverhalte unter Zeitdruck zu analysieren und aufbauend auf ihren<br />
Ergebnissen sinnvolle Maßnahmen, Strategien und Pläne für ein weiteres<br />
Vorgehen zu entwickeln. Der Fokus kann dabei entweder vermehrt auf dem<br />
analytischen oder dem konzeptionellen Part liegen. Generell ist jedoch<br />
anzumerken, dass sich dieses Instrument von Situation zu Situation und von<br />
46
Theoretischer Hintergrund<br />
Organisation zu Organisation unterscheiden kann, da es, ähnlich wie das AC<br />
selbst, auf das jeweilige Anforderungsprofil zugeschnitten sein sollte (siehe<br />
Kapitel 2.2.3.1) und somit unterschiedlichste Ziele und Messintentionen verfolgt<br />
werden können (Dommel, 1995). Der <strong>Postkorb</strong> eines Automobilkonzerns enthält<br />
also andere Vorgänge als der eines Dienstleistungsunternehmens.<br />
2.3.2 Durchführung<br />
Der Grundgedanke des <strong>Postkorb</strong>es ist, eine möglichst realistische Situation zu<br />
schaffen, die dem Berufsalltag der angestrebten (Führungs-)Position<br />
entstammen könnte und die vom Teilnehmer ein entsprechendes Verhalten<br />
verlangt (Dommel, 1995). Zu diesem Zweck wird der Teilnehmer vor<br />
Übungsbeginn mit einer entsprechenden Rahmenhandlung vertraut gemacht<br />
(Obermann, 2006). So übernimmt er beispielsweise die Rolle eines<br />
stellvertretenden Geschäftsführers, der kurzfristig den auf unbestimmte Zeit<br />
erkrankten Geschäftsstellenleiter vertreten und aus diesem Grund dessen<br />
Posteingang bearbeiten muss. Meist steht daraufhin ein wichtiger<br />
Anschlusstermin an, so dass dem Teilnehmer ein gewisser Zeitdruck bzw. eine<br />
zur Verfügung stehende Arbeitszeit von meist 45 bis 120 Minuten vermittelt wird<br />
(Thornton & Byham, 1982). Durch diese realitätsnahe Situationsgestaltung<br />
entspricht der <strong>Postkorb</strong> dem Prinzip der Simulation im Assessment Center<br />
(siehe Kapitel 2.2.3.2). Es sollte jedoch darauf hingewiesen werden, dass der<br />
Teilnehmer keine Rolle zu schauspielern hat, sondern dass er so handeln soll,<br />
wie er es für richtig hält und wie er es in der tatsächlichen Situation auch tun<br />
würde (Güllich, 1992).<br />
Nach der Einführung in die Rahmenhandlung findet der Teilnehmer einen<br />
Posteingang vor, der je nach Organisation ca. 15 bis 30 verschiedene<br />
Dokumente enthält, welche ihm die nötigen Informationen liefern. Diese können<br />
sich in Dringlichkeit, Komplexität und ihrer Bedeutsamkeit für die Firma<br />
erheblich unterscheiden, teilweise in Zusammenhang miteinander stehen und<br />
sich darüber hinaus gegenseitig widersprechen (Paschen et al., 2005). Die<br />
Aufgabe besteht darin, wichtige von unwichtigen Informationen zu<br />
unterscheiden, die Dokumente dementsprechend zu bearbeiten und daraus<br />
47
Theoretischer Hintergrund<br />
organisatorische Entscheidungen abzuleiten. Obermann (2006) beschreibt als<br />
mögliche Themenstellungen für einzelne <strong>Postkorb</strong>-Vorgänge etwa die Analyse<br />
von betriebswirtschaftlichen Zahlentabellen, eine Terminplanung und<br />
Koordination von Terminkollisionen, das Erkennen von Prioritäten von<br />
Schriftstücken oder die Delegation von Vorgängen und Personal, sowie das<br />
Herausfiltern von Hinweise zwischen den Zeilen, z.B. zur Kundenzufriedenheit<br />
oder das Koordinieren von Meetings und Problemfälle, in denen entschlossenes<br />
eigenes Handeln gefordert ist. Für Didi (2002) besteht der Charme der Übung<br />
darin, dass es sich bei diesen Vorgängen um besonders realistische<br />
Dokumente handeln kann, beispielsweise um Notizen auf firmeneigenen<br />
Formularen in unterschiedlicher Handschrift und Papiergröße oder um<br />
Geschäftspost auf realistisch wirkenden Briefbögen mit Briefköpfen, Stempeln<br />
oder Firmenlogos. Weitere potenzielle Informationsquellen können nach<br />
Obermann (2006) etwa Geschäftsberichte, Statistiken oder Budgetplanungen<br />
sein, darüber hinaus Kundenbriefe oder -verträge, Telefonnotizen,<br />
Zeitungsausschnitte, Artikel, Rechnungen, Mahnungen, Termine oder<br />
Einladungen. Zusätzliche Hintergrundinformationen wie Organigramme,<br />
Firmenbeschreibungen oder Briefings zu den wichtigsten Kollegen und<br />
Mitarbeitern erleichtern dem Bearbeiter den Zugang zu seiner Rolle und<br />
unterstützen dadurch die Simulation (Didi, 2002). Güllich (1992) weist jedoch<br />
darauf hin, dass es keine Eins-zu-eins-Beziehung zwischen den zu lösenden<br />
Problemen und Dokumenten gibt. Ein Thema könnte beispielsweise nur durch<br />
die Kombination mehrerer Dokumente korrekt bearbeitet werden; in anderen<br />
Fällen ist es möglich, dass ein Problem nicht ausdrücklich genannt wird,<br />
sondern der Teilnehmer indirekte Andeutungen erkennen und zwischen den<br />
Zeilen lesen muss.<br />
Der <strong>Postkorb</strong> wird jedem Teilnehmer als Einzelübung vorgelegt. Dabei sollten in<br />
den Instruktionen alle Informationen so enthalten sein, dass keine Rückfragen<br />
mehr nötig sind (Dommel, 1995). Die Dokumente des <strong>Postkorb</strong>s sollten nur lose<br />
geheftet sein, damit der Teilnehmer sie bei Bedarf auseinander nehmen und<br />
neu sortieren kann, um sich einen besseren Überblick zu verschaffen. Da dies<br />
gewöhnlich viel Platz in Anspruch nimmt, sollte jedem Teilnehmer ein<br />
Einzelzimmer zugewiesen werden oder alternativ ein ausreichend großer<br />
48
Theoretischer Hintergrund<br />
Gruppenraum zur Verfügung stehen. Äußere Störungen sind generell zu<br />
vermeiden, weil sie den gerade in dieser AC-Übung sehr hohen Stressfaktor<br />
noch zusätzlich erhöhen würden (Jeserich, 1981). Jedoch sollten innere<br />
Störungen, wie sie in der Realität auch vorkommen könnten, durchaus zu<br />
einem gewissen Maße eingebaut werden, in dem beispielsweise einzelne<br />
Schriftstücke erst zu einem späteren Zeitpunkt der Bearbeitung nachgereicht<br />
werden (Obermann, 2006).<br />
2.3.3 Auswertung<br />
Zum Ende der Bearbeitungszeit hinterlässt jeder Teilnehmer einen Stapel von<br />
bearbeiteten Notizen, Briefen, Memoranden und anderen Dokumenten, die<br />
seine Lösungen der Themen und Probleme beinhalten. Im Optimalfall steht<br />
dem Teilnehmer jedoch ein gesonderter Lösungsbogen zur Verfügung, in dem<br />
er die jeweiligen Verhaltensmöglichkeiten für die einzelnen Probleme<br />
ankreuzen und in einem Textfeld begründen kann. Somit ist für die Auswertung<br />
weitaus mehr Übersichtlichkeit gegeben und schon ein erster Schritt in Richtung<br />
Auswertungsobjektivität gemacht (Obermann, 2006). Für die Auswertung gibt<br />
es nach Meyer (1970) drei Möglichkeiten.<br />
Ein Fokus liegt auf dem Verhaltensinhalt, also den spezifischen, vom<br />
Teilnehmer ausgeführten Reaktionen. Dazu wird der ausgefüllte Lösungsbogen<br />
des Teilnehmers schablonenartig ausgewertet und für korrekte Lösungen und<br />
Entscheidungen eine gewisse Anzahl an Punkten für die beobachteten Kriterien<br />
wie z.B. analytische Fähigkeiten oder Entscheidungsverhalten gegeben<br />
(Obermann, 2006). Rein ökonomisch betrachtet macht diese quantitative<br />
Auswertungsart Sinn, da es hierfür keines geschulten Beobachters bedarf,<br />
sondern die Auswertung auch von einer AC-Assistenz durchgeführt werden<br />
kann.<br />
Ergänzend dazu schlägt Meyer (1970) die Betrachtung des Verhaltsstils vor.<br />
Dazu findet nach der Übung noch ein ausführliches Interview durch einen oder<br />
mehrere geschulte Beobachter statt, um die Vorgehensweisen und<br />
Lösungsstrategien des Teilnehmers für jedes Item qualitativ beleuchten zu<br />
können (Dommel, 1995). Darauf basierend nehmen die Beobachter analog zu<br />
49
Theoretischer Hintergrund<br />
anderen AC-Übungen ihre Bewertung hinsichtlich der zu erfassenden Kriterien<br />
vor. Hierbei spielt jedoch die Subjektivität der Beobachter eine besonders große<br />
Rolle, da die <strong>Postkorb</strong>ergebnisse im Interview durch verschiedenste<br />
Beurteilungseffekte wie beispielsweise globale Eindrucksbildung über alle AC-<br />
Übungen hinweg, Attributionsfehler, Halo-Effekt oder Erwartungseffekte verzerrt<br />
werden können (siehe Kapitel 2.2.5.1). Dieser Aspekt wird in der Praxis oft<br />
aufgrund mangelnder Fachkenntnisse der Anwender oder Kosteneinsparungen<br />
bei der Konzeption nicht beachtet, was einer der Hauptkritikpunkte an<br />
klassischen Postkörben darstellt (Dommel, 1995; Musch & Lieberei, 1997; Höft,<br />
2003; Obermann, 2006). Aus diesem Grund wurde vielfach eine objektivere<br />
Auswertungsform des <strong>Postkorb</strong>s angestrebt (Musch & Lieberei, 1997). Zum<br />
einen bezieht sich das auf eine Schulung der Beobachter (Dommel, 1995), wie<br />
sie ohnehin vor jedem Assessment Center erfolgen sollte (siehe Kapitel<br />
2.2.3.4). Zum anderen kann die Auswertungsobjektivität aber auch dadurch<br />
erhöht werden, dass eine möglichst weitgehende Standardisierung des<br />
Bewertungsmaßstabes durch eine eindeutige Festlegung der als korrekt zu<br />
bewertenden Handlungsalternativen vorab sichergestellt wird (Musch &<br />
Lieberei, 1997). Dies könnte beispielsweise durch eine Checkliste mit Soll-<br />
Lösungen und definierten Bewertungen realisiert werden, die den Beobachtern<br />
während des Interviews zur Verfügung steht (Höft, 2003). Ausschlaggebend für<br />
die Bewertung ist allerdings nicht die vollständige Übereinstimmung mit der<br />
Musterlösung, sondern die logische Nachvollziehbarkeit der Lösungen.<br />
Trotz aller Bemühungen können die genannten Maßnahmen nur Annäherungen<br />
an eine potenzielle Auswertungsobjektivität darstellen, da sich, sobald<br />
menschliche Beurteiler an der qualitativen Datengenerierung beteiligt sind, ein<br />
Mindestmaß an Subjektivität niemals ausschließen lässt (Dommel, 1995).<br />
Daher empfiehlt Meyer (1970) als dritte Variante die Auswertung per „over-allperformance“<br />
(S.300) vorzunehmen, was bedeutet, sowohl quantitative als auch<br />
qualitative Aspekte mit einzubeziehen. Zum einen bleibt jedoch auch dann noch<br />
eine gewisse Subjektivität vorhanden, zum anderen dürfte sich eine derart<br />
umfangreiche und sowohl zeit- als auch personalaufwändige Auswertung in der<br />
Praxis kaum noch rechnen.<br />
50
Theoretischer Hintergrund<br />
2.3.4 Gemessene Kriterien<br />
Analog zu anderen AC-Übungen unterscheiden sich die in den verschiedenen<br />
<strong>Postkorb</strong>-Übungen gemessenen Kriterien zum Teil erheblich (Dommel, 1995).<br />
Auch in der Literatur existieren unterschiedliche Ansichten über die<br />
Dimensionalität eines <strong>Postkorb</strong>es. Tabelle 3 soll dazu einen Überblick<br />
verschaffen.<br />
Tabelle 3: Erfassbare Kriterien durch <strong>Postkorb</strong>-Übungen, nach Weiss (2006)<br />
Dommel<br />
(1995, S.583)<br />
Schuler<br />
(1996, S.12)<br />
Musch & Lieberei<br />
(1997, S.12)<br />
Obermann<br />
(2006, S. 124)<br />
• Problemanalyse<br />
• Mündliche<br />
Kommunikationsfähigkeit<br />
• Schriftliche<br />
Kommunikationsfähigkeit<br />
• Stressbewältigung<br />
• Kreativität<br />
• Sensibilität<br />
• Flexibilität<br />
• Initiative<br />
• Planung und<br />
Organisation<br />
• Delegation<br />
• Kontrolle<br />
• Entscheidungsfähigkeit<br />
• Problemanalyse<br />
• Informationsverarbeitung<br />
• Entscheiden<br />
• Denken und<br />
Handeln in<br />
Zusammenhängen<br />
• Analyseverhalten<br />
• Organisation und<br />
Planung<br />
• Entscheidungsverhalten<br />
• Stressbewältigung<br />
• Delegation<br />
• Kontrolle<br />
• Entscheidungsverhalten<br />
• Ausdauer<br />
• Energie<br />
• Belastbarkeit<br />
• Konvergentes Denken<br />
(Analyse)<br />
• Divergentes Denken<br />
(Kreativität)<br />
• Organisation /<br />
Systematik<br />
Es wird deutlich, dass die verschiedenen Autoren dem Verfahren<br />
unterschiedliche Messdimensionen zuschreiben. Zum einen liegt dies ähnlich<br />
wie bei der Anforderungsanalyse des AC an den unterschiedlichen Definitionen<br />
psychologischer Begrifflichkeiten (siehe Kapitel 2.2.3.1), zum anderen aber<br />
auch an den jeweiligen Zielsetzungen des <strong>Postkorb</strong>es abhängig von dem<br />
Unternehmen, in dem er eingesetzt wird (Jeserich, 1981; Obermann, 2006). Die<br />
wichtigsten Kriterien, die der <strong>Postkorb</strong> erfassen soll, und über die sich die<br />
genannten Autoren trotz unterschiedlicher Benennungen (siehe oben) einig<br />
sind, sind analytische Fähigkeiten (in Tabelle 3 blau markiert), Planung und<br />
Organisation (in Tabelle 3 rot markiert) und Entscheidungsverhalten (in Tabelle<br />
3 grün markiert).<br />
51
Theoretischer Hintergrund<br />
2.3.5 Empirische Ergebnisse<br />
Die Tatsache, dass es starke Parallelen gibt zwischen den Anforderungen, die<br />
der <strong>Postkorb</strong> an den Bearbeiter und der Berufsalltag an den Manager stellen, ist<br />
augenscheinlich (Musch und Lieberei, 1997). So fand Mintzberg (1973, zit. n.<br />
Musch & Lieberei, 1997), dass Topmanagern pro Tag durchschnittlich 36<br />
Schriftstücke zur Bearbeitung vorgelegt wurden. Diese hohe<br />
Augenscheinvalidität war sicherlich der Hauptgrund für die weite Verbreitung<br />
des <strong>Postkorb</strong>es (Meyer, 1970). Allerdings könnte sie auch der Grund dafür sein,<br />
dass bisher vergleichsweise wenige Validierungsstudien durchgeführt wurden,<br />
zumindest im deutschsprachigen Raum (Didi, 2002; Obermann, 2006). Weitere<br />
Gründe für das Fehlen von neueren Studien, insbesondere nach einer ersten<br />
Reihe erfolgreicher Studien in den 1960er Jahren (Güllich, 1992), ist das<br />
zeitaufwändige und schwierige Bewerten von Postkörben, das die Anwender<br />
vom Durchführen adäquater Studien abhält (Thornton und Byham, 1982). Für<br />
Schippmann, Prien und Katz (1990) wurde die <strong>Postkorb</strong>-Übung immer nur im<br />
Gesamtzusammenhang des AC erforscht und als eigenständiges Instrument oft<br />
übersehen. Zwar existieren inzwischen einige Validitätsstudien für Postkörbe<br />
vor allem aus dem angloamerikanischen Raum, jedoch berichten diese<br />
teilweise von völlig unterschiedlichen Ergebnissen. Ein neuerer Überblick<br />
(Schippmann et al., 1990) ergab, dass die Validitätskoeffizienten je nach Studie<br />
von .40 bis .75 schwanken. Eine systematische Untersuchung der<br />
Zusammenhänge zwischen einzelnen <strong>Postkorb</strong>-Variablen und Kriterien steht<br />
zudem ebenfalls noch aus (Obermann, 2006). Dennoch sollen hier die<br />
wichtigsten Ergebnisse dargestellt werden, wobei sich hinsichtlich der<br />
klassischen Gütekriterien besonders auf eines der im deutschsprachigen Raum<br />
am häufigsten untersuchten Verfahren, den Bonner <strong>Postkorb</strong> Modulen von<br />
Musch, Rahn und Lieberei (2001) bezogen werden soll.<br />
2.3.5.1 Demographische Daten<br />
Zunächst ist die schon früh untersuchte Beziehung der <strong>Postkorb</strong>ergebnisse zu<br />
den demographischen Daten zu nennen. Nach Thornton und Byham (1982)<br />
52
Theoretischer Hintergrund<br />
korreliert die Variable Alter negativ mit den <strong>Postkorb</strong>werten, die Autoren<br />
berichten einen gefundenen Zusammenhang von -.49. Bildung weist hingegen<br />
einen positiven Zusammenhang von .56 auf (Meyer, 1970), was auch den<br />
Ergebnissen von Frederiksen (1962, zit. n. Güllich, 1992) bzgl. einer Korrelation<br />
von .41 zwischen <strong>Postkorb</strong>ergebnissen und Punkten im Wortschatztest<br />
entspricht. Die Autoren merken jedoch an, dass die Bildungsvariable<br />
unabhängig von der beruflichen Erfahrung sei. Meyer (1970) konnte<br />
nachweisen, dass zwischen Erfahrungen im Managementbereich und den<br />
einzelnen Werten im <strong>Postkorb</strong> kein Zusammenhang besteht. Neuere<br />
Untersuchungen zu den Bonner <strong>Postkorb</strong> Modulen ergaben weder einen<br />
negativen noch positiven Zusammenhang der <strong>Postkorb</strong>ergebnisse, weder mit<br />
dem Alter noch dem Geschlecht (Höft, 2003).<br />
2.3.5.2 Objektivität<br />
Bezüglich der Objektivität von <strong>Postkorb</strong>-Verfahren stellten Schippmann et al.<br />
(1990) erhebliche Schwankungen von -.20 bis .97 in der Übereinstimmung der<br />
Auswerter fest. Musch und Lieberei (1997) begründen diese Variationen durch<br />
die bereits angesprochene häufig unstandardisierte Auswertung sowie<br />
ungeschulte Beobachter (siehe Kapitel 2.3.3). Schippmann et al. (1990)<br />
bewerten die Objektivität jedoch als zufrieden stellend, sofern die zuvor<br />
beschrieben Maßnahmen ergriffen werden, um eine möglichst hohe<br />
Auswertungsobjektivität zu gewährleisten (siehe Kapitel 2.3.3). Zudem ist nach<br />
Musch und Lieberei (1997) die Durchführungsobjektivität aufgrund der<br />
fehlenden Interdependenzen zwischen den Teilnehmern hoch, im Gegensatz<br />
etwa zur typischen Fallstudie mit anschließender Diskussion (siehe Kapitel<br />
2.2.5.7). Dies entspricht auch den Ergebnissen der Bonner <strong>Postkorb</strong> Module.<br />
Hier ist eine weitgehende Objektivität durch die Auswertung mittels<br />
strukturierter Checklisten gegeben, die Testautoren berichten von<br />
Bewertungsübereinstimmungen von .81 bis zu 1. (Musch et al., 2001).<br />
53
Theoretischer Hintergrund<br />
2.3.5.3 Reliabilität<br />
Die in der Literatur für die <strong>Postkorb</strong>-Methode berechneten<br />
Reliabilitätskoeffizienten schwanken je nach gewählter Methode zum Teil<br />
erheblich, und die Resultate zur internen Konsistenz sind generell nicht<br />
zufrieden stellend (Schippmann et al., 1990). Für die Evaluation kommt<br />
erschwerend hinzu, dass sich durch die Interdependenzstruktur der Einzelitems<br />
des <strong>Postkorb</strong>s einfache Konsistenz- und Split-Half-Reliabilitätsschätzungen<br />
verbieten (Höft, 2003). Für Thornton und Byham (1982) steht aber fest, dass die<br />
Reliabilität im Laufe der Jahrzehnte durch die bereits beschriebenen neuen<br />
Bewertungsprozeduren gesteigert werden konnte. Auch Schippmann et al.<br />
(1990) deuten an, dass eine höhere Reliabilität erzielt werden kann, wenn bei<br />
der Konstruktion des Testes strukturiert vorgegangen wird und systematischere<br />
und objektivere Bewertungsmassstäbe verwendet werden. In den<br />
Untersuchungen zu den Bonner <strong>Postkorb</strong> Modulen, die diesen Anforderungen<br />
weitgehend entsprechen, werden somit Cronbachs Alpha-Koeffizienten<br />
berichtet, die mit Werten zwischen .82 und .91 die hohe Interkorrelation der<br />
Dimensionen bestätigen (Musch et al., 2001). Höft (2003) weist jedoch darauf<br />
hin, dass bisher keine annäherungsweise gültigen Realibilitätsinformationen<br />
vorliegen, die mittels Retest-Methode gewonnen wurden.<br />
2.3.5.4 Validität<br />
Die Inhaltsvalidität von Postkörben wird oft mit der hohen Augenscheinvalidität<br />
des Verfahrens begründet, auf konkrete Expertenratings wird daher weitgehend<br />
verzichtet (Meyer, 1970; Obermann, 2006). Aus ökonomischen Gründen ist dies<br />
jedoch nur zu vertreten, wenn die Verfahrenskonstruktion auf einer<br />
unternehmensspezifischen Anforderungsanalyse basiert. Der Einsatz der<br />
Bonner <strong>Postkorb</strong> Module beispielsweise ist deshalb auch nicht überall<br />
uneingeschränkt sinnvoll. Um den Simulationscharakter des Verfahrens zu<br />
gewährleisten, muss vor einem Einsatz genau geprüft werden, ob die<br />
Anforderungen der hausinternen Zielposition hinreichend gut operationalisiert<br />
sind (Höft, 2003; siehe Kapitel 2.2.3.1).<br />
54
Theoretischer Hintergrund<br />
Aus früheren Untersuchungen zur Kriteriumsvalidität wurde angenommen, dass<br />
die Validität des <strong>Postkorb</strong>s gesichert sei (Thornton und Byham, 1982). Wie<br />
erwähnt konnten Schippmann et al. (1990) in einer Überblicksstudie jedoch<br />
variierende Validitätskoeffizienten von .40 bis .75 aufzeigen. Darüber hinaus<br />
konnten Schuler, Funke, Moser und Donat (1995) nachweisen, dass die<br />
Korrelation der <strong>Postkorb</strong>ergebnisse mit den Ergebnissen anderer AC-Übungen<br />
relativ gering ausfällt. Überraschenderweise kann diese geringe Korrelation<br />
auch nicht mit den unterschiedlichen Messdimensionen der einzelnen Übungen<br />
erklärt werden. Musch und Lieberei (1997) fanden beim Vergleich ihrer<br />
<strong>Postkorb</strong>-Übung mit der schriftlichen Fallstudie eine negative Korrelation von<br />
r=-.22, obwohl die Übungen in drei von vier Kriterien (Analyseverhalten,<br />
Organisation & Planung und Entscheidungsverhalten) identisch sind. Ähnlich<br />
enttäuschende Ergebnisse liefern die Bonner <strong>Postkorb</strong> Module. Deren Modul<br />
„CaterTrans“ wurde von 47 Personen freiwillig parallel zu einem internen<br />
Auswahl-AC bearbeitet und die Ergebnisse verglichen (Musch et al., 2001). Am<br />
höchsten korrelierte der <strong>Postkorb</strong> mit der Präsentation (r=.51), gefolgt von der<br />
Gruppendiskussion (r=.43), der schriftlichen Fallstudie (r=.31) und dem<br />
Mitarbeitergespräch (r=.30). Für Höft (2003) sind diese Ergebnisse<br />
verwunderlich, da eigentlich der höchste Zusammenhang mit der schriftlichen<br />
Fallstudie zu erwarten gewesen wäre, zumal diese fast die gleichen<br />
Anforderungsdimensionen erfassen soll. Zusätzlich zum Modul „CaterTrans“<br />
wurde das Modul „Chronos“ von 54 Personen im gleichen Unternehmen<br />
bearbeitet. Hier korreliert der <strong>Postkorb</strong> sogar negativ mit allen anderen AC-<br />
Übungen, inklusive der Fallstudie (-.22). Für die Testautoren zeigen die<br />
Resultate, dass der <strong>Postkorb</strong> „Chronos“ im Gegensatz zum <strong>Postkorb</strong><br />
„CaterTrans“ spezifische, von anderen AC-Verfahren nicht abgedeckte<br />
Varianzanteile erfasst (Musch et al., 2001). Höft (2003) bezeichnet diese<br />
Auslegung jedoch als „elegante Formulierung“, die kaschiert, dass mangels<br />
weiterer Kriteriumsdaten offen bleibt, was denn der <strong>Postkorb</strong> genau erfasst, so<br />
dass weitere Forschungen dazu dringend nötig seien.<br />
Frühe Untersuchungen von Meyer (1970) zur Vorhersagevalidität fanden<br />
signifikante Korrelationen zwischen Dimensionen der <strong>Postkorb</strong>-Übung und Job-<br />
Performance. Besonders Führungsqualitäten sowie Verwaltungs- und<br />
55
Theoretischer Hintergrund<br />
Planungsfähigkeiten korrelierten im mittelstarken Bereich mit den <strong>Postkorb</strong>-<br />
Ergebnissen. Zudem konnte er belegen, dass die Vorhersagevalidität des<br />
<strong>Postkorb</strong>s hinsichtlich analytischer Fähigkeiten besser sei als in Bezug auf<br />
menschliche Führungsqualitäten. In der Studie zu den Bonner <strong>Postkorb</strong><br />
Modulen konnte von 39 der 47 Personen, die das Modul „CaterTrans“<br />
bearbeitet hatten, ein konkurrentes Vorgesetztenurteil eingeholt werden. Musch<br />
et al. (2001) berichten von (nicht näher genannten) positiven Zusammenhängen<br />
zu den <strong>Postkorb</strong>ergebnissen, jedoch bezweifelt Höft (2003), dass dieser Befund<br />
angesichts der geringen Stichprobengröße von n=47 einer Kreuzvalidierung<br />
standhalten würde.<br />
2.3.5.5 Zusammenfassung<br />
Insgesamt lässt sich feststellen, dass bei einer möglichst standardisierten<br />
Auswertung mittels Checklisten und festgelegten Bezugssystemen sowohl<br />
Objektivität als auch Reliabilität als gesichert angesehen werden können, was<br />
die Studien von Schippmann et al. (1990) und Untersuchungen der Bonner<br />
<strong>Postkorb</strong> Module (Musch et al., 2001) nahe legen. Die eher intuitive<br />
Augenscheinvalidierung des <strong>Postkorb</strong>s, welche in der Praxis oft die einzige<br />
Validierung darstellt, lässt sich zumindest mit der zufrieden stellenden und in<br />
der Eignungsdiagnostik wichtigen Vorhersagevalidität rechtfertigen. Die<br />
empirische Befundlage zur Kriteriums- sowie Konstruktvalidität gilt jedoch als<br />
unzureichend und lückenhaft, so dass noch ein hoher Forschungsbedarf zu<br />
diesem Thema besteht. Höft (2003) stellt abschließend die Frage, wie es denn<br />
erst um die Güte der vielen in der Praxis ungeprüft eingesetzten Postkörbe<br />
bestellt sei, wenn bereits bei den sorgfältig konstruierten Bonner <strong>Postkorb</strong><br />
Modulen solch deutliche Validitätsprobleme auftauchen.<br />
56
Theoretischer Hintergrund<br />
2.3.6 Kritische Betrachtung<br />
Der potentielle Einsatzbereich von Postkörben ist sehr umfassend. So kann er<br />
aufgrund seiner Anpassbarkeit an das jeweilige Anforderungsprofil sowohl zur<br />
Eignungsdiagnostik auf nahezu allen Hierarchieebenen einer Organisation<br />
eingesetzt werden, zum anderen bieten sich auch Einsätze in der<br />
Personalentwicklung zur gezielten Indizierung von Stärken und<br />
Verbesserungsmöglichkeiten von Mitarbeitern an. Das Bearbeiten von<br />
Schriftstücken und Vorgängen ist in so gut wie jedem Arbeitsumfeld<br />
erforderlich, weshalb sich der <strong>Postkorb</strong> besonders aufgrund der<br />
augenscheinlichen Validität großer Akzeptanz erfreut (Dommel, 1995; Weiss,<br />
2006).<br />
Für Höft (2003) weist der <strong>Postkorb</strong> als simulationsorientiertes<br />
Diagnoseverfahren mit testähnlicher Grundstruktur allerdings eine schwierige<br />
Mischcharakteristik auf, die Grundprinzipien der klassischen Testtheorie sind<br />
nur bedingt auf diese Verfahrensklasse übertragbar (Kubinger, 1993). Durch die<br />
inhaltlichen Wechselbeziehungen der einzelnen Vorgänge und Dokumente ist<br />
keine stochastische Unabhängigkeit der Bewertungen gegeben. Dies deckt sich<br />
mit der häufigen Kritik an der klassischen Testtheorie (siehe Kap 2.1.2) seitens<br />
der Eignungsdiagnostiker, so dass, wie für das Assessment Center allgemein,<br />
dem Ansatz der kriteriumsorientierten Leistungsmessung der Vorzug zu geben<br />
ist. Nach Musch und Lieberei (1997) kommt der <strong>Postkorb</strong> aber zumindest in<br />
seiner Durchführung dem Ideal eines kontrollierten psychologischen Tests im<br />
Vergleich mit anderen AC-Übungen noch am nächsten. Da das Instrument in<br />
Einzelarbeit bearbeitet wird, hängt die Leistung des Teilnehmers hierbei nicht<br />
von anderen Teilnehmern ab. Zudem erlaubt der <strong>Postkorb</strong> als eine der wenigen<br />
AC-Übungen zumindest eine ansatzweise objektive, beobachterunabhängige<br />
Auswertung und Interpretation der Performance.<br />
Diese unter wissenschaftlichen Aspekten korrekte Anwendung des Verfahrens,<br />
unter Berücksichtigung der gestellten Anforderungen zur Standardisierung und<br />
zur Anpassung an ein Anforderungsprofil, ist jedoch sehr zeit- und<br />
kostenaufwändig. Bei mehreren Teilnehmern nimmt der <strong>Postkorb</strong> mit einer<br />
Durchführungszeit von etwa 90 Minuten und einem anschließenden Interview<br />
von je 30 bis 60 Minuten schon mehr als einen halben Seminartag in Anspruch.<br />
57
Theoretischer Hintergrund<br />
(Roest, Scherzer, Urban, Gangl & Brandstätter, 1989). Die Methode bietet sich<br />
daher eher bei Auswahlverfahren mit begrenzter Teilnehmerzahl an.<br />
Andernfalls besteht schnell die Gefahr, dass die Standardisierung zugunsten<br />
der Ökonomie leidet und die Beurteiler zu globalen und verfälschten Urteilen<br />
kommen. (Musch & Lieberei, 1997).<br />
Weiterhin wird kritisiert, dass sich die <strong>Postkorb</strong>-Items oft durch ein hohes Maß<br />
an Uneindeutigkeit und Unklarheit auszeichnen, um genügend Spielraum für<br />
differentielle Bearbeitungsmuster zu lassen (Musch & Lieberei, 1997). Diese<br />
Vorgabe zur Konstruktion von Postkörben, die auf Lopez (1966, zit. n. Musch &<br />
Lieberei, 1997) zurückgeht, ist jedoch nach Meinung der Autoren mit der<br />
Konstruktion auswertungsobjektiver Postkörbe unvereinbar. Die für ein valides<br />
diagnostisches Instrument erforderliche Auswertungsobjektivität sei sogar<br />
notwendig an eine eindeutige Festlegung der Angemessenheit möglicher<br />
Antwortalternativen geknüpft. In den <strong>Postkorb</strong>-Modulen von Musch et al. (2001)<br />
werden deshalb ausschließlich solche Handlungsalternativen bewertet, die<br />
sachlogisch zwingend aus den zur Verfügung gestellten Informationen<br />
abgeleitet sind. Auf eine normative Bewertung von Handlungen in mehrdeutigen<br />
Situationen wurde hingegen verzichtet (Höft, 2003).<br />
Die weitgehende Standardisierung der Auswertung hat demzufolge das<br />
Weglassen von mehrdeutigen, offenen Items zur Folge, die breiteren Raum für<br />
eine Projektion individueller Stile lassen würden (Musch und Lieberei, 1997).<br />
Dadurch können kreative und originelle Lösungsvorschläge nicht mehr<br />
ausreichend gewürdigt werden (Obermann, 2006).<br />
Hinzu kommt, dass die Forderung nach Unklarheiten zwischen den Items in der<br />
Praxis häufig übertrieben wird. Wenn das Übersehen eines Zusammenhangs<br />
den Teilnehmer daran hindert, weitere Items zu lösen, ist die<br />
Differenzierungsfähigkeit der Übung stark eingeschränkt (Obermann, 2006).<br />
Roest et al. (1989) sehen ein weiteres Defizit klassischer <strong>Postkorb</strong>-Verfahren<br />
darin, dass keine Daten über den Ablauf der Bearbeitung vorliegen. Dies hat<br />
zur Konsequenz, dass anfänglich richtige oder falsche Entscheidungen auf dem<br />
Weg der Lösungsfindung, die dem Teilnehmer im anschließenden Interview<br />
vielleicht gar nicht mehr bewusst sind, nicht dokumentiert werden. Auch der<br />
zeitliche Ablauf der Vorgehensweise bleibt hierbei unberücksichtigt.<br />
58
Theoretischer Hintergrund<br />
Zwei weitere potenzielle Probleme sieht Obermann (2006) in der Entwicklung<br />
des Bearbeitungsmaterials. Demnach besteht bei der Konzeption des<br />
<strong>Postkorb</strong>s die Gefahr, zu leichte oder zu schwere Items einzubauen, die von<br />
fast allen oder fast keinem gelöst werden, was die Aussagekraft des<br />
Instruments schmälert. Gleiches gilt, wenn keine Variation der Anforderungen<br />
über mehrere Vorgänge mit unterschiedlichen Schwierigkeitsgraden hinweg<br />
besteht. Eine Überprüfung der Schwierigkeitsgrade der <strong>Postkorb</strong>-Items als<br />
Rangreihenbildung gestaltet sich jedoch durch die Vernetztheit der Items sehr<br />
schwierig.<br />
Für Dommel (1995) beziehen sich die grundsätzlichen Probleme von<br />
Postkörben auf die Übertragbarkeit der gewonnenen Erkenntnisse auf die<br />
Realsituation, auf Fehler im Beurteilungsprozess und auf die<br />
Zusammensetzung der <strong>Postkorb</strong>aufgaben. Diese Schwierigkeiten weisen für<br />
ihn darauf hin, dass eine weitere Objektivierung und Standardisierung des<br />
Verfahrens erfolgen muss. Eine potenzielle Lösung wird in den technischen<br />
Neuerungen der letzten Jahre gesehen, besonders in der <strong>EDV</strong>-Umsetzung von<br />
<strong>Postkorb</strong>verfahren für den Computer. Hierauf wird im folgenden Kapitel näher<br />
eingegangen.<br />
59
Theoretischer Hintergrund<br />
2.4 Der computergestützte <strong>Postkorb</strong><br />
Aufbauend auf Kapitel 2.3 soll nun der computergestützte <strong>Postkorb</strong> dargestellt<br />
werden. Zunächst erfolgt eine generelle Beschreibung des Verfahrens (2.4.1),<br />
inklusive einer Gegenüberstellung von Vor- und Nachteilen. Darauf folgt eine<br />
Diskussion zur potenziellen Problematik in der Interaktion von Mensch und<br />
Computer (2.4.2). In Kapitel 2.4.3 wird schließlich ein Überblick über die<br />
gängigsten Verfahren dieser Art gegeben, dargestellt werden Mailbox’90, PC-<br />
Office und der PC-<strong>Postkorb</strong> „Seeblick“. Nach einer Zusammenfassung der<br />
auffälligsten Vor- und Nachteile dieser Verfahren (2.4.4) wird dann im nächsten<br />
Kapitel auf den neuen computergestützten <strong>Postkorb</strong> KI.BOX eingegangen,<br />
welcher mit den bestehenden Verfahren verglichen wird.<br />
2.4.1 Was ist ein computergestützter <strong>Postkorb</strong>?<br />
Die computergestützte <strong>Postkorb</strong>-Übung oder <strong>EDV</strong>-<strong>Postkorb</strong> ist eine<br />
Weiterentwicklung des klassischen Paper-Pencil-<strong>Postkorb</strong>s (Hartung &<br />
Schneider, 1995). Grundsätzlich werden dieselben eignungsdiagnostischen<br />
Ziele verfolgt und es gelten die gleichen wissenschaftlichen und methodischen<br />
Anforderungen bei der Konzeption. Auch der Inhalt der Übung ist äquivalent. So<br />
wird der Teilnehmer in dieser situativen Übung ebenfalls in die Rolle eines<br />
Managers oder einer Führungskraft hineinversetzt, die mit verschiedensten<br />
Schriftstücken konfrontiert wird. Der Teilnehmer soll die Probleme erkennen<br />
und bearbeiten, woraufhin er entsprechend den in der Anforderungsanalyse<br />
festgelegten Kriterien bewertet wird (Funke, 1993, a; Riediger & Rolfs, 1998;<br />
Obermann, 2006; vgl. Kapitel 2.3). Der einzige, aber bedeutende Unterschied<br />
der beiden Versionen liegt in der Methode. So muss bei <strong>EDV</strong>-Verfahren im<br />
Rahmen der Instruktion eine zusätzliche Einführung über die Funktionsweisen<br />
von Computer und Programm erfolgen, besonders bei älteren oder<br />
computerunerfahrenen Mitarbeitern (Obermann, 2006). Insgesamt gesehen<br />
ermöglicht die inzwischen weite Verbreitung leistungsfähiger Computertechnik<br />
jedoch vielfältige Verbesserungen und Variationen des Verfahrens (Wottawa &<br />
Hossiep, 1997), so dass besonders bzgl. der Punkte, die beim klassischen<br />
60
Theoretischer Hintergrund<br />
<strong>Postkorb</strong> kritisiert wurden (siehe Kapitel 2.3.6), Innovationen zu verzeichnen<br />
sind. Der computergestützte <strong>Postkorb</strong> kann dadurch einen so hohen<br />
Realitätscharakter aufweisen, dass in der Literatur weniger von einem Test als<br />
viel mehr von einer computergestützten Arbeitsprobe (Funke, 1993, a) die Rede<br />
ist. Allerdings bringt eine Umsetzung des Instruments für den Computer auch<br />
neue Probleme mit sich. Aus diesem Grund werden die Vor- und Nachteile der<br />
<strong>EDV</strong>-Darbietung im Folgenden näher erläutert.<br />
2.4.1.1 Vorteile<br />
Einer der Hauptvorteile computergestützter Postkörbe ist besonders aus<br />
testtheoretischer Sicht wichtig. Der Computer bietet nämlich die Möglichkeit<br />
einer sekundenschnellen Auswertung der Ergebnisse direkt im Anschluss an<br />
die Durchführung. Die Auswertung ist somit von menschlichen Beobachtern<br />
vollkommen unabhängig und erfolgt für alle Teilnehmer gleichermaßen anhand<br />
zuvor festgelegter Musterlösungen bzw. operationalisierter Regelsysteme.<br />
Dadurch werden Verzerrungen der Testergebnisse durch Beurteilungsfehler<br />
gänzlich verhindert und eine maximale Auswertungsobjektivität gewährleistet<br />
(Hartung & Schneider, 1995; Riediger & Rolfs, 1998). Der Computer errechnet<br />
dazu Punktwerte aus den vom Teilnehmer gegeben Lösungen und bestimmt<br />
daraus einen quantitativen Wert für die Ausprägung des Teilnehmers<br />
hinsichtlich eines bestimmten Kriteriums in dieser Übung (siehe Kapitel 2.1.1.1).<br />
Im herkömmlichen <strong>Postkorb</strong>-Verfahren würde diese Beurteilung durch einen<br />
Beobachter geschehen, dessen Subjektivität jedoch trotz des Einsatzes von<br />
Checklisten nie ganz ausgeschlossen werden kann. Der von Dommel (1995)<br />
gestellten Forderung nach einer weiteren Objektivierung und Standardisierung<br />
von Postkörben wird also durch den Einsatz einer computergestützten<br />
Auswertung entsprochen.<br />
Eine Kritik, die jedoch gegenüber sehr standardisierten <strong>Postkorb</strong>-Auswertungen<br />
häufig formuliert wird, und die somit auch an den <strong>EDV</strong>-<strong>Postkorb</strong> adressiert sein<br />
dürfte, ist die Tatsache, dass hierbei offene oder projektive Items und originelle<br />
Lösungsstrategien keine Berücksichtigung mehr finden. Auf diese Weise fließt<br />
nur das „was“ und nicht das „wie“ einer Lösung in die Beurteilung ein (Roest et<br />
61
Theoretischer Hintergrund<br />
al., 1989; Obermann, 2006). Bei klassischen <strong>Postkorb</strong>-Auswertungen besteht<br />
für den Beobachter die Möglichkeit, im anschließenden Interview auf diese<br />
Lösungswege einzugehen und sie ggf. zu hinterfragen. Beim<br />
computergestützten <strong>Postkorb</strong> gibt es dagegen fast ausschließlich vorgegebene<br />
Antwortalternativen, die nur noch anzuklicken sind. Dem ist jedoch<br />
entgegenzuhalten, dass gerade bei einer computergestützten Bearbeitung<br />
sämtliche Prozessvariablen fortlaufend registriert werden können, ohne dass<br />
der Teilnehmer davon beeinflusst wird (Riediger & Rolfs, 1998). Je nach<br />
Wunsch können also sekundengenaue Informationen über die Bearbeitungsoder<br />
Reaktionszeit einzelner Items oder die Reihenfolge ihrer Bearbeitung<br />
angezeigt werden, sogar wie lange und wie oft jedes einzelne Dokument<br />
aufgerufen wurde (Obermann, 2006). Eine derartig detaillierte Erfassung<br />
wirklich objektiver Daten bzgl. der Lösungswege ist bei Paper-Pencil-Verfahren<br />
nicht möglich und somit als wesentliche Verbesserung der <strong>EDV</strong>-Postkörbe zu<br />
werten (Riediger & Rolfs, 1998). Die Nachbesprechung im anschließenden<br />
Interview wird dadurch unnötig, zumal in der Face to Face Situation der<br />
Teilnehmer seine Begründungen entsprechend dem Aufforderungscharakter<br />
der Fragen des Beobachters anpassen kann, was wiederum zu<br />
Ergebnisverzerrungen führen würde (Roest & Horn, 1990). Die Auswertung<br />
solcher Prozessvariablen kann also zu deutlich realistischeren Ergebnissen und<br />
somit auch einem adäquateren Feedback bzgl. der eingesetzten<br />
Lösungsstrategie führen (Hartung & Schneider, 1995; Pearson, Barnes &<br />
Onken, 2006).<br />
Mit den computergestützten Postkörben wurde zudem ein weiterer qualitativer<br />
Sprung im Vergleich zu den klassischen Verfahren gemacht, da nun eine<br />
wesentlich höhere Dynamik realisierbar ist (Obermann, 2006). Während zuvor<br />
höchstens zusätzliche Dokumente zu einem späteren Zeitpunkt der<br />
Bearbeitung nachgereicht werden konnten, eröffnen sich mit Hilfe der Technik<br />
völlig neue Möglichkeiten. So können beispielsweise mehrere E-Mails im Laufe<br />
der Bearbeitungszeit eintreffen oder ein Anruf oder eine andere interne Störung<br />
simuliert werden (Riediger & Rolfs, 1998). Außerdem können direkt Graphiken,<br />
Diagramme oder Tabellen erstellt werden, die dem Teilnehmer als Ergebnis<br />
beispielsweise seiner Berechnungen dargeboten und somit als weiterer Input<br />
62
Theoretischer Hintergrund<br />
dienen können (Pearson et al, 2006). Darüber hinaus hat man Aspekte<br />
komplexer computergestützter Problemlösesimulationen (vgl. Funke & Rasche,<br />
1992; Hösch, 1995; Hartung & Schneider, 1995; siehe Kapitel 2.2.5.6)<br />
übernommen, so dass auch im computergestützten <strong>Postkorb</strong> der Teilnehmer<br />
mit Konsequenzen seiner Tätigkeit konfrontiert werden kann. So können die<br />
Entscheidungen und Handlungen des Teilnehmers nun Rückwirkungen auf den<br />
Testverlauf haben, beispielsweise dass es Beschwerden oder Probleme im<br />
zeitlichen Ablauf aufgrund einer nicht sachgemäßen Delegation gibt<br />
(Obermann, 2006). Diese größere Dynamik trägt maßgeblich zur Realitätsnähe<br />
bei, was wiederum die Validität des Verfahrens steigert.<br />
Nicht nur die Validität, auch die Akzeptanz wird durch den Einsatz von<br />
computergestützten Verfahren im Vergleich zu Paper-Pencil-Übungen deutlich<br />
gesteigert. Nach Hartung und Schneider (1995) ergaben Fragebogenstudien<br />
bei großen Teilnehmergruppen, dass der inhaltliche Schwierigkeitsgrad von<br />
<strong>EDV</strong>-Aufgaben gegenüber anderen AC-Übungen zwar als überdurchschnittlich<br />
anspruchsvoll eingeschätzt wurde (72%), die Übungen aber auch für<br />
Computerlaien einfach und sicher zu bedienen waren (91%) (siehe Kapitel<br />
2.4.2). Ganze 96% der Befragten gaben sogar an, Spaß bei der Bearbeitung<br />
der Aufgaben zu haben. Ähnlich hohe Akzeptanzwerte berichten die Autoren<br />
auch auf Seiten der Beobachter, die während des Beobachtertrainings mit den<br />
PC-Übungen vertraut gemacht wurden. Auch Scharley und Partner (2007)<br />
berichten von hohen Akzeptanzwerten der Teilnehmer bzgl. des von ihnen<br />
entwickelten PC-<strong>Postkorb</strong>es „Seeblick“ (siehe Kapitel 2.4.3.3).<br />
Ein letzter Mehrwert computergestützter Verfahren betrifft die Ökonomie. Wie<br />
bereits angesprochen ist die Durchführung sowie die personal- und<br />
arbeitsintensive Auswertung und Nachbereitung von klassischen <strong>Postkorb</strong>-<br />
Verfahren sehr aufwändig (Roest et al., 1989; Funke, 1993, a). Der Einsatz von<br />
<strong>EDV</strong>-Postkörben ist dagegen zumindest vom zeitlichen Gesichtspunkt her<br />
weitaus ökonomischer, was vor allem in der rechnergestützten Auswertung und<br />
dem Wegfallen des nachfolgenden Interviews begründet liegt (Hartung &<br />
Schneider, 1995; Riediger & Rolfs, 1998). Aus diesem Grund eignet sich das<br />
Instrument auch für einen Einsatz im AC mit mehreren Teilnehmern, sofern<br />
genügend Laptops zur Verfügung stehen.<br />
63
Theoretischer Hintergrund<br />
2.4.1.2 Nachteile<br />
Die zuvor angesprochene Ökonomie des computergestützten <strong>Postkorb</strong>es mag<br />
für zeitliche und personelle Aspekte während des Assessment Centers<br />
gegeben sein, für die Konzeption des Instruments ist sie es jedoch nicht<br />
(Obermann, 2006). Die Neuentwicklung eines <strong>EDV</strong>-<strong>Postkorb</strong>es ist deutlich<br />
aufwändiger und somit kostenintensiver als bei einem herkömmlichen<br />
Verfahren, da neben der inhaltlichen Konzeption noch zusätzliche<br />
Programmierungsarbeiten zu verrichten sind (Riediger & Rolfs, 1998).<br />
Allerdings kann eine Anpassung des Verfahrens an ein neues Unternehmen<br />
bzw. Anforderungsprofil in der Folgezeit auf digitalem Wege wiederum schneller<br />
geschehen. Dennoch bleibt eine eventuelle Neuanschaffung von Laptops<br />
kostspielig, sofern diese nicht von einer externen Beratungsfirma zur Verfügung<br />
gestellt werden. Aus diesem Grund dürfte zumindest die Neukonzeption eines<br />
<strong>EDV</strong>-<strong>Postkorb</strong>es eher von größeren Unternehmen in Auftrag gegeben werden.<br />
Trotz aller Vorteile, die die Computerumsetzung des <strong>Postkorb</strong>es mit sich bringt,<br />
können nicht alle Kritikpunkte am klassischen <strong>Postkorb</strong> (siehe Kapitel 2.3.6)<br />
generell als beseitigt angesehen werden. Auch bei <strong>EDV</strong>-Versionen besteht<br />
beispielsweise die Gefahr, die Items zu unklar zu gestalten, so dass einzelne<br />
Zusammenhänge und Lösungen nicht mehr erkennbar sind, oder den<br />
Schwierigkeitsgrad der Items zu undifferenziert festzulegen (Obermann, 2006).<br />
Weitaus wichtiger ist jedoch auch bei <strong>EDV</strong>-Postkörben die Frage nach der<br />
Validität. Durch die computergestützte Realisierung der Übung ist eine völlig<br />
neue Verfahrensgruppe entstanden, auf die sich die vorliegenden Ergebnisse<br />
zu Paper-Pencil-Postkörben nicht ohne weiteres übertragen lassen (Fisseni,<br />
1990; Riediger & Rolfs, 1998). Allerdings sind wissenschaftliche Studien dazu<br />
gerade im deutschsprachigen Raum sehr rar, nur über einige wenige Verfahren<br />
liegen derzeit publizierte Untersuchungen vor (siehe Kapitel 2.4.3). Dem<br />
gegenüber steht aber ein stetig wachsendes Angebot unvalidierter<br />
computergestützter Postkörbe durch die verschiedenen<br />
Beratungsunternehmen, deren prognostische Güte eher fragwürdig bleibt.<br />
Bezüglich der Validität kommt ein weiterer Aspekt hinzu, der die Interaktion von<br />
Mensch und Computer betrifft. Obermann (2006) stellt die Frage, ob bei einem<br />
<strong>EDV</strong>-Verfahren die computerspezifischen Erfahrungen eines Teilnehmers<br />
64
Theoretischer Hintergrund<br />
mitentscheidend sind, d.h. ob diese Fertigkeiten das Ergebnis positiv oder<br />
negativ verzerren können. Auf diese Thematik wird im nachfolgenden Kapitel<br />
genauer eingegangen.<br />
2.4.2 Interaktion von Mensch und Computer<br />
In der zuvor genannten Studie von Hartung und Schneider (1995) gaben 91%<br />
der befragten AC-Teilnehmer in einer Fragebogenuntersuchung an, dass die<br />
eingesetzten computergestützten AC-Übungen auch für Computerlaien einfach<br />
und sicher zu bedienen seien. Leider geben die Autoren aber keine detaillierten<br />
Informationen darüber, um welche Verfahren es sich dabei genau gehandelt<br />
hat. Es wird lediglich gesagt, dass sowohl eine computergestützte Simulation<br />
als auch ein <strong>EDV</strong>-<strong>Postkorb</strong> eingesetzt wurden. Zudem muss bei<br />
Fragebogenuntersuchungen gerade im Rahmen von Assessment Centern<br />
immer der Aspekt der sozialen Erwünschtheit berücksichtigt werden. So<br />
könnten die Teilnehmer etwa gedacht haben, der Fragebogen sei noch Teil des<br />
Beurteilungsprozesses, so dass sie ihre eigenen Computerkenntnisse größer<br />
erscheinen lassen wollten als sie womöglich tatsächlich waren. Auch fehlen<br />
Informationen über die untersuchte Stichprobe. So dürfte klar sein, dass<br />
beispielsweise Mitarbeiter von Computer-Firmen höchstwahrscheinlich weniger<br />
Probleme bei der Bedienung der <strong>EDV</strong>-Verfahren haben als Teilnehmer gänzlich<br />
ohne Computererfahrung. Genau hierin liegt aber der entscheidende Punkt.<br />
So hat der Teilnehmer bei der Bearbeitung computergestützter Verfahren zwei<br />
Probleme zu überwinden (Kleinmann & Strauß, 1995): Einerseits soll das<br />
Sachproblem gelöst werden, womit der eigentliche Inhalt der Übung gemeint ist,<br />
z.B. das Bearbeiten von verschieden Schriftstücken und Erstellen eines<br />
Terminkalenders in einem <strong>Postkorb</strong>. Diese Probleme sind gekennzeichnet<br />
durch einen Anfangszustand, einen oder mehrere gewünschte Zielzustände<br />
und die dazwischen liegenden Barrieren. Zum Überwinden dieser Barrieren hat<br />
der Teilnehmer in der Regel zahlreiche Handlungsalternativen im <strong>Postkorb</strong>,<br />
etwa Tätigkeiten priorisieren oder delegieren, Termine wahrnehmen, absagen<br />
oder verlegen, etc. Diese Sachprobleme sind für alle Teilnehmer gleichermaßen<br />
definiert und setzen keine Vorkenntnisse voraus.<br />
65
Theoretischer Hintergrund<br />
Auf der anderen Seite steht bei computergestützten Übungen jedoch das<br />
Interaktionsproblem, womit gemeint ist, dass die Teilnehmer das Sachproblem<br />
mit Hilfe von Computern bearbeiten müssen und zunächst einmal die damit<br />
verbundenen Hürden in der Bedienung bewältigen müssen. So müssen<br />
zunächst derartige Fragen beantwortet werden wie „Wo finde ich was auf dem<br />
Bildschirm?“, „Wie bediene ich die Maus?“ oder „Was muss ich tun, um eine<br />
bestimmte Information aufzurufen?“ (Obermann, 2006). Der Anfangszustand<br />
bei diesem Problem ist also, dass der Teilnehmer weder das Programm noch<br />
seine Funktionsweise kennt. Der Endzustand soll sein, dass der Teilnehmer mit<br />
dem Programm vertraut ist. Die Verwendung des Computers kann also gerade<br />
bei computerunerfahrenen Teilnehmern zu einem zusätzlichen Problem<br />
werden, da durch die Lösung des Interaktionsproblems Kapazitäten in<br />
Anspruch genommen werden, die für die Lösung des Sachproblems fehlen. Bei<br />
erfahrenen Computeranwendern ist die Nutzung längst zu einem Automatismus<br />
geworden, d.h. der Endzustand ist von Anfang an vorhanden, so dass das<br />
Interaktionsproblem minimiert wird und mehr Kapazität für das Sachproblem zur<br />
Verfügung steht. Die computerspezifischen Fertigkeiten können also das<br />
Ergebnis in solchen Übungen verzerren (Kleinmann & Strauß, 1995). Dabei<br />
helfen den Computerlaien laut Obermann (2006) auch die von den<br />
Programmieren gut gemeinten Hilfefunktionen nicht weiter, da diese mit der<br />
Praxis nichts zu tun haben und ggf. sogar Zusatzstress erzeugen können. Auch<br />
die Instruktionen sind nicht immer für alle gleichermaßen verständlich.<br />
Tatsächlich gibt es zahlreiche Studien, die bezüglich des Interaktionsproblems<br />
große Differenzen zwischen Experten und Novizen aufweisen (Wandmacher,<br />
1993). Diese Unterschiede sind zum einen durch die Vorerfahrung mit<br />
Computern und Computeranwendungen begründet, zum anderen aber auch<br />
entscheidend durch die Gestaltung der jeweiligen Software, d.h. der<br />
Softwareergonomie geprägt (Wandmacher, 1993; Kleinmann & Strauß, 1995;<br />
Obermann, 2006).<br />
Die Vorerfahrung mit Computern ist im AC nicht beeinflussbar. Dennoch sollte<br />
sie beim Einsatz computergestützter Übungen mit erhoben werden, da sich nur<br />
so die Leistung eines Teilnehmers bei der Bearbeitung des Sachproblems<br />
adäquat beurteilen lässt (Kleinmann & Strauß, 1995).<br />
66
Theoretischer Hintergrund<br />
Hinsichtlich der Softwareergonomie gibt es jedoch verschiedene Möglichkeiten,<br />
diese während der Konzeptionsphase einer computergestützten Übung zu<br />
erhöhen. Je höher die Softwareergonomie, desto geringer ist der jeweilige<br />
Zusammenhang von Computererfahrung und Testleistung (Kleinmann &<br />
Strauß, 1995). Ein wesentlicher Punkt ist hierbei die Präsentation des<br />
Softwareprogramms. Wenn Vorwissen die Performance in der Übung durch die<br />
Überwindung des Interaktionsproblems adäquater macht, ist es sinnvoll, das<br />
Programm so zu gestallten, dass möglichst viele Teilnehmer über ähnliches<br />
Vorwissen verfügen. In diesem Sinne könnte das Programm beispielsweise an<br />
die Windows-Benutzeroberfläche oder gängige E-Mail-Programme wie<br />
Microsoft Outlook angepasst werden. Auch Usability-Tests im Rahmen der<br />
Konzeptions- und Programmierungsphase können helfen, die Unterschiede<br />
zwischen Experten und Novizen zu minimieren (ausführlich zur<br />
Softwaregestaltung bei computergestützten AV-Verfahren: Kleinmann & Strauß,<br />
1995) Zusammenfassend ist festzuhalten, dass es das Ziel einer jeden<br />
Softwaregestaltung, inklusive der von computergestützten Postkörben, sein<br />
sollte, dass selbst ungeübte Benutzer nach wenigen Probedurchläufen bzw.<br />
einer kurzen Einarbeitungszeit ähnlich mit dem Programm umgehen können<br />
wie erfahrene Nutzer (Kleinmann & Strauß, 1995; Obermann, 2006).<br />
2.4.3 Verfahren im Überblick<br />
Nachdem nun Vor- und Nachteile von <strong>EDV</strong>-Postkörben sowie mögliche<br />
Probleme bei der Interaktion von Mensch und Computer dargestellt wurden, soll<br />
nun ein Überblick über die gängigsten bereits bestehenden computergestützten<br />
Postkörbe gegeben werden. Hierbei ist zu betonen, dass in der Praxis eine<br />
Vielzahl solcher Verfahren existieren, diese jedoch meist von Beratungsfirmen<br />
entwickelt und an deren Kunden verkauft werden, ohne dass eine<br />
wissenschaftliche Untersuchung sowie publizierte Studien dazu stattgefunden<br />
haben (Riediger & Rolfs, 1998). Die drei hier dargestellten Verfahren haben<br />
sich jedoch dem Anspruch auf Überprüfbarkeit gestellt. Im Folgenden sollen<br />
daher die Mailbox’90 (2.4.3.1), PC-Office (2.4.3.2) und der PC-<strong>Postkorb</strong><br />
„Seeblick“ (2.4.3.3) dargestellt werden.<br />
67
Theoretischer Hintergrund<br />
2.4.3.1 Mailbox’90<br />
• Autoren: F. Roest, A. Scherzer, E. Urban, H. Gangl & C. Brandstätter<br />
(1989)<br />
• Aufgabenbeschreibung: Die Mailbox'90 ist ein Verfahren zur<br />
psychologischen Berufseignungsdiagnostik vor allem im Rahmen von<br />
Assessment Centern und Potenzialanalysen von Führungskräften<br />
(Brickenkamp, 2002). Der Teilnehmer wird bei diesem <strong>Postkorb</strong> in die<br />
Position des Direktors eines Versicherungsunternehmens hineinversetzt.<br />
Im Posteingang findet er neun Dokumente vor, die er innerhalb von 32<br />
Minuten bearbeiten soll, wobei in dieser Zeit noch mehrere Telefonate<br />
und Postzugänge eingehen (Roest et al., 1989). Dem Proband stehen<br />
dabei auf dem Bildschirm ein Rechner, ein Notizblock und ein Kalender<br />
zur Verfügung. Zusätzliche Informationen kann er aus einer Kundenliste<br />
sowie einem Organigramm des Unternehmens entnehmen. Neben dem<br />
Eingangskorb stehen auf dem Bildschirm zwei weitere Ablagekörbe zur<br />
Verfügung (Funke, 1993, siehe Abbildung 1).<br />
Abbildung 1: Display des Schreibtisches der Mailbox’90. Die verschiedenen Körbe sind groß in<br />
der Mitte dargestellt, oben in der Kopfzeile finden sich die Hilfsmittel. Rechts sind die<br />
Eingriffsmöglichkeiten aufgelistet (Funke, 1993, b).<br />
68
Theoretischer Hintergrund<br />
Die Bedienung erfolgt mausgesteuert. Einige Dokumente erfordern die<br />
Antwortauswahl aus einer Multiple-Choice-Vorgabe, in anderen Fällen ist<br />
die freie Antwortformulierung in einem Textfeld möglich, und andere<br />
Schriftstücke ermöglichen eine freie Multiple-Choice-Auswahl<br />
beispielsweise aus Delegieren, Ablegen, Termin festlegen, Versenden,<br />
etc. Der ausgewählte Umgang mit einem Dokument kann entsprechende<br />
Konsequenzen haben, so dass z.B. delegierte Dokumente bei falscher<br />
Zuständigkeit der Abteilung nur unvollständig bearbeitet zurückkommen<br />
(Riediger & Rolfs, 1998). Bei Bedienungsproblemen steht zusätzlich eine<br />
Hilfefunktion zur Verfügung.<br />
• Auswertung: Die Beurteilung der Testleistung erfolgt anhand der vier<br />
aufgabenorientierten Skalen Arbeitszeit, Arbeitseinteilung,<br />
Zielorientierung und Arbeitsgüte. Hinzu kommen die drei<br />
verlaufsorientierten Skalen Aktivität, Delegation und Ordnen (Roest &<br />
Horn, 1990). Zu diesen Kriterien lassen sich unterschiedlich stark<br />
differenzierte Ergebnisprotokolle ausgeben, die Roh- und Staninewerte<br />
zu den sieben Skalen beinhalten, aber auch die prozessorientierten<br />
Daten als Verlaufsprotokoll anzeigen können, in denen jeder einzelne<br />
Bearbeitungsschritt dokumentiert ist (Riediger & Rolfs, 1998). Die vom<br />
Teilnehmer vorgenommen Kalendereinträge, die als offene Testeingabe<br />
erfolgen, können vom Programm jedoch nicht ausgewertet werden,<br />
sondern werden dem Testleiter lediglich auf dem Ergebnisausdruck zur<br />
manuellen Auswertung mitgeliefert (Funke, 1993, b).<br />
• Güte des Verfahrens: Durch seine vollständige Darbietung per Computer<br />
und die rechnergestützte Ablaufkontrolle wird die<br />
Durchführungsobjektivität des Verfahrens als hoch angesehen, obwohl<br />
Einschränkungen durch eine zu hohe Dynamik erfolgen könnten (siehe<br />
unten). Auch die Auswertung unterliegt, abgesehen von der<br />
Terminplanauswertung, vollständig der Kontrolle des Programms und<br />
bezieht sich auf die von der Testperson angelegte Protokolldatei. Somit<br />
kann zumindest weitgehend von einer Auswertungsobjektivität<br />
ausgegangen werden (Funke, 1993, b). Zur Überprüfung der Reliabilität<br />
und Validität des Verfahrens wurden Erhebungen an 105 Grazer<br />
69
Theoretischer Hintergrund<br />
Psychologiestudenten sowie 193 Bewerbern für Trainee-Positionen<br />
vorgenommen (Roest & Horn, 1990). Den Ergebnissen zufolge besteht<br />
nur eine niedrige bis mittlere Reliabilität für die Skalen Arbeitseinteilung,<br />
Zielorientierung und Arbeitsgüte. Angaben zur Reliabilität der weiteren<br />
Skalen werden von den Testautoren nicht gegeben. Zur<br />
Validitätsbestimmung wurden Korrelationen zwischen den Mailbox’90-<br />
Skalen und verschiedenen Intelligenz- und Persönlichkeitstests ermittelt<br />
(Roest et al., 1989; Güllich, 1992) Die Auswahl der Tests ist jedoch nicht<br />
begründet, so dass nicht erkennbar ist, an welchen Stellen die Autoren<br />
Kriteriumsvalidität oder diskriminante Validität erwarten (Riediger &<br />
Rolfs, 1998). Von insgesamt 392 mitgeteilten Korrelationen erweisen<br />
sich nur 41 als statistisch bedeutsam, obwohl bei der zugrunde gelegten<br />
Irrtumswahrscheinlichkeit von α=.05 alleine schon 20 der 392 Korrelation<br />
per Zufall signifikant sein sollten (Funke, 1993, b). Die höchste, jedoch<br />
eher fragwürdige Korrelation von r=.41 (17% gemeinsame Varianz)<br />
besteht zwischen der Skala Zielorientierung der Mailbox’90 und der<br />
Skala Selbstbeschuldigung aus einem Stressverarbeitungsbogen.<br />
Daraus schlussfolgern Roest et al. (1989), dass die Mailbox’90 ein von<br />
anderen Verfahren nicht erfasstes Verhalten misst. Was der Test aber<br />
genau misst bzw. ob die angestrebten Verhaltensdimensionen<br />
tatsächlich erfasst werden, bleibt unbeantwortet (Fritz & Funke, 1995).<br />
Auch die Aussage der Autoren, dass die Ähnlichkeiten zu Ergebnissen<br />
anderer <strong>Postkorb</strong>-Validierungen darauf hindeutet, dass die<br />
Computerversion ähnliche Verhaltensmerkmale misst wie die Papier-<br />
Bleistift-Version, wird von anderen Autoren nicht geteilt (Funke, 1993, b;<br />
Riediger und Rolfs, 1998). Ergebnisse zur prädiktiven Validität des<br />
Verfahrens liegen bislang nicht vor.<br />
• Bewertung: Positiv zu bewerten ist, dass den Testautoren schon Anfang<br />
der 1990er Jahre ein Instrument gelungen ist, dessen Durchführung und<br />
Auswertung vollkommen objektiv von anderen Teilnehmern sowie<br />
Beobachtern vonstatten geht. Zudem hat die Mailbox’90 eine überaus<br />
gelungene Anpassung an das Medium des Computers vollzogen, was<br />
eine besonders hohe Dynamik erzeugt (Funke, 1993, b). So können die<br />
70
Theoretischer Hintergrund<br />
verschiedenartigen Störungen im Arbeitsablauf oder die Kooperation mit<br />
anderen Abteilungen hier höchst realistisch simuliert werden.<br />
Anzumerken ist hierbei jedoch, dass eine zu hohe Störungsquote die<br />
Durchführungsobjektivität beeinflussen kann, besonders wenn<br />
verschiedene Störungen die Teilnehmer während unterschiedlicher<br />
Arbeitsprozesse unterbrechen, wozu weitere Untersuchungen erfolgen<br />
sollten. Weiterhin positiv ist, dass in der Auswertung eine hohe<br />
Transparenz bezogen auf eine Musterlösung gegeben wird (Riediger und<br />
Rolfs, 1998).<br />
Die Ergebnisse zur Reliabilität und Validierung der Mailbox’90 können<br />
jedoch generell als unzureichend betrachtet werden (Funke, 1993, b).<br />
Auch die Benutzerfreundlichkeit lässt nach Meinung von Riediger und<br />
Rolfs (1998) zu wünschen übrig. Trotz Einführung und Instruktion hat der<br />
Teilnehmer ein recht komplexes Programm zu bewältigen, das bezüglich<br />
der Handhabung mit der wirklichen Arbeitswelt wenig gemein hat. Auch<br />
der mausgesteuerte Abruf der Funktionen ist wenig intuitiv, so dass<br />
computerunerfahrene Teilnehmer wohl Probleme damit haben dürften<br />
(siehe Kapitel 2.4.2). Auch hierzu wären weitere Forschungen<br />
wünschenswert. Hinzu kommt, dass die Interpretierbarkeit besonders der<br />
verlaufsorientierten Skalen trotz Interpretationshilfen der Autoren eher<br />
fraglich erscheint. So werden beispielsweise keine Belege dafür<br />
gegeben, warum die Häufigkeit, mit der ein Teilnehmer die Umblätter-<br />
Funktion genutzt hat, etwas mit Aktivität im Sinne einer<br />
Führungseigenschaft zu tun haben soll (Funke, 1993, b; Fritz & Funke,<br />
1995). Auch die noch manuell auszuführende Auswertung der<br />
Kalendereinträge beeinträchtigt die ansonsten hohe Objektivität und<br />
bedarf einer Verbesserung. Insgesamt gesehen kann die Mailbox’90<br />
aber als sinnvolles Instrument der Personalauswahl betrachtet werden,<br />
sofern noch weitere Forschungen zu ihrer Güte sowie eine Verbesserung<br />
bzw. Modernisierung der Softwareergonomie vorgenommen werden.<br />
71
Theoretischer Hintergrund<br />
2.4.3.2 PC-Office<br />
• Autor: G. Fennekels (1995)<br />
• Aufgabenbeschreibung: PC-Office stellt zwei <strong>Postkorb</strong>verfahren zur<br />
Verfügung: Polybon wurde für Zielpositionen im höheren Management<br />
konzipiert, Domobon für Abteilungs- und Gruppenleiter (Fennekels,<br />
1995). Beide Postkörbe sind bzgl. Durchführung und Auswertung<br />
äquivalent und unterscheiden sich lediglich im Inhalt der Dokumente<br />
(Sarges & Wottawa, 2001). Bei der Bearbeitung von Polybon nimmt der<br />
Proband die Position eines Werksleiters ein, der einen neuen<br />
Produktionsstandort übernommen hat. Domobon inszeniert dagegen die<br />
Arbeitssituation eines Gruppenleiters im Vertrieb, der den erkrankten<br />
Abteilungsleiter zu vertreten hat (Riediger & Rolfs, 1998). In beiden<br />
Postkörben sollen 17 Schriftstücke mit 26 Problemen innerhalb einer<br />
Stunde (Polybon) bzw. 45 Minuten (Domobon) erkannt und bearbeitet<br />
werden. Zur Lösung eines Problems können eine oder mehrere<br />
gegebene Antwortvorgaben ausgewählt werden. Termine können<br />
gelöscht, verschoben oder gekürzt werden. Neben einem<br />
Terminkalender stehen als weitere Hilfsmittel eine Uhr und ein<br />
Organigramm zur Verfügung. Die Handhabung beider Postkörbe erfolgt<br />
über die Tastatur, durch Betätigen der F1-Taste sind Hinweise bei<br />
Bedienungsproblemen abrufbar (Fennekels, 1995).<br />
• Auswertung: Die Auswertung der Testergebnisse erfolgt über die beiden<br />
Dimensionen Planung & Organisation und Unternehmerische Aktivität.<br />
Erstere wird durch die Kriterien Zeitmanagement, Problemerfassung<br />
sowie Entscheidungsverhalten abgebildet. Die Unternehmerische<br />
Aktivität setzt sich zusammen aus Initiative, Führungstechniken und<br />
Kontaktfähigkeit (Fennekels, 1995). Die Ergebnisausgabe besteht aus<br />
mehreren Teilbereichen (Riediger & Rolfs, 1998). In der quantitativen<br />
Analyse werden Staninewerte für die beiden übergeordneten<br />
Dimensionen gegeben. In der qualitativen Auswertung hingehen werden<br />
die Leistungen des Teilnehmers automatisch in einem Textgutachten<br />
zusammengefasst. Hinzu kommt eine Übersicht der „angemessenen“<br />
sowie „unangemessenen“ Entscheidungen bezogen auf die Gesamtzahl<br />
72
Theoretischer Hintergrund<br />
aller zu treffenden Entscheidungen für jedes der sechs Unterkriterien<br />
(Fennekels, 1995). In dieser Problemanalyse wird auch erkennbar,<br />
welche Problempunkte unberücksichtigt blieben. Zusätzlich liegen<br />
Prozessinformationen vor, wie beispielsweise die Dauer der<br />
Bearbeitungszeiten. Darüber hinaus wird Auswertung durch Grafiken und<br />
Schaubilder veranschaulicht (Sarges & Wottawa, 2001).<br />
• Güte des Verfahrens: Da die Durchführung sowie die Auswertung bei<br />
PC-Office in beiden <strong>Postkorb</strong>-Varianten vollständig durch das Programm<br />
realisiert wird, kann von maximaler Auswertungs- sowie<br />
Durchführungsobjektivität gesprochen werden (Riediger & Rolfs, 1998).<br />
Zur Bestimmung von Reliabilität und Validität wurde PC-Office an 500<br />
Führungskräften unterschiedlicher Hierarchieebenen im Rahmen von<br />
Assessment Centern erprobt, und die Ergebnisse mit denen anderer<br />
Übungen verglichen (Sarges & Wottawa, 2001). Im Testhandbuch finden<br />
sich diesbezüglich jedoch nur Angaben zum <strong>Postkorb</strong> Polybon. Die<br />
Reliabilitätskennwerte wurden mit Cronbachs Alpha bestimmt und<br />
ergeben für das Kriterium Problemerfassung mit .87 den höchsten Wert<br />
und für Entscheidungsverhalten mit .58 den niedrigsten. Zudem wurden<br />
sogar Split-Half-Reliabilitätskoeffizienten angegeben, welche für die<br />
sechs Kriterien von .64 bis .84 rangieren (Sarges & Wottawa, 2001). Zur<br />
Bestimmung der Validität wurde nach Abschluss der Assessment Center,<br />
in denen PC-Office erprobt wurde, in der Beobachterkonferenz eine<br />
Potenzialaussage über die vermutlichen Erfolge des Teilnehmers als<br />
Führungskraft auf der Zielstelle getroffen (Riediger & Rolfs, 1998). Diese<br />
Beurteilungen wurden mit den Anforderungsdimensionen Planung &<br />
Organisation und Unternehmerische Aktivität korreliert. Bei einer<br />
Irrtumswahrscheinlichkeit von α=.01 korrelierten die beiden Dimensionen<br />
signifikant mit .47 für Planung & Organisation sowie .41 für<br />
Unternehmerische Aktivität (Sarges & Wottawa, 2001).<br />
• Bewertung: Besonders positiv fällt auf, dass die Autoren großen Wert auf<br />
die Gestaltung des Programms und eine denkbar einfach Handhabung<br />
gelegt haben (Sarges & Wottawa, 2001). Voruntersuchungen zeigten,<br />
dass der Umgang mit PC-Office selbst computerunerfahrenen<br />
73
Theoretischer Hintergrund<br />
Testpersonen nach einer kurzen Einweisungsphase problemlos gelang<br />
(Fennekels, 1995). Besonders die Kalenderfunktion und das Eintragen<br />
der Termine wurde sehr intuitiv angelegt. Als ein weiterer Pluspunkt<br />
erscheint das Vorliegen von zwei Schwierigkeitsstufen, mit dem der<br />
Einsatz von PC-Office differenzierter erfolgen kann.<br />
Negativ ins Gewicht fällt jedoch die Tatsache, dass im Testhandbuch<br />
zwar eine einfache Bedienungsanleitung für das Programm zu finden ist,<br />
darüber hinaus jedoch kaum Informationen zu Testgrundlagen,<br />
Testwertberechnung oder psychometrischer Güte (Riediger & Rolfs,<br />
1998). Zur Validierung fehlen beispielsweise genaue Angaben über Art<br />
und Zusammensetzung der Stichprobe, detaillierte Erläuterungen zu den<br />
Dimensionen und eine Offenlegung der Erhebungsverfahren. Zudem ist<br />
eine rein subjektive Potenzialaussage im Anschluss an ein AC als höchst<br />
unzureichendes Validierungskriterium zu bewerten. Hierbei sei jedoch<br />
gesagt, dass nach Aussage von Riediger und Rolfs (1998) die<br />
Testautoren bereits weitere Validierungsstudien betreiben würden.<br />
Aktuelle Publikationen liegen dazu aber derzeit noch nicht vor. Als<br />
weitere Schwachstelle ist neben der unzureichenden Validierung auch<br />
die Intransparenz bei der Berechnung und Erstellung der<br />
Ergebnisausgabe zu sehen (Riediger & Rolfs, 1998). So ist die<br />
Aggregation der Verhaltensinformationen zu Testkennwerten nicht<br />
nachvollziehbar, und es fehlen auch hier jegliche Informationen zu der<br />
oder den herangezogenen Normstichprobe(n). Aus diesem Grund ist<br />
besonders das automatisch erstellte Textgutachten kritisch einzustufen,<br />
auch wenn es für den Testanwender eine verlockende<br />
Arbeitserleichterung darstellt. Wenn ausführlichere Validierungsstudien<br />
und umfangreichere Informationen zur Auswertung nachgereicht werden<br />
würden, wäre PC-Office als durchaus brauchbares Instrument der<br />
Eignungsdiagnostik einzustufen. Davon abgesehen bliebe jedoch ein<br />
inhaltlicher Kritikpunkt unberührt, nämlich dass das Verfahren eine relativ<br />
geradlinige Computerisierung von klassischen Paper-Pencil-Postkörben<br />
darstellt (Riediger & Rolfs, 1998). Eine Nutzung der<br />
Interaktivitätsmöglichkeiten, wozu der Computer zahlreiche Chancen<br />
74
Theoretischer Hintergrund<br />
bietet und wie sie beispielsweise von Mailbox’90 (siehe Kapitel 2.4.3.1)<br />
nahezu ausgereizt werden, wird hier vertan. Ein Indiz dafür ist auch die<br />
Reliabilitätsbestimmung des Verfahrens mittels Split-Half-Methode,<br />
welche für einen <strong>Postkorb</strong> aufgrund der sonstigen Vernetzung der Items<br />
sowie der Dynamik der Vorgänge eher ausgeschlossen erscheint (siehe<br />
Kapitel 2.1.3, 2.3.5.3). Somit kann PC-Office bzgl. Dynamik und<br />
Realitätsnähe nur als mäßig eingestuft werden.<br />
2.4.3.3 PC-<strong>Postkorb</strong> "Seeblick“<br />
• Autoren: Scharley & Partner (1991)<br />
• Aufgabenbeschreibung: Der PC-<strong>Postkorb</strong> „Seeblick“ wird hauptsächlich<br />
zur Selektion von Hochschulabsolventen, Sachbearbeitern, Projekt- und<br />
Teamleitern sowie Nachwuchsführungskräften eingesetzt (Scharley &<br />
Partner, 2007). Im Rahmen der Übung übernehmen die Teilnehmer die<br />
Rolle eines Managers, der ein Ausbildungszentrum einer Bank mit<br />
angeschlossenem Seminar-, Hotel- und Restaurantbetrieb leitet (Sarges<br />
& Wottawa, 2001). Die Bearbeitungszeit ist dabei abhängig von der<br />
Komplexität des Verfahrens, da es verschiedene Parallelversionen bzw.<br />
verschiedene Schwierigkeitsstufen gibt, um das Verfahren an den<br />
spezifischen Kundenbedarf anzupassen (Riediger & Rolfs, 1998). In der<br />
Basisversion hat der Teilnehmer aber eine Stunde Zeit, um insgesamt 40<br />
Dokumente zu bearbeiten. Davon befinden sich 35 Schriftstücke, bei<br />
denen es sich um Briefe, Notizen oder Memos handelt, bereits zu Beginn<br />
der Übung im virtuellen Posteingang, 5 weitere gehen im Verlauf der<br />
Bearbeitungszeit zusätzlich ein (Scharley & Partner, 1991). Für jedes<br />
dieser Dokumente muss der Teilnehmer vier Entscheidungen treffen: Er<br />
hat die Wichtigkeit des Vorgangs im Sinne einer Prioritätensetzung<br />
festzulegen, soll das Dokument einem inhaltlichen Problemfeld zuordnen<br />
und delegieren, wer den Vorgang bearbeiten soll. Zu jeder dieser<br />
Entscheidungen steht eine Multiple Choice-Auswahl zur Verfügung. Als<br />
vierte Aufgabe soll der Teilnehmer Termine festlegen, die sich aus den<br />
Schriftstücken ergeben (Scharley & Partner, 2007). Dafür stehen dem<br />
75
Theoretischer Hintergrund<br />
Teilnehmer ein eigener Kalender sowie die Kalender seiner Mitarbeiter<br />
zur Verfügung. Termine können gesetzt, verschoben und gelöscht<br />
werden. Zusätzlich bietet das Programm eine Uhr, einen Notizblock und<br />
eine Filterfunktion an, mit der die Vorgänge nach verschieden<br />
Gesichtspunkten sortiert werden können. Zudem wird der<br />
Bearbeitungsstand jedes Schriftstücks angezeigt. Die Bedienung des<br />
Programms erfolgt mausgesteuert und orientiert sich an gängigen<br />
windowsbasierten E-Mail-Clients (Scharley & Partner, 2007). Ein Abbild<br />
des Desktops zeigt Abbildung 2.<br />
Abbildung 2: Desktop des PC-<strong>Postkorb</strong>es „Seeblick“. Der Teilnehmers sieht eine Übersicht der<br />
Dokumente auf der linken Seite, rechts oben wird das jeweils ausgewählte Schriftstück<br />
angezeigt, rechts unten ist der Terminplaner zu sehen (Scharley & Partner, 2007).<br />
76
Theoretischer Hintergrund<br />
• Auswertung: Die Testauswertung erfolgt bezogen auf die vier<br />
Bearbeitungskategorien Delegation, Problemfelder festlegen, Prioritäten<br />
setzen und Terminplanung. Als weiterer Skalenwert wird das Einhalten<br />
einer logischen Terminplanung berechnet. Zusätzlich wird die<br />
Arbeitsgeschwindigkeit bewertet sowie ein Gesamttestwert bestimmt<br />
(Scharley & Partner, 1991). Das Auswertungsprogramm gibt die<br />
Testergebnisse im Hinblick auf verschiedene Aspekte wieder. Zum einen<br />
wird die Leistung des Probanden mit einem Prozentwert angegeben, der<br />
hinsichtlich des optimal erreichbaren Punktwertes verglichen mit einer<br />
Optimallösung errechnet wird. Zum anderen wird die Testleistung mit<br />
Werten einer Normstichprobe verglichen, und Prozentrang sowie<br />
Abweichung vom Durchschnitt der Normstichprobe angegeben. Diese<br />
Eichstichprobe besteht aus n=100 Personen im mittleren Management<br />
und n=360 Personen aus dem höheren Management. Die Software<br />
bietet zusätzlich die Möglichkeit, eigene Normstichproben aufzubauen<br />
und zu verwalten (Riediger & Rolfs, 1998). Ähnlich wie bei den zuvor<br />
dargestellten <strong>EDV</strong>-Postkörben bietet auch der PC-<strong>Postkorb</strong> „Seeblick“<br />
die Möglichkeit, durch eine zusätzliche Strategieanalyse der<br />
Prozessvariablen das Vorgehen der Teilnehmer während der Übung<br />
auszuwerten (Scharley & Partner, 2007).<br />
• Güte des Verfahrens: Die Durchführungs- und Auswertungsobjektivität<br />
des Verfahrens gilt analog zum Verfahren PC-Office (siehe Kapitel<br />
2.4.3.2) als maximal. Zur Bestimmung der Validität wurden<br />
Untersuchungen in den Niederlanden durchgeführt, wo das Verfahren<br />
sehr verbreitet ist. In einer Studie mit n=35 Führungskräften ergab die<br />
Split-Half-Methode Koeffizienten für die einzelnen Skalen von .55 bis .82<br />
und für den Gesamttest .96 (Riediger & Rolfs, 1998). Zur<br />
Kriteriumsvalidität liegen unterschiedliche Ergebnisse vor. Für die<br />
deutschsprachige Testversion berichten die Testautoren eine<br />
hochsignifikante Korrelation von <strong>Postkorb</strong>gesamtergebnis und einem<br />
unabhängig davon erhobenen Gesamtergebnis eines Assessment<br />
Centers (r=.37 bei α=.01 und n=54) sowie eine signifikante Korrelation zu<br />
einer Vorgesetztenbeurteilung des Führungspotenzials (r=.33 bei α=.05<br />
77
Theoretischer Hintergrund<br />
und n=54) (Riediger & Rolfs, 1998). In einer anderen Studie in den<br />
Niederlanden zeigte sich in einer ebenfalls kleinen Stichprobe von n=30<br />
kein Zusammenhang von Testleistung und Vorgesetztenbeurteilung, in<br />
einer späteren niederländischen Untersuchung jedoch eine Korrelation<br />
von .53 bei n=34 (Riediger & Rolfs, 1998). Eine weitere niederländische<br />
Studie berichtet darüber hinaus von Korrelationen des<br />
<strong>Postkorb</strong>ergebnisses zu einem Intelligenzwert von .29 bei n=117.<br />
• Bewertung: Der PC-<strong>Postkorb</strong> „Seeblick“ kann verglichen mit den bisher<br />
hier dargestellten Verfahren am positivsten bewertet werden. So<br />
überzeugt der <strong>EDV</strong>-<strong>Postkorb</strong> besonders durch seine<br />
benutzerfreundliche, windows-basierte Gestaltung, die sich an gängige<br />
E-Mail-Clients wie Microsoft Outlook anlehnt und somit auch für<br />
unerfahrene Benutzer schnell zu überschauen ist. Dazu tragen auch die<br />
gut interpretierbaren Icons und der übersichtliche Bildschirmaufbau<br />
sowie eine für den User gewohnte Bedienung mit der Maus bei (Sarges<br />
& Wottawa, 2001). Ein weiterer großer Vorteil ist die Tatsache, dass die<br />
Ergebnisse sowohl hinsichtlich des zu erfassenden Kriteriums wie auch<br />
mit Werten aus einer Normstichprobe verglichen werden. Dadurch<br />
werden sowohl Anforderungen der kriterienorientierten<br />
Leistungsmessung sowie der klassischen Testtheorie realisiert (siehe<br />
Kapitel 2.1), was für den <strong>Postkorb</strong> als Mischform aus psychologischem<br />
Testverfahren und situativer Arbeitsprobe besonders geeignet scheint.<br />
Zusätzlich positiv ist zu vermerken, dass der PC-<strong>Postkorb</strong> bereits in einer<br />
deutschen, englischen, französischen, italienischen und<br />
niederländischen Version vorliegt und die Versionen jeweils an die<br />
Zielunternehmen angepasst werden können (Sarges & Wottawa, 2001).<br />
Diese Tatsache bringt jedoch Validierungsprobleme mit sich. Es dürfte<br />
eher unwahrscheinlich sein, dass die publizierten Ergebnisse auch<br />
zutreffen, wenn der <strong>Postkorb</strong> in einem anderen Land mit anderen<br />
Arbeitsanforderungen, in einer anderen Sprache und zusätzlich noch in<br />
einer an ein Unternehmen spezifisch angepassten Version eingesetzt<br />
wird. Zusätzlich problematisch bei den vorliegenden Untersuchungen ist<br />
die geringe Stichprobengröße von teilweise nur n=30 Personen (Riediger<br />
78
Theoretischer Hintergrund<br />
& Rolfs, 1998). Zwar werden hierbei Hinweise auf eine vorhandene<br />
Reliabilität sowie Validität gegeben, jedoch wird für derartige Studien,<br />
sofern sie aussagekräftig sein sollen, eine Stichprobengröße von<br />
mindestens n=68 vorausgesetzt (Bortz, 1993). Analog zum PC-Office<br />
muss auch hier die Split-Half-Methode zur Reliabilitätsbestimmung<br />
aufgrund der interdependenten Itemstruktur als unpassend bezeichnet<br />
werden (Riediger & Rolfs, 1998). Ein zusätzliches Manko ist, dass die<br />
Musterlösung sowie die Zuordnung der Verhaltensweisen zu den<br />
Punktwerten nicht transparent und somit auch nicht nachvollziehbar ist<br />
(Riediger & Rolfs, 1998). Dennoch bleibt festzuhalten, dass der PC-<br />
<strong>Postkorb</strong> „Seeblick“ von den bisher dargestellten Verfahren das<br />
modernste und qualitativ hochwertigste zu sein scheint, auch wenn bzgl.<br />
der Validierung noch weitere, umfangreichere Studien nötig sind.<br />
2.4.3.4 Zusammenfassung<br />
In diesem Kapitel wurde zunächst auf die Vor- und Nachteile<br />
computergestützter Postkörbe eingegangen und anschließend die drei<br />
gängigsten Verfahren Mailbox’90, PC-Office und der PC-<strong>Postkorb</strong> „Seeblick“<br />
detailliert dargestellt und bewertet.<br />
Die Vorteile von Mailbox’90 liegen in einer überaus hohen Dynamik und<br />
Realitätsnähe, was jedoch die Durchführungsobjektivität beeinflussen könnte.<br />
Zudem wird eine hohe Transparenz bei der Ergebnisauswertung gegeben. Als<br />
unzureichend wird der derzeitige Stand der Validierung bezeichnet, ebenso wie<br />
die Benutzerfreundlichkeit. Letztere sollte durch eine Anpassung des<br />
Programms an aktuelle Softwarestandards erhöht werden. Zudem sollte ein<br />
computergestütztes Instrument gänzlich ohne zusätzliche manuelle<br />
Auswertungen, wie hier der Kalendereinträge, auskommen.<br />
Dem Verfahren PC-Office wird generell eine hohe Benutzerfreundlichkeit<br />
bescheinigt, auch wenn diese noch nicht an ein windowsbasiertes Design<br />
geknüpft ist. Zudem liegen zwei verschieden schwierige Versionen für den<br />
individuelleren Einsatz vor. Negativ wird auch hier die Validierungslage<br />
gesehen, wozu jedoch offenbar neue Studien in Arbeit sind. Hinzu kommt die<br />
79
Theoretischer Hintergrund<br />
kaum vorhandene Transparenz zu den Testgrundlagen, der<br />
Testwertberechnung oder den Normstichproben. Weiterhin negativ ist die relativ<br />
starre Umsetzung eines Paper-Pencil-Verfahrens, wodurch die Potenziale einer<br />
computergestützten Anwendung ungenutzt bleiben.<br />
Der PC-<strong>Postkorb</strong> „Seeblick“ überzeugt durch seine wesentlich zeitgemäßere<br />
Gestaltung und die daraus resultierende hohe Benutzerfreundlichkeit.<br />
Zusätzlich werden die Testwerte hier sowohl bezüglich des zu erreichenden<br />
Kriteriums bewertet als auch mit einer Normstichprobe verglichen. Einzig<br />
negativ erscheint hier wie bei den anderen Verfahren die unzureichende<br />
Validierungslage, was jedoch vor allem an den zu kleinen Stichproben und den<br />
lediglich in einem Land (Niederlande) durchgeführten Studien liegt.<br />
Alles in allem besitzt also jedes dieser Verfahren sowohl Vorteile wie Nachteile.<br />
Auffällig ist jedoch, dass bei allen drei <strong>EDV</strong>-Postkörben große Defizite in der<br />
Validierung herrschen. Im nachfolgenden Kapitel soll der neu entwickelte<br />
computergestützte <strong>Postkorb</strong> KI.BOX vorgestellt werden, der das Ziel hat, die<br />
Vorteile der bisherigen Verfahren aufzugreifen und deren Defizite<br />
auszugleichen.<br />
80
Der computergestützte <strong>Postkorb</strong> KI.BOX<br />
3 Der computergestützte <strong>Postkorb</strong> KI.BOX<br />
3.1 Beschreibung des Verfahrens<br />
Der computergestützte <strong>Postkorb</strong> KI.BOX wurde 2008 von Stephan Holtmeier für<br />
die Unternehmensberatung „kibit GmbH“ entwickelt und wird derzeit bereits<br />
erfolgreich bei Kunden, vor allem aus der Versicherungs-, Banken- und<br />
Automobilbranche im Rahmen von Assessment Centern und<br />
Potenzialbeurteilungen eingesetzt. Da es sich hierbei noch um ein sehr neues<br />
Verfahren handelt, existiert zurzeit noch kein ausführliches Testhandbuch. Die<br />
folgende Darstellung des Verfahrens basiert also hauptsächlich auf<br />
persönlichen Mitteilungen des Testautors, Produktinformationen von der<br />
Unternehmens-Homepage (Holtmeier, 2008) sowie eigenen Erfahrungen des<br />
Autors dieser <strong>Diplomarbeit</strong> mit der KI.BOX und wird mangels alternativer<br />
publizierten Testbeschreibungen ausführlicher erfolgen als bei den in Kapitel<br />
2.4.3 dargestellten <strong>EDV</strong>-Postkörben.<br />
Bei der Konzeption der KI.BOX wurde an ähnliche bereits bestehende<br />
Verfahren angeknüpft, allerdings mit dem Ziel, deren erkennbare Schwächen<br />
aufzugreifen und durch verbesserte Lösungen zu ersetzen. Somit sollte ein<br />
zeitgemäßes und für die Praxis sinnvoll einzusetzendes Instrument der<br />
Eignungsdiagnostik entwickelt werden, das sowohl wissenschaftlichen wie<br />
wirtschaftlich-ökonomischen Ansprüchen genügt. Dazu wurden jedoch nicht nur<br />
bereits bestehende Paper-Pencil- und computerbasierte Postkörbe als<br />
Konstruktionsgrundlage herangezogen. Auch das Berliner Intelligenzstruktur-<br />
Modell von Jäger, Süß und Beauducel (1997, vgl. Sarges & Wottawa, 2001)<br />
sowie Ansätze aus dem Büro-Test von Marschner (1981) wurden impliziert.<br />
Die Zielgruppe dieses <strong>EDV</strong>-<strong>Postkorb</strong>es setzt sich in erster Linie aus<br />
Hochschulabsolventen, Trainee-Bewerbern und Führungskräftenachwuchs<br />
zusammen. Das Programm ist, ähnlich wie der PC-<strong>Postkorb</strong> „Seeblick“ (siehe<br />
Kapitel 2.4.3.3), bzgl. Design und Handhabung windows-basiert und wird mit<br />
der Maus gesteuert, wobei in wenigen Fällen auch Zahlen über die Tastatur<br />
einzugeben sind. Die Benutzeroberfläche ist an allgemein gängige E-Mail-<br />
Clients wie Microsoft Outlook angelehnt und wurde zusätzlich vereinfacht, um<br />
81
Der computergestützte <strong>Postkorb</strong> KI.BOX<br />
Vorerfahrung mit dem Computer möglichst zu minimieren (siehe Kap 2.4.2).<br />
Darüber hinaus können Komplexität und Inhalte der KI.BOX flexibel an die<br />
jeweiligen Einsatzgebiete und Zielgruppen angepasst werden. Keine der<br />
Versionen benötigt spezielles Fachwissen. Die vorliegende Arbeit beschäftigt<br />
sich im Weiteren mit einer Basisversion, deren reine Bearbeitungszeit 60<br />
Minuten beträgt. Hinzuzurechnen ist eine insgesamt zwanzigminütige<br />
Instruktionsphase, die sich in zwei Teile gliedert und im folgenden Kapitel<br />
dargestellt wird.<br />
3.2 Instruktion<br />
Zunächst bekommt der Teilnehmer eine Instruktion auf Papier ausgehändigt,<br />
die ihn mit der Cover-Story der Übung, seiner diesbezüglichen Aufgabe,<br />
Hinweisen zur Bearbeitung und grundlegenden Bedienungsanweisungen<br />
inklusive Screenshots aus der KI.BOX vertraut macht (siehe Anhang A.1). Zur<br />
Durchsicht dieser Unterlage sind zehn Minuten vorgesehen, während der<br />
Bearbeitungszeit steht sie dem Teilnehmer aber auch weiterhin zur Verfügung.<br />
Im Anschluss daran folgt die zweite Phase der Einarbeitung, die ebenfalls zehn<br />
Minuten in Anspruch nimmt und am Computer erfolgt. Der Teilnehmer befindet<br />
sich nun auf der Startseite der KI.BOX, die in Abbildung 3 dargestellt wird:<br />
Abbildung 3: Startseite der KI.BOX.<br />
82
Der computergestützte <strong>Postkorb</strong> KI.BOX<br />
Oben im Bild befinden sich nochmals kurze Hinweise zur Bearbeitung, die der<br />
Teilnehmer schon aus der schriftlichen Instruktion kennt. Links befinden sich die<br />
Symbole für die Bearbeitungsbereiche der KI.BOX „Posteingang“, „Excel<br />
(Tabellen)“, Kalender Messeplanung“, „Prioritäten für heute“ und darunter<br />
„Startseite und Hilfe“, worüber der Teilnehmer immer wieder zur Startseite<br />
zurückkommen kann. Die späteren Bearbeitungsbereiche sind in der<br />
Einarbeitungsphase noch nicht frei geschaltet. Ganz unten ist die Zeitleiste zu<br />
erkennen, die jeweils während der Einarbeitungs- sowie der Bearbeitungszeit<br />
von links nach rechts ansteigt. Durch Klicken auf diesen Balken wird dem<br />
Teilnehmer Aufschluss darüber gegeben, wie viel Zeit ihm noch bleibt. In der<br />
Mitte der Startseite findet sich unter der Überschrift „Ihre Aufgabe“ nochmals<br />
eine kurze Zusammenfassung der Aufgabe aus der schriftlichen Instruktion.<br />
Darunter finden sich Hilfe zur „Navigation“ im Programm und seiner Bedienung.<br />
Durch Klicken auf die Links, die windows-typisch durch eine blaue Schrift und<br />
die Unterstreichung auch als solche gekennzeichnet sind, gelangt man zu<br />
weiterführenden Erläuterungen zu den vier Bearbeitungsbereichen. Abbildung 4<br />
zeigt exemplarisch die Erläuterung für den Bereich Posteingang:<br />
Abbildung 4: Erläuterungsseite zum Posteingang der KI.BOX<br />
83
Der computergestützte <strong>Postkorb</strong> KI.BOX<br />
Die zweigeteilte umfassende Einarbeitungszeit wurde realisiert, um auch<br />
computerunerfahrenen Teilnehmern die Handhabung des Programms maximal<br />
zu erleichtern und ihnen durch ein erstes „Herumklicken“ die Möglichkeit zu<br />
geben, bestehende Anfangsnervosität, die ihre tatsächlichen Leistungen<br />
beeinflussen könnte, abzubauen. Sind die zehn Minuten verstrichen, erscheint<br />
ein Popup-Fenster mit dem Text „Ihre Vorbereitungszeit ist vorbei“. Erst wenn<br />
dann in diesem Popup auf einen Button mit der Aufschrift „Bearbeitung jetzt<br />
starten“ geklickt wird, starten die 60 Minuten der Bearbeitungszeit des<br />
Teilnehmers und damit die Leistungserfassung.<br />
3.3 Durchführung<br />
Der Teilnehmer wird in die Rolle eines Projektleiters hineinversetzt, der einen<br />
Messeauftritt bei einer in sechs Wochen anstehenden Absolventenmesse<br />
planen soll. Dies ist eine typische Aufgabe, wie sie auf Trainees oder<br />
Nachwuchsführungskräfte in der Praxis auch zukommen könnte. In der<br />
Rahmenhandlung ist es früher Morgen, der Teilnehmer hat gerade seinen<br />
Computer eingeschaltet. Bevor er seinen nächsten Termin wahrnehmen kann,<br />
muss er noch seinen <strong>Postkorb</strong> bearbeiten. Dieser besteht aus den vier<br />
Aufgabenbereichen Posteingang für E-Mails, Excel-Tabellen, dem Kalender für<br />
die Messeplanung und einer Prioritätenliste für den aktuellen Tag.<br />
Im Bereich Posteingang findet der Teilnehmer zunächst 18 E-Mails vor, weitere<br />
vier treffen im Verlauf der Bearbeitungszeit ein. Diese neuen Mails enthalten<br />
teilweise Informationen, ohne die einige Probleme aus den bereits vorhandenen<br />
E-Mails nicht korrekt lösbar sind und dadurch ein schnelles Umdenken<br />
erfordern. Mit dieser Form der Dynamik soll, wie auch in den zuvor<br />
dargestellten Postkörben, eine höhere Realitätsnähe erzeugt werden. Damit<br />
orientiert sich die KI.BOX am PC-<strong>Postkorb</strong> „Seeblick“, da ein noch höheres Maß<br />
an Störungen, wie es bei der Mailbox’90 gegeben ist, die<br />
Durchführungsobjektivität zu stark beeinflussen könnte (siehe Kapitel 2.4.3.1).<br />
Um die Realitätsnähe zusätzlich zu erhöhen, wurden die E-Mails personalisiert.<br />
Das bedeutet, dass in den Anreden und Texten der Mails der Teilnehmer nicht<br />
nur als „Projektleiter“ oder „Herr/Frau XY“ angeredet wird, sondern automatisch<br />
84
Der computergestützte <strong>Postkorb</strong> KI.BOX<br />
der tatsächliche Name des Teilnehmers eingefügt wird, den er zu Beginn der<br />
Instruktionsphase in einem Fenster eingetragen hat. Abbildung 5 zeigt<br />
beispielhaft den Bildschirm bei der Bearbeitung einer E-Mail im Posteingang:<br />
Abbildung 5: Posteingang der KI.BOX. Angezeigt wird E-Mail 12, oben blau unterlegt.<br />
Links im Bild befinden sich wieder die Navigations-Icons zu den anderen<br />
Aufgabenbereichen, ganz unten ist die Zeitleiste zu erkennen. Oben befindet<br />
sich die Übersicht über die E-Mails, in der man hoch- und runterscrollen oder<br />
das Übersichtsfenster auch bei Bedarf vergrößern kann. Auch kann man die<br />
Mails nach Markierung, Message-Nummer, dem Absender und dem Betreff<br />
ordnen. In der Spalte für die Markierung hat der Teilnehmer die Möglichkeit, für<br />
jede Mail bestimmte Icons anzeigen zu lassen, z.B. ein Ausrufezeichen für<br />
besonders wichtige oder ein Papierkorb für besonders unwichtige E-Mails.<br />
Diese Markierung dient lediglich als Übersichtshilfe für den Teilnehmer und wird<br />
nicht bewertet. Unter dieser Übersicht über die Mails findet der Teilnehmer in<br />
der Mitte des Bildschirms den Inhalt der jeweils angewählten Mail (in der<br />
Abbildung: E-Mail 12, oben blau hinterlegt). Dieser Inhalt kann Text, Tabellen<br />
oder Diagramme beinhalten. Wenn der Teilnehmer die E-Mails durchgeht, stellt<br />
85
Der computergestützte <strong>Postkorb</strong> KI.BOX<br />
er fest, dass manche davon nur Informationen enthalten, andere eine Aufgabe<br />
beinhalten und wieder andere keine wichtigen Informationen vermitteln. In der<br />
oben abgebildeten E-Mail soll die Aufgabe gelöst werden, dass aus sechs<br />
verfügbaren Restaurants eines ausgewählt werden soll, an dem das Team am<br />
letzten Messetag sein Abschlussessen zu sich nimmt. Dazu muss der<br />
Teilnehmer Hinweise beachten, welche Restaurants welche Menus anbieten,<br />
um die Vorgaben einzuhalten. Unten im Bildschirm sind in blauen und weißen<br />
Balken die Lösungsmöglichkeiten auszuwählen, in diesem Fall die sechs<br />
Restaurants. In anderen E-Mails ist etwa die Reaktion auf die jeweilige Mail<br />
anzugeben, z.B. an wen man den Vorgang delegieren will. Des Weiteren soll<br />
der Teilnehmer in anderen Mails beispielsweise errechnete Geldbeträge über<br />
die Tastatur eingeben oder aus mehreren Aussagen zu einem Thema die<br />
zutreffenden markieren. Hierbei ist zu beachten, dass bei der Konzeption der<br />
einzelnen E-Mails in der KI.BOX auch Items aus verschiedenen Intelligenz- und<br />
Bürotests implementiert wurden.<br />
Bei der Bearbeitung einiger Aufgaben in den Mails ist es nötig, dass der<br />
Teilnehmer Informationen aus vier zur Verfügung stehenden Excel-Tabellen<br />
selektiert. In Abbildung 6 wird eine der Tabellen dargestellt.<br />
Abbildung 6: Excel-Funktion der KI.BOX. Angezeigt wird Tabelle 4, oben blau unterlegt.<br />
86
Der computergestützte <strong>Postkorb</strong> KI.BOX<br />
Die vier Tabellen dienen lediglich zur Information, aktiv bearbeitet werden<br />
müssen sie nicht. Zum schnelleren Finden der gesuchten Information hat der<br />
Teilnehmer aber die Möglichkeit, wie im gängigen Microsoft Excel die Spalten<br />
jeweils an- oder absteigend zu ordnen und sogar Spalten zu verschieben, um<br />
bestimmte Daten besser vergleichen zu können. Diese Tipps zum Umgang mit<br />
den Tabellen finden sich auch in den Erläuterungen, die über die Startseite<br />
abzurufen sind. Der Einsatz von Tabellen im Stil von Microsoft Excel wird<br />
aufgrund ihrer universellen Verständlichkeit auch von anderen Testautoren im<br />
Rahmen von computergestützten Postkörben empfohlen (Pearson et al., 2006)<br />
Aus manchen Mails ergeben sich darüber hinaus mögliche Termine für die zwei<br />
Messetage, die der Teilnehmer festzulegen hat. Möchte er einen Termin<br />
wahrnehmen, wechselt er über die linke Navigationsleiste in den Kalender, der<br />
in Abbildung 7 abgebildet ist:<br />
Abbildung 7: Kalender der KI.BOX. Zu bearbeiten sind die zwei Messtage, jeweils von 9 bis 20<br />
Uhr. Die Dauer der Termine wird automatisch als Größe der weißen Kästen festgesetzt.<br />
Über den Button „Neuer Eintrag“ oben im Bildschirm kann der Teilnehmer aus<br />
allen möglichen Terminen denjenigen auswählen, welchen er anlegen möchte.<br />
Zu beachten ist, dass auch hier Wichtiges von Unwichtigem selektiert werden<br />
87
Der computergestützte <strong>Postkorb</strong> KI.BOX<br />
muss. Die weißen Terminblöcke können dann im Kalender an die beliebige<br />
Stelle geschoben oder auch wieder gelöscht werden. Auch mehrere Termine<br />
gleichzeitig sind möglich, wie in der Abbildung am ersten Messetag um 10 und<br />
16 Uhr zu erkennen ist. Auch der Kalender folgt dabei dem Leitmotiv einer<br />
möglichst einfachen Handhabung und orientiert sich an windows-basierten,<br />
gängigen Designs.<br />
Der vierte Aufgabenbereich ist die Prioritätenliste, die in Abbildung 8 gezeigt<br />
wird.<br />
Abbildung 8: Prioritätenliste der KI.BOX<br />
Hierbei soll der Teilnehmer aus 24 Tätigkeiten die fünf anklicken, die er am<br />
heutigen Tage unbedingt noch erledigen muss. Die Tätigkeiten sowie die<br />
Information, welche davon am wichtigsten sind, ergeben sich aus den E-Mails.<br />
Über die ganze Bearbeitungszeit hinweg hat der Teilnehmer daher die<br />
Möglichkeit, Veränderungen an seinen Prioritäten vorzunehmen. Nur die fünf,<br />
die am Ende der Bearbeitungszeit ausgewählt sind, gehen in die Punktwertung<br />
mit ein.<br />
88
Der computergestützte <strong>Postkorb</strong> KI.BOX<br />
3.4 Erfasste Kriterien<br />
Die standardmäßig von der KI.BOX erfassten Kriterien sind Analytische<br />
Fähigkeiten und Organisatorisch-konzeptionelle Fähigkeiten.<br />
Das Kriterium Analytische Fähigkeiten wird in der KI.BOX als eine kognitive<br />
Kompetenz operationalisiert. Sie umfasst ein analytisches Vorgehen, das<br />
Erkennen von komplexen Zusammenhängen sowie die Ableitung richtiger<br />
Schlussfolgerungen. Der Teilnehmer wird dahingehend bewertet, wie korrekt<br />
und zügig er intellektuell anspruchsvolle Aufgabenstellungen sowie<br />
Mathematische Probleme löst. In dieses Kriterium gehen also<br />
Intelligenzkonzepte wie deduktives und induktives Denken ein sowie die<br />
Fähigkeit, sich schnell in neue Problemfelder einzuarbeiten, diese in ihrer<br />
Komplexität zu durchdringen und daraufhin Ideen zu entwickeln.<br />
Das Kriterium Organisatorisch-konzeptionelle Fähigkeiten wird nicht als primär<br />
kognitive Kompetenz operationalisiert, sondern im Vordergrund steht hier die<br />
Art der Herangehensweise an komplexe Situationen. Daher wird das<br />
Antwortverhalten des Teilnehmers dahingehend bewertet, ob es ihm gelingt,<br />
vernetzte und sinnvolle Lösungen zu entwickeln. Unter anderem werden hier<br />
eine logische Priorisierung von Aufgaben und eine umsetzbare Zeitplanung<br />
berücksichtigt. Es soll also die Fähigkeit zu einem ganzheitlichen<br />
systematischen Denken und die Strukturierung in der Bearbeitung komplexer<br />
Problemstellungen sowie ein geplantes Vorgehen erfasst werden.<br />
Je nach Kundenbedarf kann auch das Kriterium Entscheidungs- und<br />
Delegationskompetenz hinzugefügt werden. Dazu werden die von der KI.BOX<br />
zusätzlich erfassten Prozessvariablen der Lösungswege ausgewertet. Dieses<br />
zusätzliche Kriterium soll in dieser Arbeit jedoch nicht weiter untersucht werden.<br />
3.5 Auswertung<br />
Die Auswertung erfolgt bei der KI.BOX ausschließlich automatisch über ein<br />
beiliegendes Reporting-Tool. Dieses ist für den Anwender übersichtlich<br />
gestaltet und sehr leicht zu bedienen. Die Übersicht über die Ergebnisse erfolgt<br />
dabei in drei unterschiedlich stark differenzierten Darstellungsweisen.<br />
89
Der computergestützte <strong>Postkorb</strong> KI.BOX<br />
Das erste Fenster der Ergebnisausgabe wird in Abbildung 9 dargestellt. Dieser<br />
Ergebnisbericht bietet weiterhin die Möglichkeit eines individuellen Brandings,<br />
d.h. dass Labels und Logos des Kunden einzufügen sind, um besonders die<br />
erste Seite kundenspezifisch ausdrucken und als Gutachten(-vorlage)<br />
verwenden zu können. Um die Anonymität der Testperson zu gewährleisten,<br />
wurde der Name jeweils geschwärzt.<br />
Abbildung 9: automatisch generierter Ergebnisbericht des KI.BOX Reporters<br />
Statt schwer zu interpretierender fertiger Textgutachten wie bei PC-Office<br />
(siehe Kapitel 2.4.3.2) gibt dieser Bericht zunächst tabellarisch den Namen, das<br />
Alter und das Geschlecht der Testperson an, anschließend wird im Absatz zum<br />
Hintergrund kurz der Anlass der Testung (beispielsweise „Im Kontext des<br />
Auswahltages am 23.05.2008“) sowie die in der KI.BOX gestellte Aufgabe des<br />
Teilnehmers zusammengefasst. Darunter wird eine Operationalisierung der<br />
erfassten Kriterien gegeben, um die Transparenz bei jeder Auswertung zu<br />
gewährleisten. Unten im Bild erfolgt dann die Darstellung der Ergebnisse, und<br />
zwar in einer Form, die den Beurteilungslisten der Unternehmensberatung „kibit<br />
GmbH“ entspricht und somit direkt ins gesamte AC-Ergebnis integriert werden<br />
kann. Das bedeutet, dass sowohl für Analytische Fähigkeiten als auch<br />
Organisatorisch-Konzeptionelle Fähigkeiten eine Ausprägung angegeben wird,<br />
die einer sechsstufigen Skala entspricht. Ein dreifaches Minus ergibt den<br />
90
Der computergestützte <strong>Postkorb</strong> KI.BOX<br />
quantitativen Ausprägungsgrad von null, ein dreifaches Plus entspräche dem<br />
höchstmöglichen Wert von fünf. Diese Darstellungsweise wurde auch<br />
deswegen gewählt, weil sie für den ungeschulten Beurteiler anschaulicher<br />
erscheint als ein bloßer Zahlenwert.<br />
Wie sich die beiden Werte zusammensetzen zeigt das das zweite Fenster der<br />
Ergebnisdarstellung, die Auswertung. Diese wird in Abbildung 10 gezeigt.<br />
Abbildung 10: Auswertungstabelle des KI.BOX Reporters<br />
Für die beiden Kriterien werden die Plus- und Minuspunkte errechnet, die sich<br />
jeweils aus den richtig oder falsch beantworteten Aufgaben der E-Mails, der<br />
Kalendereinträge und der Prioritätenliste ergeben. Zusätzlich gibt es Angaben<br />
über Anzahl der beantworteten Items sowie über die maximal zu erreichenden<br />
Punkte. Dabei ist zu beachten, dass die Zahl der beantworteten Items wie in der<br />
Abbildung höher sein kann als die maximale Punktzahl, was daran liegt, dass<br />
es für manche Items auch halbe Punkte gibt (siehe unten). Weiter rechts lassen<br />
sich die entsprechenden Kennwerte ablesen, d.h. die Differenz aus Plus- und<br />
Minuspunkten, die Differenz aus Minus- und Pluspunkten, der Quotient aus<br />
Plus- und Minuspunkten und der Quotient aus Minus- und Pluspunkten. Da sich<br />
diese Kennwerte weitgehend entsprechen, wurde in der vorliegenden Arbeit<br />
lediglich der Kennwert Differenz aus Plus- und Minuspunkten zur Validierung<br />
verwendet. Aus diesen Kennwerten wird automatisch die Ausprägung der<br />
beiden Kriterien errechnet, wie sie auf der ersten Seite des Ergebnisberichtes<br />
angezeigt werden. Die Festlegung der Ausprägungsbereiche, d.h. welcher Wert<br />
welche Kriteriumsausprägung darstellt, beruht einerseits auf<br />
Voruntersuchungen an über 70 Hochschulabsolventen im Rahmen von Trainee-<br />
Auswahlverfahren einer deutschen Versicherungsgesellschaft, zum anderen auf<br />
einem vorher festgesetzten Vertrauensbereich (siehe Kapitel 2.1.3). Damit greift<br />
die Zuordnung der Verhaltensleistung zu den Testwerten sowohl Merkmale der<br />
klassischen Testtheorie sowie der kriteriumsorientierten Leistungsmessung auf<br />
91
Der computergestützte <strong>Postkorb</strong> KI.BOX<br />
(siehe Kapitel 2.1).<br />
Im dritten Fenster der Ergebnisausgabe sind schließlich die Rohwerte zu<br />
sehen. Das heißt, dass jede Antwortmöglichkeit einer E-Mail, jeder mögliche<br />
Kalendereintrag und jede mögliche Priorität in einer Zeile aufgelistet werden,<br />
und angegeben wird, ob die Bearbeitung des einzelnen Items einen Pluspunkt<br />
(Item wurde richtigerweise bearbeitet und korrekt gelöst) oder einen Minuspunkt<br />
(Item wurde fälschlicherweise bearbeitet oder richtigerweise bearbeitet und<br />
nicht korrekt gelöst) einbringt. Abbildung 11 macht diese Darstellung deutlich.<br />
Abbildung 11: Darstellung der Rohwerte im KI.BOX-Reporter<br />
Durch diese Darstellungsweise ergibt sich eine offen gelegte Musterlösung, wie<br />
sie in den zuvor dargestellten Postkörben häufig fehlt. Zu jedem Item wird<br />
zudem angegeben, ob es in die Berechnung zum Kennwert für die Analytischen<br />
Fähigkeiten oder für die Organisatorisch-konzeptionellen Fähigkeiten eingeht.<br />
Die Transparenz des Auswertungs-Reporters der KI.BOX kann daher als sehr<br />
hoch eingestuft werden.<br />
Nachdem die KI.BOX als Gegenstand dieser Arbeit nun ausführlich dargestellt<br />
wurde, sollen im folgenden Kapitel die Fragestellung und Hypothesen der<br />
vorliegenden Untersuchung verdeutlicht werden.<br />
92
Fragestellung und Hypothesen<br />
4 Fragestellung und Hypothesen<br />
Das Ziel der vorliegenden Arbeit ist es, Aussagen über die diagnostische Güte<br />
des computergestützten <strong>Postkorb</strong>es KI.BOX treffen zu können. Deshalb wurden<br />
aufbauend auf dem theoretischen Hintergrund Hypothesen deduktiv aus der<br />
Theorie abgeleitet und anhand des empirisch erhobenen Datensatzes überprüft<br />
(Hussy & Jain, 2002). Die Hypothesen wurden a priori formuliert und theoretisch<br />
und/oder empirisch begründet, so dass keine α-Fehler-Korrektur erforderlich ist<br />
(Bortz & Döring, 2002).<br />
Im Folgenden werden die Hypothesen zur Validitätsprüfung der KI.BOX (4.1),<br />
zu potenziellen Unterschieden in der <strong>Postkorb</strong>-Leistung durch<br />
Computerkenntnisse (4.2), zur Wirkung von Reihenfolgeeffekten beim Einsatz<br />
der KI.BOX innerhalb einer Sequenz von Tests und/oder Übungen (4.3) und zu<br />
den Auswirkungen der demographischen Daten auf die Ergebnisse der KI.BOX<br />
(4.4) präsentiert. Es wurde a priori ein Signifikanzniveau von α=5% als<br />
Falsifikationskriterium zur Widerlegung der Forschungshypothesen festgelegt<br />
(Bortz & Döring, 2002). Aussagen, die eine Überschreitungswahrscheinlichkeit<br />
(p) kleiner oder gleich 5% angeben, gelten als signifikant, Angaben kleiner oder<br />
gleich 1% als hoch signifikant.<br />
4.1 Hypothesen zur Validitätsprüfung<br />
Die Validierung eines neu entwickelten Verfahrens erfolgt generell anhand der<br />
Gütekriterien der jeweils entsprechenden testtheoretischen Grundlagen. Da es<br />
sich bei der KI.BOX um eine <strong>Postkorb</strong>-Übung und somit eine Mischform aus<br />
kognitivem Fähigkeitstest und situativer Arbeitsprobe handelt (Höft, 2003),<br />
müssen hier sowohl Aspekte der klassischen Testtheorie (siehe Kapitel 2.1.1),<br />
besonders aber der kriteriumsorientierten Leistungsmessung (siehe Kapitel<br />
2.1.3) berücksichtigt werden. Neben den demographischen Daten sind also<br />
besonders Aspekte der Objektivität, Reliabilität und Validität sowie bestimmte<br />
Nebengütekriterien zu überprüfen (siehe Kapitel 2.1).<br />
Zur Objektivität der KI.BOX kann entsprechend den Annahmen anderer<br />
computergestützter Postkörbe, besonders des im Aufbau ähnlichen PC-<br />
93
Fragestellung und Hypothesen<br />
<strong>Postkorb</strong>s „Seeblick“ (siehe Kapitel 2.4.3.3) von maximaler Durchführungs- und<br />
Auswertungsobjektivität ausgegangen werden, da der Ablauf vollkommen durch<br />
das Programm gesteuert wird, unabhängig von anderen Teilnehmern und<br />
Beobachtern erfolgt und entgegen einer zu hohen Dynamik bei der Mailbox’90<br />
(siehe Kapitel 2.4.3.1) bei der KI.BOX durch die neu eintreffenden E-Mails nicht<br />
von einer Störung der Durchführungsobjektivität ausgegangen werden muss<br />
(siehe Kapitel 7.1.1). Die Interpretationsobjektivität gilt nach Lienert (1969) als<br />
vollkommen gegeben, wenn die Testauswertung einen numerischen Wert<br />
liefert, der die Position eines Probanden innerhalb einer Testskala angibt. Auch<br />
dies geschieht automatisch durch das beiliegende Reporting-Tool, so dass die<br />
Objektivität der KI.BOX in allen Punkten als maximal gegeben angesehen<br />
werden kann und in dieser Arbeit keiner weiteren Überprüfung mehr bedarf.<br />
Die Überprüfung der Reliabilität gestaltet sich bei einem situativen <strong>Postkorb</strong> mit<br />
untereinander vernetzten Items sehr schwierig (siehe Kapitel 2.1.3). Nach<br />
Schuler (1996) gelten die Split-Half-Methode sowie die Konsistenzanalyse<br />
(siehe Kapitel 2.1.1.2) bei solchen Verfahren als ungeeignet, und bei Retestund<br />
Paralleltest-Methoden sind zu starke Übungseffekte zu erwarten. Generell<br />
ist nach Klauer (1987) noch unklar, was man genau unter der Reliabilität eines<br />
kriteriumsorientierten Tests zu verstehen hat. Für den <strong>Postkorb</strong> kann aber bei<br />
einer möglichst hohen Objektivität davon ausgegangen werden, dass auch die<br />
Reliabilität hoch ist (siehe Kapitel 2.3.5.3). Aus diesem Grund soll die<br />
Bestimmung der Reliabilität der KI.BOX in der vorliegenden Arbeit keine weitere<br />
Berücksichtigung finden, da andere Aspekte, besonders die der Validität, für<br />
eine erste Validierungsstudie zu diesem Verfahren wichtiger erscheinen.<br />
Hauptanliegen der vorliegenden Arbeit ist daher die Bestimmung der Validität<br />
der KI.BOX (siehe Kapitel 2.1.3). Nach Klauer (1987) und Fricke (1974)<br />
bestimmt sich ein kriteriumsorientierter Test hauptsächlich über seine<br />
Inhaltsvalidität, neueren Ansichten von Schuler (1996) und Obermann (2006)<br />
zufolge steht jedoch besonders die Kriteriumsvalidität im Vordergrund. Der<br />
Konstruktvalidität kommt in diesem Zusammenhang nur eine untergeordnete<br />
Bedeutung zu (Obermann, 2006), weswegen sie in dieser Arbeit nicht weiter<br />
untersucht werden soll.<br />
Die Inhaltsvalidität von Postkörben wird oft mit der hohen Augenscheinvalidität<br />
94
Fragestellung und Hypothesen<br />
des Verfahrens begründet (siehe Kapitel 2.1.1.3). Dass diese bei besonders<br />
realistisch gestalten Verfahren gegeben ist, die beispielsweise windows-basiert<br />
und an gängige E-Mail-Clients angelehnt sind und durch ein bestimmtes Maß<br />
an Dynamik sehr realistisch wirken, wurde bereits dargestellt (siehe Kapitel<br />
2.2.5.6, 2.3.5.4, 2.4.1.1, 2.4.3.3). Zudem basiert die Konzeption der KI.BOX<br />
jeweils auf einer unternehmensspezifischen Anforderungsanalyse, an welche<br />
das Verfahren angepasst werden kann. Da für die Inhaltsvalidität kein<br />
numerischer Kennwert berechnet wird, kann diese für die KI.BOX aufgrund der<br />
oben stehenden Ausführungen als ausreichend vorhanden angenommen<br />
werden.<br />
Im Vordergrund dieser Untersuchung soll demnach die Bestimmung der<br />
Kriteriumsvalidität stehen (siehe Kapitel 2.1.1.3). Sie wird ermittelt durch einen<br />
Vergleich von Testscore und Kriterien-Score, d.h. es werden<br />
Korrelationskoeffizienten für den Zusammenhang von den empirisch<br />
gemessenen KI.BOX-Ergebnissen und den Messungen der für sinnvoll<br />
gehaltenen Kriterien bestimmt und ihre Signifikanz geprüft (Fisseni, 1990). Bei<br />
der vorliegenden Untersuchung handelt es sich um eine Querschnittstudie unter<br />
Laborbedingungen, so dass die Bestimmung der Vorhersagevalidität als Aspekt<br />
der Kriteriumsvalidität nicht möglich ist, da aufgrund der Neuheit der KI.BOX<br />
zum gegenwärtigen Zeitpunkt noch keine Leistungsindikatoren des weiteren<br />
Berufserfolgs erfasst werden können. Wie in Validierungsstudien generell<br />
üblich, wird daher die Übereinstimmungsvalidität als Teilbereich der<br />
Kriteriumsvalidität überprüft, wobei vom Testscore auf das Verhalten außerhalb<br />
der Testsituation geschlossen werden soll (Lienert, 1969). Zu diesem Zweck<br />
wurden in der vorliegenden Untersuchung sowohl innere wie äußere Kriterien<br />
realisiert. Als äußere Kriterien wurden die Abiturnote sowie die letzten<br />
Schulnoten in Deutsch und Mathematik herangezogen (siehe Kapitel 5.2.4). Die<br />
Abiturdurchschnittsnote gilt unter anderem laut Studien von Schmidt-Atzert<br />
(2006) als guter Prädiktor für zukünftigen Berufserfolg, weshalb hier ein<br />
positiver Zusammenhang zu den KI.BOX-Ergebnissen angenommen wird<br />
(Hypothese A.1). Gleiches soll für die letzte Schulnote in Deutsch gelten<br />
(Hypothese A.2), die besonders hinsichtlich des Studienerfolges in Geistes- und<br />
Humanwissenschaften hohe prognostische Güte aufweist (Baron-Boldt,<br />
95
Fragestellung und Hypothesen<br />
Schuler, Funke, 1988). Der letzten Schulnote in Mathematik werden<br />
prognostische Qualitäten besonders für analytische Fähigkeiten bescheinigt. Da<br />
außerdem im Kriterium Analytische Fähigkeiten der KI.BOX auch rechnerische<br />
Probleme zu lösen sind, soll die Hypothese einen hohen Zusammenhang von<br />
der Mathematiknote und diesem Kriterium postulieren (Hypothese A.3). Als<br />
weiteres äußeres Kriterium werden Selbsteinschätzungen (siehe Kapitel 5.2.5)<br />
über die beiden Dimensionen der KI.BOX erfasst. Da den Studenten eine<br />
gewisse Fähigkeit zur Selbstreflexion zugesprochen wird, wird erwartet, dass<br />
die Ergebnisse mit den KI.BOX-Leistungen korrelieren (Hypothesen A.4 und<br />
A.5). Als innere Kriterien wurden der Gesamttestwert (Hypothese A.6) sowie im<br />
speziellen das Grundmodul (Hypothese A.7) und das Postmodul (Hypothese<br />
A.8) der AZUBI-BK (siehe Kapitel 5.2.1) eingesetzt, welche ähnliche<br />
Dimensionen wie die KI.BOX messen. Aufgrund dieser Kriteriennähe werden<br />
hier hohe Zusammenhänge zu den KI.BOX-Leistungen postuliert, ebenso<br />
bezüglich der Bearbeitungsgeschwindigkeit in beiden Tests (Hypothese A.9).<br />
Zudem wurde die Subskala zur Gewissenhaftigkeit aus dem BIP (siehe Kapitel<br />
5.2.2) verwendet. Da es in der KI.BOX von großer Bedeutung ist, über sechzig<br />
Minuten hinweg konzentriert und detailgenau zu arbeiten, wird hier ebenfalls ein<br />
positiver Zusammenhang zu den beiden Kriterien angenommen (Hypothesen<br />
A.10 und A.11). Somit werden folgende Hypothesen formuliert:<br />
• Hypothese A1: Es besteht ein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX und der<br />
Abiturnote der Probanden.<br />
• Hypothese A2: Es besteht ein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX und der letzten<br />
Schulnote in Deutsch.<br />
• Hypothese A3: Es besteht ein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX zu den<br />
analytischen Fähigkeiten und der letzten Schulnote in Mathematik.<br />
• Hypothese A4: Es besteht ein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX zu den<br />
analytischen Fähigkeiten und der Selbsteinschätzung der Probanden<br />
hinsichtlich ihrer analytischen Fähigkeiten.<br />
96
Fragestellung und Hypothesen<br />
• Hypothese A5: Es besteht ein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX zu den<br />
organisatorisch-konzeptionellen Fähigkeiten und der Selbsteinschätzung<br />
der Probanden hinsichtlich ihrer organisatorisch-konzeptionellen<br />
Fähigkeiten.<br />
• Hypothese A6: Es besteht ein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX und dem<br />
Gesamttestwert der AZUBI-BK.<br />
• Hypothese A7: Es besteht ein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX zu den<br />
analytischen Fähigkeiten und den Ergebnissen des Grundmoduls der<br />
AZUBI-BK.<br />
• Hypothese A8: Es besteht ein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX zu den<br />
organisatorisch-konzeptionellen Fähigkeiten und den Ergebnissen des<br />
Postmoduls der AZUBI-BK.<br />
• Hypothese A9: Es besteht ein statistisch signifikanter positiver<br />
Zusammenhang zwischen der Anzahl der bearbeiteten Items der KI.BOX<br />
und der Bearbeitungsgeschwindigkeit der AZUBI-BK.<br />
• Hypothese A10: Es besteht ein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX zu den<br />
Analytischen Fähigkeiten und dem Wert der Subskala zur<br />
Gewissenhaftigkeit aus dem BIP.<br />
• Hypothese A11: Es besteht ein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX zu den<br />
Organisatorisch-konzeptionellen Fähigkeiten und dem Wert der Subskala<br />
zur Gewissenhaftigkeit aus dem BIP.<br />
Die in Kapitel 2.1.1.4 dargestellten Nebengütekriterien Normierung,<br />
Vergleichbarkeit, Ökonomie und Nützlichkeit (Lienert, 1969) werden in der<br />
vorliegenden Arbeit nicht empirisch untersucht. Auf sie wird explorativ in Kapitel<br />
7 eingegangen.<br />
97
Fragestellung und Hypothesen<br />
4.2 Hypothesen zum Zusammenhang von Computererfahrung und<br />
Leistung in der KI.BOX<br />
Wie in Kapitel 2.4.2 herausgestellt wurde, kann die Performance eines<br />
Teilnehmers bei computergestützten AC-Übungen durch das Ausmaß seiner<br />
Kenntnisse im Umgang mit Computern sowie der Softwareergonomie des<br />
Verfahrens beeinflusst werden. Sofern die Fertigkeiten im Umgang mit<br />
Computern kein im Anforderungsprofil festgelegtes Messkriterium des<br />
Verfahrens sind, müssen derartige Verzerrungen unbedingt minimiert werden,<br />
um gültige Leistungsaussagen aus den Ergebnissen ableiten zu können.<br />
Die KI.BOX wurde so konzipiert, dass computererfahrene Teilnehmer keinen<br />
Vorteil gegenüber Computer-Laien haben sollen. Bezüglich der<br />
Softwareergonomie wurde versucht, den Vorgaben von Kleinmann und Strauß<br />
(1995) nach einem der Allgemeinheit bekannten Design Folge zu leisten.<br />
Ähnlich wie der PC-<strong>Postkorb</strong> „Seeblick“ (siehe Kapitel 2.4.3.3) lässt sich die<br />
KI.BOX wie gängige E-Mail- und Organizer-Programme bedienen. Die<br />
Softwareergonomie der KI.BOX lässt sich demnach als hoch bewerten.<br />
Zum Interaktionsproblem (Kleinmann & Strauß, 1995), also zu<br />
Leistungsverzerrungen, die durch den Umgang mit dem Computer durch<br />
mangelnde Kenntnisse über Hard- und Software entstehen können, wurden<br />
während der Entwicklungsphase der KI.BOX immer wieder Usability-Tests an<br />
Mitarbeitern der „kibit GmbH“ durchgeführt. Obwohl daher davon ausgegangen<br />
werden kann, dass die Bedienung des Programms nach der zweiteiligen<br />
Instruktion (siehe Kapitel 3.2) auch computerunerfahrenen Teilnehmern klar<br />
verständlich wird, wird dieser Aspekt in der vorliegenden Arbeit zusätzlich<br />
überprüft.<br />
Zu diesem Zweck wurden zwei an der Universität zu Köln entwickelte<br />
Fragebögen eingesetzt, der SUCA (Fragebogen zur Sicherheit im Umgang mit<br />
Computern und Computeranwendungen) und der VECA (Fragebogen zur<br />
Vertrautheit mit verschiedenen Computeranwendungen), bei denen es sich um<br />
Selbsteinschätzungsfragebögen handelt (Richter, Naumann & Groeben, 2001;<br />
siehe Kapitel 5.2.3). Aus dem VECA werden zudem drei Items gesondert<br />
überprüft, von denen angenommen wird, dass sie für die Bearbeitung der<br />
KI.BOX besonders bedeutsam sind: „Vertrautheit im Umgang mit<br />
98
Fragestellung und Hypothesen<br />
Textverarbeitung“, „Vertrautheit im Umgang mit E-Mail“ und „Vertrautheit im<br />
Umgang mit Terminplanungsprogrammen“. Die Ergebnisse der beiden<br />
Fragebögen sowie der drei Items aus dem VECA werden zur<br />
Hypothesenprüfung mit den KI.BOX-Ergebnissen korreliert. Aufgrund der<br />
sorgfältigen Konstruktion der KI.BOX, der ausführlichen Instruktion, nach der<br />
auch unerfahrenen Teilnehmern die Handhabung von Hard- und Software<br />
deutlich werden sollte, und der hohen Softwareergonomie der KI.BOX wird<br />
erwartet, dass die Kenntnisse im Umgang mit Computern und<br />
Computeranwendungen, erfasst durch SUCA (Hypothese B.1) und VECA<br />
(Hypothese B.2 und Hypothesen B.3, B.4 und B.5 zu den drei gesondert<br />
untersuchten Items des VECA), keinen signifikanten Zusammenhang mit den<br />
Ergebnissen in der KI.BOX aufweisen. Daher werden folgende Hypothesen<br />
überprüft:<br />
• Hypothese B1: Es besteht kein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX und dem<br />
Ergebnis des SUCA.<br />
• Hypothese B2: Es besteht kein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX und dem<br />
Ergebnis des VECA.<br />
• Hypothese B3: Es besteht kein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX und dem<br />
Ergebnis des Items „Vertrautheit im Umgang mit Textverarbeitung“ des<br />
VECA.<br />
• Hypothese B4: Es besteht kein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX und dem<br />
Ergebnis des Items „Vertrautheit im Umgang mit E-Mails“ des VECA.<br />
• Hypothese B5: Es besteht kein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX und dem<br />
Ergebnis des Items „Vertrautheit im Umgang mit<br />
Terminplanungsprogrammen“ des VECA.<br />
99
Fragestellung und Hypothesen<br />
4.3 Hypothese zur Wirkung von Reihenfolgeeffekten<br />
Wie in Kapitel 2.2.4 herausgestellt wurde, wird aus den wenigen zu diesem<br />
Thema publizierten Studien gefolgert, dass Reihenfolgeeffekte, die durch die<br />
Positionierung einer Übung im AC-Verlauf entstehen können, die Leistungen<br />
eines Teilnehmers nicht verzerren. Die vorliegende wissenschaftliche<br />
Befundlage wird jedoch insgesamt als zu gering betrachtet. Zudem raten<br />
sowohl Nienaber (1997) als auch Fruhner (2005), die jeweils Studien zu dieser<br />
Fragestellung betrieben haben, zu weiteren Untersuchungen. Aus diesem<br />
Grund soll dieser Aspekt in der vorliegenden Arbeit berücksichtigt werden, um<br />
Positionierungseffekte bei der KI.BOX identifizieren zu können.<br />
Dazu wurde eine experimentelle Variation der Versuchsbedingung „Reihenfolge<br />
der Verfahren“ realisiert, um herauszufinden, ob sich die Ergebnisse<br />
unterscheiden, wenn die Teilnehmer in der ersten Gruppe zuerst die KI.BOX<br />
und dann die AZUBI-BK oder in der zweiten Gruppe zuerst die AZUBI-BK und<br />
dann die KI.BOX bearbeiten (siehe Kapitel 5.3). Gruppe 1 bestand aus n=36<br />
Teilnehmern, Gruppe 2 aus n=33 Probanden. Die Teilnehmer wurden den<br />
Gruppen zufällig zugeteilt. Die potenziellen Gruppenunterschiede hinsichtlich<br />
der Leistung in der KI.BOX werden mittels T-Test für unabhängige Stichproben<br />
untersucht. Aufgrund der in Kapitel 2.2.4 dargestellten theoretischen<br />
Annahmen, die dafür sprechen, dass keine Reihenfolgeeffekte durch die<br />
Positionierung der Einzelverfahren entstehen, wird erwartet, dass die<br />
Reihenfolge der Bearbeitung keinen Einfluss auf die Ergebnisse in der KI.BOX<br />
hat.<br />
• Hypothese C1: Es besteht kein statistisch signifikanter Unterschied<br />
zwischen den Testwerten der KI.BOX in der Versuchsbedingung 1<br />
(Bearbeitung von KI.BOX, dann AZUBI-BK) und der Versuchsbedingung<br />
2 (Bearbeitung von AZUBI-BK, dann KI.BOX).<br />
1 0 0
Fragestellung und Hypothesen<br />
4.4 Hypothesen zum Zusammenhang der demographischen Daten<br />
und Leistung in der KI.BOX<br />
Zusätzlich zu den bisher aufgeführten Aspekten soll überprüft werden, ob die<br />
demographischen Daten eines Teilnehmers Einfluss auf die Ergebnisse der<br />
KI.BOX haben. In den bisherigen Forschungen, gerade zu klassischen<br />
Postkörben, liegen diesbezüglich unterschiedliche Ergebnisse vor (siehe Kapitel<br />
2.3.5.1). So fanden Thornton und Byham (1982) eine negative Korrelation von<br />
<strong>Postkorb</strong>ergebnissen und Alter, Untersuchungen zu den Bonner <strong>Postkorb</strong><br />
Modulen ergaben jedoch keinen Zusammenhang, weder zum Alter noch zum<br />
Geschlecht (Höft, 2003). Nach Meyer (1970) korreliert das <strong>Postkorb</strong>ergebnis<br />
zudem hoch mit der Bildung der Teilnehmer, mit der Berufserfahrung jedoch<br />
nicht.<br />
Aus diesem Grund wird in der vorliegenden Untersuchung die Auswirkung des<br />
Geschlechts, des Alters, des Studienfachs, der Semesteranzahl, der<br />
Deutschkenntnisse und der bisherigen Berufserfahrung der Teilnehmer erfasst.<br />
Basierend auf den neueren Studien von Höft (2003) wird angenommen, dass<br />
bzgl. des Geschlechtes (Hypothese D.1) und Alters (Hypothese D.2) kein<br />
Zusammenhang zu den <strong>Postkorb</strong>ergebnissen besteht. Da Postkörbe in vielen<br />
Assessment Centern zu verschiedensten Berufsgruppen eingesetzt werden,<br />
sollten sich Studenten verschiedener Studienfächer auch nicht signifikant in<br />
ihren Ergebnissen unterscheiden (Hypothese D.3). Die Bildung wird in der<br />
vorliegenden Untersuchung operationalisiert durch die in den Hypothesen A1<br />
bis A3 schon erfassten äußeren Kriterien Abiturnote und letzte Schulnoten in<br />
Deutsch und Mathematik. Zusätzlich wird bei den demographischen Daten noch<br />
die Semesteranzahl hinzugenommen, unter der Annahme, dass mit<br />
fortlaufender Semesterzahl mehr Bildung erreicht wird, was somit das <strong>Postkorb</strong>-<br />
Ergebnis beeinflussen kann. Entsprechend der Studie von Meyer (1970) wird<br />
also ein Zusammenhang der KI.BOX-Leistungen mit der Semesterzahl<br />
postuliert (Hypothese D.4). Bezüglich der Deutschkenntnisse wird kein<br />
Zusammenhang angenommen, da die Items des <strong>Postkorb</strong>es klar und für jeden<br />
durchschnittlich gut Deutsch sprechenden Teilnehmer leicht verständlich<br />
formuliert wurden (Hypothese D.5). Die bisherige Berufserfahrung sollte, wie<br />
1 0 1
Fragestellung und Hypothesen<br />
von Meyer (1970) festgestellt, ebenfalls keinen Einfluss auf <strong>Postkorb</strong>-Leistung<br />
ausüben (Hypothese D.6). Als Hypothesen werden also formuliert:<br />
• Hypothese D1: Es besteht kein statistisch signifikanter Unterschied<br />
zwischen Männern und Frauen in den Ergebnissen der KI.BOX.<br />
• Hypothese D2: Es besteht kein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX und dem Alter<br />
der Teilnehmer.<br />
• Hypothese D3: Es besteht kein statistisch signifikanter Unterschied<br />
zwischen Teilnehmern verschiedener Studienfächer in den Ergebnissen<br />
der KI.BOX.<br />
• Hypothese D4: Es besteht ein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX und der<br />
Semesteranzahl der Teilnehmer.<br />
• Hypothese D5: Es besteht kein statistisch signifikanter Unterschied<br />
zwischen Teilnehmern mit unterschiedlich guten Deutschkenntnissen in<br />
den Ergebnissen der KI.BOX.<br />
• Hypothese D6: Es besteht kein statistisch signifikanter Unterschied<br />
zwischen Teilnehmern mit verschieden viel Berufserfahrung in den<br />
Ergebnissen der KI.BOX.<br />
Anders als bei der Berufserfahrung wurden positive Zusammenhänge zwischen<br />
der Performance und Erfahrung mit Postkörben gefunden (siehe Kapitel 5.2.5).<br />
Zur Vorerfahrung mit Assessment Centern gibt es gegensätzliche Befunde. Die<br />
meisten Studien deuten aber darauf hin, dass Lerneffekte nur bei weiteren<br />
Interventionen wie einem ausführlichen Feedback durch die Beobachter und<br />
einem anschließenden Verhaltenstraining zu einer Steigerung der Leistungen<br />
führen (Obermann, 1994). Die Auswirkungen dieser Erfahrungen auf die<br />
Ergebnisse der KI.BOX sollen in dieser Untersuchung überprüft werden. Es<br />
wird also erwartet, dass es einen Zusammenhang zwischen Erfahrungen mit<br />
Postkörben und den Ergebnissen der KI.BOX gibt, so wie es durch Studien von<br />
Marggraf-Micheel, Höft und Bonnist (2004) belegt wird (Hypothesen D.7 und<br />
D.8). Bezüglich Erfahrungen mit Assessment Centern wird kein<br />
Zusammenhang angenommen (Hypothesen D.9 und D.10).<br />
1 0 2
Fragestellung und Hypothesen<br />
• Hypothese D7: Es besteht ein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX und dem<br />
theoretischen Wissen der Teilnehmer über <strong>Postkorb</strong>-Übungen.<br />
• Hypothese D8: Es besteht ein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX und der<br />
praktischen Erfahrung der Teilnehmer mit <strong>Postkorb</strong>-Übungen.<br />
• Hypothese D9: Es besteht kein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX und dem<br />
theoretischen Wissen der Teilnehmer über Assessment Center.<br />
• Hypothese D10: Es besteht kein statistisch signifikanter positiver<br />
Zusammenhang zwischen den Ergebnissen der KI.BOX und der<br />
praktischen Erfahrung der Teilnehmer mit Assessment Centern.<br />
1 0 3
Methodik<br />
5 Methodik<br />
Nachdem in den vorangegangenen Kapiteln eine theoretische Einordnung der<br />
Thematik sowie eine Beschreibung des Verfahrens KI.BOX und Darstellung der<br />
Fragestellung und Hypothesen der vorliegenden Arbeit erfolgt ist, soll<br />
nachfolgend das methodische Vorgehen der aktuellen Studie beschrieben<br />
werden. Zunächst wird die zu untersuchende Stichprobe (5.1) dargestellt.<br />
Hiernach folgt eine Übersicht über die in der Untersuchung verwendeten<br />
Verfahren und Prüfkriterien (5.2). Abschließend wird die<br />
Untersuchungsdurchführung (5.3) erläutert.<br />
5.1 Stichprobe<br />
Für die Stichprobengröße gibt Bortz (1993) einen Stichprobenumfang von n=68<br />
an, um mittlere Effekte (Korrelationen von über r=.30 bei α=.05 und β=.20)<br />
nachzuweisen. Um schwächere Effekte auszuweisen benötige man deutlich<br />
größere Stichproben (für r=.10 gilt n>=618), was aber die Grenzen der<br />
vorliegenden Untersuchung weit überschritten hätte. Aus diesem Grund wurde<br />
eine Stichprobengröße von n=69 realisiert und auf den Nachweis von<br />
schwächeren Effekten aus ökonomischen Gründen verzichtet.<br />
Um dennoch gültige Aussagen zur Validität des Verfahrens zu erhalten, sollte<br />
eine Stichprobe herangezogen werden, die das später zu testende Kollektiv<br />
möglichst gut widerspiegelt (Lienert, 1969). Da das KI.BOX-Verfahren<br />
vornehmlich zur Auswahl von Hochschulabsolventen eingesetzt werden soll, die<br />
sich auf Trainee-Stellen oder Führungspositionen auf unterer Führungsebene<br />
bewerben, wurde eine rein studentische Stichprobe gewählt, die sich aus<br />
unterschiedlichen Fachrichtungen, Semestern und bereits gesammelter<br />
Berufserfahrung zusammensetzte.<br />
Da es oft eine hohe Varianz bzgl. des Alters von Hochschulabsolventen gibt,<br />
wurde auch in der vorliegenden Untersuchung auf eine solche geachtet.<br />
Ebenso sollten Frauen und Männer in die Untersuchung mit einbezogen<br />
werden, um mögliche Geschlechtseffekte ausmachen zu können. Für eine<br />
detaillierte Aufstellung der demographischen Daten der Teilnehmer siehe<br />
Kapitel 6.1 und Anhang C.1.<br />
1 0 4
Methodik<br />
Die Teilnehmer der Studie wurden an der Universität zu Köln über Aushänge<br />
vor Ort sowie über Rundschreiben über diverse Verteiler der geistes- und<br />
wirtschaftwissenschaftlichen Fakultäten geworben. Für die Teilnahme an der<br />
Untersuchung wurden die Versuchspersonen mit Versuchspersonenstunden<br />
und Süßigkeiten entlohnt. Damit handelte es sich um eine angefallene<br />
Stichprobe (Hussy & Jain, 2002). Zudem wurde den Versuchspersonen ein<br />
ausführliches individuelles Feedback über ihre Leistungen in den einzelnen<br />
Tests in Aussicht gestellt. Damit sollten zumindest annähernd ähnliche<br />
Motivationsbedingungen hergestellt werden, wie sie in der realen<br />
Anwendungssituation der KI.BOX, nämlich im Rahmen eines Assessment<br />
Centers, ebenfalls gegeben sind. Laut Lerner und Tetlock (1999) erzeugt die<br />
Erwartung, dass das eigene Verhalten hinsichtlich eines Maßstabes beurteilt<br />
wird, eine so genannte „Accountability“, womit der soziale Druck gemeint ist,<br />
sein Verhalten verantworten zu müssen. Die unerwünschte Konsequenz<br />
daraus, in diesem Fall eine negative Bewertung über die eigenen Leistungen zu<br />
bekommen, gilt es durch Anpassung des eigenen Verhaltens, nämlich<br />
möglichst hohe Testergebnisse zu erzielen, zu vermeiden. Es wird also von<br />
einer hohen Motivation der Teilnehmer ausgegangen.<br />
5.2 Übersicht über die verwendeten Verfahren und Prüfkriterien<br />
Da es Hauptabsicht dieser Studie ist, einen potenziellen Zusammenhang<br />
zwischen den Messdimensionen der KI.BOX und entsprechenden bereits<br />
bewährten Maßen der kognitiven Leistungsfähigkeit nachzuweisen, wurden zu<br />
diesem Zweck verschiedene in der Eignungsdiagnostik übliche Verfahren sowie<br />
weitere geeignete Prüfkriterien herangezogen.<br />
Als inneres Validierungskriterium wurde die „Arbeitsprobe zur berufsbezogenen<br />
Intelligenz für büro- und kaufmännische Tätigkeiten“ oder kurz AZUBI-BK<br />
(5.2.1) verwendet, ebenso die Subskala zur Gewissenhaftigkeit aus dem<br />
Bochumer Inventar zur berufsbezogenen Persönlichkeitsbeschreibung (BIP)<br />
(5.2.2). Als externes Validierungskriterium wurde die Vertrautheit im Umgang<br />
mit Computern und Computeranwendungen (5.2.3) erhoben, ebenso wie die<br />
Abiturnote und die letzte Schulnote in Deutsch und Mathematik (5.2.4). Darüber<br />
1 0 5
Methodik<br />
hinaus wurden Selbsteinschätzungen über kognitive Leistungen,<br />
Vorerfahrungen mit Assessment Centern sowie Postkörben (5.2.5) und<br />
demographische Daten (5.2.6) erfragt.<br />
Auf diese Verfahren und Prüfkriterien wird im Folgenden näher eingegangen.<br />
Für eine detaillierte Beschreibung des computergestützten <strong>Postkorb</strong>es KI.BOX<br />
siehe Kapitel 3.<br />
5.2.1 AZUBI-BK<br />
Bei der AZUBI-BK, entwickelt von Schuler & Klingner (2005), handelt es sich<br />
um eine Arbeitsprobe zur berufsbezogenen Intelligenz für büro- und<br />
kaufmännische Tätigkeiten. Dieses Testkonzept vereint in sich sowohl<br />
Intelligenzkomponenten als auch Arbeitsproben (Konstruktansatz und<br />
Simulationsansatz, siehe Kapitel 2.3.3). Wie auch bei der KI.BOX wurden hier<br />
die Aufgaben vor dem theoretischen Hintergrund des Berliner<br />
Intelligenzstrukturmodells (siehe Jäger et al., 1997; Sarges & Wottawa, 2001)<br />
und nach Anforderungsanalysen für Büro- und kaufmännische Berufe<br />
konstruiert. Ziele der Testentwicklung waren neben den psychometrischen<br />
Kriterien zudem eine hohe Praktikabilität und Akzeptanz bei den Probanden.<br />
Die AZUBI-BK setzt sich aus zwei Modulen zusammen, dem Grundmodul und<br />
dem Postmodul, die verschiedene Schwerpunkte haben und einander<br />
ergänzen. Das Grundmodul umfasst acht Teilarbeitsproben, die separat das<br />
sprachliche Denken (Protokoll überarbeiten, Informationsschreiben korrigieren),<br />
rechnerisches Denken (Logistikfragen bearbeiten, Bilanzwerte vergleichen,<br />
Verkaufszahlen prognostizieren) und das Gedächtnis (Kurzzeit, Langzeit,<br />
unintentional) prüfen. Das Postmodul setzt sich aus vier Teilarbeitsproben zum<br />
Posteingang und Postausgang zusammen (Fax vervollständigen, E-Mails<br />
sortieren, Adressen prüfen und Porto berechnen) und misst vor allem das<br />
logische Herangehen an komplexe Aufgaben, die Bearbeitungsgeschwindigkeit<br />
und -genauigkeit sowie Konzentration und Gewissenhaftigkeit. Die Auswertung<br />
erfolgt mit Hilfe eines <strong>EDV</strong>-Programms, um die Objektivität zu sichern und<br />
Auswertungsfehler zu vermeiden.<br />
Die AZUBI-BK eignet sich nicht nur wegen der analog zur KI.BOX<br />
1 0 6
Methodik<br />
alltagsrelevanten Aufgaben und der damit immanenten hohen<br />
Augenscheinvalidität gut zur Verwendung in der vorliegenden Studie, auch die<br />
Anforderungen an wissenschaftliche Gütekriterien werden erfüllt. Die interne<br />
Konsistenz (Cronbachs Alpha) liegt laut den Autoren (Schuler & Klingner, 2005)<br />
bei α=.96, die Retestreliabilität bei rtt=.91. Auch die Validität ist den Autoren<br />
zufolge sehr hoch, da die AZUBI-BK mit dem Berliner Intelligenzstruktur-Test,<br />
Form 4 (BIS-4) zu .87 und mit dem Intelligenz-Struktur-Test (IST-70) zu .78<br />
korreliert. Zudem konnten hohe Zusammenhänge mit Leistungen in der<br />
Berufsschule (Korrelation zum IHK-Zwischenzeugnis =.68) und mit Berufserfolg<br />
(Korrelation zur Leistungsbeurteilung durch Vorgesetzte =.56) eruiert werden. In<br />
der Regressionsgleichung von AZUBI-BK und IST-70 kann die AZUBI-BK die<br />
Leistungsbeurteilung durch den Vorgesetzten vollständig vorhersagen, das<br />
Beta-Gewicht des IST-70 ist null. Somit kann die AZUBI-BK nicht nur als<br />
vollwertiger Intelligenztest angesehen werden, sondern weist darüber hinaus<br />
noch inkrementelle Validität bezüglich des Erfolgs in Büro- und kaufmännischen<br />
Berufen auf. Hinzu kommt, dass bereits eine umfangreiche Normierung von<br />
n=1966 stattgefunden hat. Aufgrund all dessen kann die AZUBI-BK als<br />
geeignetes inneres Validierungskriterium für die KI.BOX angesehen werden.<br />
5.2.2 BIP<br />
Verschiedenen Metaanalysen von Schmidt und Hunter (1998) zur Validität<br />
eignungsdiagnostischer Verfahren zufolge kann die Leistungsbeurteilung der<br />
Arbeit eines Probanden zu .31 durch Gewissenhaftigkeit aufgeklärt werden. Aus<br />
diesem Grund wurde die Subskala zur Gewissenhaftigkeit aus dem Bochumer<br />
Inventar zur berufsbezogenen Persönlichkeitsbeschreibung (Hossiep &<br />
Paschen, 1998) in die vorliegende Untersuchung mit aufgenommen. Das BIP ist<br />
speziell für Anwendungen im Personalmanagement entwickelt worden und ist<br />
ein Fragebogen mit Aussagen zur Selbsteinschätzung im beruflichen Kontext<br />
(Item-Beispiel: „Ich verwalte meine Unterlagen so, dass ich alles auf Anhieb<br />
wieder finde.“) Zur Beantwortung der Items steht eine sechsstufige<br />
Antwortskala zur Verfügung, die von „trifft voll zu“ bis „trifft überhaupt nicht zu“<br />
reicht (siehe Anhang B.2). Die Subskala zur Gewissenhaftigkeit ist eine von<br />
1 0 7
Methodik<br />
insgesamt 14 Dimensionen der persönlichen Eignungsvoraussetzung und<br />
besteht aus 14 Items, die mittels einer Schablone ausgewertet werden.<br />
Untersuchungen zur Validität des BIP haben gezeigt, dass es substanzielle<br />
Zusammenhänge der BIP-Skalen mit Merkmalen des beruflichen Erfolges und<br />
beruflicher Zufriedenheit gibt. (Hossiep & Paschen, 1998) Zusammenhänge<br />
zwischen BIP-Skalen und Einkommen, Hierarchiestufe oder beruflicher<br />
Zufriedenheit bewegen sich demnach auf einem Niveau von r=.41 bis .49. Mit<br />
der 2. Auflage des BIP können auch Validitätskennwerte zur Übereinstimmung<br />
mit grundlegenden persönlichkeitsorientierten Fragebogenverfahren, etwa dem<br />
NEO-Fünf-Faktoren-Inventar (NEO-FFI) von Borkenau und Ostendorf oder dem<br />
16-Persönlichkeits-Faktoren-Test in der revidierte Fassung (16 PF-R) von<br />
Schneewind und Graf vorgelegt werden. Die Kennwerte liegen für verwandte<br />
Konstrukte zwischen r = .54 und .84 (Hossiep, Paschen & Mühlhaus, 2003).<br />
Aus Kostengründen wird in der vorliegenden Studie jedoch weiterhin die erste<br />
Auflage verwendet, da sich diese nicht immens von der zweiten Auflage<br />
unterscheidet und als den Gütekriterien ausreichend entsprechend angesehen<br />
wird.<br />
5.2.3 SUCA / VECA<br />
Bei diesen beiden Fragebögen (vgl. Anhang B.3 und B.4) handelt es sich um<br />
zwei Teile eines Inventars zur Computerbildung, das von Dozenten und<br />
Studierenden der Geistes- und Sozialwissenschaften an der Universität zu Köln<br />
konzipiert wurde, und deren einzelne Fragebögen auch getrennt voneinander<br />
eingesetzt werden können (Richter, Naumann & Groeben, 2001).<br />
Mit dem SUCA wird zunächst ein Fragebogen zur Sicherheit im Umgang mit<br />
Computern und Computeranwendungen eingesetzt. Dessen<br />
Selbsteinschätzungsskala enthält elf Aussagen, die als Kompetenzerwartungen<br />
im Umgang mit Computern formuliert sind (Beispiel: „Die Verwendung<br />
unbekannter Software-Programme kann ich schnell erlernen.“) und auf einer<br />
fünfstufigen Skala hinsichtlich ihres Zutreffens eingeschätzt werden (-2=„trifft<br />
nicht zu“ bis +2=„trifft zu“). Die Autoren schätzen den Fragebogen als<br />
ausreichend reliabel und valide zur Erfassung der Sicherheit im Umgang mit<br />
1 0 8
Methodik<br />
Computern und Computeranwendungen ein (Naumann, Richter & Groeben,<br />
2002).<br />
Auch der VECA, ein Fragebogen zur Vertrautheit mit verschiedenen<br />
Computeranwendungen, erfüllt alle Anforderungen an die Gütekriterien. In ihm<br />
sind zwölf Arten von Computeranwendungen aufgelistet (Beispiel:<br />
„Textverarbeitung“, „E-Mail“ oder „Terminplanungsprogramme“), bei denen<br />
beurteilt werden soll, wie vertraut man damit im Vergleich zu anderen<br />
Studentinnen und Studenten ist. Auch hier wird eine fünfstufige Skala zur<br />
Beurteilung herangezogen (-2=“weit unterdurchschnittlich“ bis +2=“weit<br />
überdurchschnittlich“).<br />
Da sowohl SUCA als auch VECA die Anforderungen an Validität und Reliabilität<br />
erfüllen, können sie als Verfahren zur Bestimmung der Sicherheit und<br />
Vertrautheit mit Computern und Computeranwendungen in dieser<br />
Untersuchung verwendet werden.<br />
5.2.4 Abiturnote und letzte Schulnoten in Deutsch und Mathematik<br />
Schulische Leistungen, gemessen mittels Schulnoten, gelten gemeinhin als<br />
gute Prädiktoren hinsichtlich des Studien -und Berufserfolgs. Eine Metaanalyse<br />
von Baron-Boldt, Schuler und Funke (1988) basierend auf Studien, welche im<br />
deutschsprachigen Raum durchgeführt wurden, berichtet von einem r=.46<br />
bezüglich der Vorhersagekraft von Abiturnoten für den Studienerfolg über alle<br />
Studienfächer hinweg. Der Zusammenhang von Abiturnote und Studienerfolg in<br />
den Wirtschaftswissenschaften wurde sogar mit r=.56 ausgewiesen. Für den<br />
Zusammenhang von einzelne Schulabschlussnoten in Fächern wie Mathematik<br />
oder Deutsch und dem Ausbildungserfolg konnte die Metaanalyse immer noch<br />
Korrelationen von bis zu r=.34 nachweisen. Den Abschlussnoten in Mathematik<br />
werden prognostische Qualitäten besonders für den Erfolg in analytischen<br />
Tätigkeiten bescheinigt.<br />
Auch Schmidt-Atzert (2006) bescheinigt in einer aktuellen Studie der Abiturnote<br />
eine hohe prognostische Validität. An der Universität Marburg untersuchte er<br />
den Zusammenhang von Abiturnote und Studienerfolg, operationalisiert durch<br />
die Vordiplomnoten von 106 Studierenden im Diplomstudiengang Psychologie<br />
1 0 9
Methodik<br />
im Wintersemester 2002/03. Es wurde gezeigt, dass die Vordiplomnote mit<br />
r=.37 durch die Abiturnote vorhersagbar war.<br />
Die Ergebnisse dieser beiden Studien sollen genügen, um die Abiturnote sowie<br />
die letzte Schulnote in Deutsch und in Mathematik als äußere<br />
Validierungskriterien in die vorliegende Untersuchung mit aufzunehmen. Erfragt<br />
werden sie im Rahmen eines demographischen Fragebogens (siehe Kap.<br />
5.2.6.). Die Abiturnote und die letzte Schulnote in Deutsch sollen mit beiden<br />
Kriterien der KI.BOX korreliert werden, da die Abiturnote auch ein allgemeines,<br />
unterschiedliche Bereiche erfassenden Leistungsindiz ist und die Fähigkeit, die<br />
deutsche Sprache zu beherrschen, für jede textgebundene Testart in allen<br />
Bereichen von Bedeutung ist. Die letzte Schulnote in Mathematik soll mit dem<br />
KI.BOX-Kriterium Analytische Fähigkeiten korreliert werden, da das Lösen<br />
mathematischer Problemstellungen in dieses Kriterium mit eingeht<br />
5.2.5 Selbsteinschätzung und Vorerfahrung<br />
Des Weiteren findet ein Fragebogen Verwendung, der die Selbsteinschätzung<br />
der Probanden bezüglich der in der KI.BOX erfassten Dimensionen und die<br />
Vorerfahrung mit Assessment Centern und speziell Postkörben erfragt. In<br />
Ermangelung eines validierten Instruments zur Erfassung dieser Kriterien und<br />
aus ökonomischen Gründen wurden intuitiv, aber unter Berücksichtigung<br />
entsprechender Fachliteratur sieben Items konstruiert, die jeweils anhand einer<br />
sechsstufigen Skala beurteilt werden sollten (vgl. Anhang B.5).<br />
Nach Bandura (1997) sind Selbstwirksamkeitserwartungen einer Person keine<br />
stabile Persönlichkeitsdisposition, sondern beinhalten eine Gruppe<br />
differenzierter Selbsteinschätzungen, die sich hinsichtlich verschiedener<br />
Funktionsbereiche unterscheiden. Die Erfassung einer globalen<br />
Selbstwirksamkeit hätte daher nur einen geringen Validierungswert für die<br />
vorliegende Studie. Stattdessen empfiehlt es sich, die Selbsteinschätzung einer<br />
Person aufgabenspezifisch zu erfassen (Bandura, 2006). Im verwendeten<br />
Fragebogen sollen die Probanden daher ihre analytischen Fähigkeiten sowie<br />
ihre organisatorisch-konzeptionellen Fähigkeiten im Vergleich zu anderen<br />
Studierenden anhand einer sechsstufigen Skala bewerten. Die Skala reicht<br />
1 1 0
Methodik<br />
dabei von „unterdurchschnittlich“ bis „überdurchschnittlich“.<br />
Die Frage, ob Vorerfahrung mit Assessment Centern einen Einfluss auf die<br />
Leistungen im AC und deren Übungen hat, wird in der aktuellen Forschung<br />
nicht ausreichend geklärt. Obermann (1994) fand heraus, dass die reine<br />
Wiederholung von AC-Simulationen ohne weitere Interventionen wie einem<br />
ausführlichen Feedback durch die Beobachter zu keiner Steigerung der<br />
Leistungen führt. Kelbetz und Schuler (2002) wiederum folgerten aus ihren<br />
Studien, dass Assessment Center sehr wohl übungsanfällig sind, da sie für den<br />
Übungsgewinn mittlere Effektstärken von d=.41 aufzeigen konnten. Marggraf-<br />
Micheel, Höft und Bonnist (2004) bestätigten diese Ergebnisse mit einer<br />
gefundenen Effektstärke von d=.45. Weiterhin belegten sie, dass insbesondere<br />
bei <strong>Postkorb</strong>-Übungen durch vage Tipps keine Lerneffekte erreicht werden, bei<br />
einem Training mit Verhaltenshinweisen jedoch mittlere bis hohe Effekte von<br />
d=.42 bis sogar .99. Aus diesem Grund soll sowohl die theoretische als auch<br />
praktische Vorerfahrung mit Postkörben und Assessment Center im<br />
Allgemeinen durch Selbstauskünfte in der vorliegenden Untersuchung ermittelt<br />
werden. Ebenso wird nach genereller Erfahrung mit kaufmännischen<br />
Tätigkeiten oder Büroarbeit gefragt. Die Items sind jeweils als Aussagen<br />
formuliert und die sechsstufige Beurteilungsskala reicht in diesem Fall von „trifft<br />
gar nicht zu“ bis „trifft vollkommen zu“.<br />
5.2.6 Demographischer Fragebogen<br />
Zur Erfassung der demographischen und weiterer möglichen<br />
untersuchungsrelevanter Kontrollvariablen wird ein eigens konzipierter<br />
Fragebogen (vgl. Anhang B.6) eingesetzt. Darin werden Alter, Geschlecht,<br />
Studienfach, Semesteranzahl, Deutschkenntnisse und bisherige<br />
Berufserfahrung der Probanden erfasst. Darüber hinaus werden Abitur-<br />
Durchschnitt und die letzte Schulnote in Deutsch und Mathematik erfragt (vgl.<br />
Kap.5.2.4.). Außerdem kann angekreuzt werden, ob ein schriftliches Feedback<br />
über die erzielten Ergebnisse in der KI.BOX und der AZUBI-BK gewünscht ist.<br />
(siehe Kapitel 5.1)<br />
1 1 1
Methodik<br />
5.3 Durchführung der Untersuchung<br />
Die Untersuchung wurde im Zeitraum vom 10. Dezember 2007 bis 25. Januar<br />
2008 mit Studenten verschiedener Studiengänge (siehe Kapitel 5.1) an der<br />
Universität zu Köln durchgeführt, wobei zwischen dem 21. Dezember 2007 und<br />
07. Januar 2008 aufgrund der Feiertage keine Testungen möglich waren. Um<br />
mögliche Störvariablen zu kontrollieren, fanden alle Untersuchungen im selben<br />
Laborraum statt, der <strong>EDV</strong>-<strong>Postkorb</strong> KI.BOX wurde jeweils an drei baugleichen<br />
Laptops bearbeitet und alle Testungen wurden vom selben Versuchsleiter<br />
durchgeführt. Da der zur Verfügung gestellte Untersuchungsraum nur drei<br />
Arbeitsplätze hatte und auch nur ebenso viele Laptops desselben Typs<br />
bereitgestellt werden konnten, war die Anzahl der Probanden pro Testung auf<br />
höchstens drei beschränkt. Erschwerend hinzu kamen einige Ausfälle und<br />
Verschiebungen seitens der Versuchspersonen kurz vor den Weihnachtsferien,<br />
so dass im Januar noch Zusatztermine vereinbart werden mussten, um die<br />
nötige Probandenzahl nicht zu unterschreiten. Im Folgenden werden Struktur<br />
und Ablauf der Durchführung genauer beschrieben.<br />
Zu Beginn wurde den Versuchspersonen ein kurzer Überblick über die nun<br />
folgende Untersuchung gegeben, um Transparenz und Akzeptanz zu schaffen.<br />
Allerdings wurden keine Details, beispielsweise über die einzelnen Teile des<br />
Fragebogens zum Ende der Untersuchung, preisgegeben. Außerdem wurde<br />
erneut darauf hingewiesen, dass sie auf Wunsch ein individuelles, aber<br />
schriftliches Feedback über ihre Testleistungen im Anschluss an die<br />
Datenerhebung erhalten könnten (siehe Kapitel 5.1).<br />
Der Untersuchungsplan sah eine experimentelle Variation der unabhängigen<br />
Variablen „Reihenfolge der Verfahren“ vor (siehe Kapitel 2.2.4, 4.3). Aus<br />
diesem Grund wurden die Probanden randomisiert zwei Gruppen zugeteilt<br />
(Hussy & Jain, 2002). Gruppe A bearbeitete zuerst die KI.BOX an je einem<br />
Laptop pro Versuchsperson, was inklusive Instruktion und Einarbeitungszeit<br />
etwa 80 Minuten dauerte. Nach einer Pause von 20 Minuten, in der die Technik<br />
vom Versuchsleiter abgebaut wurde, bearbeiteten die Versuchspersonen das<br />
Grundmodul der AZUBI-BK als Paper-Pencil-Verfahren, was etwa 60 Minuten in<br />
Anspruch nahm. Nach einer weiteren etwa zehnminütigen Pause wurde mit<br />
dem Postmodul der AZUBI-BK fortgefahren, was weitere 30 Minuten dauerte.<br />
1 1 2
Methodik<br />
Es folgte eine letzte zehnminütige Pause, nach der die Versuchspersonen die<br />
Subskala zur Gewissenhaftigkeit aus dem BIP, den SUCA und VECA, den<br />
Fragebogen zu Selbsteinschätzungen und Vorerfahrungen sowie den<br />
demographischen Fragebogen, der auch die Frage nach den Abitur- und<br />
Schulnoten beinhaltete, ausfüllen sollten. Diese einzelnen Fragebögen wurden<br />
den Probanden der Ökonomie halber in zusammengehefteter Form in der oben<br />
beschriebenen Reihenfolge als ein einziger Fragebogen mit verschiedenen<br />
Unterteilen vorgelegt. Dessen Bearbeitung lag zwischen 10 und 20 Minuten, so<br />
dass die gesamte Untersuchung ca. vier Stunden dauerte. Bei Gruppe B wurde<br />
die Reihenfolge von KI.BOX und AZUBI-BK vertauscht, d.h. die Probanden<br />
starteten mit dem Grundmodul der AZUBI-BK, machten eine zwanzigminütige<br />
Pause, bearbeiteten das Postmodul und dann nach einer weiteren Pause die<br />
KI.BOX auf dem Laptop. Auch bei Gruppe B wurden die übrigen Fragebögen<br />
erst zum Ende der Untersuchung ausgeteilt, um Hypothesenbildung und andere<br />
Verzerrungseffekte zu vermeiden. Die Dauer der Untersuchung war bei beiden<br />
Gruppen identisch. Die Abfolge der Untersuchungseinheiten wird zusätzlich in<br />
Abbildung 12 veranschaulicht:<br />
Abbildung 12: Ablauf der Untersuchung.<br />
1 1 3
Methodik<br />
Gruppe A umfasste 36 Probanden (27 Frauen, 9 Männer), das<br />
Durchschnittsalter lag bei 25 Jahren. Gruppe B bestand aus 33<br />
Versuchspersonen (25 Frauen, 8 Männer) mit einem Durchschnittsalter von 26<br />
Jahren. Die Zuordnung der Probanden zu den Bedingungen der unabhängigen<br />
Variablen erfolgte per Zufall.<br />
5.4 Zusammenfassung<br />
Die vorliegende Validierungsstudie der KI.BOX wird an einer Stichprobe von 69<br />
Studenten der Geistes- und Wirtschaftswissenschaften der Universität zu Köln<br />
durchgeführt.<br />
Zur inneren Validierung wird die AZUBI-BK verwendet, ebenso wie die<br />
Subskala zur Gewissenhaftigkeit aus dem BIP. Als äußere Kriterien werden die<br />
Abiturnote und die letzte Schulnote in Deutsch und Mathematik erhoben, zudem<br />
Selbsteinschätzungen über eigene kognitive Leistungen. Außerdem werden<br />
zwei Fragebögen verwendet, die Vertrautheit mit Computern und<br />
Computeranwendungen (SUCA und VECA) erfassen. Die Vorerfahrung mit<br />
Assessment Centern und Postkörbe sowie demographische Daten der<br />
Teilnehmer werden ebenfalls untersucht.<br />
Die Untersuchung wird von Dezember 2007 und Januar 2008 durchgeführt mit<br />
höchstens drei Probanden pro Testung. Zu Beginn wird den Versuchspersonen<br />
eine kurze Einführung mit Hinweis auf das zu erwartende Feedback gegeben,<br />
anschließend wird entsprechend der experimentellen Variation zur Identifikation<br />
möglicher Reihenfolgeeffekte je nach Gruppenzuweisung zuerst die KI.BOX<br />
oder AZUBI-BK bearbeitet, danach das jeweils andere Verfahren. In beiden<br />
Gruppen wird zuletzt der Fragebogen, bestehend aus BIP-Subskala, SUCA und<br />
VECA, den Selbsteinschätzungen und den personenbezogenen Daten<br />
ausgefüllt.<br />
1 1 4
Ergebnisse<br />
6 Ergebnisse<br />
In diesem Kapitel werden die Ergebnisse der Untersuchung dargestellt.<br />
Nachdem die Daten in das <strong>EDV</strong>-Programm SPSS eingegeben und einer<br />
Prüfung auf mögliche Fehlerquellen unterzogen worden waren, fungierte die<br />
Datenmatrix als Grundlage für die statistischen Berechnungen. Zum Auftakt<br />
werden die deskriptiven Ergebnisse der Stichprobe vorgestellt (6.1), bevor im<br />
Folgenden die Ergebnisse der Hypothesenprüfung dargestellt werden (6.2 bis<br />
6.5). Die berechneten Daten werden aus Gründen der Übersichtlichkeit bis auf<br />
zwei Nachkommastellen gekürzt (Bortz & Döring, 2002). Im Anhang C.1 bis C.4<br />
sind zudem die wichtigsten Ergebnisse in Tabellenform hinterlegt, so dass<br />
sowohl die Nachvollziehbarkeit der statistischen Rechnungen als auch eine<br />
Replikation gewährleistet sind.<br />
6.1 Deskriptive Statistik<br />
Wie in Kapitel 5.1 bereits beschrieben, nahmen n=69 Studenten der Universität<br />
zu Köln an der Untersuchung teil. Das Durchschnittsalter der<br />
Versuchspersonen betrug 25,7 Jahre, der insgesamt erfasste Altersbereich lag<br />
zwischen 18 und 49 Jahren. Der Anteil der Frauen betrug 75,4% (n=52), der<br />
Anteil der männlichen Probanden 24,6% (n=17).<br />
Die Stichprobe bestand ausschließlich aus Studierenden der Universität zu Köln<br />
und setzte sich aus 90% (n=62) Psychologiestudenten zusammen, drei<br />
Studenten der Betriebswirtschaftslehre, zwei Soziologiestudenten, einem<br />
Studenten der Wirtschaftspsychologie und einem Studierenden der<br />
Landschaftsarchitektur. In dieser Stichprobe befanden sich 46% (n=32) im<br />
ersten Semester, 30% (n=21) im dritten Semester, 10% (n=7) im fünften<br />
Semester und weitere neun Studenten im sechsten bis vierzehnten Semester.<br />
67% (n=46) gaben an, bisher über keine Berufserfahrung zu verfügen, d.h.<br />
bisher weder eine Ausbildung noch ein Studium abgeschlossen zu haben.<br />
Weitere 16% (n=11) hatten vor ihrem aktuellen Studium bereits eine Ausbildung<br />
abgeschlossen, 13% (n=9) bereits ein anderes Studium. Auf einer<br />
sechsstufigen Selbsteinschätzungsskala bezüglich der eigenen Erfahrung mit<br />
1 1 5
Ergebnisse<br />
kaufmännischen Tätigkeiten oder Büroarbeit (siehe Kapitel 5.2.5) gaben 56%<br />
(n=39) an, bisher gar keine oder wenig Erfahrung in diesem Bereich gesammelt<br />
zu haben, 19% (n=13) verfügten der eigenen Einschätzung nach über mittlere<br />
Erfahrungswerte und 25% (n=17) gaben an, über viel bis sehr viel Erfahrung in<br />
diesem Tätigkeitsbereich zu verfügen. Für eine detaillierte tabellarische<br />
Aufstellung der demographischen Daten der Versuchspersonen siehe Anhang<br />
C.1.<br />
In Tabelle 4 werden die Stichprobenergebnisse in der KI.BOX dargestellt. Für<br />
die beiden erfassten Kriterien Analytische Fähigkeiten und Organisatorischkonzeptionelle<br />
Fähigkeiten werden jeweils die Mengenleistung und die Güte<br />
angegeben. Die Mengenleistung wird definiert durch die Anzahl der<br />
bearbeiteten Items zum jeweiligen Kriterium, unabhängig von der richtigen oder<br />
falschen Lösung dieses Items. Die Mengenleistung dient als Indiz für die<br />
Bearbeitungsgeschwindigkeit der Teilnehmer. Die Güte definiert sich über den<br />
erreichten Kennwert für das jeweilige Kriterium, welcher sich aus der Differenz<br />
von richtig und falsch gelösten Items zusammensetzt und somit auch im<br />
negativen Zahlenbereich liegen kann, wenn mehr Items falsch als richtig gelöst<br />
wurden (siehe Kapitel 3.5).<br />
Tabelle 4: Ergebnisse der KI.BOX<br />
N Minimum Maximum Mittelwert Standardabweichung<br />
Analyt. Fähigkeiten<br />
Mengenleistung<br />
Analyt. Fähigkeiten<br />
Güte<br />
Orga.-konzept. Fähigkeiten<br />
Mengenleistung<br />
Orga.-konzept. Fähigkeiten<br />
Güte<br />
69 0 17 8,71 3,6866<br />
69 -3 9 2,71 2,4441<br />
69 15 42 25,29 7,2398<br />
69 -31 13 -1,67 8,1411<br />
Bei den Analytischen Fähigkeiten betrug die durchschnittliche Mengenleistung<br />
8,71 bearbeitete Items. Der langsamste Teilnehmer beantwortete keines dieser<br />
Items, der produktivste Teilnehmer 17 Items. Die durchschnittliche Güte zu<br />
diesem Kriterium lag bei 2,71 Punkten. Der Teilnehmer mit dem niedrigsten<br />
Ergebnis erreichte -3 Punkte, zwei Teilnehmer erzielten mit 9 von maximal 15<br />
möglichen Punkten die Bestleistung in dieser Stichprobe.<br />
1 1 6
Ergebnisse<br />
Die durchschnittliche Mengenleistung bei den Organisatorisch-konzeptionellen<br />
Fähigkeiten betrug 25,29 bearbeitete Items. Vier Teilnehmer bearbeiteten mit<br />
15 die wenigsten, zwei Teilnehmer mit 42 die meisten Items. Die Tatsache,<br />
dass hier im Durchschnitt deutlich mehr Items als bei den Analytischen<br />
Fähigkeiten bearbeitet wurden, liegt daran, dass die Analytischen Fähigkeiten<br />
hauptsächlich durch weniger, jedoch zeitlich umfangreichere Items innerhalb<br />
der E-Mails getestet werden, während die Organisatorisch-konzeptionellen<br />
Fähigkeiten zudem noch in mehreren, dafür aber zeitlich kürzeren Items im<br />
Kalender und der Prioritätenliste erfasst werden. Bei der Güte zum Kriterium<br />
Organisatorisch-konzeptionelle Fähigkeiten lag der Mittelwert bei -1,67<br />
Punkten, ein Teilnehmer erreichte mit -31 Punkten das niedrigste, ein<br />
Teilnehmer mit 13 Punkten das höchste Ergebnis in dieser Stichprobe. Für eine<br />
detaillierte tabellarische Aufstellung der deskriptiven Statistik zu den beiden<br />
Kriterien siehe Anhang C.2.<br />
Die Verteilung der Leistungskennwerte bzw. der erzielten Punkte in der KI.BOX<br />
kann für beide erfasste Kriterien als normalverteilt angenommen werden.<br />
Abbildung 14 zeigt die Verteilung für das Kriterium Analytische Fähigkeiten:<br />
16<br />
14<br />
12<br />
Häufigkeit<br />
10<br />
8<br />
6<br />
4<br />
2<br />
0<br />
-4<br />
-3<br />
-2<br />
-1<br />
1<br />
2<br />
3<br />
4<br />
5<br />
6<br />
7<br />
8<br />
9<br />
10<br />
11<br />
Analytische Fähigkeiten: Erzielte Punkte<br />
Abbildung 14: Verteilung der Häufigkeiten zu den erzielten Punkten bzgl. Analytischer<br />
Fähigkeiten<br />
1 1 7
Ergebnisse<br />
In Abbildung 14 wird die Verteilung für das Kriterium Organisatorischkonzeptionelle<br />
Fähigkeiten dargestellt:<br />
14<br />
12<br />
10<br />
Häufihkeiten<br />
8<br />
6<br />
4<br />
2<br />
0<br />
-33 -27 -21 -15 -9 -3<br />
-30 -24 -18 -12 -6<br />
0<br />
3<br />
6<br />
9<br />
15 21<br />
12 18 24<br />
Organisatorisch-konzeptionelle Fähigkeiten: Erzielte Punkte<br />
Abbildung 14: Verteilung der Häufigkeiten zu den erzielten Punkten bzgl. Organisatorischkonzeptioneller<br />
Fähigkeiten<br />
Die Ergebnisse dieser graphischen Überprüfung belegen in ausreichender<br />
Weise die gegebene Normalverteilung der Testkennwerte, so dass auf weitere<br />
statistische Überprüfungen verzichtet werden kann (Diehl & Kohr, 1999).<br />
Die nachfolgende Darstellung der Ergebnisse erfolgt in der Reihenfolge der in<br />
Kapitel 4 aufgestellten Hypothesen.<br />
6.2 Tests der Hypothesen zur Validitätsprüfung<br />
Die kriterienbezogene Validität wird nun durch den Bezug der empirisch<br />
erhobenen KI.BOX-Ergebnisse zu den zwei Messkriterien Analytische<br />
Fähigkeiten und Organisatorisch-konzeptionelle Fähigkeiten mit den<br />
beschriebenen äußeren und inneren Kriterienpunktwerten (siehe Kapitel 4.1,<br />
5.2) mithilfe der Pearson-Korrelation überprüft (Lienert, 1969).<br />
1 1 8
Ergebnisse<br />
Überprüfung der Hypothese A.1: Die Hypothese A.1 besagt, dass ein<br />
statistisch signifikanter positiver Zusammenhang zwischen den Ergebnissen der<br />
KI.BOX und der Abiturnote der Probanden bestehe. Die Abiturnote soll dabei<br />
gemäß dem theoretischen Hintergrund (siehe Kapitel 5.2.4) als äußeres<br />
Validierungskriterium gelten. Sie wurde im Rahmen des demographischen<br />
Fragebogens (siehe Kapitel 5.2.6) als Notendurchschnitt mit einer Kommastelle<br />
erfragt und für die statistische Untersuchung in das für das deutsche<br />
Schulsystem übliche 15 Punkte-System umgewandelt. Tabelle 5 zeigt das<br />
Ergebnis der statistischen Untersuchung:<br />
Tabelle 5: Korrelationen von Abiturnote und KI.BOX-Ergebnissen<br />
Abiturnote<br />
Analytische<br />
Fähigkeiten<br />
(KI.BOX)<br />
Organisatorischkonzeptionelle<br />
Fähigkeiten<br />
(KI.BOX)<br />
Korrelation nach Pearson -.08 -.04<br />
Signifikanz (2-seitig) .53 .76<br />
N 69 69<br />
Es zeigt sich, dass in der untersuchten Stichprobe die Abiturnoten der<br />
Teilnehmer entgegen der Annahme nicht mit den beiden Kriterien der KI.BOX<br />
korrelieren. Es werden sogar schwache negative Korrelationen für beide<br />
Kriterien von -.08 bzw. -.04 ermittelt. Auf mögliche Begründungen hierfür wird<br />
auf Kapitel 7 verwiesen. Aufgrund dieser Ergebnisse können jedoch für diese<br />
Stichprobe zunächst die theoretischen Annahmen nicht bestätigt werden, so<br />
dass die Hypothese A.1 abgelehnt werden muss.<br />
Überprüfung der Hypothese A.2: Die Hypothese A2 besagt, dass ein<br />
statistisch signifikanter positiver Zusammenhang zwischen den Ergebnissen der<br />
KI.BOX und der letzten Schulnote in Deutsch bestehe. Ebenso wie die<br />
Abiturnote gilt die letzte Schulnote in Deutsch als äußeres Validierungskriterium<br />
(siehe Kapitel 5.2.4). Sie wurde auch im Rahmen des demographischen<br />
Fragebogens erfasst und in das 15 Punkte-System umgewandelt. In Tabelle 6<br />
werden die Ergebnisse der statistischen Untersuchung veranschaulicht:<br />
1 1 9
Ergebnisse<br />
Tabelle 6: Korrelationen der letzten Schulnote in Deutsch und KI.BOX-Ergebnissen<br />
letzte<br />
Schulnote in<br />
Deutsch<br />
Analytische<br />
Fähigkeiten<br />
(KI.BOX)<br />
Organisatorischkonzeptionelle<br />
Fähigkeiten<br />
(KI.BOX)<br />
Korrelation nach Pearson -.05 -.05<br />
Signifikanz (2-seitig) .66 .69<br />
N 69 69<br />
Analog zu den Ergebnissen der Abiturnote zeigen sich auch hier nur schwache<br />
negative Zusammenhängen von jeweils -.05 zwischen der letzten Schulnote in<br />
Deutsch und den beiden Kriterien der KI.BOX der Teilnehmer in der<br />
untersuchten Stichprobe. Somit muss auch die Hypothese A.2 abgelehnt<br />
werden. Jedoch sei auch hierbei auf Kapitel 7 für mögliche Begründungen<br />
hingewiesen.<br />
Überprüfung der Hypothese A.3: Die Hypothese A3 besagt, dass ein<br />
statistisch signifikanter positiver Zusammenhang zwischen den Ergebnissen der<br />
KI.BOX zu den Analytischen Fähigkeiten und der letzten Schulnote in<br />
Mathematik bestehe. Auch hier gilt die letzte Schulnote in Mathematik als<br />
äußeres Validierungskriterium (siehe Kapitel 5.2.4). Sie wurde mit Hilfe des<br />
demographischen Fragebogens erfasst und in das 15 Punkte-System<br />
umgewandelt. Tabelle 7 stellt die Ergebnisse der statistischen Auswertung dar:<br />
Tabelle 7: Korrelationen der letzten Schulnote in Mathematik und KI.BOX-Ergebnissen im<br />
Kriterium Analytische Fähigkeiten<br />
Analytische<br />
Fähigkeiten<br />
(KI.BOX)<br />
letzte Korrelation nach Pearson .31**<br />
Schulnote in Signifikanz (2-seitig) .01<br />
Mathematik<br />
N 69<br />
** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />
Die statistische Auswertung zeigt einen hochsignifikanten Zusammenhang<br />
(p
Ergebnisse<br />
Teilnehmer im Kriterium Analytische Fähigkeiten der KI.BOX in dieser<br />
Stichprobe. Die mathematischen Fähigkeiten, hier operationalisiert durch die<br />
letzte Schulnote in Mathematik, können also nach der Bestimmung des<br />
Determinationskoeffizienten r 2 zu etwa 10% das Ergebnis im Kriterium<br />
Analytische Fähigkeiten in der KI.BOX erklären. Damit wird die Annahme der<br />
Hypothese A.3 bestätigt, so dass diese angenommen wird.<br />
Überprüfung der Hypothese A.4: Die Hypothese A4 besagt, dass ein<br />
statistisch signifikanter positiver Zusammenhang zwischen den Ergebnissen der<br />
KI.BOX zu den Analytischen Fähigkeiten und der Selbsteinschätzung der<br />
Probanden hinsichtlich ihrer analytischen Fähigkeiten im Vergleich zu anderen<br />
Studierenden bestehe. Die Selbsteinschätzung der Teilnehmer hinsichtlich ihrer<br />
Analytischen Fähigkeiten wurde anhand einer sechsstufigen Beurteilungsskala<br />
erhoben, welche von „unterdurchschnittlich“ bis „überdurchschnittlich“ reichte<br />
(siehe Kapitel 5.2.5). Die Selbsteinschätzung für diese Dimension dient als<br />
zusätzliches äußeres Validierungskriterium. Tabelle 8 zeigt das Ergebnis der<br />
Datenauswertung:<br />
Tabelle 8: Korrelationen von Selbsteinschätzungen der eigenen analytischen Fähigkeiten und<br />
KI.BOX-Ergebnissen im Kriterium Analytische Fähigkeiten<br />
Analytische<br />
Fähigkeiten<br />
(KI.BOX)<br />
Selbsteinschätzung der Korrelation nach Pearson .29*<br />
eigenen analytischen Signifikanz (2-seitig) .02<br />
Fähigkeiten<br />
N 69<br />
* Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.<br />
Es zeigt sich, dass zwischen der subjektiven Selbsteinschätzung der<br />
Teilnehmer über ihre eigenen analytischen Fähigkeiten und den KI.BOX-<br />
Ergebnissen im Kriterium Analytische Fähigkeiten ein signifikanter<br />
Zusammenhang von .29 besteht bei einem Signifikanzniveau von .05. Die<br />
Hypothese A.4 wird somit angenommen.<br />
1 2 1
Ergebnisse<br />
Überprüfung der Hypothese A.5: In Hypothese A.5 wurde postuliert, dass ein<br />
statistisch signifikanter positiver Zusammenhang zwischen den Ergebnissen der<br />
KI.BOX zu den Organisatorisch-konzeptionellen Fähigkeiten und der<br />
Selbsteinschätzung der Probanden hinsichtlich ihrer organisatorischkonzeptionellen<br />
Fähigkeiten bestehe. Auch hier wurde die Selbsteinschätzung<br />
durch eine sechsstufige Beurteilungsskala erhoben und sie dient ebenfalls als<br />
äußeres Validierungskriterium. In Tabelle 9 werden die Ergebnisse der<br />
statistischen Hypothesenprüfung dargelegt:<br />
Tabelle 9: Korrelationen von Selbsteinschätzungen der eigenen organisatorisch-konzeptionellen<br />
Fähigkeiten und KI.BOX-Ergebnissen im Kriterium Organisatorisch-konzeptionelle Fähigkeiten<br />
Selbsteinschätzung der<br />
eigenen orga.-konzept.<br />
Fähigkeiten<br />
Organisatorischkonzeptionelle<br />
Fähigkeiten<br />
(KI.BOX)<br />
Korrelation nach Pearson .14<br />
Signifikanz (2-seitig) .25<br />
N 69<br />
Entgegen der Annahmen konnte in der vorliegenden Untersuchung kein<br />
signifikanter Zusammenhang zwischen der Selbsteinschätzung der und den<br />
Ergebnissen zu den Organisatorisch-konzeptionellen Fähigkeiten gefunden<br />
werden. Die festgestellte Korrelation zeigt mit .14 zwar leichte Tendenzen in die<br />
angestrebte Richtung, kann aber einer Signifikanzprüfung nicht standhalten<br />
(siehe Kapitel 7.1). Die Hypothese A.5 muss also abgelehnt werden.<br />
Überprüfung der Hypothese A.6: Nachdem die Validierung anhand der<br />
beschriebenen äußeren Kriterien nur mittelmäßig erfolgreich war, werden nun<br />
die inneren Kriterien geprüft. In Hypothese A.6 wird angenommen, dass ein<br />
statistisch signifikanter positiver Zusammenhang zwischen den Ergebnissen der<br />
KI.BOX und dem Gesamttestwert der AZUBI-BK bestehe. Der Gesamttestwert<br />
wird, wie auch die anderen Kennwerte der AZUBI-BK, automatisch mit Hilfe<br />
eines Auswertungsprogramms generiert (siehe Kapitel 5.2.1). Tabelle 10 stellt<br />
die Ergebnisse der statistischen Untersuchung dar:<br />
1 2 2
Ergebnisse<br />
Tabelle 10: Korrelationen des Gesamttestwertes der AZUBI-BK und KI.BOX-Ergebnissen<br />
Analytische<br />
Fähigkeiten<br />
(KI.BOX)<br />
Organisatorischkonzeptionelle<br />
Fähigkeiten<br />
(KI.BOX)<br />
Korrelation nach Pearson .48** .52**<br />
AZUBI-BK<br />
Signifikanz (2-seitig) ,00 ,00<br />
Gesamttestwert<br />
N 69 69<br />
** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />
Die statistische Auswertung zeigt hochsignifikante Zusammenhänge von .48<br />
bzw. .52 zwischen dem Gesamttestwert der AZUBI-BK und sowohl den<br />
Analytischen Fähigkeiten als auch den Organisatorisch-konzeptionellen<br />
Fähigkeiten als Kriterien der KI.BOX. Da im Gesamttestwert der AZUBI-BK<br />
sowohl analytische als auch konzeptionelle Leistungsmerkmale verrechnet<br />
werden, ist dieses Ergebnis als besonders positiv zu bewerten. Die Hypothese<br />
A.6 wird demnach angenommen.<br />
Überprüfung der Hypothese A.7: In Hypothese A.7 wird die Behauptung<br />
aufgestellt, dass ein statistisch signifikanter positiver Zusammenhang zwischen<br />
den Ergebnissen der KI.BOX zu den Analytischen Fähigkeiten und den<br />
Ergebnissen des Grundmoduls der AZUBI-BK besteht. Da das Grundmodul der<br />
AZUBI-BK ähnliche Anforderungen erfassen soll wie die KI.BOX mit dieser<br />
Messdimension, gilt das Grundmodul als geeignetes inneres Kriterium. In<br />
Tabelle 11 wird das Ergebnis der Datenanalyse gezeigt:<br />
Tabelle 11: Korrelationen des Grundmoduls der AZUBI-BK und KI.BOX-Ergebnissen zum<br />
Kriterium Analytische Fähigkeiten<br />
Analytische<br />
Fähigkeiten<br />
(KI.BOX)<br />
Korrelation nach Pearson .44**<br />
AZUBI-BK<br />
Signifikanz (2-seitig) .00<br />
Grundmodul<br />
N 69<br />
** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />
1 2 3
Ergebnisse<br />
Überprüfung der Hypothese A.8: Hypothese A.8 besagt, es bestehe ein<br />
statistisch signifikanter positiver Zusammenhang zwischen den Ergebnissen der<br />
KI.BOX zu den Organisatorisch-konzeptionellen Fähigkeiten und den<br />
Ergebnissen des Postmoduls der AZUBI-BK. Auch das Postmodul wurde als<br />
geeignetes inneres Validierungskriterium ausgewählt, da es ähnliche Aspekte<br />
erfasst wie die Messdimension Organisatorisch-konzeptionelle Fähigkeiten der<br />
KI.BOX. Das Ergebnis der statistischen Auswertung ist in Tabelle 12<br />
veranschaulicht:<br />
Tabelle 12: Korrelationen des Postmoduls der AZUBI-BK und KI.BOX-Ergebnissen zum<br />
Kriterium Organisatorisch-konzeptionelle Fähigkeiten<br />
Es wird deutlich, dass die Ergebnisse der Teilnehmer in dieser Stichprobe im<br />
Grundmodul der AZUBI-BK hochsignifikant zu .44 mit den Ergebnissen in der<br />
KI.BOX zu den Analytischen Fähigkeiten korrelieren. Der<br />
Determinationkoeffizient r 2 besagt demnach, dass 19% der Varianz im Ergebnis<br />
der KI.BOX durch die erfassten Leistungsaspekte des Grundmoduls der AZUBI-<br />
BK (siehe Kapitel 5.2.1) erklärt werden können. Daher wird die Hypothese A.7<br />
angenommen.<br />
Organisatorischkonzeptionelle<br />
Fähigkeiten<br />
(KI.BOX)<br />
Korrelation nach Pearson .53**<br />
AZUBI-BK<br />
Signifikanz (2-seitig) ,00<br />
Postmodul<br />
N 69<br />
** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />
Die Ergebnisse der Teilnehmer im Postmodul der AZUBI-BK korrelieren zu .53<br />
hochsignifikant mit den Organisatorisch-konzeptionellen Fähigkeiten, die durch<br />
die KI.BOX erfasst werden. Somit können 28% der Varianz dieses Kriteriums<br />
durch die erfassten Leistungsaspekte des Postmoduls der AZUBI-BK (siehe<br />
Kapitel 5.2.1) erklärt werden, weshalb auch die Hypothese A.8 angenommen<br />
wird.<br />
1 2 4
Ergebnisse<br />
Überprüfung der Hypothese A.9: In Hypothese A.9 wird postuliert, dass ein<br />
signifikanter positiver Zusammenhang zwischen der Anzahl der bearbeiteten<br />
Items der KI.BOX und der Bearbeitungsgeschwindigkeit der AZUBI-BK bestehe.<br />
Da das Auswertungsprogramm der AZUBI-BK keinen zusammengefassten<br />
Wert für die Bearbeitungsgeschwindigkeit liefert, sondern diese stattdessen in<br />
die Bearbeitungsgeschwindigkeit für sprachgebundene Aufgaben, für<br />
Mehrfachkategorien bilden, für Detailaufmerksamkeit und -verarbeitung und für<br />
die Geschwindigkeit im Umgang mit Tabellen unterteilt, wurden diese<br />
Unterpunkte summiert und daraus ein Mittelwert generiert, mit dem die<br />
statistische Auswertung erfolgte. Das Reporting-Tool der KI.BOX gibt zwei<br />
Werte für die Bearbeitungsgeschwindigkeit aus, nämlich die Anzahl der<br />
bearbeiteten Items zu den Analytischen Fähigkeiten und die Anzahl der<br />
bearbeiteten Items der Organisatorisch-konzeptionellen Fähigkeiten. Diese<br />
beiden Werte wurden ebenfalls summiert, um einen Wert über alle bearbeiteten<br />
Items in der KI.BOX zu erhalten. Dieser Wert und der Mittelwert aller<br />
angegebenen Bearbeitungsgeschwindigkeiten der AZUBI-BK wurden<br />
miteinander korreliert und das Ergebnis in Tabelle 12a dargestellt:<br />
Tabelle 13a: Korrelationen der durchschnittlichen Bearbeitungsgeschwindigkeit in der AZUBI-<br />
BK und der bearbeiteten Items in der KI.BOX<br />
Summe der bearbeiteten Items in<br />
der KI.BOX<br />
AZUBI-BK durchschnittliche<br />
Bearbeitungsgeschwindigkeit<br />
Korrelation nach Pearson .19<br />
Signifikanz (2-seitig) .11<br />
N 69<br />
Es zeigt sich, dass kein signifikanter Zusammenhang zwischen der<br />
durchschnittlichen Bearbeitungsgeschwindigkeit in der AZUBI-BK und der<br />
Gesamtzahl der bearbeiteten Items in der KI.BOX besteht. Da dieses Ergebnis<br />
eher unerwartet war und zudem die gefundene Korrelation mit .19 eine<br />
Tendenz in die richtige Richtung aufwies, wurden im zweiten Schritt der<br />
Analyse statt durchschnittlichen und summierten Werten die einzelnen Werte<br />
der Bearbeitungsgeschwindigkeit miteinander korreliert. Tabelle 13b zeigt<br />
Auszüge über die wichtigsten Zusammenhänge. Die detaillierte Tabelle über<br />
alle dazu berechneten Korrelation finden sich in Anhang C.4.<br />
1 2 5
Ergebnisse<br />
Tabelle 13b: bedeutende Korrelationen der Bearbeitungsgeschwindigkeiten in der AZUBI-BK<br />
und der bearbeiteten Items in der KI.BOX für beide Kriterien<br />
Summe der bearbeiteten<br />
Items in der KI.BOX<br />
bearbeitete Items bei den<br />
Organisat.-konzept.<br />
Fähigkeiten in der KI.BOX<br />
Bearbeitungsgeschwindigkeit<br />
im Pearson<br />
Korrelation nach<br />
.24* ,32**<br />
Umgang mit Signifikanz<br />
.05 ,01<br />
Tabellen in der (2-seitig)<br />
AZUBI-BK N 69 69<br />
** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />
* Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.<br />
Die einzigen signifikanten positiven Zusammenhänge, die in der sekundären<br />
statistischen Analyse gefunden wurden, bestanden zwischen der<br />
Bearbeitungsgeschwindigkeit im Umgang mit Tabellen in der AZUBI-BK und der<br />
Summe der bearbeiteten Items in der KI.BOX (.24 auf Signifikanzniveau .05)<br />
bzw. den bearbeiteten Items in der KI.BOX zu den Organisatorischkonzeptionellen<br />
Fähigkeiten (.32 auf Signifikanzniveau .01). Da der Umgang mit<br />
Tabellen im Postmodul der AZUBI-BK erfasst wird und die Ergebnisse in<br />
diesem wie oben beschrieben hochsignifikant mit den Organisatorischkonzeptionellen<br />
Fähigkeiten der KI.BOX korrelieren, lässt sich die hier<br />
gefundene Korrelation erklären. Alle anderen Korrelationen konnten der<br />
Signifikanzprüfung jedoch nicht standhalten und fielen teilweise sogar negativ<br />
aus, so dass die Annahme insgesamt nicht bestätigt werden konnte, dass<br />
Teilnehmer, die in der AZUBI-BK schnell bzw. langsam arbeiten, eine ähnliche<br />
Bearbeitungsgeschwindigkeit in der KI.BOX aufweisen, trotz ähnlicher<br />
Messdimensionen. Die Hypothese A.9 wird daher abgelehnt.<br />
Überprüfung der Hypothese A.10 und A.11: Die Subskala zur<br />
Gewissenhaftigkeit aus dem BIP (siehe Kapitel 5.2.2) wurde aufgrund der<br />
Tatsache, dass die Leistungsbeurteilung der Arbeit eines Probanden zu 31%<br />
durch Gewissenhaftigkeit erklärt werden kann (Schmidt & Hunter, 1998), als<br />
inneres Kriterium in diese Untersuchung aufgenommen. Besonders bei einem<br />
computergestützten <strong>Postkorb</strong> wie der KI.BOX, in der über 60 Minuten hinweg<br />
konzentriert und schnell gearbeitet werden und zudem auf Details geachtet<br />
1 2 6
Ergebnisse<br />
werden muss, liegt die Vermutung nahe, dass die Gewissenhaftigkeit eines<br />
Teilnehmers bei seiner erzielten Leistung eine Rolle spielt. In Hypothese A.10<br />
wird deshalb ein positiver Zusammenhang mit den Ergebnissen in der KI.BOX<br />
zu den Analytischen Fähigkeiten und in Hypothese A.11 zu den<br />
Organisatorisch-konzeptionellen Fähigkeiten postuliert. Tabelle 14 stellt die<br />
Ergebnisse der statistischen Untersuchung dar:<br />
Tabelle 14: Korrelationen der Subskala zur Gewissenhaftigkeit aus dem BIP und der<br />
Ergebnisse in der KI.BOX für beide Kriterien<br />
BIP<br />
Gewissenhaftigkeit<br />
Korrelation nach<br />
Pearson<br />
Signifikanz<br />
(2-seitig)<br />
Analytische Fähigkeiten<br />
(KI.BOX)<br />
Organisatorisch-konzeptionelle<br />
Fähigkeiten (KI.BOX)<br />
.10 .29*<br />
.41 .014<br />
N 69 69<br />
* Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.<br />
Es zeigt sich, dass zwischen der Subskala zur Gewissenhaftigkeit aus dem BIP<br />
und den Ergebnissen in der KI.BOX zu den Analytischen Fähigkeiten kein<br />
signifikanter Zusammenhang besteht. Zur Lösung der diesbezüglichen<br />
Aufgaben scheint die Gewissenhaftigkeit, so wie im BIP erfasst, also keine<br />
(ausschlaggebende) Rolle zu spielen. Bezüglich der Organisatorischkonzeptionellen<br />
Fähigkeiten wurde jedoch ein signifikanter Zusammenhang von<br />
.29 bei einem Signifikanzniveau von .05 ermittelt. Somit können 8% der Varianz<br />
im Ergebnis zu diesem Kriterium der KI.BOX durch Gewissenhaftigkeit<br />
aufgeklärt werden. Aufgrund der gefundenen Ergebnisse wird daher die<br />
Hypothese A.10 abgelehnt, während die Hypothese A.11 angenommen werden<br />
kann.<br />
6.2.1 Zusammenfassung<br />
Im Zuge der Validitätsprüfung der KI.BOX wurden verschiedene äußere und<br />
innere Validitätskriterien mit den Ergebnissen der Teilnehmer in der KI.BOX<br />
korreliert.<br />
1 2 7
Ergebnisse<br />
Bei den äußeren Kriterien stellte sich heraus, dass es weder zwischen der<br />
Abiturnote noch zwischen der letzten Schulnote in Deutsch und den KI.BOX<br />
Ergebnissen ein signifikanter Zusammenhang bestand. Die letzte Schulnote in<br />
Mathematik korrelierte dagegen hoch mit dem Kriterium Analytische<br />
Fähigkeiten der KI.BOX. Bei den subjektiven Selbsteinschätzungen der<br />
Probanden zeigte sich ein signifikanter Zusammenhang bzgl. der eigenen<br />
analytischen Fähigkeiten und der entsprechenden KI.BOX-Dimension, bzgl. der<br />
Organisatorisch-konzeptionellen Fähigkeiten und der dazugehörigen<br />
Selbsteinschätzung konnte kein Zusammenhang aufgedeckt werden.<br />
Die Ergebnisse der inneren Validitätsprüfung fielen günstiger aus. So korrelierte<br />
der Gesamttestwert der AZUBI-BK signifikant hoch mit beiden Kriterien der<br />
KI.BOX. Ähnlich hohe Zusammenhänge bestanden zwischen dem Grundmodul<br />
der AZUBI-BK und den Analytischen Fähigkeiten der KI.BOX sowie dem<br />
Postmodul der AZUBI-BK und den Organisatorisch-konzeptionellen Fähigkeiten<br />
der KI.BOX. Bezüglich der Bearbeitungsgeschwindigkeit konnten kaum<br />
nennenswerte Zusammenhänge zwischen den Ergebnissen beider Tests<br />
gefunden wurden. Die Ergebnisse der Subskala zur Gewissenhaftigkeit aus<br />
dem BIP wiesen jedoch einen signifikanten Zusammenhang zu den<br />
Organisatorisch-konzeptionellen Fähigkeiten der KI.BOX auf, zu den<br />
Analytischen Fähigkeiten wurde kein bedeutsamer Zusammenhang gefunden.<br />
6.3 Tests der Hypothesen zum Zusammenhang von<br />
Computererfahrung und Leistung in der KI.BOX<br />
Im Folgenden wird überprüft, ob das Interaktionsproblem (Kleinmann & Strauß,<br />
1995), also Leistungsverzerrungen, die durch den Umgang mit dem Computer<br />
durch mangelnde Kenntnisse über Hard- und Software entstehen können, bei<br />
der Bearbeitung der KI.BOX eine Rolle spielen, d.h. es wird geprüft, ob es<br />
überzufällig starke Zusammenhänge von KI.BOX-Ergebnissen und<br />
Computererfahrung gibt. Die Überprüfung wurde mit Hilfe von zwei<br />
Selbsteinschätzungsfragebögen, dem SUCA und dem VECA (Richter,<br />
Naumann & Groeben, 2001; siehe Kapitel 5.2.3) durchgeführt.<br />
1 2 8
Ergebnisse<br />
Überprüfung der Hypothese B.1: In Hypothese B.1 wird angenommen, dass<br />
kein statistisch signifikanter positiver Zusammenhang zwischen den<br />
Ergebnissen der KI.BOX und dem Ergebnis des SUCA bestehe. Zur<br />
Überprüfung dessen wurde das Testergebnis des SUCA (Fragebogen zur<br />
Sicherheit im Umgang mit Computern und Computeranwendungen) mit den<br />
Ergebnissen der beiden Kriterien der KI.BOX mit Hilfe der Pearson-Korrelation<br />
in Beziehung gesetzt (Lienert, 1969). Das Ergebnis wird in Tabelle 15 gezeigt:<br />
Tabelle 15a: Korrelationen des SUCA und den Ergebnissen in der KI.BOX für beide Kriterien<br />
SUCA<br />
Analytische Fähigkeiten<br />
(KI.BOX)<br />
Organisatorisch-konzeptionelle<br />
Fähigkeiten (KI.BOX)<br />
Korrelation nach Pearson .06 .06<br />
Signifikanz<br />
(2-seitig)<br />
.63 .65<br />
N 69 69<br />
Die statistische Auswertung zeigt, dass kein signifikanter Zusammenhang<br />
zwischen den Testergebnissen des SUCA und den Ergebnissen der beiden<br />
Kriterien der KI.BOX besteht. Bevor die Hypothese B.1 aber angenommen wird,<br />
soll noch eine weitere Datenanalyse erfolgen. Hierbei soll geprüft werden, ob<br />
sich die in Kapitel 6.2 im Rahmen der Hypothesenprüfung zur Validität der<br />
KI.BOX gefundenen höchsten signifikanten Zusammenhänge, nämlich<br />
zwischen den Ergebnissen der KI-BOX und dem Gesamttestwert, dem<br />
Grundmodul und dem Postmodul der AZUBI-BK, durch Auspartialisierung der<br />
Variable Sicherheit im Umgang mit Computern und Computeranwendungen,<br />
operationalisiert durch die SUCA-Ergebnisse, verändern. Zu diesem Zweck<br />
wurden Partialkorrelationskoeffizienten r xy.z berechnet und mit den zuvor<br />
gefundenen Koeffizienten r xy verglichen. Diese Berechnung erscheint sinnvoll,<br />
da die AZUBI-BK als Paper-Pencil-Verfahren durchgeführt wurde. Sollten sich<br />
veränderte Koeffizienten ergeben, würde dies auf den Einfluss des Mediums<br />
Computer zurückzuführen sein. In Tabelle 15b werden die Ergebnisse gezeigt:<br />
1 2 9
Ergebnisse<br />
Tabelle 15b: Auswirkungen der Auspartialisierung der Sicherheit im Umgang mit Computern<br />
und Computeranwendungen auf die Korrelationen der Ergebnisse von KI.BOX zu AZUBI-BK<br />
AZUBI-BK AZUBI-BK<br />
Gesamttestwert Grundmodul<br />
Analytische<br />
r xy<br />
.48** .44**<br />
Fähigkeiten<br />
(KI.BOX) r xy.z<br />
.49** .44**<br />
AZUBI-BK<br />
Postmodul<br />
Orga.-konzept.<br />
r xy<br />
.52** .53**<br />
Fähigkeiten<br />
(KI.BOX r xy.z<br />
.53** .53**<br />
** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />
Auch hieraus wird deutlich, dass der Umgang mit Computern und<br />
Computeranwendungen keinen Einfluss auf die Leistungen der Probanden hat.<br />
Die Koeffizienten mit und ohne Auspartialisierung dieses Faktors unterscheiden<br />
sich nicht oder nur sehr geringfügig, was wiederum dafür spricht, die Hypothese<br />
B1 anzunehmen. Zuvor soll jedoch eine dritte Analyse stattfinden. Es hat sich<br />
gezeigt, dass kein signifikanter Zusammenhang zwischen der<br />
Bearbeitungsgeschwindigkeit in der KI.BOX und in der AZUBI-BK besteht<br />
(siehe Tabelle 13a). Dies bedeutet, dass Teilnehmer, die in der AZUBI-BK<br />
schnell arbeiteten, im <strong>Postkorb</strong> etwas weniger schnell waren und umgekehrt.<br />
Ob dies auf den Einfluss der Sicherheit im Umgang mit Computern und<br />
Computeranwendungen zurückgeführt werden kann, soll nun errechnet werden,<br />
indem die Partialkoeffizienten r xy.z bestimmt werden und mit den vorigen<br />
Ergebnissen verglichen werden. Tabelle 15c stellt die Ergebnisse dar:<br />
Tabelle 15c: Auswirkungen der Auspartialisierung der Sicherheit im Umgang mit Computern<br />
und Computeranwendungen auf die Korrelation der Bearbeitungsgeschwindigkeiten in KI.BOX<br />
und AZUBI-BK<br />
Summe der bearbeiteten Items in<br />
der KI.BOX<br />
AZUBI-BK durchschnittliche r xy<br />
.19<br />
Bearbeitungsgeschwindigkeit<br />
r xy.z<br />
.18<br />
Erneut wird kein bedeutsamer Unterschied zwischen den beiden Koeffizienten<br />
sichtbar, was bedeutet, dass die Sicherheit im Umgang mit Computern und<br />
Computeranwendungen keinen Einfluss auf die unterschiedlichen<br />
1 3 0
Ergebnisse<br />
Bearbeitungszeiten in den beiden Tests hat. Nach den drei hier beschriebenen<br />
statistischen Auswertungen kann also mit Sicherheit gesagt werden, dass die<br />
Sicherheit im Umgang mit Computern und Computeranwendungen keinen<br />
bedeutsamen Einfluss auf die Ergebnisse in der KI.BOX haben. Die Hypothese<br />
B.1 wird also angenommen.<br />
Überprüfung der Hypothese B.2: Hypothese B.2 postuliert, dass kein<br />
statistisch signifikanter positiver Zusammenhang zwischen den Ergebnissen der<br />
KI.BOX und dem Ergebnis des VECA bestehe. Um dies zu überprüfen wurde<br />
das Testergebnis des VECA (Fragebogen zur Vertrautheit mit verschiedenen<br />
Computeranwendungen) mit den Ergebnissen der beiden Kriterien der KI.BOX<br />
korreliert. Das Ergebnis wird in Tabelle 15 gezeigt:<br />
Tabelle 16a: Korrelationen des VECA und den Ergebnissen in der KI.BOX für beide Kriterien<br />
VECA<br />
Analytische Fähigkeiten<br />
(KI.BOX)<br />
Organisatorisch-konzeptionelle<br />
Fähigkeiten (KI.BOX)<br />
Korrelation nach Pearson .06 -.08<br />
Signifikanz<br />
(2-seitig)<br />
,61 ,51<br />
N 69 69<br />
Ähnlich wie beim SUCA kann auch hier kein signifikanter Zusammenhang<br />
zwischen den Testergebnissen des VECA und den Ergebnissen der beiden<br />
Kriterien der KI.BOX aufgedeckt werden. Jedoch soll auch hier geprüft werden,<br />
ob sich die Korrelationskoeffizienten zwischen KI.BOX und AZUBI-BK bei<br />
Auspartialisierung der Vertrautheit der Teilnehmer mit verschiedenen<br />
Computeranwendungen ändern, indem abermals die Partialkoeffizienten r xy.z<br />
errechnet werden und diese mit den in Kapitel 6.2 gefunden<br />
Korrelationskoeffizienten r xy verglichen werden. Der auspartialisierte Faktor z<br />
wird hier durch den Testwert des VECA operationalisiert. In Tabelle 16b werden<br />
die Ergebnisse der statistischen Auswertung veranschaulicht:<br />
1 3 1
Ergebnisse<br />
Tabelle 16b: Auswirkungen der Auspartialisierung der Vertrautheit der Teilnehmer mit<br />
verschiedenen Computeranwendungen auf die Korrelationen der Ergebnisse von KI.BOX zu<br />
AZUBI-BK<br />
AZUBI-BK<br />
Gesamttestwert<br />
AZUBI-BK<br />
Grundmodul<br />
AZUBI-BK<br />
Postmodul<br />
Analytische<br />
r xy<br />
.48** .44**<br />
Fähigkeiten<br />
(KI.BOX) r xy.z<br />
.48** .44**<br />
Orga.-konzept.<br />
r xy<br />
.52** .53**<br />
Fähigkeiten<br />
(KI.BOX r xy.z<br />
.55** .55**<br />
** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />
Die Auswertung macht ebenfalls deutlich, dass die Vertrautheit der Teilnehmer<br />
mit verschiedenen Computeranwendungen keinen Einfluss auf die Leistungen<br />
der Probanden hat, da sich die Koeffizienten mit und ohne Auspartialisierung<br />
dieses Faktors nicht oder nur sehr geringfügig unterscheiden. Bevor nun die<br />
Hypothese B.2 angenommen wird, soll noch der Einfluss der Vertrautheit der<br />
Teilnehmer mit verschiedenen Computeranwendungen auf die<br />
Bearbeitungszeiten ermittelt werden. Das Vorgehen ist analog zur<br />
Untersuchung der Auswirkung der Sicherheit im Umgang mit Computern und<br />
Computeranwendungen. Tabelle 16c stellt die Ergebnisse dar:<br />
Tabelle 16c: Auswirkungen der Auspartialisierung der Vertrautheit der Teilnehmer mit<br />
verschiedenen Computeranwendungen auf die Korrelation der Bearbeitungsgeschwindigkeiten<br />
in KI.BOX und AZUBI-BK<br />
Summe der bearbeiteten Items in<br />
der KI.BOX<br />
AZUBI-BK durchschnittliche r xy<br />
.19<br />
Bearbeitungsgeschwindigkeit<br />
r xy.z<br />
.17<br />
Wie zuvor zeigt sich kein bedeutsamer Unterschied zwischen den beiden<br />
Koeffizienten, was bedeutet, dass auch die Vertrautheit der Teilnehmer mit<br />
verschiedenen Computeranwendungen keinen Einfluss auf die<br />
unterschiedlichen Bearbeitungszeiten in den beiden Tests hat. Insgesamt kann<br />
also festgehalten werden, dass die Vertrautheit der Teilnehmer mit<br />
verschiedenen Computeranwendungen keinen Einfluss auf die Ergebnisse der<br />
Teilnehmer in der KI.BOX hat und daher die Hypothese B.2 angenommen wird.<br />
1 3 2
Ergebnisse<br />
Überprüfung der Hypothese B.3, B.4 und B.5: Obwohl bereits festgestellt<br />
wurde, dass die Vertrautheit der Teilnehmer mit verschiedenen<br />
Computeranwendungen keinen Einfluss auf die Ergebnisse in der KI.BOX hat,<br />
soll nun noch speziell der Einfluss von drei Anwendungen untersucht werden,<br />
deren Funktionen Hauptbestandteile der KI.BOX sind. Die Hypothesen B.3, B.4<br />
und B5 besagen, dass keine statistisch signifikanten positiven Zusammenhänge<br />
zwischen den Ergebnissen der KI.BOX und den Ergebnissen der Items des<br />
VECA „Vertrautheit im Umgang mit Textverarbeitung“ (B.3), „Vertrautheit im<br />
Umgang mit E-Mails“ (B.4) und „Vertrautheit im Umgang mit<br />
Terminplanungsprogrammen“ (B.5) bestehen. Zur Prüfung dieser Hypothesen<br />
wurden die Itemwerte mit den Ergebnissen beider Kriterien der KI.BOX<br />
korreliert, die Ergebnisse sind in Tabelle 17 ablesbar:<br />
Tabelle 17: Korrelationen der drei für die KI.BOX bedeutsamsten Icons des VECA und den<br />
Ergebnissen in der KI.BOX für beide Kriterien<br />
Vertrautheit im<br />
Umgang mit<br />
Textverarbeitung<br />
Vertrautheit im<br />
Umgang mit<br />
E-Mails<br />
Vertrautheit im<br />
Umgang mit<br />
Terminplanungsprogrammen<br />
Analytische Fähigkeiten<br />
(KI.BOX)<br />
Organisatorisch-konzeptionelle<br />
Fähigkeiten (KI.BOX)<br />
Korrelation nach<br />
Pearson<br />
-.09 -.06<br />
Signifikanz<br />
(2-seitig)<br />
.47 .60<br />
N 69 69<br />
Korrelation nach<br />
Pearson<br />
-.12 -.23<br />
Signifikanz<br />
(2-seitig)<br />
.34 .054<br />
N 69 69<br />
Korrelation nach<br />
Pearson<br />
.04 .08<br />
Signifikanz<br />
(2-seitig)<br />
.78 .50<br />
N 69 69<br />
Aus den Ergebnissen wird erkennbar, dass die Vertrautheit mit<br />
Textverarbeitungs-, E-Mail- und Terminplanungsprogrammen nicht signifikant<br />
mit den Ergebnissen der KI.BOX in beiden Kriterien zusammenhängen.<br />
Überraschenderweise weisen sogar vier der sechs Korrelationen einen<br />
schwachen bis mittleren negativen Wert auf, auch wenn diese nicht signifikant<br />
werden. Ob es Gründe für diese Ergebnisse gibt oder sie in dieser Stichprobe<br />
1 3 3
Ergebnisse<br />
zufällig zustande kamen, soll in Kapitel 7 thematisiert werden. Fest steht<br />
jedoch, dass die Vertrautheit mit den drei hier untersuchten Anwendungsarten<br />
keinen Einfluss auf die Ergebnisse der KI.BOX in beiden Kriterien hat, weshalb<br />
die Hypothesen B.3, B.4 und B.5 angenommen werden können.<br />
6.3.1 Zusammenfassung<br />
In diesem Kapitel wurde untersucht, ob Vorerfahrung und Wissen über<br />
Computer und Computeranwendungen die Ergebnisse in der KI.BOX<br />
beeinflussen. Dazu wurden umfangreiche Untersuchungen mit den Ergebnissen<br />
der Fragebögen SUCA und VECA vorgenommen, die genau diese Erfahrung<br />
erfassen. Auch die Erfahrung mit den drei Anwendungen Textverarbeitung, E-<br />
Mail und Terminplanung, die in der KI.BOX besonders von Bedeutung sind,<br />
wurde untersucht. Es konnte gezeigt werden, dass sich, wie von den<br />
Testautoren vorgesehen, keine Zusammenhänge von Computererfahrung und<br />
KI.BOX-Leistungen ergeben, so dass alle dazu aufgestellten Hypothesen<br />
angenommen werden konnten.<br />
6.4 Test der Hypothese zur Wirkung von Reihenfolgeeffekten<br />
Aufgrund der bisherigen Forschungslage (siehe Kapitel 2.2.4) wird davon<br />
ausgegangen, dass die Reihenfolge der Testdarbietung keinen Einfluss auf die<br />
Ergebnisse in der KI.BOX hat. Da dieser Aspekt jedoch noch nicht<br />
aussagekräftig genug untersucht wurde, wird er in die vorliegende<br />
Untersuchung mit aufgenommen. Zu diesem Zweck wurden zwei<br />
Versuchsbedingungen realisiert und die Teilnehmer diesen zufällig zugeteilt.<br />
Die Teilnehmer in der Gruppe 1 bearbeiteten zunächst die KI.BOX und im<br />
Anschluss daran das Grund- und Postmodul der AZUBI-BK. In Gruppe 2<br />
standen die beiden Module der AZUBI-BK am Anfang der Testung und danach<br />
erst wurde die KI.BOX bearbeitet. Die Hypothese C.1 besagt nun, dass kein<br />
statistisch signifikanter Unterschied zwischen den Testwerten der KI.BOX in der<br />
Versuchsbedingung 1 und der Versuchsbedingung 2 bestehe. Um dies zu<br />
überprüfen wurden für beide Messkriterien der KI.BOX die Mittelwerte beider<br />
1 3 4
Ergebnisse<br />
Versuchsgruppen gebildet und mittels T-Test für unabhängige Stichproben<br />
(Diehl & Arbinger, 2001) auf signifikante Gruppenunterschiede geprüft. Der T-<br />
Test ist als ein effizientes und robustes Verfahren einzuschätzen. Um aber eine<br />
adäquate Anwendung des T-Tests zu gewährleisten, sollten die Testwerte in<br />
den Stichproben normalverteilt sein, was bereits in Kapitel 6.1 bestätigt wurde.<br />
Zudem sollte in den zu vergleichenden Stichproben approximativ eine<br />
Varianzhomogenität erfüllt sein, welche im Folgenden durch den Levene-Test<br />
überprüft werden soll. Tabelle 18 stellt die Ergebnisse der statistischen<br />
Auswertung für das Kriterium Analytische Fähigkeiten dar:<br />
Tabelle 18: T-Test für die Bedingung Reihenfolge der Verfahren bei den Analytischen<br />
Fähigkeiten in der KI.BOX<br />
Analytische Fähigkeiten<br />
(KI.BOX)<br />
Bedingung<br />
„Reihenfolge der Verfahren“<br />
N<br />
Mittelwert<br />
Standardabweichung<br />
Bed.1 (KI.BOX, AZUBI-BK) 36 2,44 2,29<br />
Bed.2 (AZUBI-BK, KI.BOX) 33 3,00 2,61<br />
Analytische Fähigkeiten (KI.BOX)<br />
F .73<br />
Levene-Test<br />
Signifikanz .40<br />
Die Differenz in den Gruppenvarianzen ist nicht signifikant, die<br />
Varianzen sind homogen. Der T-Test kann somit durchgeführt werden.<br />
T-Test<br />
T -.94<br />
df 67<br />
Signifikanz (2-seitig) ,35<br />
In der oberen Tabelle ist zu erkennen, dass der Mittelwert von Bedingung 1 bei<br />
2,44 und von Bedingung 2 bei 3,00 Punkten liegt. Die Mittelwerte der beiden<br />
Gruppen unterscheiden sich also um 0.56 Punkte. Ob dieser Unterschied<br />
überzufällig ist, soll mittels T-Test überprüft werden. Diesen einzusetzen ist<br />
zulässig, da der Levene-Test in der mittleren Tabelle keine signifikanten<br />
Varianzunterschiede zwischen den beiden Gruppen ausmachen konnte. In der<br />
unteren Tabelle sind die Ergebnisse des T-Tests aufgeführt. Da dieser kein<br />
signifikantes Ergebnis erbringt, kann festgehalten werden, dass es hinsichtlich<br />
des Kriteriums Analytische Fähigkeiten keine entscheidende Rolle spielt, an<br />
welcher Position die KI.BOX innerhalb einer Testsequenz eingesetzt wird.<br />
1 3 5
Ergebnisse<br />
Diese statistische Untersuchung soll im Folgenden genauso für das Kriterium<br />
Organisatorisch-konzeptionelle Fähigkeiten erfolgen, um die Hypothese C.1<br />
endgültig annehmen oder ablehnen zu können. Tabelle 19 zeigt die Ergebnisse<br />
für dieses Messkriterium:<br />
Tabelle 19: Levene-Test und T-Test für die Bedingung Reihenfolge der Verfahren bei den<br />
Organisatorisch-konzeptionellen Fähigkeiten in der KI.BOX<br />
Orga-konzept. Fähigkeiten<br />
(KI.BOX)<br />
Bedingung<br />
„Reihenfolge der Verfahren“<br />
N<br />
Mittelwert<br />
Standardabweichung<br />
Bed.1 (KI.BOX, AZUBI-BK) 36 -3,04 9,30<br />
Bed.2 (AZUBI-BK, KI.BOX) 33 -0,18 6,48<br />
Orga-konzept. Fähigkeiten<br />
(KI.BOX)<br />
F 2,388<br />
Levene-Test<br />
Signifikanz .13<br />
Die Differenz in den Gruppenvarianzen ist nicht signifikant, die<br />
Varianzen sind homogen. Der T-Test kann somit durchgeführt werden.<br />
T-Test<br />
T -1,47<br />
df 67<br />
Signifikanz (2-seitig) .15<br />
In der oberen Tabelle sieht man, dass der Mittelwert von Bedingung 1 bei -3,04<br />
und von Bedingung 2 bei -0,18 Punkten liegt. Die Mittelwerte der beiden<br />
Gruppen unterscheiden sich 2,86 Punkte. Warum diese Werte hier im negativen<br />
Bereich liegen, wurde bereits in Kapitel 6.1 erläutert. Genau wie zuvor zeigt<br />
auch bei diesem Kriterium der KI.BOX der Levene-Test in der mittleren Tabelle<br />
keine signifikanten Varianzunterschiede zwischen den beiden Gruppen auf,<br />
weshalb der T-Test angewandt werden kann. In der unteren Tabelle wird<br />
erkennbar, dass der T-Test kein signifikantes Ergebnis liefert. Somit haben<br />
Reihenfolgeeffekte, die durch die Positionierung der KI.BOX innerhalb einer<br />
Testsequenz entstehen können, auch bzgl. des Kriteriums Organisatorischkonzeptionelle<br />
Fähigkeiten keinen entscheidenden Einfluss auf die Leistungen<br />
der Teilnehmer. Nach diesen beiden Ergebnissen kann also die Hypothese C.1<br />
angenommen werden.<br />
1 3 6
Ergebnisse<br />
6.4.1 Zusammenfassung<br />
Es wurde untersucht, ob sich die Mittelwerte der beiden Versuchsbedingungen<br />
signifikant unterscheiden, d.h. ob es sich überzufällig stark in den Ergebnissen<br />
der Teilnehmer widerspiegelt, ob sie zuerst die KI.BOX und dann die AZUBI-BK<br />
bearbeiteten oder umgekehrt. In beiden Kriterien der KI.BOX konnten mittels T-<br />
Tests keine statistisch bedeutsamen Auswirkungen von Reihenfolgeeffekten<br />
ausgemacht werden, so dass die Hypothese C.1 angenommen wird.<br />
6.5 Test der Hypothesen zum Zusammenhang von<br />
demographischen Daten und Leistung in der KI.BOX<br />
Im Folgenden werden die Hypothesen zum potenziellen Einfluss der<br />
demographischen Daten der Teilnehmer auf die KI.BOX-Ergebnisse überprüft.<br />
Diese Untersuchungen sollen jedoch hauptsächlich zur explorativen Analyse<br />
dienen, da die Daten der Stichprobe bezüglich einiger Variablen wie<br />
beispielsweise Studienfach oder Semesteranzahl nicht gleich verteilt sind.<br />
Dennoch wurden zur Auswertung unter anderem der T-Test und die<br />
einfaktorielle Varianzanalyse eingesetzt, obwohl diese eine Normalverteilung<br />
voraussetzen. Da besonders der T-Test aber als sehr robust einzuschätzen ist<br />
(Diehl & Arbinger, 2001) und es wie erwähnt um eher explorative Auswertungen<br />
geht, soll diese Einschränkung vernachlässigt werden.<br />
Überprüfung der Hypothese D.1: Zunächst soll überprüft werden, ob es<br />
signifikante Mittelwertsunterschiede zwischen Männern und Frauen in den<br />
KI.BOX Ergebnissen bezüglich beider Messkriterien gibt. In Hypothese D.1 wird<br />
postuliert, dass es keinen solchen Unterschied gäbe. Die statistische<br />
Auswertung erfolgt mittels T-Test für unabhängige Stichproben, Tabelle 20 zeigt<br />
die Ergebnisse. Die Ergebnisse des Levene-Tests werden im Folgenden<br />
weiterhin beschrieben, jedoch nicht mehr tabellarisch dargestellt.<br />
1 3 7
Ergebnisse<br />
Tabelle 20: T-Test für die Variable Geschlecht bei den Ergebnissen der KI.BOX<br />
Analytische Fähigkeiten<br />
(KI.BOX)<br />
Orga-konzept. Fähigkeiten<br />
(KI.BOX)<br />
Geschlecht N Mittelwert Standardabweichung<br />
männlich 17 2,12 2,76<br />
weiblich 52 2,90 2,33<br />
Geschlecht N Mittelwert Standardabweichung<br />
männlich 17 -4,85 9,86<br />
weiblich 52 -0,64 7,31<br />
T-Test<br />
Analytische<br />
Fähigkeiten (KI.BOX)<br />
Orga-konzept. Fähigkeiten<br />
(KI.BOX)<br />
T 1,15 1,89<br />
df 67 67<br />
Signifikanz (2-seitig) .25 .06<br />
Aus der oberen Tabelle lassen sich die Mittelwerte beider Geschlechter für<br />
beide Kriterien ablesen. Bei den Analytischen Fähigkeiten lag das Mittel der<br />
Männer bei 2,12 Punkten, das der Frauen bei 2,90. In den Organisatorischkonzeptionellen<br />
Tätigkeiten schnitten die Männer durchschnittlich mit -4,85<br />
Punkten ab, die Frauen erreichten im Durchschnitt -0,64 Punkte. Tendenziell<br />
schnitten in der KI.BOX weibliche Teilnehmer also besser ab. Ob diese<br />
Unterschiede signifikant sind, wurde mittels T-Test errechnet, nachdem die<br />
Varianzhomogenität mittels Levene-Test bestätigt wurde. Der T-Test erbringt<br />
weder in den Ergebnissen zu den Analytischen Fähigkeiten noch zu den<br />
Organisatorisch-konzeptionellen Fähigkeiten signifikante Unterschiede<br />
zwischen Männern und Frauen, auch wenn sich mit p=.06 leichte Tendenzen<br />
dazu bei den Organisatorisch-konzeptionellen Fähigkeiten zeigen. Wie bereits<br />
angesprochen, handelt es sich hierbei eher um eine explorative Datenanalyse,<br />
da die Stichprobe aus weit weniger Männern (n=17) als Frauen (n=52) bestand.<br />
Ob sich bei einer Stichprobe, bei denen beide Geschlechter gleich häufig<br />
vertreten wären, andere Ergebnisse zeigen würden, kann hier nicht beantwortet<br />
werden. Aufgrund der hier vorliegenden Daten können jedoch keine<br />
bedeutsamen Geschlechtseffekte ausgemacht werden, so dass die Hypothese<br />
D.1 angenommen werden kann.<br />
1 3 8
Ergebnisse<br />
Überprüfung der Hypothese D.2: In Hypothese D.2 wird davon ausgegangen,<br />
dass kein statistisch signifikanter positiver Zusammenhang zwischen den<br />
Ergebnissen der KI.BOX und dem Alter der Teilnehmer bestehe. Um dies zu<br />
überprüfen, werden die Ergebnisse der beiden Messkriterien der KI.BOX und<br />
das Alter der Teilnehmer mittel Pearson-Korrelation untersucht. In Tabelle 21<br />
werden die Ergebnisse abgebildet:<br />
Tabelle 21: Korrelationen des Alters der Teilnehmer mit den Ergebnissen in der KI.BOX für<br />
beide Kriterien<br />
Alter<br />
Analytische Fähigkeiten<br />
(KI.BOX)<br />
Organisatorisch-konzeptionelle<br />
Fähigkeiten (KI.BOX)<br />
Korrelation nach<br />
Pearson<br />
-.31** -.28*<br />
Signifikanz<br />
(2-seitig)<br />
.01 .02<br />
N 69 69<br />
** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />
* Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.<br />
Die Ergebnisse der statistischen Analyse überraschen: In beiden Kriterien der<br />
KI.BOX besteht zwar hypothesenkonform kein positiver signifikanter<br />
Zusammenhang zum Alter der Teilnehmer, jedoch werden für die Analytischen<br />
Fähigkeiten ein hochsignifikanter negativer Zusammenhang von -.31 und für die<br />
Organisatorisch-konzeptionellen Fähigkeiten ein signifikanter negativer<br />
Zusammenhang von -.28 ermittelt. Dies bedeutet also, dass mit zunehmendem<br />
Alter die Ergebnisse in der KI.BOX in beiden Kriterien schlechter ausfallen.<br />
Mögliche Erklärungen hierzu werden in Kapitel 7 gegeben. Jedoch sei an dieser<br />
Stelle erneut auf die eingeschränkte Aussagekraft einer explorativen<br />
Datenanalyse verwiesen, da auch hier die Verteilung des Alters in der zugrunde<br />
liegenden Stichprobe sehr linkslastig war. So befand sich ein Drittel der<br />
Teilnehmer zwischen dem 18. und 20. Lebensjahr, ein weiteres Drittel war<br />
zwischen 21 und 24 Jahren alt und ein Drittel deckte die Altersspanne 25 bis 49<br />
ab, so dass ältere Teilnehmer hier deutlich unterrepräsentiert waren. Dennoch<br />
kann aufgrund der vorliegenden Daten nicht von einem positiven und<br />
überzufälligem Zusammenhang von Alter und KI.BOX Ergebnissen<br />
ausgegangen werden, so dass die Hypothese D.2 angenommen werden kann.<br />
1 3 9
Ergebnisse<br />
Überprüfung der Hypothese D.3: In Hypothese D.3 wird behauptet, dass kein<br />
statistisch signifikanter Unterschied zwischen Teilnehmern verschiedener<br />
Studienfächer in den Ergebnissen der KI.BOX bestehe. Aufgrund der<br />
vorliegenden Stichprobe ist diese Hypothese jedoch kaum sinnvoll zu<br />
überprüfen, da bereits 89,9% der Teilnehmer (n=62) im Studiengang<br />
Psychologie eingeschrieben waren und sich nur weitere 7 Teilnehmer auf vier<br />
andere Studienfächer aufteilten (siehe Kapitel 6.1). Um dennoch zumindest<br />
ansatzweise Aussagen über mögliche Tendenzen machen zu können, wurde<br />
eine einfaktorielle Varianzanalyse (Diehl & Arbinger, 2001) durchgeführt. Als<br />
abhängige Variablen gelten dabei die beiden Messkriterien der KI.BOX,<br />
während die unabhängige Variable Studienfach mit den fünf in die<br />
Untersuchung eingehenden Studienfächern den Faktor bildet. Zuvor wurde die<br />
Varianzhomogenität mittels Levene-Test bestätigt. In Tabelle 22 werden die<br />
Ergebnisse der Varianzanalyse in verkürzter Form dargestellt:<br />
Tabelle 22: Varianzanalyse für die Variable Studienfach und die Ergebnisse in der KI.BOX für<br />
beide Kriterien<br />
df F Signifikanz<br />
Analytische Fähigkeiten<br />
(KI.BOX)<br />
Orga.-konzept. Fähigkeiten<br />
(KI.BOX)<br />
4 1,07 .38<br />
4 2,10 .09<br />
Die Varianzanalyse belegt, dass es keinen signifikanten Unterschied zwischen<br />
den Gruppen, d.h. den Teilnehmern der fünf aufgeführten Studienfächer, in<br />
ihren Leistungen in der KI.BOX gibt. Obwohl diese Analyse wie beschrieben als<br />
äußerst explorativ angesehen werden muss, kann dadurch bis auf weiteres die<br />
Hypothese D.3 angenommen werden.<br />
Überprüfung der Hypothese D.4: In Hypothese D.4 wird davon ausgegangen,<br />
dass ein statistisch signifikanter positiver Zusammenhang zwischen den<br />
Ergebnissen der KI.BOX und der Semesteranzahl der Teilnehmer bestehe. Für<br />
die statistische Analyse werden daher analog zur Prüfung der Hypothese D.1<br />
1 4 0
Ergebnisse<br />
die Ergebnisse der KI.BOX in beiden Kriterien mit der Semesteranzahl<br />
korreliert. Die Ergebnisse finden sich in Tabelle 23:<br />
Tabelle 23: Korrelationen der Semesterzahl der Teilnehmer mit den Ergebnissen in der KI.BOX<br />
für beide Kriterien<br />
Semesterzahl<br />
Analytische Fähigkeiten<br />
(KI.BOX)<br />
Organisatorisch-konzeptionelle<br />
Fähigkeiten (KI.BOX)<br />
Korrelation nach<br />
Pearson<br />
-.04 -.05<br />
Signifikanz<br />
(2-seitig)<br />
.75 .68<br />
N 69 69<br />
Es fällt auf, dass die Semesteranzahl der Teilnehmer negativ mit den<br />
Ergebnissen für beide Kriterien der KI.BOX korreliert, allerdings mit -.04 bzw. -<br />
.05 deutlich schwächer als zuvor bei der Variable Alter und zudem nicht<br />
signifikant. Dabei ist jedoch wiederholt auf die linkslastige Verteilung der<br />
Variable Semesterzahl in der untersuchten Stichprobe zu achten: So befanden<br />
sich knapp die Hälfte der getesteten Studenten im ersten Semester (n=32),<br />
weitere 25% (n=21) im dritten Semester und das verbleibende Viertel der<br />
Untersuchten (n=16) befand sich im fünften bis vierzehnten Semester, so dass<br />
auch hier die höheren Semester unterrepräsentiert sind. Die Frage, ob es bei<br />
einer gleich verteilten Ausprägung der Semesterzahl andere Ergebnisse gäbe,<br />
bleibt daher bis auf weiteres ungeklärt. Auf Grundlage des vorliegenden<br />
Datensatzes ist jedoch kein positiver signifikanter Zusammenhang von KI.BOX-<br />
Ergebnissen und Semesterzahl zu erkennen, so dass die Hypothese D.4<br />
abgelehnt wird.<br />
Überprüfung der Hypothese D.5: Die Hypothese D.5 besagt, dass kein<br />
statistisch signifikanter Unterschied zwischen Teilnehmern mit verschieden<br />
ausgeprägten Deutschkenntnissen in den Ergebnissen der KI.BOX bestehe.<br />
Die Deutschkenntnisse der Teilnehmer wurden, neben der letzten Schulnote in<br />
Deutsch (siehe Kapitel 5.2.4, 6.2), im Rahmen des demographischen<br />
Fragebogens als Multiple-Choice-Frage erhoben. Die Teilnehmer konnten dabei<br />
1 4 1
Ergebnisse<br />
zwischen den drei Möglichkeiten „Deutsch als erste Muttersprache“, „Deutsch<br />
als zweite Muttersprache“ und „Deutsch als Fremdsprache“ wählen. In der<br />
vorliegenden Stichprobe hatten 81,2% der Teilnehmer (n=56) Deutsch als erste<br />
Muttersprache, vier Teilnehmer als zweite Muttersprache und 9 Teilnehmer als<br />
Fremdsprache, so dass Teilnehmer mit Deutsch als erste Muttersprache<br />
überrepräsentiert sind. Um aber explorative Aussagen über mögliche<br />
Tendenzen machen zu können, wurde eine einfaktorielle Varianzanalyse<br />
durchgeführt, wobei die Ergebnisse der beiden Messkriterien der KI.BOX als<br />
abhängige Variablen und die unabhängige Variable Deutschkenntnisse mit den<br />
drei Ausprägungen als Faktor herangezogen wurden. Tabelle 24 stellt die<br />
Ergebnisse in verkürzter Form dar. Die Varianzhomogenität wurde zuvor als<br />
gegeben festgestellt.<br />
Tabelle 24: Varianzanalyse für die Variable Deutschkenntnisse und die Ergebnisse in der<br />
KI.BOX für beide Kriterien<br />
df F Signifikanz<br />
Analytische Fähigkeiten<br />
(KI.BOX)<br />
2 1,652 .20<br />
Orga.-konzept. Fähigkeiten<br />
2 6,122 .00**<br />
(KI.BOX)<br />
** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />
Die Ergebnisse zeigen, dass die Deutschkenntnisse der Stichprobe keinen<br />
überzufälligen Effekt auf die Leistungen im Kriterium Analytische Fähigkeiten<br />
haben. Für das Kriterium Organisatorisch-konzeptionelle Fähigkeiten wurden<br />
jedoch hochsignifikante Unterschiede zwischen den drei Gruppen gefunden.<br />
Vergleicht man die Mittelwerte für die Ergebnisse in diesem Kriterium der<br />
KI.BOX, so erkennt man, dass die Teilnehmer mit Deutsch als erster<br />
Muttersprache im Durchschnitt -0,16 Punkte erzielten, Teilnehmer mit Deutsch<br />
als zweiter Muttersprache kamen durchschnittlich auf -6,13 Punkte, während<br />
die Teilnehmer mit Deutsch als Fremdsprache im Mittel -9,11 Punkte erreichten.<br />
Warum die Deutschkenntnisse gerade bei diesem Kriterium einen solchen<br />
Einfluss haben, wird in Kapitel 7 diskutiert. Die Hypothese D.5, in der es um die<br />
Auswirkung der Deutschkenntnisse auf die gesamte Leistung in der KI.BOX,<br />
also in beiden Kriterien geht, wird somit abgelehnt.<br />
1 4 2
Ergebnisse<br />
Überprüfung der Hypothese D.6: Die Hypothese D.6 postuliert, dass kein<br />
statistisch signifikanter Unterschied zwischen Teilnehmern mit verschieden<br />
ausgeprägter Berufserfahrung in den Ergebnissen der KI.BOX bestehe. Die<br />
Berufserfahrung wurde ebenso wie die Deutschkenntnisse im Rahmen des<br />
demographischen Fragebogens erhoben und als Frage mit Multiple-Choice-<br />
System dargeboten. Die anzukreuzenden Möglichkeiten waren „keine<br />
Berufsausbildung“ (67% der Teilnehmer, n=46), „abgebrochene Ausbildung“<br />
(3%, n=2), „abgeschlossene Ausbildung“ (16%, n=11) und „abgeschlossenes<br />
Studium“ (14%, n=9). Auf die Ausprägung „abgebrochenes Studium“ wurde<br />
verzichtet, da dies mit „keine Berufserfahrung“ gleichzusetzen ist. Erneut<br />
herrscht in der Stichprobe eine Überrepräsentation von Teilnehmern ohne<br />
Berufserfahrung vor. Dennoch wurde auch hier zur explorative Analyse eine<br />
einfaktorielle Varianzanalyse durchgeführt, mit den Ergebnissen in der KI.BOX<br />
für beide Kriterien als abhängige Variable und mit der unabhängigen Variable<br />
Berufserfahrung mit den vier Ausprägungen als Faktor. Die Varianzhomogenität<br />
gilt nach den Ergebnissen des Levene-Test als gesichert. Die Ergebnisse der<br />
Varianzanalyse werden in verkürzter Form in Tabelle 25 gezeigt:<br />
Tabelle 25: Varianzanalyse für die Variable Berufserfahrung und die Ergebnisse in der KI.BOX<br />
für beide Kriterien<br />
Analytische Fähigkeiten<br />
(KI.BOX)<br />
Orga.-konzept. Fähigkeiten<br />
(KI.BOX)<br />
df F Signifikanz<br />
4 .40 .81<br />
4 .06 .99<br />
** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />
Aus den nicht signifikanten Ergebnissen wird deutlich, dass sich die Teilnehmer<br />
mit verschieden ausgeprägter Berufserfahrung nicht überzufällig in den<br />
Ergebnissen in der KI.BOX über beide Kriterien unterscheiden. Obwohl auch<br />
hier die Teilnehmer ohne Berufserfahrung in der Stichprobe überrepräsentiert<br />
sind und diesbezügliche Aussagen daher eher explorativen Charakter haben,<br />
lässt sich aus diesen deutlichen Ergebnissen doch ein klarer Trend ablesen.<br />
Aus diesem Grund wird die Hypothese D.6 angenommen.<br />
1 4 3
Ergebnisse<br />
Überprüfung der Hypothese D.7, D.8, D.9 und D.10: In diesem Abschnitt wird<br />
überprüft, ob theoretische und/oder praktische Vorerfahrung mit Postkörben<br />
und Assessment Centern Einfluss auf die Ergebnisse in der KI.BOX haben.<br />
Basierend auf den theoretischen Überlegungen (siehe Kapitel 5.2.5) wird davon<br />
ausgegangen, dass es einen positiven signifikanten Zusammenhang zwischen<br />
KI.BOX-Ergebnissen und theoretischen (Hypothese D.7) sowie praktischen<br />
Vorerfahrungen (Hypothese D.8) mit Postkörben gibt, bezüglich der<br />
theoretischen (Hypothese D.9) und praktischen (Hypothese D.10) Vorerfahrung<br />
mit Assessment Centern wird kein Zusammenhang vermutet. Die jeweiligen<br />
Erfahrungswerte der Teilnehmer wurden anhand eines<br />
Selbsteinschätzungsfragebogens (siehe Anhang B.5) am Ende der<br />
Untersuchung erhoben. Die vier entsprechenden Items wurden als positive<br />
Aussagen formuliert (Beispiel: „Ich habe theoretisches Wissen über <strong>Postkorb</strong>-<br />
Übungen.“). Wie bei den zuvor beschriebenen Selbsteinschätzungen (siehe<br />
Kapitel 6.2) wurde auch hier mit einer sechsstufigen Beurteilungsskala<br />
gearbeitet, die in diesem Fall von „trifft gar nicht zu“ bis „trifft vollkommen zu“<br />
reichte. Die Ergebnisse zu allen vier Items sind erneut linkslastig, d.h. es<br />
überwiegen jeweils die Teilnehmer, die gar keine bis wenig Erfahrung mit<br />
Postkörben und Assessment Centern haben, sowohl im theoretischen als auch<br />
im praktischen Bereich. Dies hängt sicherlich zum Großteil mit der Tatsache<br />
zusammen, das zwei Drittel der Teilnehmer in der Stichprobe unter 25 Jahren<br />
bzw. drei Viertel von ihnen höchstens im dritten Semester waren und somit die<br />
wenigsten bisher an einem AC teilgenommen haben dürften. Dennoch erfolgt<br />
auch hier eine explorative Datenanalyse, indem die Werte der vier Icons mit<br />
den Ergebnissen der KI.BOX in beiden Kriterien korreliert werden. Die<br />
diesbezüglichen Ergebnisse sind Tabelle 26 zu entnehmen:<br />
1 4 4
Ergebnisse<br />
Tabelle 26: Korrelationen der theoretischen und praktischen Vorerfahrungen der Teilnehmer mit<br />
Postkörben und Assessment Centern und den Ergebnissen in der KI.BOX für beide Kriterien<br />
theoretische<br />
Vorerfahrung mit<br />
Postkörben<br />
praktische<br />
Vorerfahrung mit<br />
Postkörben<br />
theoretische<br />
Vorerfahrung mit<br />
Assessment<br />
Centern<br />
praktische<br />
Vorerfahrung mit<br />
Assessment<br />
Centern<br />
Analytische Fähigkeiten<br />
(KI.BOX)<br />
Organisatorisch-konzeptionelle<br />
Fähigkeiten (KI.BOX)<br />
Korrelation nach<br />
Pearson<br />
-.003 .29*<br />
Signifikanz<br />
(2-seitig)<br />
.98 .05<br />
N 69 69<br />
Korrelation nach<br />
Pearson<br />
.06 .23<br />
Signifikanz<br />
(2-seitig)<br />
.61 .06<br />
N 69 69<br />
Korrelation nach<br />
Pearson<br />
.25* .27*<br />
Signifikanz<br />
(2-seitig)<br />
.04 .03<br />
N 69 69<br />
Korrelation nach<br />
Pearson<br />
.11 .07<br />
Signifikanz<br />
(2-seitig)<br />
.39 .56<br />
N 69 69<br />
** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />
* Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.<br />
Die Ergebnisse der statistischen Analyse sind wie folgt zu beschreiben: Das<br />
theoretische Wissen bzw. die theoretische Vorerfahrung mit Postkörben der<br />
Teilnehmer hängt nicht überzufällig stark mit ihren Ergebnissen in den<br />
Analytischen Fähigkeiten zusammen, wohl jedoch mit einer Korrelation von .29<br />
auf signifikantem Niveau mit dem Kriterium Organisatorisch-konzeptionelle<br />
Fähigkeiten. Für eine potenzielle Erklärung sei auf Kapitel 7 verwiesen. Die<br />
Hypothese D.7, die einen Zusammenhang von theoretischer Vorerfahrung mit<br />
Postkörben und beiden Kriterien der KI.BOX postuliert, wird demnach<br />
abgelehnt.<br />
Überraschenderweise hat auch die praktische Vorerfahrung dieser Stichprobe<br />
mit Postkörben keinen Einfluss auf die Ergebnisse in der KI.BOX in beiden<br />
Kriterien, auch wenn bzgl. der Organisatorisch-konzeptionellen Fähigkeiten mit<br />
p=.06 und einer Korrelation in Höhe von .23 ein Trend in die angenommene<br />
Richtung besteht. Die Hypothese D.8 wird also abgelehnt.<br />
Entgegen der aufgestellten Hypothese bestehen signifikante Zusammenhänge<br />
von theoretischem Wissen über Assessment Center und beiden Kriterien der<br />
1 4 5
Ergebnisse<br />
KI.BOX in Höhe von .25 bzw. .27 (beides auf Signifikanzniveau .05). Die<br />
Hypothese D.9 wird somit ebenfalls abgelehnt.<br />
Den Ergebnissen der statischen Analyse zufolge besteht kein signifikanter<br />
positiver Zusammenhang von praktischer Vorerfahrung mit Assessment<br />
Centern und den KI.BOX-Ergebnissen in beiden Kriterien. Dies ist<br />
hypothesenkonform, überrascht jedoch aufgrund der gefundenen<br />
Zusammenhänge mit der theoretischen Vorerfahrung zum AC. Obwohl die<br />
Hypothese D.10 bestätigt wurde und somit angenommen wird, werden in<br />
Kapitel 7 mögliche Überlegungen über das Zustandekommen dieser teilweise<br />
überraschenden Ergebnisse diskutiert.<br />
6.5.1 Zusammenfassung<br />
Es wurde untersucht, ob verschiedene demographische Daten sowie die<br />
Vorerfahrung der Teilnehmer Zusammenhänge mit den Ergebnissen in der<br />
KI.BOX haben. Die vorgenommen Datenanalysen weisen aufgrund der<br />
unregelmäßig verteilten Merkmale in der Stichprobe eher explorativen<br />
Charakter auf. Bezüglich des Geschlechts und des Alters der Teilnehmer<br />
konnten keine Effekte festgestellt werden. Gleiches gilt für das Studienfach der<br />
Teilnehmer. Des Weiteren wurde kein Zusammenhang zwischen KI.BOX-<br />
Ergebnissen und der Semesterzahl gefunden. Die Deutschkenntnisse weisen<br />
einen überzufälligen Effekt auf das Kriterium Organisatorisch-konzeptionelle<br />
Fähigkeiten auf, jedoch keinen bedeutsamen Einfluss auf die Analytischen<br />
Fähigkeiten. Bezüglich der Berufserfahrung wurde gar kein Zusammenhang<br />
gefunden. Zum theoretischen Wissen über Postkörbe wurde lediglich ein<br />
Zusammenhang mit den Organisatorisch-konzeptionellen Fähigkeiten ermittelt,<br />
nicht zu den Analytischen Fähigkeiten. Praktische Erfahrungen mit Postkörben<br />
weisen indes gar keinen bedeutsamen Zusammenhang zu keinem der beiden<br />
Kriterien auf. Entgegen der Hypothese konnten jedoch signifikante positive<br />
Korrelationen zum theoretischen Wissen über Assessment Center gefunden<br />
werden. Die praktischen AC-Erfahrungen weisen wiederum keinen<br />
überzufälligen Zusammenhang zu den KI.BOX-Ergebnissen auf.<br />
1 4 6
Diskussion<br />
7 Diskussion<br />
In den folgenden Abschnitten werden die in Kapitel 6 dargestellten Ergebnisse<br />
dieser Untersuchung diskutiert. Konkret wird dabei in der Reihenfolge der im<br />
Vorfeld formulierten Hypothesen vorgegangen und die Ergebnisse im Hinblick<br />
auf potenzielle Ursachen interpretiert. Zunächst werden die Ergebnisse<br />
bezüglich der Gütekriterien der KI.BOX (7.1) sowie zu Leistungsunterschieden<br />
von computererfahrenen und -unerfahrenen Teilnehmern (7.2) behandelt. Im<br />
Anschluss daran erfolgt die Diskussion zur Auswirkung von Reihenfolgeeffekten<br />
(7.3) und der demographischen Daten der Teilnehmer (7.4). Abschließend<br />
sollen im Fazit Implikationen der gefundenen Ergebnisse für die Praxis und ein<br />
Ausblick auf zukünftige Forschungsfragen (7.5) dargestellt werden.<br />
7.1 Gütekriterien der KI.BOX<br />
Da die Objektivität (7.1.1) und Reliabilität (7.1.2) der KI.BOX nicht explizit Teil<br />
der empirische Untersuchung dieser Arbeit waren, soll nur kurz auf diese<br />
beiden Gütekriterien eingegangen werden. Danach erfolgt eine ausführlichere<br />
Diskussion der untersuchten Validitätsaspekte (7.1.3), bevor dann in Kapitel<br />
7.1.4 auf die Nebengütekriterien eingegangen wird.<br />
7.1.1 Objektivität<br />
Die Objektivität eines Tests wird nach Lienert (1969) definiert als der Grad, mit<br />
dem das Ergebnis eines Testes unabhängig vom Untersucher ist. Wie bereits in<br />
Kapitel 4.1 festgestellt wurde, kann die Objektivität der KI.BOX sowohl in Bezug<br />
auf die Durchführung, die Auswertung als auch die Interpretation als gegeben<br />
beurteilt werden.<br />
Die Durchführung erfolgt in Einzelarbeit und ausschließlich durch das<br />
Programm gesteuert, so dass die Leistung eines Teilnehmers nicht durch<br />
Gruppenprozesse oder Interaktionen mit anderen Teilnehmern beeinflusst wird.<br />
Zudem erfolgt die Instruktion zum einen in schriftlicher Form, zum anderen als<br />
1 4 7
Diskussion<br />
Einarbeitungszeit direkt auf dem Computer, so dass nahezu keine Interaktion<br />
mit dem Versuchsleiter von Nöten ist (siehe Kapitel 3.2). Auch die Auswertung<br />
gilt als maximal objektiv, da die Vergabe von Punkten und Testkennwerten<br />
automatisch durch das Reporting-Tool erfolgt. Zudem gibt es bei der KI.BOX<br />
keine offenen Fragen, so dass kein Raum für subjektive Interpretationen bleibt.<br />
Die Interpretationsobjektivität gilt somit ebenfalls als gegeben, da das<br />
Reporting-Tool die Testkennwerte unmittelbar in die AC-übliche sechsstufige<br />
Skala von „---„ bis „+++“ einordnet (siehe Kapitel 3.5), wodurch die Position<br />
eines Probanden innerhalb eines Assessment Centers verdeutlicht wird.<br />
Als möglicher Kritikpunkt zur Objektivität ist jedoch ein ähnlicher Aspekt wie bei<br />
der Mailbox’90 (siehe Kapitel 2.4.3.1) anzuführen. So ist anzunehmen, dass im<br />
Arbeitsprozess auftretende Störungen, wie bei der KI.BOX etwa durch neu<br />
eintreffende E-Mails, die Durchführungsobjektivität beeinflussen können,<br />
besonders wenn Störungen die Teilnehmer während unterschiedlicher<br />
Arbeitsprozesse unterbrechen. Es könnte demnach einen Unterschied machen,<br />
ob dieselbe neu eintreffende Mail einen Teilnehmer genau im Übergang von<br />
einem Item zum nächsten oder inmitten der Bearbeitung eines schwierigen<br />
Items erreicht, so dass er aus seiner Konzentration gerissen wird. Ob dies bei<br />
einer im Vergleich zur Mailbox’90 eher geringen Störungsquote schon<br />
ausschlaggebend sein kann, bedarf noch weiterer Forschung, erscheint aber<br />
generell als unwahrscheinlich, da es sich bei der KI.BOX lediglich um vier neu<br />
eintreffende E-Mails handelt. Zudem ist zu betonen, dass es sich bei diesem<br />
<strong>Postkorb</strong> um einen situativen Test handelt und das Eintreffen neuer Mails, die<br />
die aktuellen Arbeiten kurzeitig unterbrechen können, in der hier realisierten<br />
Frequentierung im Büroalltag durchaus realistisch ist. Sollten diese wenigen<br />
Störungen also tatsächlich Einflüsse auf die Performance haben, was nicht<br />
anzunehmen ist, so wäre ggf. dem Argument der realistischen Simulation in<br />
diesem Fall der Vorzug zu geben. Immerhin sind gerade die Fähigkeiten, neue<br />
Aspekte zügig und ganzheitlich zu erfassen und daraufhin eine logische<br />
Priorisierung zu treffen, Bestandteile der Messung der KI.BOX. Obwohl von<br />
einer Beeinträchtigung der Objektivität also nicht auszugehen ist, könnte man<br />
zur abschließenden Klärung dieser Frage in nachfolgenden Untersuchungen<br />
aufgrund der vom Computer zusätzlich erfassten Daten feststellen, welche<br />
1 4 8
Diskussion<br />
Items gerade bei den jeweiligen Störungen bearbeitet wurden und analysieren,<br />
ob es dahingehend Unterschiede zwischen Teilnehmern mit guten und weniger<br />
guten Ergebnissen gibt.<br />
7.1.2 Reliabilität<br />
Wie in Kapitel 2.3.5.3 und 4.1 beschrieben, ist die Überprüfung der Reliabilität<br />
eines situativen, kriteriumsorientierten Tests mit untereinander vernetzten und<br />
teilweise dynamischen Items auf Grundlage des aktuellen Forschungsstands<br />
nahezu unmöglich. Da sämtliche aus der klassischen Testtheorie bekannte<br />
Methoden zur Reliabilitätsbestimmung (siehe Kapitel 2.1.1.2) unzulässig oder<br />
wegen auftretender Übungseffekte nicht aussagekräftig wären, kann nur von<br />
einer vorhandenen hohen Objektivität, die bei der KI.BOX gegeben ist, auf eine<br />
ebenfalls hohe Reliabilität geschlossen werden. Aufgrund dessen bleibt<br />
anzunehmen, dass die Reliabilität, soweit diese bei kriteriumsorientierten Tests<br />
überhaupt existiert (Klauer, 1987), bei der KI.BOX vergleichsweise hoch ist. Als<br />
einzige denkbare Annäherung an eine Reliabilitätsbestimmung in<br />
nachfolgenden Untersuchungen könnte ggf. eine andere Version der KI.BOX,<br />
d.h. eine Version, die an ein anderes Unternehmen angepasst wurde und daher<br />
geringfügig von der Basisversion abweicht, als Paralleltest dargeboten werden.<br />
Um Übungseffekte möglichst zu vermeiden und um die Teilnehmer aufgrund<br />
der hohen Stressbelastung bei Postkörben nicht zu überfordern, sollten diese<br />
Testungen an verschiedenen Tagen stattfinden, wobei sich wiederum das<br />
Problem von Versuchspersoneneffekten als mögliche Störvariablen stellt.<br />
Wirklich exakte Aussagen über die Reliabilität der KI.BOX können jedoch<br />
derzeit und womöglich auch in zukünftigen Untersuchungen nicht getroffen<br />
werden.<br />
7.1.3 Validität<br />
Die Überprüfung der Validität der KI.BOX wurde anhand verschiedener Kriterien<br />
überprüft und erbrachte zum Teil sehr günstige, mitunter aber auch unerwartete<br />
1 4 9
Diskussion<br />
Ergebnisse. Wie diese möglicherweise zustande kamen und zu bewerten sind,<br />
soll nun diskutiert werden. In Kapitel 7.1.3.1 wird im Rahmen der Überprüfung<br />
der Kriteriumsvalidität auf die Ergebnisse zu den äußeren Validierungskriterien<br />
eingegangen, Kapitel 7.1.3.2 befasst sich mit der inneren Validität der KI.BOX.<br />
Zu den anderen Validitätsarten sei auf Kapitel 4.1 verwiesen.<br />
7.1.3.1 Äußere Validität<br />
Zunächst wurden die Ergebnisse der beiden Kriterien der KI.BOX mit der<br />
Abiturnote der Probanden als äußeres Validierungskriterium korreliert, da diese<br />
als guter Prädiktor für Studien- und Berufserfolg gelten (siehe Kapitel 5.2.4).<br />
Entgegen den Annahmen, die sich aus den theoretischen Überlegungen und<br />
Studien von Baron-Boldt, Funke und Schuler (1989) oder Schmidt-Atzert (2006)<br />
ergaben, wurden jedoch keine signifikanten Zusammenhänge gefunden. Eine<br />
mögliche Erklärung für dieses Ergebnis findet sich möglicherweise in der<br />
Stichprobe selbst. Diese setzte sich wie erwähnt hauptsächlich aus<br />
Psychologiestudenten im Grundstudium der Universität zu Köln zusammen, an<br />
der zum Zeitpunkt der Datenerhebung ein Numerus Clausus von 1,7 für dieses<br />
Studienfach galt. Da die meisten Teilnehmer zudem zwischen dem 18. und 25.<br />
Lebensjahr waren, sind diese auch nicht über Wartezeiten an den Studienplatz<br />
gekommen, sondern mussten vornehmlich einen sehr niedrigen<br />
Abiturdurchschnitt haben. Tatsächlich zeigt eine Häufigkeitsverteilung dieser<br />
Variable einen deutlichen Deckeneffekt, nämlich dass über die Hälfte der<br />
Teilnehmer (n=35) einen Abiturdurchschnitt von unter 1,7 aufwiesen. Nach<br />
Hussy und Jain (2002) kann eine geringe Streuung der Werte in einer<br />
Stichprobe dazu führen, dass bestehende Unterschiede zwischen den<br />
Untersuchungsgruppen oder Variablen verwischt oder Korrelationen<br />
unterschätzt werden. Es ist also denkbar, dass zwar ein möglicherweise<br />
signifikanter Zusammenhang von Abiturnote und den Ergebnissen in der<br />
KI.BOX besteht, dieser in der untersuchten Stichprobe allerdings nicht<br />
aufgedeckt werden konnte. Da die KI.BOX jedoch zur Auswahl von<br />
Hochschulabsolventen und Trainees verschiedener Fachbereiche eingesetzt<br />
1 5 0
Diskussion<br />
werden soll, sollte in nachfolgenden Untersuchungen unbedingt eine<br />
gemischtere Stichprobe herangezogen werden, in der mehrere Studienfächer,<br />
unter anderem auch solche mit niedrigerem oder gänzlich ohne<br />
Zulassungsbeschränkung, gleich stark repräsentiert sind.<br />
Ähnlich wie bei der Abiturnote wurde auch bezüglich der letzten Schulnote in<br />
Deutsch entgegen der Hypothese kein signifikanter Zusammenhang zu den<br />
KI.BOX-Ergebnissen gefunden, obwohl auch diese als guter Prädiktor für<br />
Studien- und Berufserfolg gilt. Die zuvor gegebene Erklärung mag auch hier<br />
zutreffen, da knapp 80% der Teilnehmer (n=57) keine Deutschnote unter 10<br />
Punkten bzw. der Note 2- hatten. Für diese Annahme spricht auch, dass die<br />
Schulnote in Deutsch besonders hoch mit dem Studienerfolg in Geistes- und<br />
Humanwissenschaften korreliert (Baron-Boldt, Funke & Schuler, 1989) und die<br />
meisten Teilnehmer Psychologiestudenten mit einem guten bis sehr guten<br />
Abiturdurchschnitt waren, was eine Begründung dafür sein könnte, dass beide<br />
Variablen nicht mit den KI.BOX-Ergebnissen korrelieren. Somit gilt also auch<br />
hier, dass ein möglicherweise vorhandener Zusammenhang zwischen<br />
Deutschnote und KI.BOX-Ergebnissen existieren könnte, dieser jedoch in der<br />
untersuchten Stichprobe nicht auszumachen ist. Um diese These zu<br />
bekräftigen, wurde eine Sekundäranalyse mit Hilfe der AZUBI-BK<br />
vorgenommen. Diese kann in ihrem Auswertungsprogramm neben den bereits<br />
beschriebenen Kennwerten einen Wert für die „sprachlichen Fähigkeiten“ jedes<br />
Teilnehmers ausgeben. Da die AZUBI-BK aber komplett in Deutsch<br />
durchgeführt wird, dürfte es sich wohl genauer um die Fähigkeiten bzgl. der<br />
deutschen Sprache handeln. Werden diese nun mit den Ergebnissen beider<br />
Kriterien der KI.BOX korreliert, so ergeben sich hochsignifikante<br />
Zusammenhänge von .35 zu den Analytischen Fähigkeiten und .42 zu den<br />
Organisatorisch-konzeptionellen Fähigkeiten. Die sprachlichen Fähigkeiten aus<br />
der AZUBI-BK korrelieren wiederum laut den Testautoren hoch mit den<br />
entsprechenden Schulnoten (Schuler & Klingner, 2005). Es scheint also doch<br />
einen deutlichen Zusammenhang von sprachlicher Fähigkeit in Deutsch, welche<br />
als Prädiktor für Studien- und Berufserfolg gilt, und der Leistung in der KI.BOX<br />
zu geben, die jedoch nicht anhand der Schulnoten in dieser Stichprobe ermittelt<br />
werden kann. Eine zukünftige Untersuchung mit einer Stichprobe, in der die<br />
1 5 1
Diskussion<br />
letzten Schulnoten in Deutsch besser verteilt sind, könnte also auch hier offen<br />
gebliebene Fragen beantworten. Die im Rahmen der demographischen Daten<br />
erfasste Frage nach Deutsch als Muttersprache der Teilnehmer soll in dieser<br />
Diskussion zunächst außen vor bleiben, da diese Frage weniger prognostische<br />
Aussagen zulässt. Vielmehr sollte sie zeigen, ob die Items der KI.BOX klar<br />
formuliert und leicht verständlich sind, worauf in Kapitel 7.4 eingegangen wird.<br />
Hinsichtlich der letzten Schulnote in Mathematik konnte hypothesenkonform ein<br />
signifikanter Zusammenhang von .31 zu den Analytischen Fähigkeiten der<br />
KI.BOX gefunden werden. Ein Grund dafür, welcher ebenfalls für die Annahme<br />
spricht, dass die zuvor genannten Zusammenhänge aufgrund der ungünstigen<br />
Stichprobenmerkmale nicht ermittelt werden konnten, liegt an der weniger<br />
starken Ausprägung des Deckeneffekts bzgl. dieses Merkmals. Zwar existiert<br />
immer noch ein leichter Deckeneffekt, jedoch liegen hier nur etwa 60% der<br />
Teilnehmer (n=40) über 10 Punkten. Diese Verteilung in der<br />
Merkmalsausprägung, die eher im mittelmäßigen bis guten Bereich liegt,<br />
scheint somit deutlich repräsentativer für die Zielgruppe zu sein, die mit der<br />
KI.BOX getestet werden sollen, was bei den hier erfragten Abitur- und<br />
Deutschnoten nicht unbedingt der Fall war. Ein weiterer Aspekt ist, dass in der<br />
KI.BOX und im Speziellen in den Items zu den Analytischen Fähigkeiten auch<br />
mathematische Problemstellungen enthalten sind und das zügige und korrekte<br />
Lösen dieser Probleme sogar in die Kriteriendefinition aufgenommen wurde<br />
(siehe Kapitel 3.4). Es ist demnach als äußerst positiv zu bewerten, dass ein<br />
diesbezüglicher Zusammenhang aufgedeckt wurde, da somit belegt wird, dass<br />
die KI.BOX im Kriterium Analytische Fähigkeiten den Aspekt der<br />
mathematischen Fähigkeiten valide erfasst. Um dies zu untermauern, wurde<br />
auch hier eine Sekundäranalyse durch die AZUBI-BK und den in ihrem<br />
Auswertungsprogramm zusätzlich generierten Kennwert „rechnerische<br />
Fähigkeiten“ durchgeführt. Es zeigt sich eine hochsignifikante Korrelation zu<br />
den Analytischen Fähigkeiten der KI.BOX von .31, so dass die Validität der<br />
KI.BOX zum Erfassen der mathematischen Fähigkeiten der Teilnehmer im<br />
Kriterium Analytische Fähigkeiten als gesichert gelten kann.<br />
Neben dem Abiturdurchschnitt und den beiden Einzelschulnoten wurden<br />
Selbsteinschätzungen der Teilnehmer bezüglich ihrer analytischen und<br />
1 5 2
Diskussion<br />
organisatorisch-konzeptionellen Fähigkeiten anhand einer sechsstufigen<br />
Beurteilungsskala erfasst, und diese mit den Ergebnissen der KI.BOX zu den<br />
jeweiligen Kriterien korreliert. Im Bereich Analytische Fähigkeiten fand sich ein<br />
signifikanter Zusammenhang von .29, so dass dieses Kriterium durch die<br />
Selbsteinschätzung der Teilnehmer validiert wird. Die Selbsteinschätzung ist<br />
jedoch ein höchst subjektives Kriterium und daher für sich allein genommen<br />
kaum aussagekräftig. In Zusammenhang mit den anderen<br />
Validierungsergebnissen dieser Studie scheint das Ergebnis jedoch<br />
aussagekräftiger, da auch viele andere Punkte für eine Validität der KI.BOX im<br />
Bereich Analytische Fähigkeiten sprechen (z.B. hochsignifikante Korrelation zur<br />
letzten Schulnote in Mathematik, darüber hinaus verschiedene Ergebnisse der<br />
inneren Validitätsprüfung, siehe Kapitel 7.1.3.2). Im Bereich der<br />
Organisatorisch-konzeptionellen Fähigkeiten fand sich entgegen der Annahme<br />
kein signifikanter Zusammenhang, jedoch immerhin eine positive Korrelation<br />
von .14, was zumindest einen Trend in die richtige Richtung darstellt. Eine<br />
mögliche Erklärung für die geringe Ausprägung der Korrelation könnte die<br />
Formulierung des Kriteriums sein. Während der Begriff „Analytische<br />
Fähigkeiten“ einleuchtend beschreibt, dass es darum geht, wie gut<br />
Sachverhalte analysiert und durchdrungen werden können, oder zumindest,<br />
dass dieses Messkriterium etwas mit Intelligenz zu tun haben muss, könnte die<br />
Definition des Begriffs „Organisatorisch-konzeptionelle Fähigkeiten“ für nicht<br />
oder wenig psychologisch geschulte Teilnehmer bzw. Studienanfänger schon<br />
weniger eindeutig sein. Dies wird auch durch die Tatsache gestützt, dass<br />
während der Bearbeitung dieses Selbsteinschätzungsitems mehrfache<br />
Verständnisnachfragen der Teilnehmer auftraten. Ob die Ergebnisse auf das<br />
sprachliche Hindernis, nämlich dem Verständnis des doppelten Adverbs<br />
„organisatorisch-konzeptionell“ zurückzuführen ist oder darauf, dass sich die<br />
Teilnehmer zu wenig Inhaltliches unter diesem Begriff vorstellen konnten, bleibt<br />
ungewiss. Ein weiterer Grund für einen nicht gefundenen, jedoch<br />
möglicherweise doch bestehenden Zusammenhang von <strong>Postkorb</strong>ergebnis und<br />
Selbsteinschätzung könnte die soziale Erwünschtheit sein. Die Teilnehmer<br />
wollten sich im Fragebogen möglicherweise besser darstellen, was zu<br />
überhöhten Antwortwerten geführt haben könnte. Hierfür sprechen auch die<br />
1 5 3
Diskussion<br />
Mittelwerte der beiden Selbstenschätzungsitems, die mit 4,35 bei den<br />
Analytischen Fähigkeiten und 4,28 bei den Organisatorisch-konzeptionellen<br />
Fähigkeiten jeweils im überdurchschnittlichen Bereich der sechsstufigen<br />
Einschätzungsskala liegen. Dies wiederum könnte jedoch auch an der<br />
Formulierung der Items gelegen habe, da hier nach einem Vergleich der<br />
eigenen Fähigkeiten „zu anderen Studierenden“ gefragt wurde. Anzunehmen<br />
wäre demnach, dass besonders die Psychologiestudenten, die wie erwähnt<br />
überwiegend gute Noten und einen niedrigen Abiturdurchschnitt aufwiesen<br />
(siehe oben), in der untersuchten Stichprobe von ihren Fähigkeiten in diesen<br />
kognitiven Kompetenzen sehr überzeugt waren und diese im Vergleich etwa zu<br />
Studenten in Fächern ohne Zulassungsbeschränkungen durchschnittlich höher<br />
einschätzten. Diese Annahmen sind jedoch bis dato rein spekulativ und<br />
bedürfen weiterer Studien, in der auch genügend Teilnehmer aus anderen<br />
Studienbereichen vertreten sind. Aufgrund der Selbsteinschätzung der<br />
Teilnehmer zu ihren Organisatorisch-konzeptionellen Fähigkeiten können bis<br />
dahin jedoch keine abgesicherten Aussagen über die Validität der KI.BOX<br />
gemacht werden. Da der Trend der Korrelation jedoch erkennbar wird, könnten<br />
in nachfolgenden Untersuchungen erneut Selbsteinschätzungen zu den beiden<br />
Kriterien erhoben werden. Allerdings müssten den Teilnehmern dann adäquate<br />
Definitionen zur Verfügung stehen, die möglichst alle Aspekte des jeweiligen<br />
Kriteriums erfassen, besonders bezüglich der Organisatorisch-konzeptionellen<br />
Fähigkeiten. Weiterhin sollte die Stichprobe wie oben erwähnt mehr Studenten<br />
aus anderen Fachrichtungen enthalten.<br />
7.1.3.2 Innere Validität<br />
Die für die KI.BOX günstigsten Ergebnisse liefert die Validierung mittels der<br />
AZUBI-BK. Die beiden Kriterien der KI.BOX korrelieren jeweils hochsignifikant<br />
bei mittleren bis starken Effekten mit dem Gesamttestwert der AZUBI-BK bzw.<br />
die Analytischen Fähigkeiten der KI.BOX zu .44 mit dem Grundmodul und die<br />
Organisatorisch-konzeptionellen Fähigkeiten zu .53 mit Postmodul der AZUBI-<br />
BK. Da die jeweiligen Kriterien und Module ähnliche Verhaltensmerkmale<br />
erfassen, und zudem diverse andere Ergebnisse dieser Studie auch dafür<br />
1 5 4
Diskussion<br />
sprechen, kann von einer bestätigten Validität der KI.BOX in beiden Kriterien<br />
ausgegangen werden. Es bleibt die Frage, ob die gefundenen Koeffizienten<br />
unter anderen Bedingungen anders ausfallen würden. Auf mögliche<br />
Implikationen für nachfolgende Studien sei diesbezüglich aber auf Kapitel 7.5<br />
verwiesen.<br />
Als nicht signifikant wurde jedoch die Korrelation zwischen den<br />
Bearbeitungszeiten in beiden Tests beobachtet. Dieses Ergebnis überraschte<br />
zunächst, da doch beide Tests ähnliche Dimensionen erfassen und gleichsam<br />
im Bürokontext angesiedelt sind. Erklären lässt sich dieses Ergebnis womöglich<br />
dadurch, dass die KI.BOX als computergestützter Test für die Teilnehmer neu<br />
und ungewohnt war, während die Paper-Pencil-Form der AZUBI-BK besonders<br />
den vielen Psychologiestudenten vertrauter gewesen sein dürfte. Obwohl die<br />
Computerkenntnisse keine bedeutende Rolle für die Performance in der KI.BOX<br />
haben (siehe unten), war es wohl dennoch für viele der Studentinnen und<br />
Studenten zumindest ungewohnt, bei einem Test am Computer zu sitzen und<br />
zwischen verschiedenen Seiten hin- und herklicken zu müssen, anstatt wie bei<br />
der AZUBI-BK und den meisten anderen Tests auf einem Blatt Papier die<br />
Lösungen einfach von oben nach unten anzukreuzen. Da jedoch die KI.BOX im<br />
Rahmen von Auswahlverfahren für Positionen mit Büroarbeitsplätzen eingesetzt<br />
werden soll, ist zu erwarten, dass die Bewerber mit der realistischen und an<br />
gängigen Programmen orientierten Darstellungsform der KI.BOX,<br />
beispielsweise einem wiederholten Wechsel vom Posteingangsfenster zur<br />
Kalenderfunktion, besser vertraut sind als die Teilnehmer der studentischen<br />
Stichprobe zu Beginn ihres Studiums.<br />
Mittels der entsprechenden Subskala aus dem BIP wurde überprüft, ob die<br />
Gewissenhaftigkeit mit den Ergebnissen der KI.BOX korreliert, da nach Schmidt<br />
und Hunter (1998) die Leistungsbeurteilung der Arbeit eines Probanden zu 31%<br />
durch Gewissenhaftigkeit erklärt werden kann. Tatsächlich korrelierten die<br />
Ergebnisse dieses Fragebogens zu .29 signifikant mit den KI.BOX-Ergebnissen,<br />
allerdings nur im Kriterium Organisatorisch-konzeptionelle Fähigkeiten, bei den<br />
Analytischen Fähigkeiten wurde mit einer Korrelation von .10 kein signifikanter<br />
Zusammenhang ausgemacht. Eine mögliche Begründung hierfür könnte sein,<br />
dass sich die Aufgaben zu den Analytischen Fähigkeiten in der KI.BOX klarer<br />
1 5 5
Diskussion<br />
darstellen als zu den Organisatorisch-konzeptionellen Fähigkeiten. Man hat<br />
meist eine E-Mail mit einer darin enthaltenen Aufgabe vor sich, bei der man<br />
beispielsweise etwas logisch kombinieren oder errechnen muss, und wenn man<br />
eine Aufgabe aus diesem Bereich gelöst hat, kann zur nächsten übergegangen<br />
werden. Bei den Organisatorisch-konzeptionellen Aufgaben hingegen muss<br />
man dagegen eher aufwändigere Probleme lösen, z.B. etwas aus Tabellen<br />
heraussuchen, zwischen früheren und späteren Mails hin- und herklicken, aus<br />
verschiedenen Alternativen aufgrund der Informationslage die richtigen<br />
Lösungen aussuchen, den Kalender sinnvoll anlegen, etc. Diese Items korrekt<br />
zu bearbeiten erfordert mitunter ein detailliertes und somit gewissenhafteres<br />
Vorgehen, was die gefundene Korrelation erklären würde. Somit können also<br />
8% der Varianz im Ergebnis zu diesem Kriterium der KI.BOX durch die BIP-<br />
Skala zur Gewissenhaftigkeit aufgeklärt werden. Da diese als recht<br />
verlässlicher Prädiktor für spätere Leistungsbeurteilungen, Einkommen oder<br />
beruflicher Zufriedenheit gilt (siehe Kapitel 5.2.2), spricht auch dieses Ergebnis<br />
für die Validität der KI.BOX.<br />
Insgesamt kann man festhalten, dass auf Grundlage der in dieser<br />
Untersuchung gefundenen Ergebnisse die Validität der KI.BOX zunächst als<br />
gesichert anzusehen ist, da die beiden Kriterien offensichtlich auch das<br />
messen, was sie messen sollen. Die Ergebnisse zur inneren Validitätsprüfung<br />
sprechen deutlich dafür, die äußere Validitätsprüfung weist hauptsächlich bei<br />
den Analytischen Fähigkeiten in diese Richtung. Dennoch sollten hierzu weitere<br />
Untersuchungen mit den oben angesprochenen Variationen folgen,<br />
insbesondere mit einer gemischteren, der tatsächlichen Bewerberpopulation<br />
ähnlicheren Stichprobe.<br />
7.1.4 Nebengütekriterien<br />
Im Folgenden soll die KI.BOX im Hinblick auf die in Kapitel 2.1.1.4 aufgeführten,<br />
von Lienert (1969) aufgestellten Nebengütekriterien besprochen werden. Dabei<br />
wird auf die Aspekte der Normierung, Vergleichbarkeit, Ökonomie und<br />
Nützlichkeit genauer eingegangen.<br />
1 5 6
Diskussion<br />
Eine Normierung der KI.BOX ist bis zum Abschluss dieser Arbeit noch nicht<br />
erfolgt, da der <strong>Postkorb</strong> noch sehr neu und der bisher vorliegende Datensatz zu<br />
gering ist. Die Normierung sollte aus den oben angesprochenen Gründen auch<br />
nicht anhand der hier erhobenen vergleichsweise kleinen studentischen<br />
Stichprobe erfolgen, sondern anhand realistischer, aus der Praxis gewonnener<br />
Daten, wenn die KI.BOX in wirklichen Assessment Centern zur Auswahl von<br />
Hochschulabsolventen und Trainees eingesetzt wird. Sollte diese Normierung<br />
mit einer ausreichend hohen Teilnehmeranzahl erfolgen, könnte eine<br />
diesbezügliche zusätzliche Auswertung in das Reporting-Tool der KI.BOX<br />
integriert werden, um zu zeigen, welche Position ein Proband hinsichtlich der<br />
beiden Kriterien im Verhältnis zu den Testergebnissen anderer Probanden<br />
einnimmt. Diese relative Ergebnisbetrachtung, die bereits im PC-<strong>Postkorb</strong><br />
„Seeblick“ (Kapitel 2.4.3.3) realisiert ist, würde einerseits einen deutlichen<br />
Informationsgewinn bei der Auswertung der KI.BOX bedeuten, zum anderen<br />
würde man somit dem <strong>Postkorb</strong> als Mischform aus Modellen der klassischen<br />
Testtheorie sowie der kriteriumsorientierten Leistungsmessung gerecht werden.<br />
Die Umsetzung einer solchen Normierung ist nach Aussagen des Testautors<br />
bereits in Planung.<br />
Die Vergleichbarkeit der KI.BOX gilt als gesichert, da das Verfahren über die<br />
AZUBI-BK, welche ähnliche Dimensionen erfasst, einer inneren<br />
Validitätskontrolle unterzogen wurde, in der hochsignifikante Zusammenhänge<br />
gezeigt werden konnten. Die Überprüfung der Vergleichbarkeit mittels<br />
Paralleltest-Methode ist kaum möglich, da bei einem <strong>Postkorb</strong> zu starke<br />
Übungseffekte wirken würden.<br />
Des Weiteren kann festgehalten werden, dass die KI.BOX wie die meisten<br />
computergestützten Postkörbe als ökonomisch zu bewerten ist. Die<br />
Vorbereitung-, Durchführungs- und Auswertungszeit beträgt insgesamt etwa 85<br />
Minuten. Dies klingt zunächst lang, ist aber im Vergleich etwa zu einem<br />
Intelligenztest oder auch einer Übung des Assessment Centers, wie<br />
beispielsweise der Fallstudie mit Vorbereitung und Durchführung durch die<br />
Teilnehmer und anschließender Beurteilung und Konferenz der Beobachter,<br />
durchaus im kurzen bis durchschnittlichen Zeitbereich. Hinzu kommt, dass ein<br />
computergestützter <strong>Postkorb</strong> zwar während der Konzeptions- und<br />
1 5 7
Diskussion<br />
Programmierungsphase kostenintensiver als andere Verfahren ist, er aber nach<br />
der Fertigstellung einfach und schnell auf die entsprechenden<br />
Kundenbedürfnisse angepasst werden kann, was bei der KI.BOX bei<br />
zukünftigen Einsätzen der Fall wäre. Material wird auch kaum verbraucht, da<br />
außer die wenigen Seiten der Papier-Instruktion alles über den Computer läuft.<br />
Theoretisch wäre die KI.BOX sogar als Gruppentest einsetzbar, sofern<br />
ausreichend Computerarbeitsplätze bzw. Laptops vorhanden sind.<br />
Ebenso kann die Nützlichkeit der KI.BOX als hoch eingeschätzt werden. Zwar<br />
existieren bereits andere Postkörbe, die ähnliche Kriterien erfassen (siehe<br />
Tabelle 3), und auch computergestützte Verfahren dieser Art werden bereits auf<br />
dem Markt angeboten (siehe Kapitel 2.4.3), jedoch bietet die KI.BOX doch<br />
besonders in Hinblick auf ihr modernes Design und die damit verbundene hohe<br />
Softwareergonomie sowie ihre wissenschaftliche Güte, die in der vorliegenden<br />
Arbeit bestätigt wurde, bedeutende Vorteile, mit denen sie vergleichbaren<br />
Verfahren überlegen scheint.<br />
In Bezug auf die Nebengütekriterien kann die KI.BOX also als sehr zufrieden<br />
stellend beurteilt werden, besonders wenn die zusätzliche Auswertung per<br />
Normstichprobe in naher Zukunft noch verwirklicht wird.<br />
7.2 Zusammenhang von Computererfahrung und Leistung in der<br />
KI.BOX<br />
In der vorliegenden Untersuchung konnte bestätigt werden, dass die Leistung<br />
der Probanden in der KI:BOX nicht davon abhängt, wie erfahren sie im Umgang<br />
mit Computern und Computeranwendungen sind. Zur Überprüfung des<br />
Einflusses dieser Variablen wurden mit SUCA und VECA zwei<br />
Selbsteinschätzungsfragebögen eingesetzt (siehe Kapitel 5.2.3).<br />
Selbstauskunftsfragebögen bringen jedoch immer die Gefahr von Verzerrungen<br />
durch soziale Erwünschtheit mit sich. Dies könnte in der aktuellen<br />
Untersuchung besonders der Fall gewesen sein, wenn die Testpersonen nicht<br />
verstanden hätten, dass das Ausfüllen des Fragebogens nicht mehr Teil der<br />
Testung war, über das ihnen ein Feedback versprochen worden war. Somit<br />
1 5 8
Diskussion<br />
hätten einzelne Teilnehmer möglicherweise versuchen können, ihr Wissen im<br />
Umgang mit Computern als umfangreicher darzustellen als es in Wirklichkeit ist.<br />
Um diesen Effekt zu vermeiden, wurden die Teilnehmern vor dem Austeilen des<br />
Fragebogens, der ja sowohl in Versuchsbedingung 1 wie Bedingung 2 am Ende<br />
der Untersuchung, also jeweils nach KI.BOX und AZUBI-BK ausgeteilt wurde,<br />
explizit darauf hingewiesen, dass die Ergebnisse im nun folgenden Fragebogen<br />
nicht mehr Teil des Feedbacks sein würden und sie deshalb möglichst ehrlich<br />
antworten sollten. Dass dies von den Teilnehmern wohl auch größtenteils<br />
berücksichtigt wurde, zeigt die Verteilung der Werte der SUCA- und VECA-<br />
Ergebnisse. Diese sind jeweils über den Range der zu erreichenden möglichen<br />
Punkte normalverteilt, d.h. in der untersuchten Stichprobe lagen die<br />
Erfahrungen und Kenntnisse im Umgang mit Computern im durchschnittlichen<br />
Bereich, was man in einer Stichprobe von Studienanfängern aus nicht<br />
computerbezogenen Studiengänge auch so erwarten würde.<br />
Bezüglich der drei aus dem VECA herausgegriffenen Computeranwendungen<br />
E-Mail, Textverarbeitung und Terminplanungsprogrammen wurde ebenfalls kein<br />
Zusammenhang zu den KI.BOX-Ergebnissen festgestellt. Die Vertrautheit mit<br />
E-Mail-Anwendungen korrelierte mit beiden Kriterien der KI.BOX sogar im<br />
negativen Bereich, bezüglich der Organisatorisch-konzeptionellen Fähigkeiten<br />
sogar recht hoch mit -.23. Diese Korrelation war zwar nicht signifikant, liegt aber<br />
mit einem errechneten Signifikanzwert von p=.054 stark an der Grenze zum<br />
überzufälligen Zusammenhang, der eventuell in einer anderen,<br />
repräsentativeren Stichprobe aufgedeckt werden könne. Mögliche Gründe für<br />
einen solchen negativen Zusammenhang zwischen der Vertrautheit mit E-Mail-<br />
Anwendungen und den KI.BOX-Ergebnissen könnte sein, dass die meisten<br />
Studienanfänger, die beispielsweise noch kein Praktikum oder andere<br />
Berufserfahrung im kaufmännischen- oder bürogebundenen Arbeitsumfeld<br />
haben, für private E-Mails eher Online-Anbieter wie GMX, Hotmail oder Freenet<br />
nutzen und vergleichsweise wenig Erfahrung mit solchen E-Mail-Clients haben,<br />
wie sie in Büros verwendet werden und an welche die Softwareergonomie der<br />
KI.BOX angelehnt ist. Dass dies eine Rolle spielen könnte, zeigt die Verteilung<br />
der Antworten zu den drei Items des VECA: Bezüglich<br />
Textverarbeitungsprogrammen schätzen die meisten Teilnehmer ihre<br />
1 5 9
Diskussion<br />
Vertrautheit damit im durchschnittlichen Bereich ein, ca. 90% der Teilnehmer<br />
(n=61) kreuzten auf der sechsstufigen Beurteilungsskala die Werte drei oder<br />
vier an. Bezüglich der Vertrautheit mit E-Mails lagen die Selbsteinschätzung<br />
ausschließlich im durchschnittlichen bis guten Bereich, zu fast gleichen Anteilen<br />
wurden von Teilnehmern einzig die Werte drei, vier und fünf angekreuzt. Bei<br />
den Terminplanungsprogrammen lagen die Selbsteinschätzungen deutlich<br />
tiefer, da über 81% der Teilnehmer (n=56) die Werte eins bis drei ankreuzten.<br />
Es zeigt sich also, dass die eigene Vertrautheit mit E-Mails als mittel bis hoch<br />
eingeschätzt wird, mit Terminplanungsprogrammen jedoch eher als niedrig.<br />
Würden die Teilnehmer hauptsächlich bürotypische Clients verwenden, in<br />
denen jeweils eine Terminplanungsfunktion enthalten ist, wäre anzunehmen,<br />
dass diese Funktion auch genutzt würde und die Selbsteinschätzungen<br />
demnach höher ausfielen. Diese Vermutung ist jedoch rein spekulativer Natur<br />
und bedarf noch weiterer Untersuchungen.<br />
Eine näher liegende Erklärung könnte sein, dass, wie erwähnt, besonders<br />
bezüglich der Organisatorisch-konzeptionellen Items nicht nur die Bearbeitung<br />
der E-Mails, sondern auch die des Kalenders oder der Prioritätenliste von<br />
Bedeutung ist. Somit könnten also die Teilnehmer durchaus Erfahrung mit<br />
derartigen E-Mail-Clients haben, jedoch würden ihnen diese bei der<br />
Bearbeitung der Organisatorisch-konzeptionellen Items nicht viel nützen, so<br />
dass sie hier schlechter abschneiden als in den Analytischen Fähigkeiten,<br />
deren Items fast ausschließlich durch die Bearbeitung von E-Mails bestimmt<br />
sind. Ein Beleg dafür findet sich womöglich in dem insgesamt tiefer liegenden<br />
Mittelwert der Organisatorisch-konzeptionellen Items (-1,67; Mittelwert bei den<br />
Analytischen Fähigkeiten: 2,71).<br />
Insgesamt kann es folglich sein, dass dieser vergleichsweise hohe, wenn auch<br />
nicht signifikante negative Zusammenhang von Vertrautheit mit E-Mails und den<br />
Ergebnissen in den Organisatorisch-konzeptionellen Fähigkeiten in zukünftigen<br />
Untersuchungen deutlich tiefer ausfällt oder sogar ganz wegfällt und, wie das<br />
Ergebnis in dieser Stichprobe zeigt, lediglich zufällig zustande gekommen ist.<br />
Aufgrund der hier ermittelten Ergebnisse kann also zunächst davon<br />
ausgegangen werden, dass die Computererfahrung keinen Einfluss auf die<br />
Ergebnisse in der KI.BOX hat. Zu beurteilen ist diese Tatsache als höchst<br />
1 6 0
Diskussion<br />
positiv, da dies vom Testautor bei Konzeption auch so beabsichtigt wurde<br />
(siehe Kapitel 3.1). Des Weiteren kann damit ein häufiges Vorurteil an<br />
computergestützten AC-Übungen sowohl von Eignungsdiagnostikern als auch<br />
von Kunden, die Assessment Center in Auftrag geben, zumindest für die<br />
KI.BOX verworfen werden.<br />
7.3 Auswirkung von Reihefolgeeffekten<br />
In der vorliegenden Untersuchung wurde hypothesenkonform festgestellt, dass<br />
sich Reihenfolgeeffekte, die durch die Positionierung der KI.BOX innerhalb<br />
einer Testsequenz entstehen könnten, nicht überzufällig auf die Leistungen der<br />
Probanden in der KI.BOX auswirken. Das heißt also, dass Teilnehmer ähnliche<br />
Ergebnisse erzielen würden, wenn sie das Verfahren zu Beginn oder im<br />
späteren Verlauf einer Testsequenz bearbeiteten. Die Ergebnisse der Studien<br />
von Nienaber (1997) und Fruhner (siehe Kapitel 2.2.4) konnten somit bestätigt<br />
werden. Bezogen auf die Praxis ist dies ebenfalls sehr positiv, da die KI.BOX<br />
problemlos zu jedem Zeitpunkt innerhalb eines Assessment Centers eingesetzt<br />
werden kann. Es bestehen keine diesbezüglichen Einschränkungen, etwa in der<br />
Weise, dass sie unbedingt als erste Übung absolviert werden müsste, da die<br />
Teilnehmer im späteren Verlauf sonst schlechter abschneiden würden.<br />
Besonders für die Zeitplanung eines Assessment Centers ist dies sehr hilfreich<br />
und ökonomisch, da eine solche Übung, für die der Teilnehmer nicht von<br />
Beobachtern beurteilt werden muss, in Einzelarbeit bearbeitet und daher<br />
zwischen die anderen Übungen „eingeschoben“ werden kann.<br />
Jedoch soll angemerkt werden, dass die hier gefundenen Ergebnisse der<br />
vorliegenden Studien nur eingeschränkt auf ein wirkliches Assessment Center<br />
übertragen werden können. Die Untersuchung dauerte im Höchstfall etwa 4<br />
Stunden, während ein Assessment Center mitunter mehrere Tage in Anspruch<br />
nehmen kann. Ob es also auch keine Leistungsunterschiede in den KI.BOX-<br />
Ergebnissen geben würde zwischen Teilnehmern, die das Verfahren zu Beginn<br />
des ersten Tages oder gegen Ende des dritten Tages bearbeiten, bleibt<br />
ungewiss und konnte in dieser Untersuchung nicht überprüft werden. Lediglich<br />
die Analysen mehrerer tatsächlicher Assessment Center, in denen die KI.BOX<br />
1 6 1
Diskussion<br />
von verschiedenen Teilnehmern mit einem wie oben beschriebenen größeren<br />
Zeitabstand bearbeitet würde, könnte diese Frage klären. Jedoch wäre es aus<br />
ethischen Gründen höchst fraglich, das Risiko einzugehen, dass ein Teilnehmer<br />
aufgrund doch bestehender Reihenfolgeeffekten in der KI.BOX, die sich erst<br />
über größere Zeitdifferenzen ergeben, ein schlechteres Gesamtergebnis im AC<br />
bekommt, und ihm daher womöglich eine angestrebte Arbeitsstelle verwehrt<br />
bleibt. Als Mögliche Lösung bliebe, dass man diese Untersuchung im AC eines<br />
Unternehmens durchführt und die KI.BOX nicht in das AC-Ergebnis einfließen<br />
lassen würde, ohne die Teilnehmer darüber zu informieren. Ob sich jedoch<br />
Unternehmen fänden, die ihre Teilnehmer eine insgesamt etwa achtzigminütige<br />
Übung im Laufe ihres Assessment Centers durchführen ließen, ohne dass sich<br />
dadurch ein unmittelbarer Nutzen für das Unternehmen ergäbe, könnte sich als<br />
schwierig erweisen. Empfohlen wird also, sich zunächst auf die hier<br />
durchgeführte Untersuchung zu stützen und die KI.BOX von den Teilnehmern<br />
eines Assessment Centers in nicht allzu großen Zeitabständen bearbeiten zu<br />
lassen. In der Untersuchung betrug die Zeitdifferenz etwa zwei Stunden, und<br />
die Ergebnisse, die gegen eine Wirkung von Reihenfolgeeffekten sprechen,<br />
waren recht eindeutig. Ein durchschnittlicher AC-Durchführungstag dauert für<br />
den Teilnehmer etwa sieben bis neun Stunden, wenn man davon die<br />
Bearbeitungszeit der KI.BOX abzieht, bleiben noch etwa fünfeinhalb bis<br />
siebeneinhalb Stunden übrig. Es dürfte nach Meinung des Autors dieser Arbeit<br />
also vertretbar sein, die KI.BOX an unterschiedlichen Positionen eines AC-<br />
Tages einzusetzen, ohne dass sich aufgrund von Reihefolgeeffekten<br />
überzufällig bedeutende Leistungsunterschiede bei den Teilnehmern einstellen.<br />
Jedoch sollte es nicht zu einem Einsatz des Instruments an unterschiedlichen<br />
Durchführungstagen des Assessment Centers kommen, ohne das hierzu<br />
weitere Studien betrieben wurden.<br />
7.4 Einfluss der demographischen Daten<br />
Wie bereits in Kapitel 6.5 angesprochen, können aufgrund der hier erfolgten<br />
Auswertungen zum Einfluss der demographischen Daten auf die KI.BOX-<br />
Ergebnisse nur explorative Aussagen getroffen werden, da die Ausprägungen<br />
1 6 2
Diskussion<br />
in nahezu keiner der untersuchten Variablen gleich verteilt waren. Die<br />
Stichprobe bestand hauptsächlich aus weiblichen Psychologiestudentinnen<br />
unter 25 Jahren im ersten bis dritten Semester mit Deutsch als erster<br />
Muttersprache und überwiegend ohne Berufserfahrung. Obwohl eine<br />
repräsentativere Stichprobe, die die tatsächliche Bewerbersituation der KI.BOX-<br />
Zielgruppe besser widerspiegelt, andere als die hier gefundenen Ergebnisse<br />
erbringen könnte, wird davon ausgegangen, dass zumindest der Trend von<br />
vorhandenem oder nicht vorhandenem Einfluss der jeweiligen Variable<br />
bestehen bliebe. Demnach ist bis auf weiteres positiv zu bewerten, dass kein<br />
signifikanter Leistungsunterschied in der KI.BOX zwischen Männern und<br />
Frauen sowie Studenten unterschiedlicher Studienfächer und Semesteranzahl<br />
oder variierender Berufserfahrung aufgedeckt wurde, was bedeutet, dass<br />
niemand hinsichtlich dieser Merkmale bevorteilt oder benachteiligt wird.<br />
Anders sieht dies bezüglich der Variable Alter aus. Entgegen der Annahme der<br />
Hypothese wurde in der untersuchten Stichprobe für die Analytischen<br />
Fähigkeiten ein hochsignifikanter negativer Zusammenhang von -.31 zum Alter<br />
der Testpersonen gefunden, für die Organisatorisch-konzeptionellen<br />
Fähigkeiten ein signifikanter Zusammenhang von -.28. Dies belegt, dass die<br />
Ergebnisse der Teilnehmer in beiden Kriterien der KI.BOX mit zunehmendem<br />
Alter geringer ausfallen. Die Streudiagramme in Abbildung 15 verdeutlichen<br />
diese Zusammenhänge zusätzlich:<br />
10<br />
15<br />
Punktzahl Analytische Fähigkeiten<br />
8<br />
6<br />
4<br />
2<br />
0<br />
-2<br />
Punktzahl Orga.-konzept. Fähigkeiten<br />
5<br />
-5<br />
-15<br />
-25<br />
-4<br />
15<br />
20<br />
25<br />
30<br />
35<br />
40<br />
45<br />
50<br />
-35<br />
15<br />
20<br />
25<br />
30<br />
35<br />
40<br />
45<br />
50<br />
Alter<br />
Alter<br />
Abbildung 15: Zusammenhang von Alter und Punktzahlen in der KI.BOX (links: Analytische<br />
Fähigkeiten, rechts: Organisatorisch-konzeptionelle Fähigkeiten)<br />
1 6 3
Diskussion<br />
Mit diesen Ergebnissen werden Untersuchungen von Thornton und Byham<br />
(1982) bestätigt, die eine negative Korrelation von Ergebnissen eines Paper-<br />
Pencil-<strong>Postkorb</strong>s und dem Alter fanden. Andere Untersuchungen zu den<br />
Bonner <strong>Postkorb</strong> Modulen (Höft, 2003) ergaben jedoch keinen Zusammenhang<br />
zum Alter (siehe Kapitel 2.3.5.1). Da diese Untersuchungen aktuelleren Datums<br />
als die von Thornton und Byham waren und aufgrund der unzureichenden<br />
Validierungslage keine Daten zum Zusammenhang des Alters und der KI.BOX<br />
ähnlichen computergestützten Postkörben vorlagen, stützte sich die hier<br />
aufgestellte und inzwischen abgelehnte Hypothese auf die von Höft<br />
dargestellten Ergebnisse. Warum bei den Bonner Postkorn Modulen jedoch<br />
weder ein negativer noch ein positiver Zusammenhang gefunden wurde, bleibt<br />
fraglich. Möglich wäre, dass dies mit dem bereits von Höft (2003) kritisierten<br />
kleinen Stichprobenumfang dieser Untersuchungen zusammenhängt (siehe<br />
Kapitel 2.3.5.4). Warum besteht nun also bei der KI.BOX ein negativer<br />
Zusammenhang von Punktzahl und Alter? Sowohl die jüngeren als auch die<br />
älteren Teilnehmer befanden sich zum Großteil im Psychologiestudium, so dass<br />
beide Gruppen zumindest ansatzweise theoretisches Wissen über Tests haben<br />
dürften. Denkbar wäre jedoch, dass jüngere Teilnehmer besonders aus<br />
Schulzeiten generell noch stärker daran gewöhnt sind, selbst getestet zu<br />
werden. Bei älteren Teilnehmern liegt die Schulzeit schon deutlich länger<br />
zurück, so dass sie nicht mehr in so starkem Maße mit Testsituationen vertraut<br />
sind. Für diese Annahme spricht auch eine Sekundäranalyse der Daten, die<br />
ebenfalls hochsignifikante negative Korrelationen von -.39 bis -.48 zwischen<br />
dem Alter und den Ergebnissen in der AZUBI-BK liefert, und dies sowohl zum<br />
Gesamttestwert, dem Grundmodul als auch dem Postmodul. Auch hier<br />
schnitten ältere Teilnehmer also durchschnittlich mit deutlich niedrigeren<br />
Ergebnissen ab. Daraus lässt sich die Schlussfolgerung ziehen, dass ältere<br />
Teilnehmer in testähnlichen Auswahlverfahren generell benachteiligt zu sein<br />
scheinen, und die hier gefundenen Ergebnisse nicht auf ein Defizit speziell in<br />
der KI.BOX hinweisen. Dennoch wären hierzu noch weitere Studien mit<br />
repräsentativeren Stichproben nötig. Bis dahin ist zu empfehlen, die KI.BOX nur<br />
in Assessment Centern einzusetzen, bei denen die Teilnehmer im selben<br />
Altersbereich liegen.<br />
1 6 4
Diskussion<br />
Überraschenderweise wurden auch hochsignifikante Gruppenunterschiede<br />
zwischen Teilnehmern mit unterschiedlich ausgeprägten Deutschkenntnissen<br />
gefunden, jedoch nur für die Ergebnisse in den Organisatorisch-konzeptionellen<br />
Fähigkeiten. Teilnehmer mit Deutsch als erster Muttersprache erzielten im<br />
Durchschnitt -0,16 Punkte, in der Gruppe der Teilnehmer mit Deutsch als<br />
zweiter Muttersprache lag der Mittelwert bei -6,11. Teilnehmer mit Deutsch als<br />
Fremdsprache erzielten durchschnittlich nur -9,11 Punkte in diesem Kriterium.<br />
Woran kann es also liegen, dass bei den Organisatorisch-konzeptionellen<br />
Fähigkeiten solche Unterschiede bestehen, während dies hinsichtlich der<br />
Analytischen Fähigkeiten nicht der Fall ist? Als eine der wahrscheinlichsten<br />
Erklärungen ist auch hier sicher die ungleich verteilte Stichprobe anzuführen.<br />
Über 81% der Teilnehmer, also 56 der 69 Studenten, hatten Deutsch als erste<br />
Muttersprache, nur vier von ihnen als zweite Muttersprache und neun<br />
Teilnehmer als Fremdsprache. In einer Untersuchung, in der in etwa gleich viele<br />
Teilnehmer in den drei Gruppen wären, könnten diesbezüglich ganz andere<br />
Ergebnisse erzielt werden, weshalb hierzu für zukünftige Studien noch<br />
Forschungsbedarf bleibt. Allerdings ist für die hier gefundenen Ergebnisse<br />
zusätzlich eine ähnliche Erklärung denkbar wie zum gefundenen<br />
Zusammenhang von Gewissenhaftigkeit und Organisatorisch-konzeptionellen<br />
Fähigkeiten in der KI.BOX (siehe Kapitel 7.1). Die Items der Analytischen<br />
Fähigkeiten sind klarer zu überblicken, da meist eine Aufgabe durch eine E-Mail<br />
dargeboten wird. Sollte man hier nicht jedes Wort verstehen, hat dies<br />
womöglich nicht so eine entscheidende Bedeutung wie bei den Items der<br />
Organisatorisch-konzeptionellen Fähigkeiten. Falls man hier nicht alles<br />
verstehen sollte, wird schnell ein Hinweis zu einer anderen Mail, dem Kalender<br />
oder der Prioritätenliste übersehen, der jedoch von entscheidender Bedeutung<br />
für die korrekte Lösung des Items wäre. Allerdings stellt sich daraufhin die<br />
Frage, ob die Items und die darin enthaltenen Vernetzungen bei diesem<br />
Kriterium deutlicher formuliert und somit vereinfacht werden sollten, um<br />
Teilnehmern, die Deutsch nicht als erste Muttersprache sprechen, nicht zu<br />
benachteiligen. Dies wiederum würde jedoch sicherlich dazu führen, dass<br />
Teilnehmer, die Deutsch als erster Muttersprache sprechen und wohl auch in<br />
den realen ACs, in denen die KI.BOX eingesetzt werden soll, die Mehrzahl<br />
1 6 5
Diskussion<br />
darstellen, zu viele dieser Items lösen würden und die KI.BOX in diesem<br />
Kriterium nicht mehr zwischen guten und weniger guten Leistungen<br />
differenzieren würde. Aus diesem Grund wird empfohlen, die Schwierigkeit des<br />
Kriteriums so zu belassen und die KI.BOX, so wie im Übrigen auch andere<br />
sprachgebundene Testverfahren, nicht in Auswahlverfahren einzusetzen, in<br />
denen Bewerber ausgewählt werden sollen, die Deutsch nicht als erste<br />
Muttersprache sprechen.<br />
Auch bezüglich theoretischer und praktischer Vorerfahrung mit Postkörben und<br />
Assessment Centern überraschen die Ergebnisse. Obwohl aufgrund der<br />
theoretischen Überlegungen (siehe Kapitel 5.2.5) angenommen wurde, dass<br />
sowohl theoretische als praktische Vorerfahrung mit Postkörben eine<br />
Zusammenhang zu den KI.BOX-Ergebnissen in beiden Kriterien aufweisen und<br />
es keinen Zusammenhang von theoretischer und praktischer Vorerfahrung mit<br />
Assessment Center gebe, wurde lediglich ein signifikanter Zusammenhang von<br />
theoretischer Vorerfahrung mit Postkörben und dem Ergebnis bei den<br />
Organisatorisch-konzeptionellen Fähigkeiten sowie ebenfalls signifikante<br />
Zusammenhänge von theoretischer Vorerfahrung mit Assessment Centern und<br />
beiden KI.BOX-Kriterien gefunden.<br />
Hierfür gibt es zwei denkbare Erklärungen: Zum einen könnte die Frage nach<br />
der „theoretischen und praktischen Vorerfahrung“ zu undeutlich formuliert<br />
gewesen sein, so dass die Teilnehmer nicht genau wussten, was damit gemeint<br />
war. Möglicherweise beurteilten es manche Teilnehmer beispielsweise als stark<br />
ausgeprägte theoretische Vorerfahrung, zu wissen, dass eine Übung namens<br />
<strong>Postkorb</strong> in Assessment Centern eingesetzt wird, andere wiederum kannten<br />
womöglich sogar erfasste Kriterien oder Übungsabläufe, beurteilten ihr Wissen<br />
aber dennoch als gering. Ebenso erscheint die sechsstufige Skala zur<br />
Beurteilung der praktischen Vorerfahrungen im Nachhinein als ungünstig,<br />
besser wären die dichotomen Fragen gewesen, ob man schon mal einen<br />
<strong>Postkorb</strong> bearbeitet bzw. an einem AC teilgenommen hat oder nicht. In<br />
zukünftigen Untersuchungen sollten also klare Definitionen bei den jeweiligen<br />
Items mitgeliefert werden. Alternativ könnte man das Wissen über Postkörbe<br />
und Assessment Center über einige verschieden schwere Items erfassen, in<br />
denen richtige und falsche Aussagen über die beiden Themen formuliert sind,<br />
1 6 6
Diskussion<br />
und der Teilnehmer die richtigen Aussagen ankreuzen soll. Daraus könnte sich<br />
wiederum ein Punktwert ergeben, der dann mit den KI.BOX-Ergebnissen<br />
korreliert werden könnte. Mit dieser Methode wäre auch der zweite mögliche<br />
Erklärungsgrund für die hier gefundenen gänzlich unerwarteten Ergebnisse<br />
ausgeräumt, nämlich die bereits oben erwähnte soziale Erwünschtheit.<br />
Möglicherweise wollten sich die Teilnehmer auch in diesen<br />
Selbsteinschätzungsfragen besser darstellen, was zu verfälschten Antworten<br />
geführt haben könnte. Die Ergebnisse zum Zusammenhang von<br />
Vorerfahrungen mit Postkörben bzw. Assessment Centern und den KI.BOX-<br />
Ergebnissen sind demnach also nur schwer bis gar nicht interpretierbar. Die<br />
Frage, ob mit diesen Themen bereits vertraute Teilnehmer Vorteile in der<br />
Bearbeitung der KI.BOX haben, sollte in nachfolgenden Studien mit den hier<br />
beschriebenen methodischen Variationen erneut untersucht werden.<br />
7.5 Fazit und Ausblick<br />
Auf Grundlage der in dieser Untersuchung gefundenen Ergebnisse kann die<br />
KI.BOX als valides und insgesamt gut für den AC-Einsatz geeignetes<br />
eignungsdiagnostisches Instrument befunden und somit für die Auswahl von<br />
Hochschulabsolventen, Trainee-Bewerbern oder Führungskräftenachwuchs<br />
empfohlen werden. Bezüglich der Gütekriterien kann von einer nahezu<br />
maximalen Objektivität ausgegangen werden, was zudem auf eine hohe<br />
Reliabilität schließen lässt. Die Inhaltsvalidität gilt als gesichert und die<br />
Kriteriumsvalidität wurde in dieser Untersuchung besonders über die innere<br />
Validität nachgewiesen. Zur äußeren Validität besteht allerdings noch<br />
Forschungsbedarf, besonders hinsichtlich des Kriteriums Organisatorischkonzeptionelle<br />
Fähigkeiten. Auch die Nebengütekriterien gelten mit Ausnahme<br />
der Normierung als erfüllt, wobei hieran nach Aussage des Testautors jedoch<br />
bereits gearbeitet wird. Weiterhin konnte kein Zusammenhang der Erfahrung<br />
mit Computern bzw. Computeranwendungen und den Leistungen in der KI.BOX<br />
gefunden werden, so dass diesbezüglich keinerlei Vor- oder Nachteile für<br />
einzelne Teilnehmer zu erwarten sind. Zudem konnten keine Reihenfolgeeffekte<br />
1 6 7
Diskussion<br />
ermittelt werden, d.h. es besteht kein Leistungsunterschied zwischen<br />
Teilnehmern, die die KI.BOX zu Beginn oder im späteren Verlauf einer<br />
Testsequenz bearbeiten, so dass das Verfahren flexibel innerhalb eines AC<br />
eingesetzt werden kann. Darüber hinaus konnten zumindest explorativ keine<br />
Leistungsunterschiede hinsichtlich der Merkmale Geschlecht, Studienfach,<br />
Semesterzahl, Deutschkenntnissen oder Berufserfahrungen aufgedeckt<br />
werden, so dass auch bezüglich dieser Merkmale in der KI.BOX keine Effekte<br />
auszumachen sind. Lediglich zum Alter wurde festgestellt, dass ältere<br />
Teilnehmer durchschnittlich schlechtere Leistungen im Vergleich zu jüngeren<br />
Teilnehmern aufweisen. Zum Einfluss von theoretischer und praktischer<br />
Vorerfahrung mit Postkörben sowie Assessment Centern kann die vorliegende<br />
Untersuchung keine aussagekräftigen Ergebnisse liefern.<br />
Dieser für eine erste Validierung durchaus günstigen Ergebnislage zufolge kann<br />
die KI.BOX wie erwähnt für einen Einsatz im AC empfohlen werden. Dennoch<br />
bleiben, wie bei einer ersten Validierungsstudie üblich, noch offene Fragen, die<br />
es in nachfolgenden Studien zu beantworten gilt. Diese noch zu überprüfenden<br />
Aspekte sollen im Folgenden nochmals kurz zusammengefasst und dazu<br />
Vorschläge gemacht werden, wie die entsprechende Untersuchung dazu<br />
konzipiert werden könnte.<br />
• Beeinflussen die vier neu eintreffenden E-Mails die<br />
Durchführungsobjektivität? (siehe Kapitel 7.1.1) In nachfolgenden<br />
Studien könnten die vom Computer zusätzlich erfassten Prozessdaten<br />
ausgewertet werden, um festzustellen, welche Items gerade bei den<br />
jeweiligen Störungen bearbeitet wurden. Diese Prozessdaten müssten<br />
dann zur Überprüfung herangezogen werden, dass man erkennt, ob es<br />
bei unterschiedlichen Störungszeitpunkten Unterschiede zwischen<br />
Teilnehmern mit guten und weniger guten Ergebnissen gibt.<br />
• Ist die Reliabilität der KI.BOX bestimmbar? (siehe Kapitel 7.1.2) Man<br />
könnte die Reliabilität mittels einer anderen Version der KI.BOX, die<br />
beispielsweise an ein anderes Unternehmen angepasst wurde, als<br />
Paralleltest bestimmen. Dennoch wären auch hier Übungseffekte nicht<br />
ganz auszuschließen.<br />
1 6 8
Diskussion<br />
• Wie ist die äußere Validität aussagekräftiger zu bestimmen? (siehe<br />
Kapitel 7.1.3.1) Obwohl auch hier teilweise hypothesenkonforme<br />
Ergebnisse gefunden werden konnten, insbesondere zu den<br />
Analytischen Fähigkeiten, besteht zu diesem Validitätsaspekt noch<br />
Klärungsbedarf. Die hier eingesetzten Validierungskriterien, z.B. die<br />
Abitur- oder Schulnoten, eignen sich durchaus auch für spätere Studien,<br />
jedoch sollte dann wie erwähnt eine Stichprobe herangezogen werden,<br />
die in diesen Merkmalen auch genügend Varianz aufweist, um evtl.<br />
bestehende Gruppenunterschiede auch aufdecken zu können. Zusätzlich<br />
zu diesen Kriterien könnte die äußere Validität dadurch bestimmt<br />
werden, dass man in Langzeituntersuchungen Vorgesetztenurteile über<br />
die Leistungen der ehemaligen AC-Teilnehmer einholt, die mit der<br />
KI.BOX getestet wurden, und diese Urteile mit den KI.BOX-Ergebnissen<br />
validiert. Dies wäre natürlich sehr aufwendig und ist aufgrund der<br />
Neuheit des Instruments in naher Zukunft noch nicht zu bewerkstelligen.<br />
Dennoch gilt eine äußere Validierung über Vorgesetztenurteile, die evtl.<br />
in einem oder zwei Jahren erfolgen könne, gemeinhin als recht<br />
aussagekräftig, da somit auch die prognostische Güte des Verfahrens<br />
überprüft werden könnte.<br />
• Wie ist die Güte der Selbsteinschätzungen zu den Organisatorischkonzeptionellen<br />
Fähigkeiten zu erhöhen? (siehe Kapitel 7.1.3.1) Wie<br />
erwähnt müssten hier klare Definitionen dieses Kriteriums mitgeliefert<br />
werden, die den Teilnehmern erlauben, damit inhaltlich konkretere<br />
Verhaltensbeispiele zu verbinden. Die Kriteriendefinition der KI.BOX, die<br />
auf der ersten Seite im Ergebnisbericht des Reporting-Tools ausgegeben<br />
wird, könnte hier schon ausreichend sein. Zudem müsste sichergestellt<br />
werden, dass die Teilnehmer nicht nur im Sinne der sozialen<br />
Erwünschtheit antworten, da sie glauben, der Fragebogen wäre noch Teil<br />
der Testung, über welche sie Feedback bekommen. Eine<br />
repräsentativere Stichprobe der späteren Bewerberpopulation würde<br />
außerdem zu aussagekräftigeren Ergebnissen beitragen.<br />
1 6 9
Diskussion<br />
• Wie könnten die gefundenen hohen Korrelationen von KI.BOX und<br />
inneren Kriterien noch erhöht werden? (siehe Kapitel 7.1.3.2) Die<br />
höchsten Korrelationen zu den KI.BOX-Kriterien erbrachten die ähnlichen<br />
Messdimensionen der AZUBI-BK. In nachfolgenden Studien sollte jedoch<br />
auf Paper-Pencil-Tests verzichtet und ein weiteres <strong>EDV</strong>-Verfahren als<br />
inneres Validierungskriterium ausgewählt werden. Wie bereits erwähnt<br />
könnte der Medienwechsel innerhalb einer Testsequenz für die<br />
Teilnehmer ungewohnt gewesen sein, trotz nicht identifizierter Effekte<br />
der Computererfahrung. Somit wäre also, ähnlich wie zur Frage der<br />
Reliabilitätsbestimmung, auch hier eine Parallelversion der KI.BOX oder<br />
alternativ ein anderer <strong>Postkorb</strong> mit ähnlichen Dimensionen einzusetzen,<br />
beispielsweise der PC-<strong>Postkorb</strong> „Seeblick“ (siehe Kapitel 2.4.3.3).<br />
• Werden auch in längeren Assessment Centern keine Reihenfolgeeffekte<br />
wirksam? (siehe Kapitel 7.3) Die Ergebnisse zur Wirkung dieser Effekte<br />
können nicht ohne weiteres auf längere AC von mehreren Tagen<br />
ausgeweitet werden. Die flexible Positionierung der KI.BOX über einen<br />
AC-Tag hinweg dürfte unbedenklich sein. Zur Überprüfung der Wirkung<br />
von Reihenfolgeeffekten bei längeren Verfahren müsste die KI.BOX in<br />
mehreren länger dauernden Assessment Centern bei verschiedenen<br />
Teilnehmern zu unterschiedlichen Positionen an verschiedenen Tagen<br />
durchgeführt werden. Die Ergebnisse der KI.BOX dürften jedoch nicht in<br />
das Gesamt-AC-Ergebnis eingehen, um ethische Konflikte zu vermeiden.<br />
• Haben Teilnehmer verschiedener demographischer Merkmale Vor- oder<br />
Nachteile in der KI.BOX? (siehe Kapitel 7.4) Die Ergebnisse zeigen, dass<br />
nur hinsichtlich des Alters negative Zusammenhänge zu den<br />
Ergebnissen der KI.BOX, aber auch der AZUBI-BK bestehen. Bezüglich<br />
Geschlecht, Studienfach, Semesterzahl, Deutschkenntnisse und<br />
Berufserfahrung wurden keine Effekte gefunden. Dennoch sollten in<br />
zukünftigen Studien die Merkmale erneut untersucht werden, allerdings<br />
mit einer Stichprobe, in der diese Merkmalsausprägungen gleich verteilt<br />
sind.<br />
1 7 0
Diskussion<br />
• Beeinflusst die Vorerfahrung mit Postkörben und Assessment Centern<br />
die Leistungen in der KI.BOX? (siehe Kapitel 7.4) Diese Frage konnte in<br />
der vorliegenden Untersuchung aufgrund definitorischer Schwierigkeiten<br />
und uneindeutigen Beurteilungsskalen nicht ausreichend geklärt werden.<br />
In nachfolgenden Studien sollte dieser Aspekt jedoch erneut untersucht<br />
werden, allerdings nicht über Selbsteinschätzungen. Stattdessen könnte<br />
man das Wissen über Postkörbe und Assessment Center über einige<br />
verschieden schwere Items erfassen, in denen richtige und falsche<br />
Aussagen über die beiden Themen vom Teilnehmer zu markieren sind.<br />
Daraus könnte sich wiederum ein Punktwert ergeben, der dann mit den<br />
KI.BOX-Ergebnissen korreliert würde. Mit dieser Erhebungsmethode<br />
ließe sich auch das Problem der sozialen Erwünschtheit eliminieren.<br />
Zusätzlich zu den hier aufgeführten Aspekten, die sich direkt aus den<br />
Ergebnissen dieser Studie ergaben, soll noch auf eine weitere Implikation für<br />
zukünftige Untersuchungen hingewiesen werden. So stellt sich trotz der<br />
insgesamt günstigen Befundlage die Frage, ob die Ergebnisse aus der<br />
Untersuchung überhaupt auf die tatsächliche AC-Situation übertragbar sind, da<br />
in beiden Settings gänzlich verschiedene Motivationsbedingungen herrschen.<br />
Im AC zeigt der Teilnehmer seine ihm bestmögliche Performance, da seine<br />
Leistungsmotivation oft durch eine angestrebte Arbeitsposition bestimmt ist. Die<br />
Teilnehmer der Untersuchung wurden hingegen wohl hauptsächlich durch die<br />
Vergütung mit Versuchspersonenstunden motiviert, die sie natürlich auch bei<br />
niedriger Anstrengung ausgestellt erhielten. Derartige qualitative und<br />
quantitative Motivationsdifferenzen wurden zu überbrücken versucht, in dem<br />
den Teilnehmern nach der gesamten Datenauswertung ein ausführliches<br />
schriftliches Feedback versprochen wurde, was nach Lerner und Tetlock (1999)<br />
zufolge die Motivation erhöht, das bestmögliche Verhalten zu zeigen. Diese<br />
Maßnahme dürfte in Anbetracht der positiv ausgefallenen<br />
Untersuchungsergebnisse auch weitgehend erfolgreich gewesen sein. Auch<br />
wurde dem Versuchsleiter nach der jeweiligen Erhebung im persönlichen<br />
Gespräch mit den Teilnehmern oft eine hohe Motivation ihrerseits bestätigt.<br />
Hinzu kommt jedoch noch die wahrgenommene Künstlichkeit der<br />
Untersuchungssituation unter Laborbedingungen, die sich zusätzlich negativ auf<br />
1 7 1
Diskussion<br />
die Motivation der Teilnehmer ausgewirkt haben könnte. In dieser ersten<br />
Validierungsarbeit wurde jedoch mehr Wert auf die experimentelle<br />
Untersuchung der kausalen Hypothesen gelegt, so dass einer möglichst hohen<br />
Standardisierung und der Kontrolle potenzieller Störvariablen zunächst der<br />
Vorzug zu geben war. Zukünftige Forschung sollte daher die Güte der KI.BOX<br />
im realen Assessment Center in Form von Feldstudien untersuchen. Sollte dies<br />
nicht zu realisieren sein, bestände alternativ die Möglichkeit, die Motivation der<br />
Teilnehmer im Labor zusätzlich erhöhen. So ließen sich beispielsweise<br />
realistischere AC-Rahmenbedingungen schaffen, wenn die KI.BOX<br />
beispielsweise in Form eines Auswahlverfahrens für Studenten als<br />
wissenschaftliche Hilfskräfte angewandt würde. Darüber hinaus könnte es im<br />
Sinne der von Lerner und Tetlock (1999) nachgewiesenen Effekte zur<br />
Motivationssteigerung hilfreich sein, wenn die Teilnehmer ihr Feedback nicht in<br />
schriftlicher Form am Ende der Datenerhebung, also teilweise mehrere Woche<br />
nach ihrer Testung bekämen, sondern direkt im Anschluss daran durch den<br />
Versuchsleiter. Die Accountability (siehe Kapitel 5.1) würde dadurch sicher<br />
stärker zum Tragen kommen, da der Teilnehmer stärkeren Druck verspürt,<br />
seine Leistungen rechtfertigen zu müssen und sich somit mehr anstrengen wird.<br />
Zu erwarten ist, dass in nachfolgenden Studien, in denen die hier<br />
vorgeschlagenen methodischen Veränderungen realisiert werden, noch<br />
positiver ausfallende Ergebnisse erzielt werden, für die hier bereits erste Trends<br />
erkennbar wurden. Die Güte der KI.BOX gilt jedoch bereits jetzt weitgehend als<br />
gesichert. Somit schließt die vorliegende Arbeit mit der Aussage, dass der<br />
computergestützte <strong>Postkorb</strong> KI.BOX als valides Instrument im Assessment<br />
Center eingesetzt werden kann.<br />
1 7 2
Literaturverzeichnis<br />
8 Literaturverzeichnis<br />
Arbeitskreis Assessment Center e.V. (2004). Standards der Assessment Center<br />
Technik 2004. [Online]. Verfügbar unter HTTP: www.arbeitskreis-ac.de<br />
Verzeichnis: projekte/standards/ Dateiname: ac-standards_2004.htm<br />
[31.05.2008].<br />
Bandura, A. (1997). Self-efficacy: The exercise of control. New York: Freeman.<br />
Bandura, A. (2006). Guide for Constructing Self-Efficacy Scales. In F. Pajares &<br />
T. Urdan (Eds.), Self-Efficacy Beliefs of Adolescents (pp. 307-337).<br />
Greenwich: Information Age Publishing.<br />
Baron-Boldt, J., Schuler, H. & Funke, U. (1988): Prädiktive Validität von<br />
Schulabschlussnoten: Eine Metaanalyse. Zeitschrift für Pädagogische<br />
Psychologie, 2, 79–90.<br />
Bolte, E.A. & Sünderhauf, K. (2005). Konstruktion von Assessment Center<br />
Übungen. In K. Sünderhauf, S. Stumpf & S. Höft (Hrsg.), Assessment<br />
Center- Von der Auftragsklärung bis zur Qualitätssicherung (S. 138-154).<br />
Lengerich: Pabst Science Publishers.<br />
Bortz, J. (1993). Statistik für Sozialwissenschaftler. Berlin: Springer<br />
Bortz, J. & Döring, N. (2002). Forschungsmethoden und Evaluation für Human-<br />
und Sozialwissenschaftler. Berlin: Springer.<br />
Brickenkamp, R. (2002). Brickenkamp Handbuch psychologischer und<br />
pädagogischer Tests, 2 Bde. Göttingen: Hogrefe<br />
Daumenlang, K. (1995): Intelligenztests. In: W. Sarges (Hrsg.) Management<br />
Diagnostik (S. 540-548). Göttingen: Hogrefe.<br />
1 7 3
Literaturverzeichnis<br />
Didi, H.J. (2002). Der <strong>Postkorb</strong>. In: E. Fay (Hrsg). Das Assessment Center in<br />
der Praxis. (S. 77-103). Göttingen: Vandenhoeck und Rupprecht.<br />
Diehl, J. M. & Kohr, H.-U. (1999). Deskriptive Statistik. Eschborn: Verlag D.<br />
Klotz.<br />
Diehl, J. M. & Arbinger, M. (2001). Inferenzstatistik. Eschborn: Verlag D. Klotz.<br />
Dommel, N. A. (1995). Postkörbe. In: W. Sarges (Hrsg.) Management<br />
Diagnostik (S. 582-585). Göttingen: Hogrefe.<br />
Domsch, M. & Jochum, I. (1989). Zur Geschichte des Assessment Centers –<br />
Ursprünge und Werdegänge. In C. Lattmann (Hrsg.), Das Assessment-<br />
Center-Verfahren der Eignungsbeurteilung. Sein Aufbau, seine<br />
Anwendung und sein Aussagegehalt (S. 4-18). Heidelberg: Physica.<br />
Domsch, M. (1995): Fallstudien. In: W. Sarges (Hrsg.) Management Diagnostik<br />
(S. 602-608). Göttingen: Hogrefe.<br />
Eggers, R. & Oetting, M. (1995): Vorträge und Präsentationen. In: W. Sarges<br />
(Hrsg.) Management Diagnostik (S. 568-591). Göttingen: Hogrefe.<br />
Fassheber, P. (1995): Planspiele. In: W. Sarges (Hrsg.) Management<br />
Diagnostik (S. 608-617). Göttingen: Hogrefe.<br />
Fennekels, G. (1995). PC-Office 1.0. <strong>Postkorb</strong> zur Diagnose von<br />
Führungsverhalten (Handanweisung). Göttingen: Hogrefe.<br />
Fisseni, H.-J. (1990). Lehrbuch der psychologischen Diagnostik. Göttingen:<br />
Hogrefe.<br />
Fisseni, H.-J. & Preusser, I. (2007). Assessment-Center. Eine Einführung in<br />
Theorie und Praxis. Göttingen: Hogrefe.<br />
1 7 4
Literaturverzeichnis<br />
Frey, D. (1979). Einstellungsforschung: Neuere Ergebnisse der Forschung<br />
Einstellungsänderungen. Marketing, 1, 31-45<br />
Fricke, R. (1974). Kriterienorientierte Leistungsmessung. Stuttgart:<br />
Kohlhammer.<br />
Friedrich, A. & Schwarz, M. (1989). Assessment-Center und Führungsplanspiel.<br />
Personal - Mensch und Arbeit im Betrieb, 1, 12-17<br />
Fritz, A & Funke, J. (1995): Übersicht über die vorliegenden Verfahren zur<br />
Planungsdiagnostik. In: J. Funke & A. Fritz (Hrsg.) Neue Konzepte und<br />
Instrumente zur Planungsdiagnostik (S. 47-78). Bonn: Deutscher<br />
Psychologen Verlag GmbH.<br />
Fruhner, R. (2005). Reihenfolgeeffekte im Assessment Center: Hat die<br />
unterschiedliche Abfolge von Einzelverfahren einen Einfluss auf das<br />
Gesamtergebnis eines Bewerbers) - Ein Beispiel der Hamburger<br />
Sparkasse AG. In K. Sünderhauf, S. Stumpf & S. Höft (Hrsg.),<br />
Assessment Center - von der Auftragsklärung bis zur Qualitätssicherung<br />
(S. 216-224). Lengerich: Pabst Science Publishers.<br />
Funke, J. (1993, a). Computergestützte Arbeitsproben: Begriffsklärung,<br />
Beispiele sowie Entwicklungspotentiale. Zeitschrift für Arbeits- und<br />
Organisationspsychologie, 37, 119-129.<br />
Funke, J. (1993, b). Aus der Arbeit des Testkuratoriums: MAILBOX ´90. Ein<br />
computergestütztes Test- und Trainingsverfahren zur<br />
Personalentwicklung. Diagnostica, 39, 177-187.<br />
Funke, J. & Rasche, B. (1992) Einsatz computersimulierter Szenarien im<br />
Rahmen eines Assessment Center. Zeitschrift Führung + Organisation,<br />
2, 110-118<br />
1 7 5
Literaturverzeichnis<br />
Grubitzsch, S. (1999). Testtheorie Testpraxis. Psychologische Tests und<br />
Prüfverfahren im kritischen Überblick. Eschborn bei Frankfurt am Main:<br />
Verlag Dietmar Klotz.<br />
Güllich, R. (1992). Die computergestützte <strong>Postkorb</strong>übung MAILBOX’90 im<br />
Assessment Center. Eine Validierungsstudie. Unveröffentlichte<br />
<strong>Diplomarbeit</strong>, Katholische Universität Eichstätt, philosophischpädagogische<br />
Fakultät.<br />
Hartung, S. & Schneider, I. (1995): Entwicklung und Anwendung<br />
computersimulierter Szenarien. In: B. Strauß & M. Kleinmann (Hrsg.)<br />
Computersimulierte Szenarien in der Personalarbeit (S. 219-236).<br />
Göttingen: Hogrefe.<br />
Höft, S. (2003). Rezension der „BPM – Bonner <strong>Postkorb</strong>-Module“. Zeitschrift für<br />
Arbeits- und Organisationspsychologie, 47, 4, 104-108. Göttingen:<br />
Hogrefe.<br />
Höft, S. & Funke, U. (2006). Simulationsorientierte Verfahren der<br />
Personalauswahl. In H. Schuler (Hrsg.), Lehrbuch der<br />
Personalpsychologie (S. 145-187). Göttingen: Hogrefe.<br />
Holtmeier, S. (2008). KI.BOX Der elektronische <strong>Postkorb</strong> für Ihr Assessment<br />
Center. [Online]. Verfügbar unter HTTP: http://www.ki-bit.com<br />
Verzeichnis: web/content/view/8/10/ [08.07.2008].<br />
Hösch, G. (1995). Evaluation eines computergestützten Planspiels. Dissertation<br />
Johannes Gutenberg-Universität Mainz, Fachbereich 12<br />
Hossiep, R. & Paschen, M. (1998). BIP: Bochumer Inventar zur<br />
berufsbezogenen Persönlichkeitsbeschreibung. Göttingen: Hogrefe.<br />
1 7 6
Literaturverzeichnis<br />
Hossiep, R., Paschen, M. & Mühlhaus, O. (2003). BIP: Bochumer Inventar zur<br />
berufsbezogenen Persönlichkeitsbeschreibung. Zweite, vollständig<br />
überarbeitete Auflage. Göttingen: Hogrefe.<br />
Hussy, W. & Jain, A. (2002). Experimentelle Hypothesenprüfung in der<br />
Psychologie. Göttingen: Hogrefe.<br />
Jäger, A. O., Süß, H. M. & Beauducel, A. (1997). Berliner Intelligenzstruktur-<br />
Test. Form 4. Göttingen: Hogrefe<br />
Jerusalem, R. (2003). Soziale Faktoren im Kontext eines Assessment Centers.<br />
Münster: LIT Verlag.<br />
Jeserich, W. (1981). Mitarbeiter auswählen und fördern: Assessment-Center-<br />
Verfahren. München: Hanser.<br />
Jeserich, W. (1995): Assessment-Center (AC). In: W. Sarges (Hrsg.)<br />
Management Diagnostik (S. 717-728). Göttingen: Hogrefe.<br />
Jung, P. (1995): Rollenspiele. In: W. Sarges (Hrsg.) Management Diagnostik (S.<br />
591-596). Göttingen: Hogrefe.<br />
Kersting, M. (2001). Zur Konstrukt- und Kriteriumsvalidität von<br />
Problemlöseszenarien anhand der Vorhersage von Vorgesetztenurteilen<br />
über die berufliche Bewährung. Diagnostica, 47, 67-76.<br />
Kersting, M. (2003). Augenscheinvalidität. In K. D. Kubinger und R. S. Jäger<br />
(Hrsg.), Schlüsselbegriffe der psychologischen Diagnostik (S. 54-55).<br />
Weinheim: Beltz, PVU.<br />
Klauer, K. J. (1987). Kriteriumsorientierte Tests. Göttingen: Hogrefe.<br />
1 7 7
Literaturverzeichnis<br />
Kleinmann, M. & Strauß, B. (1995): Softwareergonomische Voraussetzungen<br />
computersimulierter Szenarien. In: B. Strauß & M. Kleinmann (Hrsg.)<br />
Computersimulierte Szenarien in der Personalarbeit (S. 127-141).<br />
Göttingen: Hogrefe.<br />
Krause, D. & Gebert, D. (2005). Die Entwicklung, Durchführung und Evaluation<br />
des Assessment Centers in der deutschsprachigen und U.S.-<br />
amerikanischen Wirtschaft. In K. Sünderhauf, S. Stumpf & S. Höft<br />
(Hrsg.), Assessment Center - von der Auftragsklärung bis zur<br />
Qualitätssicherung (S. 410-436). Lengerich: Pabst Science Publishers.<br />
Krause, D.E., Meyer zu Kniendorf, C. & Gebert, D. (2001). Das Assessment<br />
Center in der deutschsprachigen Wirtschaft. Personal - Zeitschrift für<br />
Human Resource Management, 53, 638-642.<br />
Kelbetz, G. & Schuler, H. (2002). Verbessert Vorerfahrung die Leistung im<br />
Assessment Center? Zeitschrift für Personalpsychologie, 1/2002, 4-18.<br />
Kluwe, R.H. (1995): Computergestützte Systemsimulationen. In: W. Sarges<br />
(Hrsg.) Management Diagnostik (S. 572-577). Göttingen: Hogrefe.<br />
Kubinger, K. D. (1993). Testtheoretische Probleme der Computerdiagnostik.<br />
Zeitschrift für Arbeits- und Organisationspsychologie, 37, 139-137.<br />
Kupka, R. (2005). Personalpolitische Rahmenbedingungen für die Einführung<br />
und Verankerung von Assessment Centern in Unternehmen. In K.<br />
Sünderhauf, S. Stumpf & S. Höft (Hrsg.), Assessment Center- Von der<br />
Auftragsklärung bis zur Qualitätssicherung (S. 19-34). Lengerich: Pabst<br />
Science Publishers.<br />
Lerner, J.S. & Tetlock, P.E. (1999). Accounting for the effects of accountability.<br />
Psychological Bulletin, 125(2), 255-275.<br />
1 7 8
Literaturverzeichnis<br />
Lienert, G. A. (1969). Testaufbau und Testanalyse. Weinheim: Beltz.<br />
Marggraf-Micheel, C., Höft, S. & Bonnist, H. (2004): Coaching statt faking - wie<br />
bereite ich Teilnehmer auf ihr Assessment Center vor? 6. Deutscher<br />
Assessment-Center-Kongress des Arbeitskreis Assessment Center e.V.,<br />
Dresden, 18.-19. Nov. 2004.<br />
Marschner, G. (1981). Büro-Test, 2. ergänzte und erweiterte Auflage.<br />
Göttingen: Hogrefe<br />
Meyer, H. H. (1970). The validity of the in-basket as a measure of managerial<br />
performance. Personnel Psychology, 23, 297-307<br />
Musch, J. & Lieberei, W. (1997). Eine auswertungsobjektive <strong>Postkorb</strong>übung für<br />
Assessment Center. Berichte aus dem Psychologischen Institut der<br />
Universität Bonn, Band 23, Heft 1<br />
Musch, J., Rahn, B., Lieberei, W. (2001). Bonner <strong>Postkorb</strong>-Module (BPM): die<br />
Postkörbe CaterTrans, Chronos, Minos und AeroWings. Göttingen:<br />
Hogrefe.<br />
Naumann, J., Richter, T. & Groeben, N. (2002). Validierung des Inventars zur<br />
Computerbildung (INCOBI) anhand eines Vergleichs von<br />
Anwendungsexperten und Anwendungsnovizen. Zeitschrift für<br />
Pädagogische Psychologie, 15, 219-232.<br />
Neubauer, R. (2005). AC-Studie 2001: Was machen eigentlich die anderen<br />
Unternehmen im AC? In K. Sünderhauf, S. Stumpf & S. Höft (Hrsg.),<br />
Assessment Center- Von der Auftragsklärung bis zur Qualitätssicherung<br />
(S. 89-106). Lengerich: Pabst Science Publishers.<br />
1 7 9
Literaturverzeichnis<br />
Neubauer, R. & Volkmann, D. (1995). Beobachtungs- und<br />
Beurteilungsprozesse im Assessment Center. In Arbeitskreis<br />
Assessment Center e.V. (Hg.), Assessment-Center in der betrieblichen<br />
Praxis. Erfahrungen und Perspektiven (Reihe Assessment-Center, Bd. 1,<br />
S.83-107). 2., überarb. Aufl. Hamburg.<br />
Nienaber, C. (1997). Psychische Beanspruchung im Assessment Center.<br />
Dissertation, Westfälische Wilhelms-Universität Münster, Fachbereich<br />
Psychologie. Münster: LIT Verlag<br />
Obermann, C. (1994). Wer profitiert von Führungstrainings? Interindividuelle<br />
Determinanten des Lernerfolgs bei Führungstrainings. Unveröffentlichte<br />
Dissertation, Ruhrgebiet Universität Bochum, Fakultät für Psychologie.<br />
Obermann, C. (2006). Assessment Center: Entwicklung, Durchführung, Trends.<br />
Wiesbaden: Gabler.<br />
Paschen, M., Weidemann, A., Turck, D. & Stöwe, C. (2005). Assessment<br />
Center Professionell - Worauf es ankommt und wie Sie vorgehen.<br />
Göttingen: Hogrefe.<br />
Pearson, M. M., Barnes, J. W. & Onken, M. H. (2006). Development of a<br />
Computerized In-Basket Exercise for the Classroom: A Sales<br />
Management Example. Journal of Marketing Education, 28, 227-236.<br />
Reiter, M. (1995): Gruppendiskussionen. In: W. Sarges (Hrsg.) Management<br />
Diagnostik (S. 596-602). Göttingen: Hogrefe.<br />
Richter, T., Naumann, J. & Groeben, N. (2001). Das Inventar zur<br />
Computerbildung (INCOBI): Ein Instrument zur Erfassung von Computer<br />
Literacy und computerbezogenen Einstellungen bei Studierenden der<br />
Geistes- und Sozialwissenschaften. Psychologie in Erziehung und<br />
Unterricht, 48, 1-13.<br />
1 8 0
Literaturverzeichnis<br />
Riediger, M. & Rolfs, H. (1998). Instrumente der Arbeits- und<br />
Organisationspsychologie. Computergestützte <strong>Postkorb</strong>verfahren:<br />
Mailbox’90, PC-Office und PC-<strong>Postkorb</strong> „Seeblick“. Zeitschrift für Arbeitsund<br />
Organisationspsychologie, 42, 43-50.<br />
Roest, F., Scherzer, A., Urban, E., Gangl, H. & Brandstätter, C. (1989).<br />
MAILBOX’90. Ein computergestütztes Test- und Trainingsverfahren zur<br />
Personalentwicklung. Wien und Weinheim: Scicon und Beltz.<br />
Roest, F. & Horn, R. (1990). Mailbox’90: Computergestützte Diagnostik im<br />
Assessment Center. Diagnostica, 36 (2), 213-219.<br />
Sackett, P. R. & Dreher, G. F. (1982). Constructs and assessment center<br />
dimensions: Some troubling empirical findings. Journal of Applied<br />
Psychology, 67, 401-410<br />
Sarges, W. (1995): Interviews. In: W. Sarges (Hrsg.) Management Diagnostik<br />
(S. 475-489). Göttingen: Hogrefe.<br />
Sarges, W. (2000). Personal: Auswahl, Beurteilung und Entwicklung. In:<br />
J.Straub, A. Kochinka und H. Werbik (Hrsg.) Psychologie in der Praxis.<br />
Anwendung und Berufsfelder einer modernen Wissenschaft (S. 487-<br />
522). München: Deutscher Taschenbuchverlag.<br />
Sarges, W. & Wottawa, H. (2001) Handbuch wirtschaftspsychologischer<br />
Testverfahren. Lengerich: Pabst Science Publishers.<br />
Scharley & Partners. (1991). Seeblick/Lakeview computerized In-basket-test.<br />
Konstanz: Scharley & Partner GmbH.<br />
1 8 1
Literaturverzeichnis<br />
Scharley & Partner (2007). PC-<strong>Postkorb</strong> Seeblick. Ein effizientes<br />
Beurteilungsinstrument. [Online]. Verfügbar unter HTTP:<br />
www.scharley.com Verzeichnis: pc-postkorb/ Dateiname:<br />
PKS_16.04.08.pdf [06.06.2008].<br />
Schippmann, J., Prien, E., Katz, J. (1990). Reliability and Validity of In-Basket<br />
performance measures. Personnel Psychology, 43 , 837-859<br />
Schmidt-Atzert, L. (2006). Verfahren zur Studierendenauswahl. Vortag<br />
anlässlich der Informationsveranstaltung der Deutschen Gesellschaft für<br />
Psychologie, Frankfurt/Main: Januar 2006, Berlin: Februar 2006.<br />
Schmidt, F. & Hunter, J. (1998). The validity and utility of selection methods in<br />
personnel psychology: Practical and theoretical implications of 85 years<br />
of research findings. Psychological Bulletin, Vol 124(2), 262-274.<br />
Schuler, H. (1987): Assessment-Center als Auswahl- und<br />
Entwicklungsinstrument. Ein Überblick. In H. Schuler & W. Stehle (Hrsg.):<br />
Assessment-Center als Methode der Personalentwicklung (S.1-35).<br />
Stuttgart: Verlag für Angewandte Psychologie.<br />
Schuler, H. (1996). Psychologische Personalauswahl: Einführung in die<br />
Berufseignungsdiagnostik. Göttingen: Hogrefe.<br />
Schuler, H., Funke, U., Moser, K., Donat, M. (1995). Personalauswahl in<br />
Forschung und Entwicklung. Göttingen: Hogrefe<br />
Schuler, H. & Moser, K. (1995). Geschichte der Managementdiagnostik. In: W.<br />
Sarges (Hrsg.) Management Diagnostik (S. 32-42). Göttingen: Hogrefe.<br />
Schuler, H. & Klingner, Y. (2005). AZUBI-BK: Arbeitsprobe zur<br />
berufsbezogenen Inteligenz - Büro- und kaufmännische Tätigkeiten.<br />
Göttingen: Hogrefe.<br />
1 8 2
Literaturverzeichnis<br />
Sünderhauf, K., Stumpf, S. & Höft, S. (2005). Assessment Center - von der<br />
Auftragsklärung bis zur Qualitätssicherung. Lengerich: Pabst Science<br />
Publishers.<br />
Thornton, G. & Byham, W. (1982). Assessment centers and managerial<br />
performance. New York: Academic Press.<br />
Wandmacher, J. (1993). Software-Ergonomie. Berlin: de Gruyter.<br />
Weiss, M. (2006). Die <strong>Postkorb</strong>-Übung - ein Instrument des Assessment<br />
Centers unter der Lupe. Unveröffentlichte <strong>Diplomarbeit</strong>, Züricher<br />
Fachhochschule, Hochschule für Angewandte Psychologie<br />
Wernimont, P. F. & Campbell, J.P. (1968). Signs, samples, and criteria. Journal<br />
of Applied Psychologie, 52, 372 - 376<br />
Will, D. (2006). Evaluation eines computergestützten Tests zur<br />
Konzentrationsmessung. Unveröffentlichte <strong>Diplomarbeit</strong>, Universität zu<br />
Köln, Fakultät für Psychologie<br />
Wottawa, H. & Hossiep, R. (1997). Anwendungsfelder psychologischer<br />
Diagnostik. Göttingen: Hogrefe.<br />
1 8 3
Anhang<br />
9 Anhang<br />
A: Instruktion für die KI.BOX<br />
A.1: Teilnehmerunterlage der KI.BOX<br />
B: eingesetzte Fragebögen<br />
B.1: Instruktionsseite des Fragebogens<br />
B.2: Fragebogen Teil 1: BIP Subskala zur Gewissenhaftigkeit<br />
B.3: Fragebogen Teil 2: SUCA<br />
B.4: Fragebogen Teil 3: VECA<br />
B.5: Fragebogen Teil 4: Selbsteinschätzung<br />
B.6: Fragebogen Teil 5: Demographische Daten<br />
C: Statistik<br />
C.1: Demographische Verteilung der Stichprobe<br />
C.2: Deskriptive Statistik der KI.BOX-Ergebnisse<br />
C.3: Korrelationskoeffizienten der Prüfkriterien<br />
C.4: Korrelationskoeffizienten der Bearbeitungsgeschwindigkeiten<br />
D: Selbstständigkeitserklärung<br />
1 8 4
A.1: Teilnehmerunterlage der KI.BOX<br />
A.1: Teilnehmerunterlage der KI.BOX<br />
Teilnehmerunterlage<br />
<strong>Postkorb</strong><br />
_______________________________________________________<br />
1 8 5
A.1: Teilnehmerunterlage der KI.BOX<br />
Teilnehmerunterlage<br />
<strong>Postkorb</strong><br />
Hintergrund<br />
Die Absolventenmesse „Career4U“ steht in sechs Wochen vor der Tür. Ab heute unterstützen<br />
Sie das Projektteam "Nachwuchs", das sich aus Ihrem Vorgesetzten Thomas Friedrichs und<br />
Ihrer Kollegin Alexandra Maier zusammensetzt.<br />
Es ist früh am Morgen. Sie haben gerade Ihren Computer eingeschaltet. Bevor Sie Ihren<br />
nächsten Termin wahrnehmen, müssen Sie noch Ihren <strong>Postkorb</strong> bearbeiten. Dieser besteht aus<br />
den folgenden vier Aufgabenbereichen: Ihrem Posteingang für E-Mails, verschiedenen Excel-<br />
Tabellen, Ihrem Kalender für die Messeplanung und einer Prioritätenliste für heute.<br />
Ziel dabei ist es, Ihren <strong>Postkorb</strong> innerhalb der vorgegebenen Zeit möglichst umfassend und<br />
korrekt zu bearbeiten.<br />
Nach der Durchsicht dieser Unterlage steht Ihnen zusätzlich eine zehnminütige<br />
„Aufwärmphase“ am Computer zur Verfügung, in der Sie sich mit der Bedienung des<br />
<strong>Postkorb</strong>s und den Erläuterungen zu den einzelnen Bereichen vertraut machen können.<br />
Anschließend haben sie für die Bearbeitung des <strong>Postkorb</strong>s exakt 60 Minuten Zeit.<br />
Aufgabe<br />
Ihre Aufgabe ist es, Ihren <strong>Postkorb</strong> zu bearbeiten. Er umfasst vier Aufgabenbereiche:<br />
1. Posteingang:<br />
In Ihrem Posteingang finden Sie bereits eine Vielzahl unterschiedlicher E-Mails. Es ist<br />
nicht auszuschließen, dass während der Bearbeitung der E-Mails noch weitere<br />
hinzukommen. Einige E-Mails sind rein informativer Natur, andere beinhalten konkrete<br />
Fragen oder Aufgabenstellungen.<br />
2. Excel (Tabellen):<br />
Bei der Bearbeitung Ihrer E-Mails müssen Sie zum Teil auf Tabellen (Excel)<br />
zurückgreifen, die wichtige Informationen für Sie beinhalten. Wenn das der Fall sein<br />
sollte, wird explizit auf die entsprechende Tabelle in der E-Mail hingewiesen.<br />
3. Kalender Messeplanung:<br />
Die beiden Messetage der Absolventenmesse Career4U müssen in Ihrem Kalender<br />
geplant werden. Tragen Sie bitte in den Kalender alle Termine ein, die Sie oder einer<br />
Ihrer Kollegen auf der Messe wahrnehmen müssen.<br />
4. Prioritäten für heute:<br />
In einer Prioritätenliste sollen Sie Ihre fünf wichtigsten ToDos für den heutigen Tag<br />
festlegen.<br />
Ziel<br />
• Sie haben für die Durchsicht dieser Informationen 10 Minuten Zeit.<br />
• Danach erfolgt eine zehnminütige Einarbeitungszeit am Computer.<br />
• Für die anschließende Bearbeitung des <strong>Postkorb</strong>s haben Sie 60 Minuten Zeit.<br />
1 8 6
A.1: Teilnehmerunterlage der KI.BOX<br />
Teilnehmerunterlage<br />
<strong>Postkorb</strong><br />
Allgemeine Hinweise zur Bearbeitung des <strong>Postkorb</strong>s<br />
1. Bearbeiten Sie bitte alle Aufgabenbereiche, da alle gleichermaßen in die Auswertung<br />
einfließen.<br />
2. Gehen Sie bitte bei der Bearbeitung Ihrer Aufgaben nicht ausschließlich sequentiell vor,<br />
da Sie mitunter die benötigten Informationen an unterschiedlichen Stellen finden.<br />
3. Da sich in Ihrem <strong>Postkorb</strong> viele zu erledigende Aufgaben angesammelt haben, ist es<br />
durchaus möglich, dass Sie in der vorgegebenen Zeit (60 Minuten) nicht alle Aufgaben<br />
bearbeiten und lösen können.<br />
4. Klicken Sie während der Bearbeitungszeit mit der Maus alles das an, was Sie anklicken<br />
möchten!<br />
5. Nutzen Sie Ihre <strong>EDV</strong>-Kenntnisse bei der Bearbeitung Ihres <strong>Postkorb</strong>s! Sie können<br />
beispielsweise mit Hilfe der Maus in Ihrem Posteingang und in den Tabellen die<br />
Spaltenbreite verändern, Zeilen markieren oder sie so sortieren, dass Ihnen die<br />
gewählte Anordnung das Arbeiten erleichtert.<br />
6. Bedenken Sie, dass falsche Antworten in der Auswertung als Negativpunkte<br />
berücksichtigt werden.<br />
7. Sie können bei Bedarf einen Taschenrechner zur Hilfe nehmen.<br />
Einführung in die Bearbeitung des <strong>Postkorb</strong>s<br />
Nach dem Start des computergestützten <strong>Postkorb</strong>s erhalten Sie auf der Startseite (siehe<br />
Screenshot auf Seite 4 dieser Teilnehmerunterlage) zunächst einige Hinweise zur Bearbeitung<br />
des <strong>Postkorb</strong>s, die Sie auch in dieser Teilnehmerunterlage vermittelt bekommen. Ihnen werden<br />
noch einmal die Rahmenhandlung und Ihre Aufgaben bei der Bearbeitung des <strong>Postkorb</strong>s<br />
erläutert.<br />
Am unteren Bildschirmrand (oberhalb der Windows-Startzeile) ist eine Zeitleiste für Sie<br />
eingeblendet, die Ihnen in Form eines Balkens angibt, wie viel Zeit seit dem Programmstart<br />
bereits verstrichen ist. Eine genaue Zeitangabe erhalten Sie, wenn Sie mit der Maus auf die<br />
Zeitleiste zeigen. Ihnen stehen ab dem Programmstart 60 Minuten zur Verfügung, danach<br />
deaktiviert sich das Programm automatisch.<br />
Am linken Bildschirmrand befindet sich Ihre Menüleiste. Wenn Sie in dieser Leiste auf die<br />
einzelnen Menüpunkte klicken, gelangen Sie zu Ihren einzelnen Aufgaben.<br />
Nähere Informationen zur Bearbeitung der vier Aufgabenbereiche erhalten Sie, wenn Sie mit<br />
der Maus auf der Startseite im Abschnitt „Ihre Aufgabe“ auf die unter der Überschrift<br />
„Navigation“ stehenden Links „Erläuterung: Posteingang“, „Erläuterung: Excel“, „Erläuterung:<br />
Kalender Messeplanung“ sowie „Erläuterung: Prioritäten heute“ klicken. Über den Link „Zurück<br />
zur Startseite“ gelangen Sie jeweils zurück zur Startseite.<br />
1 8 7
A.1: Teilnehmerunterlage der KI.BOX<br />
Teilnehmerunterlage<br />
<strong>Postkorb</strong><br />
Startseite<br />
Hier gelangen Sie zu<br />
Ihren Aufgaben!<br />
Hier erhalten Sie Erklärungen zu den 4<br />
Aufgabenbereichen (siehe folgende<br />
Screenshots)!<br />
Ihre Zeit-Leiste<br />
1 8 8
A.1: Teilnehmerunterlage der KI.BOX<br />
Teilnehmerunterlage<br />
<strong>Postkorb</strong><br />
Erläuterungen zum „Posteingang“<br />
1 8 9
A.1: Teilnehmerunterlage der KI.BOX<br />
Teilnehmerunterlage<br />
<strong>Postkorb</strong><br />
Erläuterungen zu „Excel (Tabellen)“<br />
1 9 0
A.1: Teilnehmerunterlage der KI.BOX<br />
Teilnehmerunterlage<br />
<strong>Postkorb</strong><br />
Erläuterungen zum „Kalender Messeplanung“<br />
1 9 1
A.1: Teilnehmerunterlage der KI.BOX<br />
Teilnehmerunterlage<br />
<strong>Postkorb</strong><br />
Erläuterungen zu den „Prioritäten für heute“<br />
1 9 2
B.1: Instruktionsseite des Fragebogens<br />
B.1: Instruktionsseite des Fragebogens<br />
Code:<br />
Liebe Untersuchungsteilnehmerin, lieber Untersuchungsteilnehmer,<br />
Noch einmal vielen Dank, dass Du an meiner Untersuchung „Career4U“ teilnimmst und mit<br />
Deinem Einsatz die Datenerhebung für meine <strong>Diplomarbeit</strong> unterstützt.<br />
Um die Anonymität Deiner Daten zu gewährleisten, trage bitte JETZT oben deinen<br />
persönlichen Code ein. Zur Erinnerung:<br />
1. Kästchen: Der dritte Buchstabe deines Vornamens (z.B. R für <strong>Christian</strong>)<br />
2. Kästchen: Der erste Buchstabe des Vornamens deiner Mutter (z.B. C für Carola)<br />
3. und 4. Kästchen: Der Tag deines Geburtstag (z.B. 0 und 9 für 09. März)<br />
5. Kästchen: Der letzte Buchstabe des Vornamens deines Vaters (z.B. Z für Heinz)<br />
In diesem Beispiel würde der Code also lauten: R C 0 9 Z<br />
Bitte erst weitermachen, wenn Du den Code eingetragen hast.<br />
Du wirst nun im Folgenden 5 kurze Fragebögen vorfinden.<br />
Bei der Beantwortung der Fragen gibt es keine richtigen oder falschen Antworten. Überlege<br />
deshalb nicht lange, sondern kreuze spontan das Kästchen an, welches Deine Einschätzung<br />
am besten ausdrückt. Bitte sei bei der Beantwortung des Fragebogens ganz offen und ehrlich,<br />
denn Deine persönliche Einschätzung ist gefragt. Natürlich bleiben alle deine Angaben anonym.<br />
Du kannst jetzt mit der Beantwortung des Fragebogens beginnen. Wenn Du fertig bist,<br />
vergewissere Dich bitte noch einmal, ob Du auch alle Fragen beantwortest hast.<br />
Anschließend gib dem Versuchsleiter bitte ein Zeichen, dass Du fertig bist.<br />
Vielen Dank für das Ausfüllen dieses Fragebogens.<br />
1 9 3
B.3: Fragebogen Teil 2: SUCA<br />
B.3: Fragebogen Teil 2: SUCA<br />
Fragebogen zur Sicherheit im Umgang mit Computern und Computeranwendungen<br />
(SUCA)<br />
Bei diesem Fragebogen geht es darum, wie sicher Sie selbst Ihren Umgang mit dem Computer<br />
und verschiedenen Computeranwendungen einschätzen. Auf dieser und der folgenden Seite<br />
sind elf Feststellungen aufgeführt, die sich auf Ihren Umgang mit dem Computer beziehen. Wir<br />
möchten Sie bitten, jeweils anzugeben, in welchem Ausmaß die Aussagen auf Sie zutreffen.<br />
Hier ein Beispiel:<br />
trifft zu<br />
trifft<br />
Neutral<br />
trifft<br />
trifft<br />
keine Ein-<br />
eher zu<br />
eher<br />
nicht<br />
schätzung<br />
nicht zu<br />
zu<br />
Bei der Arbeit am Computer fühle<br />
ich mich so sicher wie beim<br />
täglichen Zähneputzen.<br />
Wenn die Aussage auf Sie zutrifft, kreuzen Sie das Feld bei "trifft zu" an, wenn die Aussage<br />
tendenziell auf Sie zutrifft, kreuzen Sie das Feld bei "trifft eher zu an", wenn die Aussage Ihrer<br />
Einschätzung nach auf Sie eher nicht zutrifft, kreuzen Sie das Feld bei "trifft eher nicht zu" an<br />
usw. Wenn Sie keine Einschätzung abgeben können oder wollen, haben Sie die Möglichkeit,<br />
das Feld in der Spalte "keine Einschätzung" zu markieren. Beachten Sie bitte, daß es hier keine<br />
'richtigen' oder 'falschen' Antworten gibt. Versuchen Sie, spontan zu antworten, jedoch nicht,<br />
ohne die jeweilige Aussage gründlich gelesen zu haben.<br />
1 9 8
B.3: Fragebogen Teil 2: SUCA<br />
Bitte bearbeiten Sie alle elf Aussagen.<br />
trifft zu<br />
trifft<br />
Neutral<br />
trifft<br />
trifft<br />
keine<br />
eher zu<br />
eher<br />
nicht zu<br />
Einschät<br />
nicht zu<br />
zung<br />
1. Im Umgang mit Computern fühle ich<br />
mich sicher.<br />
2. Die Verwendung unbekannter<br />
Software-Programme kann ich<br />
schnell erlernen.<br />
3. Bei der Arbeit mit dem Computer<br />
lasse ich mich durch auftretende<br />
(computerbedingte) Schwierigkeiten<br />
leicht frustrieren.<br />
4. Im Allgemeinen bereitet mir die<br />
Arbeit mit Computern wenige<br />
Probleme.<br />
5. Bei Problemen mit einem<br />
Computerprogramm würde ich eher<br />
das Handbuch als die Online-Hilfe<br />
heranziehen.<br />
6. Bei auftretenden<br />
Computerproblemen frage ich<br />
meistens andere Leute.<br />
7. Ich schätze mich so ein, daß ich von<br />
der Informationssuche im Internet<br />
profitieren kann.<br />
8. Mit der Computer-Maus<br />
umzugehen, bereitet mir manchmal<br />
Schwierigkeiten.<br />
9. Bei Literaturrecherchen würde ich<br />
elektronische Datenbanken<br />
Bibliographien in Buchform in der<br />
Regel den Vorzug geben.<br />
10. Mit den Fehlermeldungen meines<br />
Computers kann ich in der Regel<br />
etwas anfangen.<br />
11. Das Formatieren eines längeren<br />
Textdokuments ist für mich kein<br />
Problem.<br />
Teil 2 des Fragebogens ist damit beendet.<br />
Bitte umblättern, um mit Teil 3 fortzufahren.<br />
1 9 9
B.4: Fragebogen Teil 3: VECA<br />
B.4: Fragebogen Teil 3: VECA<br />
Fragebogen zur Vertrautheit mit verschiedenen Computeranwendungen (VECA)<br />
Bei diesem Fragebogen geht es um Ihre Vertrautheit mit verschiedenen Computeranwendungen. Sie<br />
sollen sich selbst daraufhin einschätzen, wie vertraut Sie im Umgang mit einzelnen<br />
Computeranwendungen sind. Im Folgenden sind einige Computeranwendungen aufgelistet. Wir<br />
möchten Sie bitten, jeweils zu beurteilen, ob Sie meinen, im Umgang mit den jeweiligen Anwendungen<br />
im Vergleich zu anderen Studentinnen und Studenten "weit überdurchschnittlich",<br />
"überdurchschnittlich", "durchschnittlich", "unterdurchschnittlich" oder "weit<br />
unterdurchschnittlich" vertraut zu sein.<br />
Ich bin vertraut im Umgang mit<br />
weit über-<br />
über-<br />
durch-<br />
unter-<br />
weit<br />
durch-<br />
durch-<br />
schnitt-<br />
durch-<br />
unter-<br />
<br />
schnittlich<br />
schnitt-<br />
lich<br />
lich<br />
schnitt-<br />
lich<br />
durch-<br />
schnittlich<br />
1. Computern im allgemeinen<br />
2. Textverarbeitung<br />
3. Multimedia-Anwendungen<br />
4. Programmiersprachen<br />
5. Tabellenkalkulation<br />
6. Statistik-Programmen<br />
7. E-Mail<br />
8. Datenbanken<br />
9. Internet/WWW<br />
10. Computerspielen<br />
11. Graphikprogrammen<br />
12. Terminplanungsprogrammen<br />
Teil 3 des Fragebogens ist damit beendet.<br />
Bitte umblättern, um mit Teil 4 fortzufahren.<br />
2 0 0
B.5: Fragebogen Teil 4: Selbsteinschätzung<br />
B.5: Fragebogen Teil 4: Selbsteinschätzung<br />
Selbsteinschätzung:<br />
1. Im Vergleich zu anderen Studierenden schätze ich meine analytischen Fähigkeit ein als:<br />
<br />
unterdurchschnittlich<br />
überdurchschnittlich<br />
2. Im Vergleich zu anderen Studierenden schätze ich meine organisatorisch-konzeptionellen<br />
Fähigkeit ein als:<br />
<br />
unterdurchschnittlich<br />
überdurchschnittlich<br />
3. Ich habe Erfahrung mit kaufmännisch Tätigkeiten und / oder Büroarbeit.<br />
<br />
trifft gar nicht zu<br />
trifft vollkommen zu<br />
4. Ich habe theoretisches über Assessment Center.<br />
<br />
trifft gar nicht zu<br />
trifft vollkommen zu<br />
5. Ich habe schon an Assessment Centern teilgenommen.<br />
<br />
trifft gar nicht zu<br />
trifft vollkommen zu<br />
6. Ich habe theoretisches Wissen über <strong>Postkorb</strong>-Übungen.<br />
<br />
trifft gar nicht zu<br />
trifft vollkommen zu<br />
7. Ich habe schon einmal eine <strong>Postkorb</strong>-Übung durchlaufen.<br />
<br />
trifft gar nicht zu<br />
trifft vollkommen zu<br />
Teil 4 des Fragebogens ist damit beendet.<br />
Bitte umblättern, um mit Teil 5 fortzufahren<br />
2 0 1
B.6: Fragebogen Teil 5: Demographische Daten<br />
B.6: Fragebogen Teil 5: Demographische Daten<br />
Demographische Daten:<br />
Geschlecht: weiblich männlich <br />
Alter: ______<br />
Studienfach:___________________________<br />
Semester: _______<br />
Abitur-Durchschnitt: ___________<br />
Letzte Schulnote in Deutsch: ___________<br />
Letzte Schulnote in Mathematik: ___________<br />
Deutschkenntnisse:<br />
<br />
<br />
<br />
Deutsch als 1. Muttersprache<br />
Deutsch als 2. Muttersprache<br />
Deutsch als Fremdsprache<br />
Berufserfahrung:<br />
<br />
<br />
<br />
<br />
keine Berufserfahrung<br />
abgebrochene Ausbildung als:<br />
_________________________<br />
abgeschlossene Ausbildung als:<br />
_________________________<br />
abgeschlossenes Studium:<br />
_________________________<br />
Ja, ich möchte ein anonymes schriftliches Feedback über meine Ergebnisse in dieser<br />
Untersuchung erhalten.<br />
Vielen Dank für das Ausfüllen dieses Fragebogens!<br />
Die Untersuchung ist nun beendet.<br />
Gib dem Untersuchungsleiter bitte ein Zeichen, dass Du fertig bist.<br />
2 0 2
C.1: Demographische Verteilung der Stichprobe<br />
C.1: Demographische Verteilung der Stichprobe<br />
Geschlecht<br />
Häufigkeit<br />
Prozent<br />
Kumulierte<br />
Prozente<br />
weiblich 52 75,4 75,4<br />
männlich 17 24,6 100,0<br />
Gesamt 69 100,0<br />
Alter<br />
Häufigkeit<br />
Prozent<br />
Kumulierte<br />
Prozente<br />
18 1 1,4 1,4<br />
19 8 11,6 13,0<br />
20 11 15,9 29,0<br />
21 2 2,9 31,9<br />
22 5 7,2 39,1<br />
23 7 10,1 49,3<br />
24 6 8,7 58,0<br />
25 7 10,1 68,1<br />
26 1 1,4 69,6<br />
28 3 4,3 73,9<br />
29 5 7,2 81,2<br />
31 1 1,4 82,6<br />
32 2 2,9 85,5<br />
33 1 1,4 87,0<br />
36 2 2,9 89,9<br />
40 3 4,3 94,2<br />
41 1 1,4 95,7<br />
42 1 1,4 97,1<br />
44 1 1,4 98,6<br />
49 1 1,4 100,0<br />
Gesamt 69 100,0<br />
2 0 3
C.1: Demographische Verteilung der Stichprobe<br />
Studienfach<br />
Häufigkeit<br />
Prozent<br />
Kumulierte<br />
Prozente<br />
Psychologie 62 89,9 89,9<br />
Wirtschaftspsychologie 1 1,4 91,3<br />
BWL 3 4,3 95,7<br />
Soziologie 2 2,9 98,6<br />
Landschaftsarchitektur 1 1,4 100,0<br />
Gesamt 69 100,0<br />
Semesteranzahl<br />
Häufigkeit<br />
Prozent<br />
Kumulierte<br />
Prozente<br />
1 32 46,4 46,4<br />
3 21 30,4 76,8<br />
5 7 10,1 87,0<br />
6 1 1,4 88,4<br />
7 1 1,4 89,9<br />
8 1 1,4 91,3<br />
9 3 4,3 95,7<br />
10 1 1,4 97,1<br />
11 1 1,4 98,6<br />
14 1 1,4 100,0<br />
Gesamt 69 100,0<br />
Berufserfahrung<br />
Häufigkeit<br />
Prozent<br />
Kumulierte<br />
Prozente<br />
keine Berufsausbildung 46 66,7 66,7<br />
abgebrochene Ausbildung 2 2,9 69,6<br />
abgeschlossene Ausbildung 11 15,9 85,5<br />
abgeschlossenes Studium 9 13,0 98,6<br />
keine Angaben 1 1,4 100,0<br />
Gesamt 69 100,0<br />
2 0 4
C.1: Demographische Verteilung der Stichprobe<br />
wenn Berufserfahrung, dann abgebrochene Ausbildung im Bereich:<br />
Häufigkeit<br />
Prozent<br />
Kumulierte<br />
Prozente<br />
Naturwissenschaft 1 1,4 1,4<br />
Technik 1 1,4 2,9<br />
keine Angaben 67 97,1 100,0<br />
Gesamt 69 100,0<br />
wenn Berufserfahrung, dann abgeschlossene Ausbildung im Bereich:<br />
Häufigkeit<br />
Prozent<br />
Kumulierte<br />
Prozente<br />
Technik 1 1,4 1,4<br />
kaufmännisch 8 11,6 13,0<br />
Sozialwesen 3 4,3 17,4<br />
keine Angaben 57 82,6 100,0<br />
Gesamt 69 100,0<br />
wenn Berufserfahrung, dann abgeschlossenes Studium im Bereich:<br />
Häufigkeit<br />
Prozent<br />
Kumulierte<br />
Prozente<br />
Technik 1 1,4 1,4<br />
kaufmännisch 1 1,4 2,9<br />
Geisteswissenschaft 7 10,1 13,0<br />
keine Angaben 60 87,0 100,0<br />
Gesamt 69 100,0<br />
2 0 5
C.1: Demographische Verteilung der Stichprobe<br />
„Ich habe Erfahrung mit kaufmännisch Tätigkeiten und / oder Büroarbeit.“<br />
(1 = trifft nicht zu, 6 = trifft vollkommen zu)<br />
Häufigkeit<br />
Prozent<br />
Kumulierte<br />
Prozente<br />
1 23 33,3 33,3<br />
2 16 23,2 56,5<br />
3 3 4,3 60,9<br />
4 10 14,5 75,4<br />
5 11 15,9 91,3<br />
6 6 8,7 100,0<br />
Gesamt 69 100,0<br />
Abitur Durchschnitt<br />
Häufigkeit<br />
Prozent<br />
Kumulierte<br />
Prozente<br />
1,0 3 4,3 4,3<br />
1,1 5 7,2 11,6<br />
1,2 2 2,9 14,5<br />
1,3 5 7,2 21,7<br />
1,4 1 1,4 23,2<br />
1,5 9 13,0 36,2<br />
1,6 4 5,8 42,0<br />
1,7 6 8,7 50,7<br />
1,8 2 2,9 53,6<br />
1,9 1 1,4 55,1<br />
2,0 4 5,8 60,9<br />
2,1 3 4,3 65,2<br />
2,2 3 4,3 69,6<br />
2,3 2 2,9 72,5<br />
2,4 1 1,4 73,9<br />
2,5 3 4,3 78,3<br />
2,6 3 4,3 82,6<br />
2,7 5 7,2 89,9<br />
2,8 2 2,9 92,8<br />
2,9 1 1,4 94,2<br />
3,0 2 2,9 97,1<br />
3,2 1 1,4 98,6<br />
3,5 1 1,4 100,0<br />
Gesamt 69 100,0<br />
2 0 6
C.1: Demographische Verteilung der Stichprobe<br />
letzte Schulnote in Deutsch (in Punkten)<br />
Häufigkeit<br />
Prozent<br />
Kumulierte<br />
Prozente<br />
2 1 1,4 1,4<br />
5 1 1,4 2,9<br />
7 3 4,3 7,2<br />
8 7 10,1 17,4<br />
9 1 1,4 18,8<br />
10 3 4,3 23,2<br />
11 17 24,6 47,8<br />
12 4 5,8 53,6<br />
13 8 11,6 65,2<br />
14 16 23,2 88,4<br />
15 8 11,6 100,0<br />
Gesamt 69 100,0<br />
letzte Schulnote in Mathematik (in Punkten)<br />
Häufigkeit<br />
Prozent<br />
Kumulierte<br />
Prozente<br />
1 3 4,3 4,3<br />
2 4 5,8 10,1<br />
5 7 10,1 20,3<br />
7 3 4,3 24,6<br />
8 12 17,4 42,0<br />
9 1 1,4 43,5<br />
10 1 1,4 44,9<br />
11 13 18,8 63,8<br />
12 4 5,8 69,6<br />
13 10 14,5 84,1<br />
14 7 10,1 94,2<br />
15 4 5,8 100,0<br />
Gesamt 69 100,0<br />
2 0 7
C.1: Demographische Verteilung der Stichprobe<br />
Deutschkenntnisse<br />
Häufigkeit<br />
Prozent<br />
Kumulierte<br />
Prozente<br />
Deutsch als 1. Muttersprache 56 81,2 81,2<br />
Deutsch als 2. Muttersprache 4 5,8 87,0<br />
Deutsch als Fremdsprache 9 13,0 100,0<br />
Gesamt 69 100,0<br />
2 0 8
C.2: Deskriptive Statistik der KI.BOX-Ergebnisse<br />
C.2: Deskriptive Statistik der KI.BOX-Ergebnisse<br />
Deskriptive Statistik<br />
N Minimum Maximum Mittelwert<br />
Standard-<br />
abweichung<br />
Analyt. Fähigkeiten<br />
Mengenleistung 69 ,0 17,0 8,710 3,6866<br />
Analyt. Fähigkeiten<br />
erreichte Punkte 69 -3,0 9,0 2,710 2,4441<br />
Orga.-konzept. Fähigkeiten<br />
Mengenleistung 69 15,0 42,0 25,290 7,2398<br />
Orga.-konzept. Fähigkeiten<br />
erreichte Punkte 69 -31,0 13,0 -1,674 8,1411<br />
bearbeitete Items in den Analytischen Fähigkeiten (KI.BOX)<br />
Häufigkeit Prozent Kumulierte Prozente<br />
0 1 1,4 1,4<br />
3 1 1,4 2,9<br />
4 4 5,8 8,7<br />
5 9 13,0 21,7<br />
6 8 11,6 33,3<br />
7 9 13,0 46,4<br />
8 4 5,8 52,2<br />
9 6 8,7 60,9<br />
10 4 5,8 66,7<br />
11 7 10,1 76,8<br />
12 4 5,8 82,6<br />
13 1 1,4 84,1<br />
14 7 10,1 94,2<br />
15 1 1,4 95,7<br />
16 2 2,9 98,6<br />
17 1 1,4 100,0<br />
Gesamt 69 100,0<br />
2 0 9
C.2: Deskriptive Statistik der KI.BOX-Ergebnisse<br />
erreichte Punkte in den Analytischen Fähigkeiten (KI.BOX)<br />
Häufigkeit Prozent Kumulierte Prozente<br />
-3 1 1,4 1,4<br />
-2 2 2,9 4,3<br />
-1 4 5,8 10,1<br />
0 4 5,8 15,9<br />
1 10 14,5 30,4<br />
2 11 15,9 46,4<br />
3 14 20,3 66,7<br />
4 6 8,7 75,4<br />
5 9 13,0 88,4<br />
6 5 7,2 95,7<br />
7 1 1,4 97,1<br />
9 2 2,9 100,0<br />
Gesamt 69 100,0<br />
bearbeitete Items in den Organisatorisch-konzeptionellen Fähigkeiten (KI.BOX)<br />
Häufigkeit Prozent Kumulierte Prozente<br />
15 4 5,8 5,8<br />
16 1 1,4 7,2<br />
17 2 2,9 10,1<br />
18 7 10,1 20,3<br />
19 2 2,9 23,2<br />
20 5 7,2 30,4<br />
21 5 7,2 37,7<br />
22 3 4,3 42,0<br />
23 4 5,8 47,8<br />
24 6 8,7 56,5<br />
25 1 1,4 58,0<br />
26 3 4,3 62,3<br />
27 3 4,3 66,7<br />
29 4 5,8 72,5<br />
30 3 4,3 76,8<br />
31 3 4,3 81,2<br />
32 2 2,9 84,1<br />
34 2 2,9 87,0<br />
35 2 2,9 89,9<br />
36 1 1,4 91,3<br />
39 1 1,4 92,8<br />
40 3 4,3 97,1<br />
42 2 2,9 100,0<br />
Gesamt 69 100,0<br />
2 1 0
C.2: Deskriptive Statistik der KI.BOX-Ergebnisse<br />
erreichte Punkte in den Organisatorisch-konzeptionellen Fähigkeiten (KI.BOX)<br />
Häufigkeit Prozent Kumulierte Prozente<br />
-31 1 1,4 1,4<br />
-19 1 1,4 2,9<br />
-18,5 1 1,4 4,3<br />
-18 1 1,4 5,8<br />
-16 1 1,4 7,2<br />
-13 1 1,4 8,7<br />
-11 2 2,9 11,6<br />
-10 1 1,4 13,0<br />
-9,5 1 1,4 14,5<br />
-9 2 2,9 17,4<br />
-8,5 2 2,9 20,3<br />
-8 1 1,4 21,7<br />
-7 1 1,4 23,2<br />
-6,5 1 1,4 24,6<br />
-6 1 1,4 26,1<br />
-5,5 1 1,4 27,5<br />
-5 1 1,4 29,0<br />
-4 3 4,3 33,3<br />
-3,5 2 2,9 36,2<br />
-3 2 2,9 39,1<br />
-2 4 5,8 44,9<br />
-1,5 1 1,4 46,4<br />
-1 4 5,8 52,2<br />
-0,5 1 1,4 53,6<br />
0 2 2,9 56,5<br />
0,5 3 4,3 60,9<br />
1 2 2,9 63,8<br />
2 3 4,3 68,1<br />
3 4 5,8 73,9<br />
4 5 7,2 81,2<br />
5 2 2,9 84,1<br />
6 3 4,3 88,4<br />
8 1 1,4 89,9<br />
9 1 1,4 91,3<br />
10 2 2,9 94,2<br />
11 2 2,9 97,1<br />
12 1 1,4 98,6<br />
13 1 1,4 100,0<br />
Gesamt 69 100,0<br />
2 1 1
C.3: Korrelationskoeffizienten der Prüfkriterien<br />
C.3: Korrelationskoeffizienten der Prüfkriterien<br />
Analytische<br />
Fähigkeiten<br />
(erreichte<br />
Punkte)<br />
Orga.-konzept.<br />
Fähigkeiten<br />
(erreichte<br />
Punkte)<br />
Abitur Durchschnitt Korrelation nach Pearson -.08 -.04<br />
Signifikanz (2-seitig) .53 .76<br />
N 69 69<br />
letzte Schulnote in Deutsch<br />
(in Punkten) Korrelation nach Pearson -.05 -.05<br />
Signifikanz (2-seitig) .66 ,69<br />
N 69 69<br />
letzte Schulnote in Mathematik<br />
(in Punkten) Korrelation nach Pearson .31** .16<br />
Signifikanz (2-seitig) .01 .19<br />
Selbsteinschätzung der<br />
eigenen analytischen<br />
Fähigkeiten<br />
Selbsteinschätzung der<br />
eigenen orga.-konzept.<br />
Fähigkeiten<br />
N 69 69<br />
Korrelation nach Pearson .29* .30*<br />
Signifikanz (2-seitig) .02 .01<br />
N 69 69<br />
Korrelation nach Pearson -.05 .14<br />
Signifikanz (2-seitig) .69 .25<br />
N 69 69<br />
AZUBI-BK Gesamttestwert Korrelation nach Pearson .48** .52**<br />
Signifikanz (2-seitig) .00 .00<br />
N 69 69<br />
AZUBI-BK Grundmodul Korrelation nach Pearson .44** .51**<br />
Signifikanz (2-seitig) .00 .00<br />
N 69 69<br />
AZUBI-BK Postmodul Korrelation nach Pearson .52** .53**<br />
Signifikanz (2-seitig) .00 .00<br />
N 69 69<br />
BIP Gewissenhaftigkeit Korrelation nach Pearson .10 .29*<br />
Signifikanz (2-seitig) .41 .01<br />
N 69 69<br />
SUCA Korrelation nach Pearson .06 .06<br />
Signifikanz (2-seitig) .63 .65<br />
N 69 69<br />
2 1 2
C.3: Korrelationskoeffizienten der Prüfkriterien<br />
VECA Korrelation nach Pearson .06 -.08<br />
Signifikanz (2-seitig) .61 .51<br />
N 69 69<br />
Vertrautheit mit<br />
Textverarbeitung (VECA) Korrelation nach Pearson -.09 -.06<br />
Signifikanz (2-seitig) .47 .60<br />
N 69 69<br />
Vertrautheit mit E-Mail (VECA) Korrelation nach Pearson -.12 -.23<br />
Signifikanz (2-seitig) .34 .05<br />
N 69 69<br />
Vertrautheit mit Terminplanungsprogrammen<br />
(VECA) Korrelation nach Pearson .04 .08<br />
Signifikanz (2-seitig) .78 .50<br />
N 69 69<br />
Alter Korrelation nach Pearson -.30** -.28*<br />
Signifikanz (2-seitig) .01 .02<br />
N 69 69<br />
Semesteranzahl Korrelation nach Pearson -.04 -.05<br />
Signifikanz (2-seitig) .75 .68<br />
N 69 69<br />
theoretische Vorerfahrung mit<br />
Assessment Center Korrelation nach Pearson .25* .27*<br />
Signifikanz (2-seitig) .04 .03<br />
N 69 69<br />
schon teilgenommen an<br />
Assessment Centern Korrelation nach Pearson .11 .07<br />
Signifikanz (2-seitig) .39 .56<br />
N 69 69<br />
theoretische Vorerfahrung mit<br />
<strong>Postkorb</strong>-Übungen Korrelation nach Pearson -.00 .29*<br />
Signifikanz (2-seitig) .98 .02<br />
N 69 69<br />
schon <strong>Postkorb</strong>-Übungen<br />
durchlaufen Korrelation nach Pearson .06 .23<br />
Signifikanz (2-seitig) .61 .06<br />
N 69 69<br />
** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />
* Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.<br />
2 1 3
C.4: Korrelationskoeffizienten der Bearbeitungsgeschwindigkeiten<br />
C.4: Korrelationskoeffizienten der Bearbeitungsgeschwindigkeiten<br />
AZUBI-BK<br />
durchschnittliche<br />
Bearbeitungsgeschwindigkeit<br />
sprachgebundene<br />
Bearbeitungszeit in der AZUBI-BK<br />
Bearbeitungsgeschwindigkeit beim<br />
Bearbeiten von Mehrfachkategorien<br />
in der AZUBI-BK<br />
Bearbeitungsgeschwindigkeit beim<br />
Prüfen und Vergleichen von Details<br />
in der AZUBI-BK<br />
Bearbeitungsgeschwindigkeit im<br />
Umgang mit Tabellen in der<br />
AZUBI-BK<br />
Summe der<br />
bearbeitete<br />
n Items in<br />
der KI.BOX<br />
bearbeitete<br />
Items in den<br />
Analytische<br />
Fähigkeiten<br />
(KI.BOX)<br />
bearbeitete<br />
Items in den<br />
Orga.-<br />
konzept.<br />
Fähigkeiten<br />
(KI.BOX)<br />
Korrelation<br />
nach Pearson .19 .04 .23<br />
Signifikanz<br />
(2-seitig)<br />
.11 .77 .06<br />
N 69 69 69<br />
Korrelation<br />
nach Pearson<br />
.20 .06 .22<br />
Signifikanz<br />
(2-seitig)<br />
.10 .62 .07<br />
N 69 69 69<br />
Korrelation<br />
nach Pearson .18 .09 .19<br />
Signifikanz<br />
(2-seitig)<br />
.13 .45 .13<br />
N 69 69 69<br />
Korrelation<br />
nach Pearson -.05 .00 -.06<br />
Signifikanz<br />
(2-seitig)<br />
.71 .97 .63<br />
N 69 69 69<br />
Korrelation<br />
nach Pearson .24* -.02 .32**<br />
Signifikanz<br />
(2-seitig)<br />
.05 .87 .01<br />
N 69 69 69<br />
** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />
* Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.<br />
2 1 4
D: Selbstständigkeitserklärung<br />
D: Selbstständigkeitserklärung<br />
Ich versichere hiermit, dass ich die vorliegende Arbeit mit dem Titel<br />
„Der computergestützte <strong>Postkorb</strong> KI.BOX - eine Validierungsstudie.“<br />
selbstständig verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel<br />
benutzt habe. Die Stellen, die anderen Werken im Wortlaut oder dem Sinn nach<br />
entnommen sind, wurden durch Quellenangaben im Text kenntlich gemacht.<br />
Köln, den …………………………………<br />
…………………………………………….<br />
<strong>Christian</strong> <strong>Srbeny</strong><br />
2 1 5