16.11.2013 Aufrufe

Diplomarbeit Christian Srbeny - EDV-Postkorb

Diplomarbeit Christian Srbeny - EDV-Postkorb

Diplomarbeit Christian Srbeny - EDV-Postkorb

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Der computergestützte <strong>Postkorb</strong> KI.BOX<br />

- eine Validierungsstudie.<br />

Als <strong>Diplomarbeit</strong> vorgelegt dem Vorsitzenden des Prüfungsausschusses<br />

für die Diplomprüfung im Fach Psychologie<br />

an der Universität zu Köln<br />

von<br />

<strong>Christian</strong> <strong>Srbeny</strong><br />

angefertigt bei Dr. W. Follmann<br />

Köln, November 2008


Danksagung<br />

An dieser Stelle möchte ich mich ganz herzlich bei all jenen bedanken, die das<br />

Entstehen dieser Arbeit unterstützt und ermöglicht haben.<br />

Ganz besonders danken möchte ich zunächst meinem Betreuer an der Universität zu<br />

Köln, Dr. Wilfried Follmann. Er gab mir stets wertvolle Rückmeldungen zu meiner<br />

Arbeit, stand mir bei aufkommenden Problemen schnell und hilfreich zur Seite und<br />

gewährte mir dabei den gewünschten Freiraum, den ich aufgrund anderer neben<br />

dieser Arbeit laufender Projekte benötigt habe. Eine solche Betreuung ist sicherlich<br />

nicht selbstverständlich.<br />

Weiterhin großen Dank möchte ich an die kibit GmbH und das Kölner Institut für<br />

Managementberatung (KIM) richten, die mich so freundlich in ihr Team aufgenommen<br />

haben und ohne die die Realisierung dieser Arbeit nicht möglich gewesen wäre. Hier<br />

ist insbesondere Stephan Holtmeier zu nennen, der mir die KI.BOX sowie neueste<br />

Technik für meine Untersuchung zur Verfügung stellte, sich besonders in der<br />

Konzeptionsphase viel Zeit für mein Projekt nahm, mit mir an Publikationen für die<br />

Fachpresse schrieb und mich bei theoretischen und methodischen Fragestellungen<br />

immer voll und ganz unterstützte.<br />

Ebenso danke ich Prof. Dr. Stephan und dem Lehrstuhl für Diagnostik und<br />

Intervention der Universität zu Köln für die Übernahme der Lizenzgebühren für die<br />

Testauswertung sowie die Bereitstellung von Laborräumen. Dabei gilt mein Dank<br />

insbesondere Joachim Radt für seine freundliche Unterstützung und seine Fähigkeit,<br />

jede Hürde mit einem Lächeln aus der Welt zu schaffen.<br />

Ein großes Dankeschön geht außerdem raus an meine Freunde, die nicht nur bei der<br />

Korrektur dieser Arbeit geholfen haben, sondern auch für physischen und psychischen<br />

Ausgleich sorgten, wenn meine Motivation nachließ. Besonders hervorheben möchte<br />

ich dabei Sonja Cremer für fachliche und konzeptionelle Diskussionen und Franziska<br />

Brandt für ihren emotionalen Beistand.<br />

Nicht zuletzt möchte ich ganz besonders meiner Mutter dafür danken, dass sie an<br />

mich glaubt und mich stets dabei unterstützt, meine Ziele im Studium wie im Leben zu<br />

erreichen.<br />

Vielen Dank!


Inhaltsverzeichnis<br />

1 Einleitung ....................................................................................................8<br />

2 Theoretischer Hintergrund ......................................................................11<br />

2.1 Testtheorien im Überblick .................................................................................11<br />

2.1.1 Klassische Testtheorie .............................................................................11<br />

2.1.1.1 Objektivität ...............................................................................13<br />

2.1.1.2 Reliabilität.................................................................................14<br />

2.1.1.3 Validität ....................................................................................15<br />

2.1.1.4 Nebengütekriterien ...................................................................18<br />

2.1.2 Kritik an der klassischen Testtheorie ........................................................19<br />

2.1.3 Kriteriumsorientierten Leistungsmessung .................................................22<br />

2.2 Das Assessment Center als eignungsdiagnostisches Instrument.................26<br />

2.2.1 Definition des Assessment Centers..........................................................26<br />

2.2.2 Ablauf eines Assessment Centers............................................................28<br />

2.2.3 Zentrale Komponenten des Assessment Centers.....................................29<br />

2.2.3.1 Anforderungsanalyse ...............................................................29<br />

2.2.3.2 Simulation ................................................................................30<br />

2.2.3.3 Methodenvielfalt .......................................................................31<br />

2.2.3.4 Mehrfachbeurteilungen.............................................................32<br />

2.2.3.5 Transparenz.............................................................................33<br />

2.2.4 Bedeutung von Reihenfolgeeffekten im Assessment Center ....................34<br />

2.2.5 Methodenüberblick ...................................................................................36<br />

2.2.5.1 Interview...................................................................................36<br />

2.2.5.2 Rollenspiel................................................................................37<br />

2.2.5.3 Gruppendiskussion...................................................................37<br />

2.2.5.4 Präsentation .............................................................................39<br />

2.2.5.5 Psychologische Testverfahren..................................................40<br />

2.2.5.6 Planspiele.................................................................................42<br />

2.2.5.7 Fallstudien................................................................................43<br />

2.2.5.8 Postkörbe.................................................................................45<br />

2.3 Der klassische <strong>Postkorb</strong>....................................................................................46<br />

2.3.1 Was ist eine <strong>Postkorb</strong>-Übung?..............................................................46<br />

2.3.2 Durchführung .........................................................................................47<br />

2.3.3 Auswertung ............................................................................................49<br />

2.3.4 Gemessene Kriterien..............................................................................51<br />

2.3.5 Empirische Ergebnisse..........................................................................52<br />

2.3.5.1 Demographische Daten............................................................52<br />

2.3.5.2 Objektivität ...............................................................................53<br />

2.3.5.3 Reliabilität.................................................................................54<br />

2.3.5.4 Validität ....................................................................................54<br />

2.3.5.5 Zusammenfassung...................................................................56<br />

2.3.6 Kritische Betrachtung ............................................................................57


2.4 Der computergestützte <strong>Postkorb</strong>......................................................................60<br />

2.4.1 Was ist ein computergestützter <strong>Postkorb</strong>? ..........................................60<br />

2.4.1.1 Vorteile.....................................................................................61<br />

2.4.1.2 Nachteile ..................................................................................64<br />

2.4.2 Interaktion von Mensch und Computer ................................................65<br />

2.4.3 Verfahren im Überblick ..........................................................................67<br />

2.4.3.1 Mailbox’90 ................................................................................68<br />

2.4.3.2 PC-Office..................................................................................72<br />

2.4.3.3 PC-<strong>Postkorb</strong> "Seeblick“ ............................................................75<br />

2.4.3.4 Zusammenfassung...................................................................79<br />

3 Der computergestützte <strong>Postkorb</strong> KI.BOX...............................................81<br />

3.1 Beschreibung des Verfahrens...........................................................................81<br />

3.2 Instruktion ..........................................................................................................82<br />

3.3 Durchführung .....................................................................................................84<br />

3.4 Erfasste Kriterien ...............................................................................................89<br />

3.5 Auswertung ........................................................................................................89<br />

4 Fragestellung und Hypothesen...............................................................93<br />

4.1 Hypothesen zur Validitätsprüfung ....................................................................93<br />

4.2 Hypothesen zum Zusammenhang von Computererfahrung und<br />

Leistung in der KI.BOX ......................................................................................98<br />

4.3 Hypothese zur Wirkung von Reihenfolgeeffekten .........................................100<br />

4.4 Hypothesen zum Zusammenhang der demographischen Daten und<br />

Leistung in der KI.BOX ....................................................................................101<br />

5 Methodik..................................................................................................104<br />

5.1 Stichprobe ........................................................................................................104<br />

5.2 Übersicht über die verwendeten Verfahren und Prüfkriterien ......................105<br />

5.2.1 AZUBI-BK...............................................................................................106<br />

5.2.2 BIP .........................................................................................................107<br />

5.2.3 SUCA / VECA.........................................................................................108<br />

5.2.4 Abiturnote und letzte Schulnoten in Deutsch und Mathematik ................109<br />

5.2.5 Selbsteinschätzung und Vorerfahrung....................................................110<br />

5.2.6 Demographischer Fragebogen ...............................................................111<br />

5.3 Durchführung der Untersuchung....................................................................112<br />

5.4 Zusammenfassung ..........................................................................................114<br />

6 Ergebnisse ..............................................................................................115<br />

6.1 Deskriptive Statistik.........................................................................................115<br />

6.2 Tests der Hypothesen zur Validitätsprüfung .................................................118<br />

6.2.1 Zusammenfassung...............................................................................127<br />

6.3 Tests der Hypothesen zum Zusammenhang von Computererfahrung<br />

und Leistung in der KI.BOX.............................................................................128<br />

6.3.1 Zusammenfassung...............................................................................134


6.4 Test der Hypothese zur Wirkung von Reihenfolgeeffekten...........................134<br />

6.4.1 Zusammenfassung...............................................................................137<br />

6.5 Test der Hypothesen zum Zusammenhang von demographischen<br />

Daten und Leistung in der KI.BOX..................................................................137<br />

6.5.1 Zusammenfassung...............................................................................146<br />

7 Diskussion ..............................................................................................147<br />

7.1 Gütekriterien der KI.BOX.................................................................................147<br />

7.1.1 Objektivität............................................................................................148<br />

7.1.2 Reliabilität .............................................................................................150<br />

7.1.3 Validität .................................................................................................150<br />

7.1.3.1 Äußere Validität......................................................................151<br />

7.1.3.2 Innere Validität .......................................................................155<br />

7.1.4 Nebengütekriterien...............................................................................157<br />

7.2 Zusammenhang von Computererfahrung und Leistung in der KI.BOX .......158<br />

7.3 Auswirkung von Reihefolgeeffekten...............................................................161<br />

7.4 Einfluss der demographischen Daten ............................................................162<br />

7.5 Fazit und Ausblick ...........................................................................................167<br />

8 Literaturverzeichnis ...............................................................................173<br />

9 Anhang ....................................................................................................184


Abbildungsverzeichnis<br />

Abbildung 1: Display des Schreibtisches der Mailbox'90 .............................................68<br />

Abbildung 2: Desktop des PC-<strong>Postkorb</strong>es „Seeblick“. .................................................76<br />

Abbildung 3: Startseite der KI.BOX..............................................................................82<br />

Abbildung 4: Erläuterungsseite zum Posteingang der KI.BOX.....................................83<br />

Abbildung 5: Posteingang der KI.BOX.........................................................................85<br />

Abbildung 6: Excel-Funktion der KI.BOX .....................................................................86<br />

Abbildung 7: Kalender der KI.BOX ..............................................................................87<br />

Abbildung 8: Prioritätenliste der KI.BOX ......................................................................88<br />

Abbildung 9: automatisch generierter Ergebnisbericht des KI.BOX Reporters.............90<br />

Abbildung 10: Auswertungstabelle des KI.BOX Reporters...........................................91<br />

Abbildung 11: Darstellung der Rohwerte im KI.BOX-Reporter.....................................92<br />

Abbildung 12: Ablauf der Untersuchung. ...................................................................113<br />

Abbildung 13: Verteilung der Häufigkeiten zu den erzielten Punkten bzgl.<br />

Analytischer Fähigkeiten. ..........................................................................................117<br />

Abbildung 14: Verteilung der Häufigkeiten zu den erzielten Punkten bzgl.<br />

Organisatorisch-konzeptioneller Fähigkeiten. ............................................................118<br />

Abbildung 15: Zusammenhang von Alter und Punktzahlen in der KI.BOX. ................163


Tabellenverzeichnis<br />

Tabelle 1: Zuordnung der häufigsten AC-Übungen zu einer Auswahl möglicher<br />

Beurteilungskriterien....................................................................................................32<br />

Tabelle 2: Typologie von Fallstudien ...........................................................................44<br />

Tabelle 3: Erfassbare Kriterien durch <strong>Postkorb</strong>-Übungen............................................51<br />

Tabelle 4: Ergebnisse in der KI.BOX .........................................................................116<br />

Tabelle 5: Korrelationen von Abiturnote und KI.BOX-Ergebnissen ............................119<br />

Tabelle 6: Korrelationen der letzten Schulnote in Mathematik und KI.BOX-<br />

Ergebnissen ..............................................................................................................120<br />

Tabelle 7: Korrelationen der letzten Schulnote in Mathematik und KI.BOX-<br />

Ergebnissen im Kriterium Analytische Fähigkeiten ....................................................120<br />

Tabelle 8: Korrelationen von Selbsteinschätzungen der eigenen analytischen<br />

Fähigkeiten und KI.BOX-Ergebnissen im Kriterium Analytische Fähigkeiten .............121<br />

Tabelle 9: Korrelationen von Selbsteinschätzungen der eigenen organisatorischkonzeptionellen<br />

Fähigkeiten und KI.BOX-Ergebnissen im Kriterium<br />

Organisatorisch-konzeptionelle Fähigkeiten ..............................................................122<br />

Tabelle 10: Korrelationen des Gesamttestwertes der AZUBI-BK und KI.BOX-<br />

Ergebnissen ..............................................................................................................123<br />

Tabelle 11: Korrelationen des Grundmoduls der AZUBI-BK und KI.BOX-<br />

Ergebnissen zum Kriterium Analytische Fähigkeiten .................................................123<br />

Tabelle 12: Korrelationen des Postmoduls der AZUBI-BK und KI.BOX-<br />

Ergebnissen zum Kriterium Organisatorisch-konzeptionelle Fähigkeiten...................124<br />

Tabelle 13a: Korrelationen der durchschnittlichen Bearbeitungsgeschwindigkeit in<br />

der AZUBI-BK und der bearbeiteten Items in der KI.BOX.........................................125<br />

Tabelle 13b: bedeutende Korrelationen der einzelnen<br />

Bearbeitungsgeschwindigkeiten in der AZUBI-BK und der bearbeiteten Items in<br />

der KI.BOX für beide Kriterien. ..................................................................................126<br />

Tabelle 14: Korrelationen der Subskala zur Gewissenhaftigkeit aus dem BIP und<br />

der Ergebnisse in der KI.BOX für beide Kriterien.......................................................127<br />

Tabelle 15a: Korrelationen des SUCA und den Ergebnissen in der KI.BOX für<br />

beide Kriterien. ..........................................................................................................129<br />

Tabelle 15b: Auswirkungen der Auspartialisierung der Sicherheit im Umgang mit<br />

Computern und Computeranwendungen auf die Korrelationen der Ergebnisse<br />

von KI.BOX zu AZUBI-BK .........................................................................................130<br />

Tabelle 15c: Auswirkungen der Auspartialisierung der Sicherheit im Umgang mit<br />

Computern und Computeranwendungen auf die Korrelation der<br />

Bearbeitungsgeschwindigkeiten in KI.BOX und AZUBI-BK........................................130


Tabelle 16a: Korrelationen des VECA und den Ergebnissen in der KI.BOX für<br />

beide Kriterien. ..........................................................................................................131<br />

Tabelle 16b: Auswirkungen der Auspartialisierung der Vertrautheit der<br />

Teilnehmer mit verschiedenen Computeranwendungen auf die Korrelationen der<br />

Ergebnisse von KI.BOX zu AZUBI-BK.......................................................................132<br />

Tabelle 16c: Auswirkungen der Auspartialisierung der Vertrautheit der<br />

Teilnehmer mit verschiedenen Computeranwendungen auf die Korrelation der<br />

Bearbeitungsgeschwindigkeiten in KI.BOX und AZUBI-BK........................................132<br />

Tabelle 17: Korrelationen der drei für die KI.BOX bedeutsamsten Icons des<br />

VECA und den Ergebnissen in der KI.BOX für beide Kriterien...................................133<br />

Tabelle 18: T-Test für die Bedingung Reihenfolge der Verfahren bei den<br />

Analytischen Fähigkeiten in der KI.BOX ....................................................................135<br />

Tabelle 19: T-Test für die Bedingung Reihenfolge der Verfahren bei den<br />

Organisatorisch-konzeptionellen Fähigkeiten in der KI.BOX......................................136<br />

Tabelle 20: T-Test für die Variable Geschlecht bei den Ergebnissen der KI.BOX......138<br />

Tabelle 21: Korrelationen des Alters der Teilnehmer mit den Ergebnissen in der<br />

KI.BOX für beide Kriterien .........................................................................................139<br />

Tabelle 22: Varianzanalyse für die Variable Studienfach und die Ergebnisse in<br />

der KI.BOX für beide Kriterien ...................................................................................140<br />

Tabelle 23: Korrelationen der Semesterzahl der Teilnehmer mit den Ergebnissen<br />

in der KI.BOX für beide Kriterien ...............................................................................141<br />

Tabelle 24: Varianzanalyse für die Variable Deutschkenntnisse und die<br />

Ergebnisse in der KI.BOX für beide Kriterien.............................................................142<br />

Tabelle 25: Varianzanalyse für die Variable Berufserfahrung und die Ergebnisse<br />

in der KI.BOX für beide Kriterien ...............................................................................143<br />

Tabelle 26: Korrelationen der theoretischen und praktischen Vorerfahrungen der<br />

Teilnehmer mit Postkörben und Assessment Centern und den Ergebnissen in der<br />

KI.BOX für beide Kriterien .........................................................................................145


Einleitung<br />

1 Einleitung<br />

Die Identifikation geeigneter Mitarbeiter für einen Arbeitsplatz und die<br />

zielgerichtete Entwicklung ihrer Fähigkeiten und Fertigkeiten sind heutzutage<br />

die erfolgsentscheidenden Kriterien für Unternehmen (Sarges, 2000). Es gilt<br />

also, eine optimale Passung zwischen den Kompetenzen eines Mitarbeiters und<br />

den Anforderungen einer Arbeitsstelle zu erreichen. Die diagnostische Qualität<br />

von Instrumenten zur Auswahl, Beurteilung und Weiterentwicklung von<br />

Personal ist daher von zentraler Bedeutung.<br />

Das nicht mehr nur ausschließlich in Großunternehmen eingesetzte<br />

Assessment Center (AC) stellt zwar „eines der kostenintensivsten Verfahren der<br />

Personalauswahl und Personalentwicklung“ (Fisseni & Preusser, 2007, S. 236)<br />

dar, bietet aber eine methodisch weitgehend gesicherte und anerkannte<br />

Beurteilung des Potentials von Mitarbeitern (Kupka, 2005). Diese Beurteilung<br />

erfolgt anhand verschiedener Übungen, welche die beruflichen Anforderungen<br />

der Zielposition simulieren sollen und eine Kombination vielfältiger Methoden<br />

darstellen (Höft & Funke, 2006).<br />

Die <strong>Postkorb</strong>-Übung ist eines der bekanntesten und am häufigsten<br />

angewandten Verfahren in Assessment Centern. Es handelt sich dabei um eine<br />

Mischform aus kognitiven Fähigkeitstests und situativer Arbeitsprobe (Höft,<br />

2003), wodurch Kriterien wie Organisationskompetenz, analytische Fähigkeiten<br />

oder Entscheidungsvermögen erfasst werden sollen. Über die diagnostische<br />

Güte der Verfahren können jedoch kaum generell gültige Aussagen getroffen<br />

werden. Oft entwickeln Organisationen ein auf ihre spezifischen Bedürfnisse<br />

zugeschnittenes <strong>Postkorb</strong>-Verfahren, das der wissenschaftlichen Analyse nicht<br />

zugänglich gemacht wird. Andere wiederum verwenden auf dem Markt<br />

erhältliche vorgefertigte Übungen, deren Validierungen jedoch meist als<br />

unzureichend angesehen werden müssen (Funke, 1993, a).<br />

Mit dem enormen technischen Fortschritt sowohl im Software- als auch im<br />

Hardwarebereich werden zunehmend auch computergestützte<br />

Auswahlverfahren im Rahmen der Eignungsdiagnostik angewendet, nicht<br />

zuletzt auch aus Effizienzgründen. Computergestützte Verfahren haben unter<br />

anderem den Vorteil einer objektiveren Durchführung und Auswertung, ihre<br />

Ergebnisse sind schneller verfügbar und eine separate Dateneingabe für<br />

8


Einleitung<br />

spätere Analysen entfällt (Schuler, Funke, Moser & Donat, 1995). Zudem kann<br />

die Übung selbst durch die vielfältigen technischen Möglichkeiten deutlich<br />

dynamischer und somit realitätsnäher gestaltet werden. Nichts desto trotz<br />

stehen computergestützte <strong>Postkorb</strong>-Übungen vor ähnlichen Problemen wie ihre<br />

Paper-Pencil-Vorgänger. Eine hohe Augenscheinvalidität reicht offenbar vielen<br />

Testentwicklern und -anwendern aus, um auf vergleichsweise aufwändige<br />

Validierungsstudien zu verzichten (Obermann, 2006). Zudem weisen manche<br />

dieser Verfahren immer noch Mängel in Form einer unzureichenden<br />

Standardisierung, einer nicht anwenderfreundlichen Bedienung oder der<br />

fehlenden Explikation eines normativen Bezugssystems auf.<br />

Die Unternehmensberatung „kibit GmbH“ hat als Reaktion auf diese<br />

Problematik den computergestützten <strong>Postkorb</strong> KI.BOX entwickelt, welcher<br />

besonders zur Auswahl von Hochschulabsolventen und<br />

Führungskräftenachwuchs eingesetzt werden soll. Die Neuentwicklung des<br />

Verfahrens verfolgt das Ziel, die bestehenden Lücken anderer Verfahren zu<br />

schließen und zugleich den wissenschaftlichen Anforderungen Rechnung zu<br />

tragen.<br />

Die vorliegende <strong>Diplomarbeit</strong> soll als erste Validierungsstudie dieses<br />

Verfahrens zu diesen Zielen beitragen. Zu diesem Zweck wurde eine<br />

Untersuchung durchgeführt, mittels derer beurteilt werden soll, ob die KI.BOX<br />

die zu erfassenden Kriterien valide misst, ihre Softwareergonomie<br />

computererfahrenen Benutzern Vorteile bringt und ob die Ergebnisse durch<br />

Reihenfolgeeffekte verfälscht werden, welche durch die Positionierung des<br />

Verfahrens innerhalb einer Sequenz von Auswahlübungen entstehen können.<br />

Der theoretische Hintergrund dieser Thematik wird im zweiten Kapitel<br />

dargestellt und erfolgt zunächst als Überblick über verschiedene Testtheorien<br />

und ihre Gütekriterien, um herauszustellen, welche Aspekte bei der Validierung<br />

einer AC-Übung bedeutsam sind. Anschließend wird auf das Assessment<br />

Center im Allgemeinen eingegangen, um damit die <strong>Postkorb</strong>-Übung thematisch<br />

einzuordnen, bevor dann der klassische Paper-Pencil-<strong>Postkorb</strong> als Vorläufer<br />

des computergestützten <strong>Postkorb</strong>es dargestellt wird. Auf letzteren wird im<br />

Anschluss eingegangen. Im Vergleich dazu wird im dritten Kapitel die KI.BOX<br />

beschrieben, was aufgrund eines bisher noch nicht publizierten<br />

9


Einleitung<br />

Testhandbuches ausführlicher erfolgt. In Kapitel 4 werden die zu untersuchende<br />

Fragestellung sowie die Ziele der Untersuchung formuliert. Die Erläuterung der<br />

methodischen Vorgehensweise dieser Studie erfolgt im fünften Kapitel. Im<br />

sechsten Kapitel werden die Ergebnisse der Untersuchung dargestellt und im<br />

Anschluss daran im siebten Kapitel diskutiert. Die Arbeit schließt mit<br />

Vorschlägen an die Testentwickler, wie das Verfahren weiter verbessert werden<br />

und zukünftige Validierungsstudien erfolgen könnten.<br />

10


Theoretischer Hintergrund<br />

2 Theoretischer Hintergrund<br />

2.1 Testtheorien im Überblick<br />

Psychologische Tests und andere Instrumente zur Messung psychischer<br />

Merkmale und deren Ausprägung können auf verschiedenen Messmodellen<br />

basieren. Die klassische Testtheorie (Kapitel 2.1.1) ist sicher das<br />

traditionsreichste und am weitesten verbreitete Modell für die Konstruktion von<br />

Tests. Allerdings sieht sie sich inzwischen vermehrter Kritik (Kapitel 2.1.2)<br />

ausgesetzt, besonders aus Reihen der Eignungsdiagnostiker. Für neuere und in<br />

der Praxis weit verbreitete Methoden, wie beispielsweise dem Assessment<br />

Center, wird sich deshalb zunehmend auf den Ansatz der kriteriumsorientierten<br />

Leistungsmessung (Kapitel 2.1.3) verlassen. Diese Entwicklung soll im<br />

folgenden Kapitel detaillierter dargestellt werden.<br />

2.1.1 Klassische Testtheorie<br />

Der Schwerpunkt des Modells der klassischen Testtheorie liegt auf der<br />

Genauigkeit einer Messung bzw. auf der Größe des jeweiligen Messfehlers.<br />

Daher wird sie auch als „Messfehlertheorie“ bezeichnet (Schuler, 1996). Sie<br />

versucht, ausgehend von einem Testwert einer Versuchsperson, zu klären, wie<br />

auf die wahre Ausprägung des zu messenden Persönlichkeitsmerkmals<br />

geschlossen werden kann (Fisseni, 1990). Die meisten Tests, die heutzutage in<br />

der psychologischen Eignungsdiagnostik eingesetzt werden, sind nach den<br />

Regeln der klassischen Testtheorie konzipiert worden (Bortz & Döring, 2002).<br />

Die Konstruktion von psychologischen Tests orientiert sich dabei seit Beginn<br />

des 20. Jahrhunderts an klar definierten syntaktischen Aussagen und<br />

Richtlinien (ausführlich zu den Axiomen der klassischen Testtheorie: Lienert,<br />

1969; Fisseni, 1990; Bortz & Döring, 2002). Lienert (1969) definiert einen Test<br />

demnach als:<br />

„wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer<br />

abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst<br />

quantitativen Aussage über den relativen Grad der individuellen<br />

Merkmalsausprägung“ (S.7).<br />

11


Theoretischer Hintergrund<br />

Etwas umfangreicher ist die Definition von Grubitzsch (1999), der mehrere<br />

gängige Definitionen von Tests auf einen Nenner zu bringen versucht:<br />

„Ein psychologischer Test ist ein<br />

• wissenschaftliches Routineverfahren für die objektive und zuverlässige<br />

Entnahme<br />

• einer gültigen Stichprobe aus dem Verhalten und Erleben eines<br />

Menschen unter Standardbedingungen (die Wiederholbarkeit und<br />

Vergleichbarkeit garantieren),<br />

• um vor dem Hintergrund einer Norm einen wissenschaftlich begründeten<br />

Rückschluss auf die individuelle Ausprägung eines oder mehrerer<br />

empirisch abgrenzbarer Persönlichkeitsmerkmale, die dem beobachteten<br />

Verhalten als zugrunde liegend angenommen werden, ziehen zu können<br />

• mit dem Ziel der Unterscheidung und zweckgerichteten Vorhersage<br />

individueller Verhaltensmöglichkeiten auch für künftige Situationen“<br />

(S.21).<br />

Eine entscheidende Neuerung in der Definition ist hierbei der Aspekt der<br />

Normstichprobe. So geht die klassische Testtheorie von relativ stabilen<br />

Persönlichkeitsmerkmalen aus, die über unterschiedliche Situation und Zeiten<br />

hinweg verhältnismäßig konstant bleiben und deren individuelle Ausprägungen<br />

sich durch Tests erfassen lassen (Obermann, 2006). Dies geschieht dadurch,<br />

dass die Testleistung eines einzelnen Probanden mit einer Normstichprobe<br />

verglichen wird, d.h. einer möglichst großen Probandenzahl, die repräsentativ<br />

für die Gesamtpopulation stehen soll (Fisseni, 1990).<br />

Des Weiteren entstammen der klassischen Testtheorie drei Haupt- und vier<br />

Nebengütekriterien, die als zu erfüllende Forderung an einen guten Test gestellt<br />

werden sollen (Lienert, 1969). Als Hauptgütekriterien gelten Objektivität,<br />

Reliabilität und Validität, als Nebengütekriterien wird gefordert, dass der Test<br />

normiert, vergleichbar, ökonomisch und nützlich ist. Hierauf wird im Folgenden<br />

näher eingegangen, da die Validierung des computergestützten <strong>Postkorb</strong><br />

KI.BOX (siehe Kapitel 3) Hauptanliegen der vorliegenden Arbeit ist.<br />

12


Theoretischer Hintergrund<br />

2.1.1.1 Objektivität<br />

Als Objektivität bezeichnet Lienert (1969) den Grad, mit dem das Ergebnis<br />

eines Testes unabhängig vom Untersucher ist. Das bedeutet, dass ein Test<br />

dann als objektiv einzustufen ist, wenn das gleiche Verhalten eines Probanden<br />

von unterschiedlichen Beurteilern immer in der gleichen Weise quantifiziert wird<br />

(Fisseni, 1990). Die Objektivität gibt somit Aufschluss darüber, in wieweit die<br />

Standardisierung eines Tests gelungen ist. Dabei werden drei Stufen der<br />

Objektivität unterschieden:<br />

• Die Durchführungsobjektivität bezeichnet die Unabhängigkeit der<br />

Testergebnisse von zufälliger oder systematischer Variation des<br />

Versuchsleiterverhaltens sowie der Situationsparameter. Sie ist umso<br />

höher, je standardisierter die Testsituation ist, was beispielsweise zur<br />

Folge hat, dass die Instruktionen den Teilnehmern in schriftlicher Form<br />

ausgegeben werden, Raum- und Zeitfaktoren gleichzuhalten sowie<br />

soziale Interaktionen mit dem Versuchsleiter generell möglichst zu<br />

minimieren sind (Jeserich, 1981).<br />

• Die Auswertungsobjektivität ist gegeben, wenn gleichen Itemantworten<br />

die gleichen numerischen Werte zugeordnet werden bzw. wenn<br />

verschiedene Auswerter dasselbe Testverhalten identisch auswerten<br />

(Fisseni, 1990). Sie gilt nach Lienert (1969) bei Aufgaben mit<br />

festgelegtem Antwortenschlüssel als erfüllt, d.h. bei Ja-Nein-Fragen oder<br />

bei Tests, in denen der Proband aus mehreren vorgegebenen Lösungen<br />

die Antwort ankreuzen soll, die ihm richtig erscheint. Bei offenen Fragen<br />

oder projektiven Verfahren ist die Auswertungsobjektivität kaum<br />

einzuhalten.<br />

• Die Interpretationsobjektivität gibt die Unabhängigkeit der Interpretation<br />

der Testergebnisse vom Interpretierenden ab, d.h. dass verschiedene<br />

Versuchsleiter aufgrund der Testauswertung zu den gleichen Schlüssen<br />

kommen. Lienert (1969) nimmt die Interpretationsobjektivität als<br />

vollkommen gegeben an, wenn die Testauswertung einen numerischen<br />

Wert liefert, der die Position eines Probanden innerhalb einer Testskala<br />

angibt.<br />

13


Theoretischer Hintergrund<br />

2.1.1.2 Reliabilität<br />

Mit Reliabilität ist das Maß an Messgenauigkeit bzw. Zuverlässigkeit gemeint,<br />

mit dem ein Test ein bestimmtes Merkmal misst. Dies gilt unabhängig davon, ob<br />

der Test auch das misst, was er messen soll, d.h. ob er auch valide ist<br />

(Obermann, 2006). Ein Test ist demnach gemäß den Axiomen der klassischen<br />

Testtheorie vollkommen reliabel, wenn der Messfehler gleich null ist, d.h. die<br />

Ergebnisse des Tests den Probanden in seiner Merkmalsausprägung fehlerfrei<br />

beschreiben (Fisseni, 1990; Schuler, 1996). Zur Bestimmung dessen wird ein<br />

Reliabilitätskoeffizient ermittelt, der angibt, wie sehr das Testergebnis mit<br />

demselben Probanden unter gleichen Bedingungen reproduzierbar ist (Lienert,<br />

1969). Die folgenden Methoden ermöglichen die Bestimmung dieses<br />

Reliabilitätskoeffizenten:<br />

• Paralleltest-Methode: Einer Stichprobe von Probanden werden zwei<br />

einander ähnliche und vergleichbare Tests vorgelegt und deren<br />

Ergebnisse korreliert (Fisseni, 1990). Zu diesem Zweck entwickeln<br />

Testautoren oft eine Form A und eine Form B des jeweiligen Instruments.<br />

• Retest-Methode: Dieselbe Stichprobe bearbeitet einen Test zweimal, so<br />

dass die Korrelation der beiden Ergebnisreihen berechnet werden kann.<br />

Nach Schuler (1996) erhalten die Messwerte durch die<br />

Messwiederholung Stabilität. Diese Methode kann jedoch je nach Test<br />

sehr zeitaufwändig sein sowie Übungs- und Transfereffekte erzeugen.<br />

• Split-Half-Methode: Nach der Bearbeitung durch eine Stichprobe wird der<br />

Test in zwei gleichwertige Hälften geteilt, und das Testergebnis jedes<br />

Probanden für jede Hälfte einzeln ermittelt. Anschließend werden die<br />

Testergebnisse beider Hälften korreliert. Diese Methode ist jedoch nur<br />

bei sehr homogenen Tests sinnvoll (Lienert, 1969), beispielsweise dem<br />

Aufmerksamkeits-Belastungs-Test d2 von Brickenkamp oder dem<br />

Konzentrations-Leistungs-Test von Düker und Lienert (vgl. Sarges &<br />

Wottawa, 2001; Brickenkamp, 2002). Besonders bei situativen oder<br />

dynamischen Verfahren wie z.B. einem <strong>Postkorb</strong> oder einem Planspiel ist<br />

diese Methode nicht anwendbar, da die einzelnen Items nicht<br />

unabhängig voneinander sind (Schuler, 1996).<br />

14


Theoretischer Hintergrund<br />

• Konsistenzanalyse: Die Konsistenzanalyse kann als Verallgemeinerung<br />

oder Weiterentwicklung der Split-Half-Methode angesehen werden<br />

(Fisseni, 1990). Dabei wird der Test nicht nur in zwei Teile zerlegt,<br />

sondern in so viele, wie er Items hat. Nun kann entweder die Korrelation<br />

zwischen den Items oder mittels Varianzanalysen<br />

Konsistenzkoeffizienten aufgrund von Itemschwierigkeit, Trennschärfe<br />

oder Standardabweichung berechnet werden (Lienert, 1969). Allerdings<br />

dürften hier ähnliche Einschränkungen wie für die Split-Half-Methode<br />

gelten. Hinzu kommt, dass die Konsistenzmethode nur Aussagen über<br />

Kennwerte macht, die auf Testscores basieren, welche aus der Summe<br />

der Itemscores bestimmt werden. Testscores wie Bearbeitungsmenge<br />

bzw. -geschwindigkeit oder Bearbeitungsgüte, bei der richtige und<br />

falsche Antworten verrechnet werden, basieren jedoch nur teilweise auf<br />

der Summe der Itemscores (Will, 2006).<br />

2.1.1.3 Validität<br />

Die Validität eines Tests gibt Auskunft über seine Gültigkeit. Das bedeutet, dass<br />

ein Test dann valide ist, wenn er die Merkmale oder die Verhaltensweisen, die<br />

er messen soll, auch tatsächlich misst (Lienert, 1969). Erst dann lassen seine<br />

Ergebnisse einen fehlerfreien Rückschluss auf den Ausprägungsgrad des<br />

Merkmals oder des Verhaltens zu. Allerdings gibt es nicht die eine Validität<br />

(Obermann, 2006), sondern bezogen auf die jeweilige Fragestellung muss<br />

zwischen verschiedenen Validitätsaspekten unterschieden werden. Die<br />

wichtigsten Validitätsarten sind nach Schuler (1996) Augenscheinvalidität,<br />

Inhaltsvalidität, Kriteriumsvalidität und Konstruktvalidität, zu deren Ermittlung<br />

jeweils unterschiedliche Methoden entwickelt wurden.<br />

• Augenscheinvalidität: Ein Aspekt der Validität betrifft die Gültigkeit, die<br />

ein bestimmtes Verfahren in den Augen der Getesteten und der<br />

Testanwender hat. Diese Augenscheinvalidität ist wichtig für die<br />

Akzeptanz eines Verfahrens und damit auch für seine Gültigkeit, da eine<br />

geringe Augenscheinvalidität unter anderem dazu führen kann, dass die<br />

15


Theoretischer Hintergrund<br />

Kandidaten den Test nicht ernst nehmen und deshalb nicht ihre optimale<br />

Leistung zeigen (Kersting, 2003). Erhöht werden kann sie beispielsweise<br />

durch gezielte Informationen über den Sinn des Tests oder eine<br />

Realitätsnähe zum zu erfassenden Merkmal. Assessment Centern und<br />

deren Übungen wird im Allgemeinen eine hohe Augenscheinvalidität<br />

zugesprochen (Schuler & Moser, 1995; Kersting, 2003). Dabei ist jedoch<br />

zu beachten, dass die Augenscheinvalidität nicht über wissenschaftliche<br />

Verfahren und Kennwerte ermittelt wird, sondern eher als gegeben oder<br />

nicht gegeben angenommen wird und nicht fälschlicherweise mit der<br />

wissenschaftlich fundierteren inhaltlichen Validität gleichgesetzt werden<br />

darf (Kersting, 2003).<br />

• Inhaltsvalidität: Die inhaltliche Validität oder Kontentvalidität gibt das<br />

Ausmaß an, mit dem die Test-Items geeignet sind, das Zielmerkmal zu<br />

erfassen und hinreichend genau zu definieren (Fisseni, 1990). Bei<br />

vollkommener inhaltlichen Validität stellt ein Test somit selbst das<br />

optimale Kriterium für das zu erfassende Merkmal dar (Lienert, 1969).<br />

Dies wäre etwa bei einer Klassenarbeit der Fall, die den behandelten<br />

Unterrichtsstoff abfragt, oder der Führerscheinprüfung, bei der sowohl<br />

der theoretische als auch der praktische Teil der Fahreignung getestet<br />

wird. Zur Bestimmung der inhaltlichen Validität wird auf einen<br />

numerischen Kennwert verzichtet. Stattdessen befragt man Experten, die<br />

mit dem jeweiligen Merkmal vertraut sind, über den Grad der Validität<br />

und lässt sie entscheiden, ob der Test diesbezüglich akzeptiert oder<br />

verworfen wird (Fisseni, 1990). Allerdings wäre es aufgrund dieser<br />

subjektiven und meist qualitativen Beurteilung noch immer unzureichend,<br />

bei der Konstruktion von Tests und Auswahlverfahren allein auf die<br />

Inhaltsvalidität zurückzugreifen (Schuler, 1996).<br />

• Kriteriumsvalidität: Die Bestimmung der Kriteriumsvalidität gilt gemeinhin<br />

als wichtigste Validierungsstrategie (Schuler, 1996). Ermittelt wird sie<br />

durch einen Vergleich von Testscore und Kriterien-Score, d.h. es wird ein<br />

Korrelationskoeffizient für den Zusammenhang von den empirisch<br />

gemessenen Testergebnissen und den Messungen eines für sinnvoll<br />

16


Theoretischer Hintergrund<br />

erachteten Kriteriums bestimmt (Fisseni, 1990). Nach Bortz und Döring<br />

(2002) gilt eine Validität von .4 bis .6 als mittelmäßig, über .6 hinaus wird<br />

sie als hoch eingeschätzt. Häufig wird die Kriteriumsvalidität nach<br />

Vorhersagevalidität und Übereinstimmungsvalidität unterschieden:<br />

o Vorhersagevalidität: Man spricht von Vorhersagevalidität, wenn<br />

ein psychologischer Test Vorhersagen über zukünftiges Verhalten<br />

macht, d.h. bestimmte Merkmale prognostizieren soll (Lienert,<br />

1969). Sie wird daher auch prognostische Validität genannt. Die<br />

zur Validierung herangezogenen Kriterien werden somit erst<br />

deutlich später als der Testscore erfasst (Fisseni, 1990).<br />

o Übereinstimmungsvalidität: Bei der Übereinstimmungsvalidität<br />

stehen keine zeitlichen Vorhersagen, sondern diagnostische<br />

Gesichtspunkte im Mittelpunkt. Vom Testscore soll dabei auf das<br />

Verhalten außerhalb der Testsituation geschlossen werden, was<br />

beispielsweise in der Eignungsdiagnostik von größter Wichtigkeit<br />

ist (Lienert, 1969). Die Kriterien-Scores werden zu diesem Zweck<br />

zeitgleich mit den Test-Scores erhoben. Dies ist beispielsweise<br />

der Fall, wenn zur Validierung eines Intelligenztest die Probanden<br />

an einem Tag den zu validierenden und einen anderen bereits<br />

bewährten Intelligenztest mit ähnlichen Dimensionen bearbeiten<br />

würden. Dadurch lägen von jedem Probanden zwei zeitgleiche<br />

Messwertreihen vor, aus denen der Korrelationskoeffizient<br />

errechnet würde. (Fisseni, 1990)<br />

Des Weiteren kann nach äußerer und innerer (Kriteriums-)Validität<br />

differenziert werden:<br />

o Äußere Validität: Bei der äußeren Validität wird zur Berechnung<br />

des Validitätskoeffizienten ein äußeres Kriterium verwendet, also<br />

ein Kriterium, das außerhalb der Testpsychologie liegt (Lienert,<br />

1969). Gemeint ist dabei beispielsweise eine objektiv bewertbare<br />

Kriteriumsleistung wie etwa die gezählten Anschläge auf der<br />

Schreibmaschine pro Minute, oder aber Schätzurteile wie<br />

17


Theoretischer Hintergrund<br />

Vorgesetzten- oder Lehrerbeurteilungen und Schulnoten.<br />

o Innere Validität: Bei der inneren Validierung wird der Test-Score<br />

mit dem eines bereits bestehenden Tests, der dasselbe Merkmal<br />

misst, korreliert (Lienert, 1969). Auch hier trifft das Beispiel zu, in<br />

dem der Test-Score eines Intelligenztests mit dem eines anderen<br />

Intelligenztests mit ähnlichen Dimensionen korreliert werden<br />

würde. Wichtig ist dabei jedoch, dass der Test, der das Kriterium<br />

darstellt, bereits ausreichend an einem oder mehreren<br />

Außenkriterien validiert wurde.<br />

• Konstruktvalidität: Als Konstrukt bezeichnet man ein postuliertes<br />

Persönlichkeitsmerkmal, welches im Sinne der klassischen Testtheorie<br />

als relativ stabil gilt und über unterschiedliche Situation und Zeiten<br />

hinweg verhältnismäßig konstant bleibt (Obermann, 2006). Als Beispiel<br />

sind etwa Konstrukte wie Intelligenz oder soziale Kompetenz zu nennen.<br />

Diese sind jedoch unmöglich direkt und objektiv beobachtbar, im<br />

Gegensatz etwa zu Rechtschreibefähigkeit oder dem schnellen und<br />

fehlerfreien Tippen auf der Schreibmaschine. Dies wiederum hat zur<br />

Folge, dass ein Konstrukt durch bestimmte messbare oder beobachtbare<br />

Indikatoren repräsentiert werden muss (Lienert, 1969). Bei der<br />

Konstruktvalidität geht es also um die Frage, inwieweit ein Test und sein<br />

Test-Score in ein derartiges nicht klar operationalisierbares Konstrukt<br />

eingebettet werden kann. Nach Lienert (1969) liegt ihre Bedeutung somit<br />

weniger in einer unmittelbaren praktischen Verwertbarkeit, weshalb zu<br />

ihrer Bestimmung auch kein eindeutiges Maß angegeben werden kann,<br />

sondern vielmehr in der theoretischen Aufklärung der psychologischen<br />

Faktoren, die hinter einem Test stehen. Erheblich bedeutsamer für die<br />

Praxis sei jedoch eher die Bestimmung der Kriteriumsvalidität.<br />

2.1.1.4 Nebengütekriterien<br />

Im Folgenden sollen die Nebengütekriterien zur Beurteilung eines Tests<br />

beschrieben werden. Diese lassen sich nicht mit einem numerischen Kennwert<br />

18


Theoretischer Hintergrund<br />

ausdrücken, sondern sind eher Indikator für die Anwendbarkeit eines Tests in<br />

der Praxis.<br />

• Normierung: Mit Hilfe der Normierung kann ein individuelles<br />

Testergebnis in ein Bezugssystem von Vergleichswerten eingeordnet<br />

werden, um zu sehen, welche Position ein Proband hinsichtlich eines<br />

Merkmals im Vergleich zu den Testergebnissen anderer Probanden<br />

einnimmt (Fisseni, 1990).<br />

• Vergleichbarkeit: Ein Test sollte mit sich selbst oder ähnlichen Tests<br />

vergleichbar sein. Dies geschieht entweder durch die Paralleltest-<br />

Methode im Sinne einer intraindividuellen Reliabilitätskontrolle oder<br />

durch eine innere Validierung des Tests mit einem verwandten Test, der<br />

dasselbe Merkmal misst, als intraindividuelle Validitätskontrolle (Lienert,<br />

1969).<br />

• Ökonomie: Als ökonomisch wird ein Test dann bezeichnet, wenn die<br />

Testvorbereitung, -durchführung und -auswertung insgesamt wenig Zeit<br />

sowie finanzielle Ressourcen und Personal beansprucht, er einfach zu<br />

handhaben ist, wenig Material verbraucht und als Gruppentest<br />

durchführbar ist (Lienert, 1969).<br />

• Nützlichkeit: Ein Test gilt dann als nützlich, wenn er ein Merkmal erfasst,<br />

für dessen Untersuchung es noch keinen anderen Test gibt, der dieses<br />

Merkmal ebenso gut oder besser erfassen könnte (Lienert, 1969).<br />

• Weitere Kriterien: Zusätzlich zu den bereits erwähnten Haupt- und<br />

Nebengütekriterien werden in der Literatur noch weitere Aspekte wie<br />

ethische Rahmenbedingungen oder rechtliche Richtlinien erwähnt<br />

(Obermann, 2006). Auf diese wird in der vorliegenden Arbeit jedoch nicht<br />

weiter eingegangen.<br />

2.1.2 Kritik an der klassischen Testtheorie<br />

Es steht außer Frage, dass sich psychologische Tests, die auf der Grundlage<br />

der klassischen Testtheorie konstruiert wurden, in der<br />

Berufseignungsdiagnostik längst bewährt haben (Fisseni, 1990). Als besonders<br />

19


Theoretischer Hintergrund<br />

beliebt und wissenschaftlich fundiert gelten dabei Intelligenztests wie<br />

beispielsweise der Intelligenz-Struktur-Test von Amthauer oder der Wilde-<br />

Intelligenz-Test von Kersting, Althoff und Jäger sowie Leistungstests wie etwa<br />

der Aufmerksamkeits-Belastungs-Test d2 von Brickenkamp zur Erfassung der<br />

Konzentrationsleistung (vgl. Sarges & Wottawa, 2001; Brickenkamp, 2002).<br />

Dennoch gibt es auch Kritik an derartigen Instrumenten, insbesondere zur<br />

Anwendung im Rahmen von Assessment Centern (siehe Kapitel 2.2.5.5). Diese<br />

Kritik liegt nach Obermann (2006) in den Grundansätzen der Testtheorie<br />

begründet. Psychologische Tests sollen Merkmale wie Problemlösefähigkeit,<br />

Intelligenzaspekte, Gedächtnisleistung oder Aufmerksamkeit erfassen, wobei in<br />

der klassischen Testtheorie davon ausgegangen wird, dass diese Merkmale<br />

zeitlich sowie über unterschiedliche Situationen hinweg stabil sind und sich<br />

somit durch standardisierte, meist sehr homogene Verfahren messen lassen.<br />

Variabilitäten in den Messwerten werden gemäß dem Stabilitätsaxiom als<br />

Fehlervarianz betrachtet. Diese Annahmen sind jedoch mit dem situativen<br />

Ansatz der zum Teil komplexen sozialen Simulationen des Assessment Center<br />

unvereinbar. Hier wird davon ausgegangen, dass Verhalten, beispielsweise<br />

Teamführung oder Kundenorientierung, neben den individuellen<br />

Persönlichkeitsdispositionen immer auch auf Einflussfaktoren der Situation<br />

zurückzuführen ist, und diese Dispositionen je nach Situation unterschiedlich<br />

stark eingebracht werden. Die zu erfassenden Kriterien im AC werden also<br />

keinesfalls als stabil betrachtet. Diese Ansicht entspricht nach Obermann<br />

(2006) auch dem Ansatz der Sozialpsychologie, welche mit einer Vielzahl von<br />

Experimenten diese Interaktion von Person und Situation belegt hat. Hinzu<br />

kommt, dass AC-Übungen, besonders Rollenspiele und Gruppendiskussionen,<br />

nur schwer zu standardisieren sind. Dies ist jedoch auch gar nicht die Absicht<br />

von situativen Übungen, da ja gerade das individuelle Verhalten in diesen<br />

komplexen kritischen Situationen im Mittelpunkt des Interesses steht. Einzig<br />

beobachterunabhängige Übungen, wie bestimmte Planspiele oder Postkörbe,<br />

können trotz des Simulationsprinzips die Standardisierungsforderung<br />

weitgehend erfüllen. Insgesamt wird also deutlich, dass die klassische<br />

Testtheorie nicht für situative Übungen, wie sie in Assessement Centern zum<br />

Einsatz kommen, geeignet ist.<br />

20


Theoretischer Hintergrund<br />

Ein weiterer Kritikpunkt an der klassischen Testtheorie ist, dass alle ihre<br />

Messwerte stichproben- oder populationsabhängig sind (Fisseni, 1990;<br />

Obermann, 2006). Nach Meinung der Autoren ist es deswegen fraglich,<br />

inwieweit sich die gefundenen Ergebnisse generalisieren lassen, da es<br />

innerhalb von Populationen auch stets Teil-Populationen gibt, auf die sich die<br />

Test-Kennwerte nicht übertragen lassen. Obermann (2006) sieht als<br />

hypothetische Lösung, möglichst viele homogene Teilgruppen von Prädiktoren<br />

und Subpopulationen zu ermitteln und für diese Validitätskennwerte zu<br />

berechnen. Allerdings, so der Autor, wird dies nur eine theoretische Forderung<br />

bleiben, da es für die Praxis viel zu aufwändig wäre.<br />

Des Weiteren führt die Abhängigkeit der Messwerte von Normstichproben dazu,<br />

dass die Höhe der ermittelten Koeffizienten nicht nur über die Validität und<br />

Reliabilität eines Tests Auskunft gibt, sondern durch bestimmte Aspekte<br />

künstlich beeinflusst werden kann (Fisseni, 1990; Obermann, 2006):<br />

• Die Reliabilität wird dadurch erhöht, dass ein Verfahren einer Gruppe<br />

vorgelegt wird, die bzgl. des zu erfassenden Merkmals sehr heterogen<br />

ist. Die Reliabilität wird gesenkt, wenn die Gruppe sehr homogen ist.<br />

• Eine hohe Streuung der Testwerte, also bei vielen „schlechten“ und<br />

vielen „guten“ Probanden, führt zu einer Erhöhung der Korrelations-<br />

Kennziffern.<br />

• Je länger ein Test ist, d.h. je mehr Items er hat, desto höher ist die<br />

interne Konsistenz.<br />

• Die interne Konsistenz wird ebenfalls erhöht, wenn der Test aus vielen<br />

Items besteht, die eine mittlere Schwierigkeit, d.h. eine<br />

Lösungswahrscheinlichkeit um die 50 Prozent aufweisen.<br />

Weitere Kritikpunkte an der klassischen Testtheorie finden sich bei Fisseni<br />

(1990, S.101). Im Anschluss soll nun eine diagnostische Modellvorstellung<br />

vorgestellt werden, die mit dem AC-Ansatz und dem Thema der vorliegenden<br />

Arbeit eher zu vereinbaren ist.<br />

21


Theoretischer Hintergrund<br />

2.1.3 Kriteriumsorientierten Leistungsmessung<br />

Die kriteriumsorientierte Leistungsmessung wird als eine Erweiterung der<br />

klassischen Testtheorie verstanden. Hierbei werden die Leistungen des<br />

Probanden nicht mit stichprobenbezogenen Durchschnittsnormen, wie in der<br />

klassischen Testtheorie, sondern mit inhaltlich definierten Zielen, d.h. Kriterien<br />

verglichen (Fisseni, 1990). Das Kriterium wird in diesem Kontext als<br />

Leistungskontinuum definiert, auf dem unterschiedlich „tüchtige“ Probanden<br />

entsprechend ihrer Leistung positioniert werden. Alternativ kann es für einen<br />

Leistungsstandard stehen, an dem sich Vorhersagen bestätigen oder<br />

widerlegen lassen (Klauer, 1987).<br />

Ein bekanntes Beispiel für einen kriteriumsorientierten Test stellt die<br />

Führerscheinsprüfung dar. Hierbei wären die Kriterien beispielsweise das<br />

Kennen und Anwenden können der Verkehrregeln, das sichere Steuern eines<br />

Kraftfahrzeugs durch den Straßenverkehr, Kenntnisse um bestimmte<br />

technische Fakten, etc. Diese Kriterien werden durch exakte Beobachtung und<br />

Beschreibung menschlichen Verhaltens bewertet, in diesem Fall vom<br />

Fahrlehrer und dem Fahrprüfer. Ähnlich verhält es sich beim Assessment<br />

Center und dessen Übungen. Bei einem <strong>Postkorb</strong> wird beispielsweise das<br />

Kriterium Analytische Fähigkeiten erfasst. Dieses könnte wiederum<br />

folgendermaßen definiert werden: „Der Teilnehmer arbeitet sich in neue<br />

Themen ein, er durchdringt komplexe Sachverhalte, fokussiert relevante<br />

Themen, analysiert Informationen und strukturiert diese, findet neue<br />

Lösungsansätze und wendet diese erfolgreich an.“ Auch hierbei wird die<br />

Leistung bzw. das Verhalten eines Teilnehmers durch geschulte Beobachter<br />

beurteilt. Je genauer die Kriterien dabei definiert sind, d.h. je mehr die<br />

Operationalisierungen des Kriteriums den jeweiligen Sachverhalt in seiner<br />

Gesamtheit erfassen und repräsentieren, desto aussagekräftiger ist der Test<br />

bzw. das Messverfahren (Fisseni, 1990).<br />

Zur Bestimmung der Leistung eines Probanden wird nicht wie in der<br />

klassischen Testtheorie der Test-Score mit einer Normstichprobe verglichen<br />

und das Ergebnis daraufhin beispielsweise als unterdurchschnittlich,<br />

durchschnittlich oder überdurchschnittlich eingestuft. Bei der<br />

kriteriumsorientierten Leistungsmessung wird der individuelle Test-Score einer<br />

22


Theoretischer Hintergrund<br />

Person durch die Nähe zum Kriterium charakterisiert (Fisseni, 1990). Dazu wird<br />

entweder ein kritischer Punktwert oder Cut-off-point bestimmt oder alternativ ein<br />

Vertrauensbereich. Beim Cut-off-point gilt das Kriterium als erreicht, wenn der<br />

Proband diesen kritischen Punktwert erzielt. Bleibt der Proband unterhalb<br />

dieses Punktwerts gilt das Kriterium als nicht erreicht. Auf diese Art wird<br />

beispielsweise bei Schulzeugnissen verfahren: Als Cut-off-point ist hier die Note<br />

„Ausreichend“ festgelegt. Bessere oder gleiche Noten besagen „Ziel erreicht“,<br />

schlechtere Noten signalisieren „Ziel nicht erreicht“. Bei der Bestimmung des<br />

Vertrauensbereiches wird ähnlich verfahren. Hierbei wird anstatt eines<br />

kritischen Wertes ein Bereich festgelegt, innerhalb dessen die Leistung des<br />

Probanden liegen muss, um das Ziel zu erreichen, also beispielsweise<br />

zwischen 50 und 75 Prozent der Punkte. Beim Assessment Center wird ebenso<br />

vorgegangen: Je nach Unternehmen wird ein Cut-off-Point oder ein<br />

Vertrauensbereich festgelegt, der wiederum zwischen den Hierarchiestufen der<br />

Managementebenen variieren kann. Die quantifizierten Beurteilungen der<br />

Beobachter ergeben entsprechende Punktwerte für die einzelnen Übungen, die<br />

dann summiert Aussagen über die Nähe zum Kriterium zulassen.<br />

Nach Fricke (1974) können von der klassischen Testtheorie die wichtigsten<br />

Testgütekriterien wie Objektivität Reliabilität und Validität in die<br />

kriteriumsorientierte Leistungsmessung übernommen werden. Der Autor äußert<br />

sich dazu wie folgt:<br />

„Wir verlangen erstens, dass ein kriteriumsorientierter Test auch das misst, was<br />

er zu messen vorgibt, dass zweitens verschiedene Beurteiler bei Einsatz des<br />

gleichen kriteriumsorientierten Tests zu gleichen Ergebnissen kommen und<br />

dass drittens die erhaltenen Testwerte nur mit einem geringen Messfehler<br />

behaftet sind“ (S.19).<br />

Zu den drei Hauptgütekriterien ist darüber hinaus ist folgendes festzustellen:<br />

• Validität: Nach Klauer (1987) und Fricke (1974) definieren sich<br />

kriteriumsorientierte Tests über ihren Inhalt, d.h. ein Test ist dann valide,<br />

wenn seine Items die Inhalte des Kriteriums vollständig enthalten oder<br />

repräsentativ abbilden. Aus diesem Grund ist nach Meinung der Autoren<br />

die Inhaltsvalidität der entscheidende Validitätsaspekt bei diesem<br />

23


Theoretischer Hintergrund<br />

diagnostischen Modell und reicht vollkommen aus, wenn diese durch<br />

eine theoriegeleitete Präzisierung der benötigten Konstrukte oder<br />

Expertenbefragungen sichergestellt wird. Andere Validitätsaspekte<br />

hätten erst Bedeutung, wenn gefragt würde, welche Konstrukte dem<br />

Verfahren zugrunde liegen, oder welche Entscheidungsrelevanz einem<br />

Instrument innewohnt, so dass Kriterien- und Konstruktvalidität zwar<br />

auch geprüft werden sollten, jedoch eher von untergeordneter Rolle<br />

seien. Diese Meinung widerspricht jedoch neueren Ansichten in der<br />

Literatur. Nach Schuler (1996) genügt die Berufung auf Inhaltsvalidität<br />

keineswegs zur Konzeption von AC-Übungen, die, wie bereits<br />

festgestellt, Charakteristika der kriteriumsorientierten Testtheorie<br />

aufweisen. Als in diesem Zusammenhang wichtiger gilt die<br />

Kriteriumsvalidität. Dieser Meinung ist auch Obermann (2006), der<br />

hinzufügt, dass besonders die Vorhersagevalidität als Teil der<br />

Kriteriumsvalidität in der Eignungsdiagnostik den wichtigsten Stellenwert<br />

besitzt, da mit dem AC ja gerade externe Faktoren wie beruflicher Erfolg<br />

prognostiziert werden sollen. Konstruktvalidität hat jedoch auch nach<br />

Obermann (2006) einen geringeren Stellenwert. Die Tatsache, dass viele<br />

Studien zur Konstruktvalidität von Assessment Centern unzureichende<br />

Ergebnisse liefern (Sackett & Dreher, 1982; vgl. auch Jeserich, 1995,<br />

Schuler, 1996, Nienaber, 1997, Obermann, 2006), wird damit begründet,<br />

dass diese ein Modell der klassischen Testtheorie ist. Als Konstrukt gilt<br />

demnach ein postuliertes Persönlichkeitsmerkmal, welches als relativ<br />

stabil gilt und über unterschiedliche Situationen und Zeiten hinweg<br />

verhältnismäßig konstant bleibt. Wie bereits herausgestellt, soll das AC<br />

aber gerade das individuelle Verhalten in verschiedenen Situationen<br />

erfassen.<br />

• Reliabilität: Die Anforderungen an die Reliabilität von<br />

kriteriumsorientierten Verfahren sind grundsätzlich analog zu denen der<br />

klassischen Testtheorie (Fisseni, 1990). Allerdings ist zu beachten, dass<br />

ihre Bestimmung deutlich schwieriger ist, da man beispielsweise in<br />

situativen Test nicht ohne Probleme die Split-half-Methode oder<br />

Konsistenzanalyse anwenden kann (Schuler, 1996). Was man also<br />

24


Theoretischer Hintergrund<br />

genau unter der Reliabilität eines kriteriumsorientierten Tests zu<br />

verstehen hat, ist nach Klauer (1987) nicht völlig klar auszumachen.<br />

• Objektivität: Auch für die Objektivität gelten gleiche Anforderungen wie in<br />

der klassischen Testtheorie. Fisseni (1990) befasst sich in Bezug auf die<br />

kriteriumsorientierte Leistungsmessung lediglich mit der<br />

Auswertungsobjektivität, jedoch dürften auch die Durchführungs- sowie<br />

Interpretationsobjektivität in diesem Messmodell Gültigkeit besitzen.<br />

Die beiden Messmodelle der klassischen Testtheorie und der<br />

kriteriumsorientierten Leistungsmessung haben samt ihrer Gütekriterien eine<br />

entscheidende Bedeutung für das Thema der vorliegenden Arbeit, da es sich<br />

um eine Validierungsstudie handelt. Das zu validierende Instrument ist ein<br />

computergestützter <strong>Postkorb</strong>, welcher eine Mischform aus situativer Übung und<br />

Leistungstest darstellt (Höft, 2003) und der als ein Teil des AC eingesetzt wird.<br />

Deshalb soll im nachfolgenden Kapitel auf das Assessment Center allgemein<br />

eingegangen werden, um die vorliegende Studie thematisch einzuordnen.<br />

25


Theoretischer Hintergrund<br />

2.2 Das Assessment Center als eignungsdiagnostisches<br />

Instrument<br />

Um eine thematische Einordnung des Gegenstands der vorliegenden Arbeit zu<br />

schaffen, wird im Folgenden Kapitel auf das Assessment Center (AC) genauer<br />

Bezug genommen. Zunächst erfolgt eine Begriffsklärung und Definition (2.2.1).<br />

Daran anschließend folgt die Darstellung eines typischen AC-Ablaufs (2.2.2)<br />

sowie der zentralen Komponenten, die bei der Konzeption des AC unbedingt<br />

beachtet werden sollten (2.2.3). In Kapitel 2.2.4 wird schließlich ein Überblick<br />

über die wichtigsten AC-Übungen gegeben, bevor dann in Kapitel 2.3 der<br />

<strong>Postkorb</strong> herausgegriffen und detaillierter beschrieben wird.<br />

2.2.1 Definition des Assessment Centers<br />

Aufgrund der Breite an theoretisch beschriebenen und praktisch angewandten<br />

Assessment Center (AC) Varianten hat sich bis heute keine allgemein gültige<br />

Definition des Verfahrens durchgesetzt (Jeserich, 1995; Paschen, Weidemann,<br />

Turck & Stöwe, 2005). Obermann (2006) definiert das AC wie folgt:<br />

„Ein Assessment Center ist ein ein- bis dreitägiges Seminar mit acht bis zwölf<br />

Mitarbeitern oder Bewerbern, die von Führungskräften und Personalfachleuten<br />

in Rollenübungen und Fallstudien beobachtet und beurteilt werden. Diese<br />

Rollenübungen und Fallstudien sind charakteristisch für bestehende zukünftige<br />

Arbeitssituationen und Aufgabenfelder“ (S.12).<br />

Diese Beschreibung kann jedoch als zu eingeschränkt betrachtet werden. So<br />

findet eine Vielzahl abgewandelter Formen inzwischen Verwendung, wozu<br />

beispielsweise das Reality-Assessment Center oder das Lernpotential-<br />

Assessment Center zählen (Jerusalem, 2003; Paschen et al., 2005).<br />

Hinsichtlich seiner Merkmale, wie der Dauer des Verfahrens, Anzahl der<br />

Teilnehmer, Menge und Auswahl der festgelegten Anforderungen sowie der Art<br />

der eingesetzten Übungen (siehe Kapitel 2.2.5) differieren Assessment Center<br />

innerhalb Deutschlands und im internationalen Vergleich teils erheblich (Krause<br />

& Gebert, 2005).<br />

26


Theoretischer Hintergrund<br />

Angesichts dessen scheint eine generellere Umschreibung angebrachter.<br />

Jeserich (1981) definiert das Assessment Center als:<br />

„systematisches Verfahren zur qualifizierten Feststellung von<br />

Verhaltensleistungen und -defiziten, das von mehreren Beobachtenden<br />

gleichzeitig für mehrere Teilnehmende in Bezug auf vorher definierte<br />

Anforderungen angewandt wird“ (S. 33).<br />

Es handelt sich demnach um ein eignungsdiagnostisches Instrument, dessen<br />

zentrale Funktion in der Beurteilung der aktuellen oder zukünftigen Eignung für<br />

eine berufliche Tätigkeit liegt (Jerusalem, 2003).<br />

Bereits Mitte der 1920er Jahre wurde ein AC-ähnliches Instrument zur Auswahl<br />

von Offizieren in der deutschen Wehrmacht eingesetzt (Schuler & Moser,<br />

1995). Nachdem es ab dem zweiten Weltkrieg auch in Großbritannien und den<br />

USA Verwendung fand, ebenfalls zur Auswahl geeigneter Offiziersanwärter,<br />

gelangte das Assessment Center über amerikanische Universitäten und<br />

Unternehmen wie IBM, AT&T und General Electrics zurück in die<br />

Bundesrepublik, wo es erstmalig im Jahr 1969 bei IBM Deutschland eingesetzt<br />

wurde (Jeserich, 1995). Seit Anfang der 1980er Jahre steigt die Verwendung<br />

von Assessment Centern in der deutschen Wirtschaft nun kontinuierlich an<br />

(Obermann, 2006). Inzwischen wird das AC von mehr als 50 Prozent der<br />

Unternehmen in Deutschland eingesetzt (Neubauer, 2005; ausführlich zur<br />

Geschichte des AC: Domsch & Jochum, 1989; Jeserich, 1995; Schuler &<br />

Moser, 1995)<br />

Verwendet wird das Instrument für vielfältige Zwecke, die zum größten Teil der<br />

internen und externen Führungs- und Personalauswahl oder der<br />

Personalentwicklung, wie beispielsweise im Rahmen von Potentialanalysen,<br />

zuzuordnen sind (Fisseni & Preusser, 2007; Obermann, 2006; Schuler, 1996,<br />

Jeserich, 1981).<br />

27


Theoretischer Hintergrund<br />

2.2.2 Ablauf eines Assessment Centers<br />

Wie bereits beschrieben, wird in der Praxis eine Reihe verschiedener<br />

Ausgestaltungen des Assessment Centers angewandt. Grundsätzlich<br />

gemeinsam sind den verschiedenen Verfahrensarten jedoch die Phasen der<br />

Vorbereitung, Durchführung und Nachbereitung (Jeserich, 1981). Im Folgenden<br />

soll dieser zeitliche Ablauf exemplarisch dargestellt werden.<br />

Im Rahmen der Vorbereitung eines Assessment Centers werden zunächst die<br />

Ziele seines Einsatzes definiert und die Zielgruppe bestimmt, die das Verfahren<br />

durchlaufen soll (Obermann, 2006). So haben Studien gezeigt, dass man<br />

beispielsweise ausschließlich Teilnehmer gleicher Hierarchiestufen zusammen<br />

ein AC durchlaufen lässt, um Effekte in Gruppenübungen und andere<br />

Verzerrungen zu verhindern (Jeserich, 1995). Weiterhin erfolgen in dieser<br />

Vorbereitungsphase die Auswahl der Beobachter und die Ermittlung des<br />

Anforderungsprofils (Jerusalem, 2003; Jeserich, 1981), indem durch eine<br />

Tätigkeitsanalyse Aufgabenstellungen und erfolgskritische Anforderungen der<br />

Zielstelle erfasst werden (siehe Kapitel 2.2.3.1). Aus diesem Profil werden die<br />

zu beurteilenden Kriterien abgeleitet und die passenden Übungen konzipiert<br />

bzw. ausgewählt (siehe Kapitel 2.2.3.3). Hierbei ist empfehlenswert, diese<br />

sinnvoll in einen fiktiven Kontext einzubetten und mithilfe einer<br />

Rahmenhandlung eine allgemeine Ausgangslage zu schaffen (Paschen et al.,<br />

2005). Den Abschluss der Vorbereitungsphase bilden organisatorische<br />

Vorbereitungen, wie etwa Buchung von Seminarräumen oder die Einladung und<br />

Vorinformation der Teilnehmer.<br />

Die Phase der Durchführung beginnt mit einer Schulung der Beobachter, in der<br />

diese auf die anstehenden Aufgaben vorbereitet werden (Jeserich, 1981; siehe<br />

Kapitel 2.2.3.4). Anschließend werden die Teilnehmer empfangen und über<br />

Organisatorisches sowie Ziele und Inhalte des Verfahrens informiert (siehe Kap.<br />

2.2.3.5). Danach durchlaufen die Kandidaten die einzelnen Übungen und<br />

werden dabei von den Assessoren hinsichtlich der vorgegeben<br />

Anforderungsdimensionen beobachtet und bewertet (Jeserich, 1981). Während<br />

der Durchführungsphase übernimmt ein Moderator zum einen organisatorische<br />

und koordinierende Aufgaben und supervidiert zum anderen den<br />

Beurteilungsprozess im Sinne der einzuhaltenden Qualitätsstandards (Höft &<br />

28


Theoretischer Hintergrund<br />

Funke, 2006; Obermann, 2006).<br />

In der letzten Phase des Verfahrens werden die abgegebenen Bewertungen<br />

aller Kandidaten im Rahmen einer Beobachterkonferenz zu einem Gesamturteil<br />

zusammengetragen und ggf. in Form schriftlicher Ergebnisberichte bzw.<br />

Gutachten festgehalten, welche wiederum für die zukünftige<br />

Personalentwicklungsplanung des Unternehmens von großer Bedeutung sind<br />

(Paschen et al., 2005). In Abhängigkeit von der Zielsetzung des Verfahrens<br />

werden dabei Empfehlungen bzgl. der Auswahlentscheidungen und/oder<br />

weiterer Entwicklungsmaßnahmen getroffen (Jeserich, 1995). Abschließend<br />

erfolgt die Information der Kandidaten über die entsprechenden Ergebnisse im<br />

Rahmen eines Feedbackgesprächs, welches je nach Unternehmen und<br />

Bewerberzusammensetzung unterschiedlich ausführlich ausfallen kann<br />

(Jeserich, 1981; Jerusalem, 2003).<br />

2.2.3 Zentrale Komponenten des Assessment Centers<br />

Wegen der Vielfältigkeit der in der Praxis angewandten Verfahren fällt es<br />

schwer, allgemeingültige Aussagen über Assessment Center zu treffen. Die<br />

folgenden Ausführungen fokussieren daher auf die Darstellung der zentralen<br />

Komponenten, aus denen jedes AC bestehen sollte (Arbeitskreis Assessment<br />

Center e.V., 2004; Obermann, 2006).<br />

2.2.3.1 Anforderungsanalyse<br />

Ein Assessment Center ist durch das Grundprinzip der Anforderungsanalyse<br />

charakterisiert (Jerusalem, 2003; Obermann, 2006). Nach diesem Prinzip<br />

werden die Inhalte des AC auf die interessierende berufliche Position<br />

zugeschnitten, indem im Vorfeld der Konzeption eine Analyse der konkreten<br />

Stellenanforderungen erfolgt und das Verfahren diesbezüglich operationalisiert<br />

wird (Arbeitskreis Assessment Center e.V., 2004). Oft wird dafür die Strategie<br />

der Critical Incidents angewandt, d.h. es wird nach typischen, aber auch<br />

besonders herausfordernden Ereignissen und Vorfällen auf der angestrebten<br />

Zielposition oder -ebene gefragt und anschließend ermittelt, mit welchen<br />

29


Theoretischer Hintergrund<br />

Verhaltensweisen erfolgreiche sowie weniger erfolgreiche Führungskräfte diese<br />

Situationen bewältigen (Jeserich, 1995). Fachliche Kompetenzen spielen in<br />

diesem Kontext eine untergeordnete Rolle, vielmehr geht es dabei um<br />

Dimensionen wie soziale Kompetenzen, Denk- und Planungsfähigkeit oder<br />

Führungskompetenz. Allerdings weisen in der AC-Praxis fast alle<br />

Anforderungsprofile unterschiedliche Dimensionen auf. Dies ist sicherlich zum<br />

einen durch Uneinigkeiten in den Definitionen psychologischer Begrifflichkeiten<br />

begründet, zum anderen aber auch durch subjektive Einfärbungen der<br />

jeweiligen Unternehmenskulturen oder -beratungen erklärbar (Jeserich, 1981).<br />

Umso wichtiger ist eine genaue Definition und Operationalisierung der<br />

Verhaltenskategorien in der Anforderungsanalyse. Je genauer die Zielposition<br />

erfasst und deren Anforderungen in den Übungen des AC umgesetzt wird,<br />

desto höher ist die Genauigkeit von Prognosen über das spätere<br />

Arbeitsverhalten (Obermann, 2006).<br />

2.2.3.2 Simulation<br />

Die so ermittelten eignungsrelevanten Aufgaben werden im Rahmen<br />

verschiedener AC-Übungen umgesetzt, die den beruflichen Alltag der<br />

Zielposition möglichst realistisch simulieren sollen (Sünderhauf, Stumpf & Höft,<br />

2005). Kernidee dieses Simulationsprinzips ist, dass die Teilnehmer des<br />

Assessment Centers relevante Anforderungen und Aufgaben praktisch<br />

erfahren, anstatt beispielsweise in einem Interview lediglich darüber zu<br />

sprechen (Fisseni & Preusser, 2007). Deshalb wird in den Übungen das<br />

realisiert, was später auch vom potenziellen Inhaber der angestrebten Position<br />

erwartet wird: Ein Verkäufer durchläuft beispielsweise Verkaufs-Rollenspiele,<br />

ein zukünftiger Vorgesetzter soll Mitarbeitergespräche führen, ein Administrator<br />

bearbeitet eine <strong>Postkorb</strong>-Übung und ein Bewerber um eine verhandelnde<br />

Position leitet eine simulierte Konferenz. Je ähnlicher diese Arbeitssimulationen<br />

den tatsächlichen Aufgaben der Zielstelle sind, desto genauer ist die<br />

Eignungsaussage bezüglich zukünftigen Arbeitsverhaltens (Obermann, 2006).<br />

30


Theoretischer Hintergrund<br />

2.2.3.3 Methodenvielfalt<br />

Im Sinne der Methodenvielfalt handelt es sich bei AC-Übungen um eine<br />

Kombination verschiedenster Methoden, welche die erfolgskritischen<br />

Leistungen der Teilnehmer auf unterschiedliche Weise erfassen sollen (Höft &<br />

Funke, 2006). Wichtig dabei ist, dass jedes der in der Anforderungsanalyse<br />

ermittelten Kriterien in unterschiedlichen Übungen mehrfach und unabhängig<br />

voneinander beobachtet werden muss (Obermann, 2006). So werden im<br />

Assessment Center mit den beschriebenen Arbeitssimulationen zum<br />

überwiegenden Teil Übungen wie Rollenspiele, Gruppendiskussionen und<br />

Präsentationen eingesetzt (Fisseni & Preusser, 2007). Ergänzt werden sie<br />

durch weitere Methoden wie Postkörbe, Fallstudien, Planspiele, Leistungs- und<br />

Persönlichkeitstests sowie Interviews (siehe Kapitel 2.2.5). Am häufigsten<br />

erfasst werden dabei Beurteilungsdimensionen oder -kriterien wie<br />

Kommunikationsfähigkeit, Durchsetzungsfähigkeit, Kooperations- und<br />

Konfliktfähigkeit, Führungskompetenzen sowie systematisches Denken und<br />

Problemlösefähigkeit (Krause, Meyer zu Kniendorf & Gebert, 2001). Eine grobe<br />

Übersicht ohne Anspruch auf Vollständigkeit stellt dabei Tabelle 1 in Anlehnung<br />

an Obermann (2006) dar:<br />

31


Theoretischer Hintergrund<br />

Tabelle 1: Zuordnung der häufigsten AC-Übungen zu einer Auswahl möglicher<br />

Beurteilungskriterien, in Anlehnung an Obermann (2006). Siehe dazu auch Kapitel 2.2.5.<br />

Zwischenmenschliches Verhalten Leistungsverhalten Intellekt.<br />

Fähigkeiten<br />

Delegation<br />

Kontrolle<br />

Motivationsfähigkeit<br />

Sensibilität<br />

Durchsetzung<br />

Teamfähigkeit<br />

Kommunikationsfähigkeit<br />

Entscheidungsverhalten<br />

Überzeugungsfähigkeit<br />

Ausdauer<br />

Zielsetzung<br />

Energie<br />

Belastbarkeit<br />

Leistungsmotivation<br />

Analytisches Denken<br />

Kreativität<br />

Organisation / Systematik<br />

Werte / Interessen<br />

Selbstbild<br />

AC-Simulationen<br />

Gruppendiskussionen X X X X X X X X X X X<br />

Präsentationen X X X X X X<br />

Rollenspiele X X X X X X X X X X X X X X<br />

Fallstudien X X X X X X X X X X X X X X X<br />

Planspiele X X X X X X X X X X X X X X<br />

Postkörbe X X X X X X X X X<br />

Psychologische Tests<br />

Intelligenztests X X X<br />

Leistungstests X X X X X<br />

Persönlichkeitstests X X X X X X<br />

2.2.3.4 Mehrfachbeurteilungen<br />

In diesen vielfältigen Simulationen dient die Beobachtung durch mehrere<br />

Assessoren als zentrales Mittel der Datenerhebung (Arbeitskreis Assessment<br />

Center e. V., 2004).<br />

Die Teilnehmer werden dabei von mehreren Beobachtern und in<br />

unterschiedlichen Übungen beurteilt, um Verzerrungseffekte sowie<br />

unterschiedliche Wahrnehmungen auszugleichen und Subjektivität zu<br />

32


Theoretischer Hintergrund<br />

vermindern (Jeserich, 1995; Obermann, 2006).<br />

Als weitere Maßnahme der Qualitätssicherung sollte sich das Beobachterteam<br />

sowohl aus Vertretern der Personalabteilung und Führungskräften des<br />

Unternehmens als auch aus externen Beratern zusammensetzen (Fisseni &<br />

Preusser, 2007). So können die unternehmensinternen Beobachter besonders<br />

gut die Passung von Bewerbern bzw. Mitarbeitern in die Unternehmenskultur<br />

beurteilen, da sie als Führungskräfte diese Kultur mitprägen und selbst<br />

jahrelang von ihr geprägt wurden. Auf der anderen Seite verfügen externe<br />

Berater meist über tieferes psychologisches und diagnostisches Know-how und<br />

sind mit der Verfahrensdurchführung besser vertraut (Obermann, 2006). Diese<br />

Kombination von Beobachtern mit verschiedenen fachlichen Hintergründen<br />

empfiehlt sich, um eine möglichst adäquate Eignungsaussage treffen zu können<br />

(Neubauer & Volkmann, 1995). Als notwendige Bedingung dafür gilt jedoch,<br />

dass alle Beobachter, besonders diejenigen ohne psychologische<br />

Fachausrichtung, in einer Beobachterschulung angemessen trainiert werden<br />

(Schuler, 1987). Dabei soll besonders die Trennung von Beobachten und<br />

Bewerten bewusst gemacht sowie intensiv auf potenzielle Fehlerquellen bei der<br />

Beurteilung, beispielsweise Attributionsfehler, Halo-Effekt, Erwartungseffekt<br />

oder Kontrasteffekt, hingewiesen werden (Obermann, 2006; Jeserich, 1981).<br />

Zudem sollen die Beobachter mit den vorliegenden Verhaltenskriterien und ggf.<br />

durchzuführenden Rollenspielen vertraut gemacht werden. Nur durch eine<br />

solche Beobachterschulung kann eine hinreichende Urteilshomogenität und ein<br />

gewisses Maß an Standardisierung gewährleistet werden (Jeserich, 1995).<br />

2.2.3.5 Transparenz<br />

Gemäß dem Transparenzprinzip sollen die beobachteten Kriterien,<br />

Zielsetzungen und Inhalte der Übungen allen Beteiligten, also auch den<br />

Teilnehmern, offen gelegt werden (Arbeitskreis Assessment Center e.V., 2004;<br />

Jerusalem, 2003; Jeserich, 1981). Dadurch wird gewährleistet, dass das<br />

Verfahren für die Kandidaten nachvollziehbar wird und sie sich in den Übungen<br />

adäquat verhalten können (Bolte & Sünderhauf, 2005). Auch soll den<br />

Teilnehmern nach dem Verfahren ein ausführliches, am Anforderungsprofil<br />

33


Theoretischer Hintergrund<br />

orientiertes Feedback über ihre Stärken und Verbesserungsmöglichkeiten<br />

gegeben werden. Dadurch bekommt der Bewerber die Möglichkeit, an seinen<br />

indizierten Schwächen zu arbeiten und ggf. Förderangebote in Anspruch zu<br />

nehmen, so dass auch im AC gescheiterte Teilnehmer ihre Vorteile daraus<br />

ziehen können (Jeserich, 1995; Obermann, 2006). Durch diese Maßnamen<br />

trägt die Transparenz dazu bei, dass die Akzeptanz des Assessment Centers<br />

im Vergleich zu anderen eignungsdiagnostischen Instrumenten, wie etwa der<br />

ausschließlichen Verwendung eines Interviews oder Testverfahren, als sehr<br />

hoch einzustufen ist (Obermann, 2006).<br />

2.2.4 Bedeutung von Reihenfolgeeffekten im Assessment Center<br />

Die bisherige Forschung zum Assessment Center beschäftigt sich überwiegend<br />

mit Fragen zur Validität oder Akzeptanz des Verfahrens, zum<br />

Beobachterverhalten oder weiteren methodischen Fragestellungen. Der<br />

möglichen Auswirkung von Reihenfolgeeffekten durch die unterschiedliche<br />

Abfolge der Aufgaben wurde bislang kaum Beachtung geschenkt (Fruhner,<br />

2005). Dennoch wird oft von AC-Teilnehmern berichtet, dass sie zu Beginn des<br />

AC noch stark verunsichert und nervös seien und die Art der gestellten<br />

Aufgaben und die damit verbundene Bewertungssituation für sie neu sei<br />

(Nienaber, 1997). Für Aufgaben, die im ersten Teil des AC durchgeführt<br />

werden, bedeutet dies, dass die tatsächliche Leistung eines Teilnehmers durch<br />

die eigene Unsicherheit und Nervosität stärker beeinflusst werden könnte als<br />

später durchgeführte Aufgaben. So könnte die Bewältigung der eigenen<br />

Nervosität in einer frühen AC-Aufgabe für den Teilnehmer eher im Vordergrund<br />

stehen als die eigentlichen Aufgabenmerkmale, wie beispielsweise analytische<br />

Anforderungen. Hinzu kommt, dass die Erfahrung, die ein Teilnehmer in einer<br />

vorherigen Übung gemacht hat, einen Einfluss auf sein weiteres Verhalten und<br />

damit auf sein Gesamtergebnis haben kann (Fruhner, 2005). Diese Vermutung<br />

liegt besonders bei AC-Übungen nahe, deren Anforderungen ähnlich sind, z.B.<br />

bei einem Intelligenztest, einem <strong>Postkorb</strong>, einem Planspiel und einer Fallstudie<br />

(siehe Kapitel 2.2.5). Aufgrund der Verwandtschaft bestimmter Übungen<br />

könnten folglich durchaus Übungseffekte auftreten.<br />

34


Theoretischer Hintergrund<br />

Entgegen all diesen Überlegungen deuten die wenigen empirischen Befunde<br />

jedoch darauf hin, dass sich Reihenfolgeeffekte im AC nicht auf die Ergebnisse<br />

eines Teilnehmers auswirken. Nienaber (1997) untersuchte die Auswirkung<br />

solcher Effekte auf die Gesamtbeanspruchung des Teilnehmers, auf<br />

analytische, psychische und verhaltensbezogene Anforderungen sowie auf<br />

physiologische Indikatoren wie Herzratenveränderungen. Dabei fand er jedoch<br />

keine nennenswerten Positionseffekte über die verschiedenen Übungen<br />

hinweg, so dass die Hypothese, dass sich durch zurückgehende Nervosität im<br />

Laufe des AC die auftretende Beanspruchung verringern und somit die<br />

tatsächliche Leistung erhöhen würde, abgelehnt wurde. Bezüglich der<br />

Leistungsverzerrung durch die eigene Unsicherheit und Nervosität eines<br />

Teilnehmers spielt die Positionierung einer Übung im Assessment Center<br />

demnach keine Rolle. In einer weiteren Studie, die im Rahmen von mehrtägigen<br />

Assessment Centern stattfand, untersuchte Fruhner (2005), ob die<br />

unterschiedliche Abfolge von Aufgaben einen Einfluss auf das individuelle<br />

Abschneiden der Teilnehmer hat. Das Ergebnis war, dass sich die Leistungen<br />

der vier Teilnehmergruppen trotz variierender Übungsreihenfolge nur in der<br />

Übung Vortrag unterschied. Genauer gesagt unterschied sich lediglich eine<br />

Gruppe (Gruppe 3) von den Ergebnissen der anderen drei Gruppen in der<br />

Übung Vortrag. Der Autor begründet dieses Ergebnis jedoch durch einen<br />

eigenen Konzeptionsfehler, da die Gruppe 3 laut Zeitplan als einzige Gruppe<br />

den Vortrag noch vor dem gemeinsamen Abendessen hielt. Somit konnten die<br />

anderen Teilnehmergruppen von den Erfahrungen der Gruppe 3 profitieren,<br />

beispielsweise bzgl. der Visualisierungsmöglichkeiten. Zudem seien die<br />

Beobachter möglicherweise nach dem Abendessen bei den anderen drei<br />

Gruppen wohlwollender in der Beurteilung des Vortrages gewesen. Unter<br />

gleichen Durchführungsbedingungen für alle Gruppen in allen Übungen geht<br />

Fruhler (2005) deshalb davon aus, dass keine Reihenfolgeeffekte im AC durch<br />

die Positionierung der Übungen ausgelöst werden, so wie die Ergebnisse der<br />

anderen Übungen in seiner Studie es zeigen würden. Dennoch weist er darauf<br />

hin, dass zukünftige Studien die Auswirkungen dieser methodischen<br />

Veränderung, d.h. wenn alle Gruppen den Vortrag nach dem Abendessen<br />

halten würden, untersuchen müssten. Auch Nienaber (1997) schließt sein Fazit<br />

35


Theoretischer Hintergrund<br />

damit, dass trotz der vorliegenden Ergebnisse bei der Konzeption eines AC auf<br />

Positionseffekte geachtet werden müsse und diese nie ganz ausgeschlossen<br />

werden könnten.<br />

2.2.5 Methodenüberblick<br />

Nach der Begriffsklärung zum Assessment Center und der geschichtlichen<br />

Einordnung sind ein typischer zeitlicher Ablauf, seine zentralen Komponenten<br />

und Qualitätsanforderungen und die Bedeutung von Reihenfolgeeffekten<br />

dargestellt worden. Im Folgenden soll nun ein kurzer Überblick über die in der<br />

Praxis am häufigsten eingesetzten Methoden gegeben werden. Hierbei soll der<br />

Fokus auf den psychologischen Testverfahren, dem Planspiel und der<br />

Fallstudie liegen, da diese in Beziehung zu dem in dieser Arbeit untersuchten<br />

Konstrukt stehen.<br />

2.2.5.1 Interview<br />

Interviews gehören in der Personalauswahl und -beurteilung zu den am<br />

weitesten verbreiteten Instrumenten (Sarges, 1995; Jeserich, 1981). In der<br />

Praxis liegen jedoch unterschiedlichste Variationen vor, da Interviewformen<br />

besonders bzgl. des Strukturierungsgrades, ihrer Teilnehmerzahl und ihrem<br />

Durchführungsmodus variieren können (Hösch, 1995). Generell lässt sich das<br />

Interview jedoch als eine zielgerichtete mündliche Kommunikation zwischen<br />

einem oder mehreren Befragern und einem oder mehreren Befragten<br />

beschreiben, bei der eine Informationssammlung über das Verhalten und<br />

Erleben der zu befragenden Person(en) im Vordergrund steht (Sarges, 1995).<br />

In der Eignungsdiagnostik soll das Interview also dem Zweck dienen, Fragen<br />

zur Eignung eines Kandidaten zu beantworten. Außerdem soll auch die<br />

Passung eines Bewerbers zum Unternehmen geprüft werden, ebenso wie der<br />

Bewerber die Möglichkeit hat herauszufinden, ob er sich selbst mit der<br />

jeweiligen Unternehmenskultur identifizieren kann (Hösch, 1995). Zur<br />

prognostischen Validität des Interviews gibt es in der Literatur jedoch geteilte<br />

Ansichten: Verschiedenen Metaanalysen zufolge liegt die Vorhersagekraft von<br />

36


Theoretischer Hintergrund<br />

Interviews für den Berufserfolg zwischen .38 und .63 (ausführlich zur Validität<br />

des Interviews und den Möglichkeiten seiner Qualitätssicherung: Sarges, 1995).<br />

Die in der Praxis am häufigsten anzutreffende Variante ist das halbstrukturierte<br />

Interview in dyadischer Form, d.h. ein Interviewer befragt einen Kandidaten.<br />

Dass dabei durch die subjektive Beurteilung erhebliche Verzerrungseffekte<br />

auftreten können, scheint die Anwender nicht zu stören (Jeserich, 1981).<br />

2.2.5.2 Rollenspiel<br />

Rollenspiele bilden zumeist das Herzstück eines jeden Assessment Centers.<br />

Dabei handelt es sich um Dialogsituationen mit einem „Als-Ob-Charakter“, d.h.<br />

dass beispielsweise eine Verhandlung, ein Mitarbeitergespräch oder ein<br />

Zielvereinbarungsgespräch simuliert wird (Jung, 1995; Fisseni & Preusser,<br />

2007). Die Teilnehmer interagieren dabei mit geschulten Rollenspielern, die<br />

sich möglichst nah an die schriftlichen Verhaltensinstruktionen halten sollen, die<br />

sich aus der vorher erfolgten Anforderungsanalyse (siehe Kapitel 2.2.3.1)<br />

ergeben haben (Obermann, 2006). Nur wenn die Simulation sowohl typisch als<br />

auch bedeutsam für die angestrebte Position ist und sich der Rollenspieler bei<br />

allen Durchführungen ähnlich verhält, wobei natürlich bestimmte<br />

Handlungsspielräume gegeben sein müssen, kann das Rollenspiel als<br />

möglichst standardisiert und aussagekräftig angesehen werden (Jung, 1995).<br />

Anschließend erfolgt anhand der definierten Anforderungskriterien eine<br />

Bewertung, ob das gezeigte Verhalten für die zugrunde liegende kritische<br />

Situation adäquat war oder nicht (Jeserich, 1981). Die Nützlichkeit von<br />

Rollenspielen ergibt sich aus den recht „weichen“ Kriterien, die durch sie erfasst<br />

werden sollen und die durch andere Methoden nur sehr schwer greifbar<br />

gemacht werden, so z.B. Kooperationsfähigkeit, Motivationsfähigkeit oder<br />

Überzeugungskraft (Obermann, 2006).<br />

2.2.5.3 Gruppendiskussion<br />

Die Teilnehmer werden in dieser Übung aufgefordert, als Gruppe ein<br />

bestimmtes Thema zu diskutieren, wobei die Strukturierung und<br />

37


Theoretischer Hintergrund<br />

Vorgehensweise in der Diskussion den Teilnehmern selbst überlassen bleibt<br />

(Fisseni & Preusser, 2007). Nach Reiter (1995) gelten hierbei als häufigste<br />

Kriterien vor allem Aktivität, Initiative, Durchsetzungsvermögen,<br />

Lösungsorientierung, Kommunikationsfähigkeit, Urteilsvermögen, emotionale<br />

Stabilität, soziale Sensibilität, Teamfähigkeit und Kooperationsfähigkeit. Diese<br />

seien besonders in führerlosen Gruppendiskussionen ohne fachbezogene<br />

Problemstellung und Lösungszwang auch von nicht psychologisch geschulten<br />

Beobachtern sehr gut zu beurteilen. Während der Diskussion sitzen die<br />

Beobachter abseits der Gruppe und beteiligen sich nicht aktiv am<br />

Gesprächsverlauf, da sonst die Objektivität des Verfahrens gestört würde und<br />

sich die Teilnehmer nach einer Beobachteräußerung in den meisten Fällen nur<br />

noch sozial angepasst verhalten würden (Reiter, 1995).<br />

Die Vorteile der Gruppendiskussion liegen besonders in ihrer hohen<br />

Augenscheinvalidität für Teilnehmer und Beobachter, da entsprechende<br />

Meetings und Arbeitsgruppen auch im realen Arbeitsalltag oft vorkommen.<br />

Zusätzlich ist sie sehr ökonomisch, da nach nur etwa einer Stunde Aussagen<br />

über alle Teilnehmer möglich sind (Fisseni & Preusser, 2007). Allerdings<br />

werden bei Obermann (2006) auch zwei entscheidende Nachteile dargestellt,<br />

die am Nutzen der häufigen Verwendung der Gruppendiskussion im AC<br />

zweifeln lassen. Zum einen gibt es oft Teilnehmer, die aufgrund von<br />

ausgeprägter Introversion oder einfach Nervosität fast die ganze Diskussion<br />

über gar nichts sagen und höchstens gegen Ende etwas „auftauen“. Hier<br />

besteht die Gefahr, dass diese Teilnehmer fälschlicherweise in allen Kriterien<br />

von den Beobachtern abgewertet werden oder das hervorstechendste Merkmal<br />

der wenigen Wortbeiträge, wie z.B. Eloquenz, die anderen Dimensionen<br />

überstrahlt. Die zweite nach Obermann (2006) genannte Problematik liegt in der<br />

generellen Laborhaftigkeit und Reaktivität von AC-Übungen begründet. In<br />

Gruppendiskussionen mit bis zu zwölf Teilnehmern sind die Redeanteile des<br />

einzelnen deutlich geringer als bei einem Rollenspiel mit einem Teilnehmer und<br />

einem Rollenspieler. Dadurch besteht in der Gruppendiskussion für jeden<br />

Teilnehmer mehr Zeit, sich zu überlegen, was wohl das von den Beobachtern<br />

gewünschte Verhalten sei. Dies hat naturgemäß großen Einfluss auf das<br />

Verhalten des Teilnehmers, da zum einen seine Authentizität verloren geht, und<br />

38


Theoretischer Hintergrund<br />

er zum anderen das gewünschte Verhalten in den seltensten Fällen aufgrund<br />

variierender Unternehmenskulturen antizipieren kann.<br />

2.2.5.4 Präsentation<br />

Nach Obermann (2006) sollen die Teilnehmer in Präsentationsübungen ein<br />

bestimmtes Thema oder vorgegebenes Material aufbereiten, strukturieren und<br />

dann vor einer Gruppe von Beobachtern vortragen. Oft schließt sich an den<br />

reinen Vortrag noch ein Frageteil an, bei dem der Teilnehmer seine<br />

Ausführungen begründen und gegen Einwände der Beobachter verteidigen soll.<br />

Häufig erfasste Kriterien in Präsentationen sind systematisches Denken,<br />

sprachlicher Ausdruck, Überzeugungskraft und selbstsicheres Auftreten<br />

(Jeserich, 1981).<br />

Analog zur Gruppendiskussion gibt es auch beim Einsatz von Präsentationen<br />

im AC kritische Aspekte zu bedenken. Das hier ebenfalls starke<br />

Reaktivitätseffekte wirken können, belegt eine Studie von Bungard (1987, zit. n.<br />

Eggers & Oetting, 1995), in der er die Hypothesen der Teilnehmer über die<br />

Zielsetzung der Präsentationsübung erfasste. Je nach Vermutung über die Ziele<br />

und Absichten der Beobachter richteten sich die Selbstdarstellungsstrategien<br />

der Teilnehmer danach und es wurden diejenigen Präsentatoren über alle<br />

Kriterien hinweg günstiger beurteilt, deren Hypothesen mit den tatsächlich<br />

geprüften Beurteilungsdimensionen übereinstimmten. Ein weiterer<br />

Verzerrungseffekt kann zum Tragen kommen, wenn eine nur ungenügend<br />

differenzierte Unterscheidung seitens der Beobachter getroffen wird zwischen<br />

Merkmalen der Kommunikation (Rhetorik, Argumentationstechniken, Einflüssen<br />

des Gesprächinhaltes oder Verständlichkeit) und Merkmalen des<br />

Kommunikators, insbesondere Glaubwürdigkeit und Beliebtheit (Frey, 1979).<br />

Sprachliche Ausdrucksfähigkeit wird demnach oft mit intellektuellen Aspekten<br />

gleichgesetzt, genauso wie beispielsweise ein gelungener oder misslungener<br />

Einsatz von Präsentationsmedien die Beurteilung verzerren kann (Eggers &<br />

Oetting, 1995; Obermann, 2006).<br />

39


Theoretischer Hintergrund<br />

2.2.5.5 Psychologische Testverfahren<br />

Psychologische Tests sind zum Großteil auf der Basis der klassischen<br />

Testtheorie konstruiert und somit nicht optimal für den Einsatz innerhalb eines<br />

Assessment Centers geeignet (siehe Kapitel 2.1.2). Zur Klassifikation lassen sie<br />

sich unterteilen in Intelligenz-, Leistungs- und Persönlichkeitstests (Fisseni &<br />

Preusser, 2007; Hösch, 1995; Jeserich, 1981). Die beiden ersten Gruppen<br />

lassen sich meist als „Power“-Tests kategorisieren, d.h. dass möglichst viele<br />

Aufgaben in vorgegebener Zeit zu lösen sind und damit in der<br />

Eignungsdiagnostik besonders Kriterien wie sprachliche oder rechnerische<br />

Intelligenz, Gedächtnis, Problemlösefähigkeit oder Konzentration gemessen<br />

werden sollen (Obermann, 2006). Persönlichkeitstests dagegen sollen die<br />

Ausprägung von bestimmten emotionalen, motivationalen oder<br />

zwischenmenschlichen Neigungen und Einstellungen erfassen, beispielsweise<br />

Extraversion oder Dominanz (Hösch, 1995). In einer umfangreichen Befragung<br />

verschiedener Unternehmen und Behörden zur Anwendungshäufigkeit<br />

psychologischer Testverfahren hat Brambring (1983, zit. n. Obermann, 2006)<br />

als häufigste eingesetzte Verfahren den Intelligenz-Struktur-Test (IST), das<br />

Leistungsprüfsystem (LPS), den Aufmerksamkeits-Belastungs-Test (d2), den<br />

Mechanisch-Technischen Verständnistest (MTVT), das Freiburger<br />

Persönlichkeitsinventar (FPI) und den Berufs-Interessen-Test (BIT) ermittelt<br />

(vgl. Sarges & Wottawa, 2001; Brickenkamp, 2002). Zudem bestehe ein Trend<br />

zur Entwicklung von Tests zur speziellen Fähigkeitsmessung für bestimmte<br />

Berufe, beispielsweise die Eignungsuntersuchungsbatterie (EUB) der<br />

Bundesagentur für Arbeit. Als weiteres Beispiel kann die Arbeitsprobe zur<br />

berufsbezogenen Intelligenz für büro- und kaufmännische Tätigkeiten (AZUBI-<br />

BK) von Schuler und Klingner (2005, siehe Kapitel 2.5.1) gelten. Auf eine<br />

detaillierte Auflistung der in der Praxis verwendeten Verfahren sei an dieser<br />

Stelle verzichtet und stattdessen auf Sarges & Wottawa (2001) sowie<br />

Brickenkamp (2002) verwiesen.<br />

Psychologische Testverfahren werden im Rahmen von Assessment Centern<br />

immer wieder eingesetzt, obwohl Validitätsprüfungen oft zeigen, dass ihr<br />

Nutzen in diesem Kontext vergleichsweise gering ist (Daumenlang, 1995;<br />

Jeserich, 1995). Eine Begründung dafür ist sicherlich, dass die Tests nicht für<br />

40


Theoretischer Hintergrund<br />

die speziellen Anforderungsdimensionen des jeweiligen AC konstruiert wurden<br />

und somit nur bedingt homogene Ergebnisse im Vergleich mit anderen AC-<br />

Methoden liefern können (Jeserich, 1981). Der Arbeitskreis Assessment Center<br />

e.V. (2004) zählt ihren Gebrauch deshalb sogar zu den Verstößen gegen die<br />

Standards des AC, da sie weder situativ sind (siehe Kapitel 2.2.3.2) noch einer<br />

genauen Anforderungsanalyse der jeweiligen Zielposition entstammen (siehe<br />

Kapitel 2.2.3.1). Ein weiteres Argument dafür, dass psychologische Tests im<br />

Assessment Center bestenfalls als Ergänzung zu anderen Methoden<br />

angesehen werden können, liefert die von Wernimont und Campbell (1968)<br />

schon früh postulierte Unterscheidung von signs und samples. Unter dem<br />

Begriff signs werden sämtliche Tests, Fragebögen und andere Verfahren<br />

zusammengefasst, die allgemeine Prädispositionen für bestimmte<br />

Verhaltensweisen, oder anders gesagt situationsübergreifende, grundlegende<br />

psychologische Dimensionen messen sollen (Fisseni & Preusser, 2007). Dabei<br />

kann das Verhalten, in dem sich ein solches sign, also Zeichen, ausdrückt, im<br />

kritischsten Fall nur das Ankreuzen einer Antwort auf dem Papier sein.<br />

Wermington und Campbell (1968) empfehlen für die Personaldiagnostik<br />

dagegen eher samples, also Arbeitsproben, womit komplexe<br />

Verhaltenssequenzen, in die gleich mehrere Fähigkeits- oder<br />

Persönlichkeitsdimensionen hineinwirken, gemeint sind. Welche Dimensionen<br />

in diesem Zusammenhang genau gemessen werden, ist dabei sekundär. Viel<br />

wichtiger ist die Situation selbst und ihre adäquate Bewältigung durch den<br />

Bewerber (Obermann, 2006). Diese bereits in den 1960er Jahren vorgebrachte<br />

Forderung nach samples statt signs steht im Einklang mit der heutigen<br />

Qualitätsanforderung an Assessment Center nach Simulation (siehe Kapitel<br />

2.2.3.2). Erschwerend hinzu kommt noch, dass die meisten Tests nicht an den<br />

für ein AC typischen Teilnehmergruppen geeicht sind (Jeserich, 1995).<br />

Besonders bei Intelligenztests wie dem Hamburg-Wechsler-Intelligenztest für<br />

Erwachsene (HAWIE) oder dem Intelligenz-Struktur-Test (IST) (vgl. Sarges &<br />

Wottawa, 2001; Brickenkamp, 2002) wird oft für die kriterienbezogene Validität<br />

nur ein Zusammenhang mit Schulnoten und Lehrerurteilen angegeben. Bei der<br />

Testung von Auszubildenden und allenfalls noch Hochschulabsolventen mag<br />

dies noch zulässig sein, für eine Diagnostik von erwachsenen Bewerbern für<br />

41


Theoretischer Hintergrund<br />

komplexe und anspruchsvolle Tätigkeiten wird dieser Validitätsbereich<br />

allerdings verlassen (Daumenlang, 1995; Hösch, 1995). Augrund all dessen<br />

prognostiziert Obermann (2006) für die Zukunft einen eher rückläufigen Einsatz<br />

von psychologischen Testverfahren in Assessment Centern.<br />

2.2.5.6 Planspiele<br />

Das herkömmliche Planspiel wird häufig als Gruppenübung durchgeführt, bei<br />

der eine Situation simuliert wird, in der die Teilnehmer die Positionen von<br />

Führungskräften in miteinander konkurrierenden Unternehmen übernehmen. In<br />

einer vorgegebenen Zeit muss jeder Teilnehmer Entscheidungen bzgl. einer<br />

vorgegeben Thematik und vorliegenden Informationen treffen. Dafür müssen<br />

die aktuelle Situation analysiert und Lösungsvorschläge ausgearbeitet werden,<br />

welche im Anschluss in der Gruppe diskutiert und gegen die anderen<br />

Teilnehmer durchgesetzt werden sollen (Friedrich & Schwarz, 1989; Obermann,<br />

2006). Diese Entscheidungen werden periodenweise von der Spielleitung oder<br />

einem <strong>EDV</strong>-Programm ausgewertet und die Resultate an die Teilnehmer<br />

rückgemeldet, was wiederum die Informationsgrundlage für die nächste Periode<br />

darstellt (Fassheber, 1995). Die Teilnehmer beeinflussen sich also durch ihre<br />

Entscheidungen gegenseitig, da diese den vernetzten simulierten Markt<br />

verändern. Die vorgegebenen Fragestellungen haben dabei meist realitäts- und<br />

unternehmensnahen Charakter, wie etwa Themen der Preis-, Produkt- und<br />

Kommunikationspolitik oder Personalangelegenheiten (Obermann, 2006).<br />

Dadurch soll das Planspiel eine geraffte Simulation der Realität darstellen, in<br />

der man Kriterien wie Entscheidungsverhalten, analytische Fähigkeiten,<br />

Problemlösefähigkeit oder Durchsetzungsvermögen besonders präzise und<br />

realitätsnäher als in anderen Methoden beobachten kann (Friedrich & Schwarz,<br />

1989; Fassheber, 1995).<br />

Besonderer Beliebtheit erfreuen sich inzwischen zahlreiche <strong>EDV</strong>-Versionen<br />

solcher Planspiele, wobei das Prinzip des Planspiels für eine Bearbeitung per<br />

Computer implementiert worden ist (Kluwe, 1995). Somit kann das Instrument<br />

auch als Einzelverfahren verwendet werden, da die Reaktionen des Marktes<br />

durch den Computer simuliert werden. Solche „computergestützten<br />

42


Theoretischer Hintergrund<br />

Simulationen“, wie sie in der Literatur häufig betitelt werden (Funke & Rasche,<br />

1992; Fassheber, 1995; Hösch, 1995; Kluwe, 1995; Kersting, 2001; Obermann,<br />

2006), basieren grundsätzlich auf den Arbeiten von Dörner et al. aus den<br />

1970er und 80er Jahren, wie beispielsweise der Lohhausen-Simulation (Hösch,<br />

1995). Ihre Vorteile werden in einem noch dynamischeren und somit<br />

realitätsnäheren Übungsaufbau, der dadurch resultierenden Akzeptanz durch<br />

die hohe Augenscheinvalidität und einer ausschließlich computergestützten und<br />

dadurch objektiveren Auswertung gesehen (Funke & Rasche, 1992; Kluwe,<br />

1995). Allerdings bleibt zu bemängeln, dass bisher kaum wissenschaftliche<br />

Evaluationen derartiger Verfahren vorliegen, und zudem die wenigen<br />

veröffentlichten Arbeiten insbesondere hinsichtlich ihrer Validität enttäuschende<br />

Ergebnisse zeigen. So ergeben beispielsweise Studien von Kersting (2001),<br />

dass sich der Großteil der kriterienbezogenen Varianz der<br />

Simulationsergebnisse durch Intelligenz- und Wissensindikatoren empirisch<br />

abbilden lässt. Zudem wiesen Wolfe und Roberts (1986, zit. n. Kluwe, 1995)<br />

durch Längstschnittstudien nach, dass die Leistung in solchen „Business<br />

Games“ nicht bzw. nur gering mit dem späteren Karriereerfolg der<br />

Versuchspersonen zusammenhängt. Eine solch unbefriedigende<br />

Evaluationslage scheint verwunderlich angesichts der explosionsartigen<br />

Verbreitung solcher Instrumente in den 1990er Jahren. Allerdings befindet sich<br />

die wissenschaftliche Auseinandersetzung mit computergestützten<br />

Simulationen damit auf einem ähnlichen Stand wie die Forschung zu<br />

computergestützten <strong>Postkorb</strong>übungen (siehe Kapitel 2.4).<br />

2.2.5.7 Fallstudien<br />

Als Fallstudie wird die Beschreibung einer Problemsituation verstanden. Diese<br />

wird von den Teilnehmern eigenständig bearbeitet und mit dem Ziel des<br />

Herausfilterns von relevanten Informationen analysiert, so dass anschließend<br />

die entwickelte Lösungsstrategie dem Beobachterteam oder den anderen<br />

Teilnehmern des AC vorgestellt und darüber diskutiert werden kann (Domsch,<br />

1995; Fisseni & Preusser, 2007). Im Gegensatz zum Planspiel erhält der<br />

43


Theoretischer Hintergrund<br />

Teilnehmer jedoch während der Bearbeitung kein Feedback über die<br />

Auswirkungen seiner Lösungsstrategie (Obermann, 2006). Je nach<br />

Anforderungsprofil sollte bei der Fallstudie darauf geachtet werden, dass es<br />

mehr als eine mögliche Lösung gibt, da die Lösungsstrategie und<br />

Verhaltensmerkmale im Fokus der Beobachtung stehen sollen, und nicht eine<br />

Bewertung im Sinne von richtig oder falsch, wie es z.B. bei der Erfassung von<br />

fachspezifischen Fähigkeiten der Fall wäre (Domsch, 1995). Als<br />

Problemstellung eignen sich des Realitätsbezugs wegen besonders Themen<br />

aus dem Marketing oder Vertrieb, der Personalentwicklung, Führungsprobleme<br />

oder zwischenmenschliche Konflikte (Obermann, 2006). Häufig beobachtete<br />

Kriterien sind beispielsweise systematisches Denken und Handeln,<br />

Planungsfähigkeit, Entscheidungsverhalten, Unternehmerisches Denken oder<br />

Überzeugungskraft.<br />

Unter dem Begriff „Fallstudie“ werden diverse Varianten zusammengefasst.<br />

Domsch (1995) gibt ein Beispiel einer Typologie von Fallstudien, die in Tabelle<br />

2 dargestellt wird.<br />

Tabelle 2: Typologie von Fallstudien, nach Domsch (1995, S.605)<br />

Fallstudientyp<br />

Case-Problem-Method<br />

Incident-Method<br />

In-Basket-Exercise-Method<br />

(<strong>Postkorb</strong>)<br />

Case-Study-Method<br />

Kurzbeschreibung<br />

Kurze und vereinfachte Darstellung einer<br />

Problemsituation, die so zurechtgeschnitten ist, dass<br />

nur eine einzige Antwort bzw. Lösung möglich ist.<br />

Nur ein „Fall-Torso“ wird vorgegeben. Um den Fall<br />

lösen zu können, müssen erst die relevanten Daten<br />

ermittelt werden.<br />

Fallbearbeiter wird in eine Rollensituation<br />

hineinversetzt und muss Entscheidungen unter<br />

Zeitdruck über Problemstellungen treffen, die er in<br />

seinem <strong>Postkorb</strong> vorfindet.<br />

Umfangreiche (häufig 20 – 50 Seiten)<br />

wirklichkeitsgetreue Wiedergabe eines sich<br />

entwickelnden (Geschäfts-/Problem-) Ablaufs, der<br />

dann an dem Punkt unterbrochen wird, an dem<br />

Entscheidungen zu treffen sind.<br />

44


Theoretischer Hintergrund<br />

Die typischste Variante der Fallstudie ist wohl die umfangreiche Case-Study-<br />

Method. Aber auch der <strong>Postkorb</strong> (engl. In-Basket-Exercise) kann als Variante<br />

der Fallstudie gesehen werden und ist eine der am häufigsten verwendeten AC-<br />

Übungen.<br />

2.2.5.8 Postkörbe<br />

Der <strong>Postkorb</strong> ist eine der klassischen Übungen in Assessment Centern<br />

(Obermann, 2006) und eine spezielle Version der Fallstudie. Dabei geht es um<br />

einen Fall, der, verglichen mit einer typischen Fallstudie, noch mehr Flexibilität,<br />

mehr Realitätsnähe und einen leichteren Transfer des gelernten Verhaltens<br />

produziert (Güllich, 1992). Auf die <strong>Postkorb</strong>-Übung wird in den folgenden<br />

Kapiteln dieser Arbeit detaillierter eingegangen.<br />

45


Theoretischer Hintergrund<br />

2.3 Der klassische <strong>Postkorb</strong><br />

Eine der gängigsten AC-Übungen stellt der klassische Paper-Pencil-<strong>Postkorb</strong><br />

dar. Im nachfolgenden Kapitel soll diese Übung zunächst definiert werden<br />

(2.3.1), anschließend wird seine Durchführung (2.3.2) und Auswertung (2.3.3)<br />

beschrieben. Darauf folgen eine Darstellung der erfassten Kriterien (2.3.4)<br />

sowie ein Überblick über empirische Ergebnisse zu den Gütekriterien des<br />

<strong>Postkorb</strong>es (2.3.5). Im Anschluss erfolgt eine kritische Betrachtung des<br />

Verfahrens (2.3.6), bevor dann in Kapitel 2.4 auf den computergestützten<br />

<strong>Postkorb</strong> eingegangen wird.<br />

2.3.1 Was ist eine <strong>Postkorb</strong>-Übung?<br />

Der <strong>Postkorb</strong> (engl. in-basket) ist eines der beliebtesten Instrumente innerhalb<br />

von Assessment Centern (Didi, 2002). In der Einsatzhäufigkeit haben nur<br />

Gruppendiskussionen, Interviews und (andere Arten von) Fallstudien (siehe<br />

Kapitel 2.2.5) eine ähnliche Bedeutung (Obermann, 2006). Nach einer Zählung<br />

von Thornton und Byham im Jahre 1982 wurde eine solche <strong>Postkorb</strong>-Übung in<br />

mehr als 95% der Assessment Center eingesetzt, über die ein publizierter<br />

Bericht vorlag. Die Entwicklung des <strong>Postkorb</strong>es wird Frederiksen, Saunders und<br />

Wand im Jahr 1957 zugeschrieben, obwohl diese Errungenschaft nicht nur der<br />

amerikanischen Forschung, sondern auch dem Einfluss von praktischen<br />

Arbeitsproben aus dem deutschsprachigen Raum zu dieser Zeit sowie der<br />

Psychodiagnostik der 1920er Jahre angerechnet werden muss (Funke, 1993,<br />

a). Rein methodisch stellt der <strong>Postkorb</strong> eine Mischung aus kognitiven<br />

Fähigkeitstests und situativen Arbeitsproben für manuelle Tätigkeiten dar (Höft,<br />

2003). Genauer gesagt handelt es sich um ein situatives Verfahren zur<br />

Erfassung von analytisch-konzeptionellen Managementfähigkeiten (Paschen et<br />

al., 2005). Zu diesem Zweck werden die Teilnehmer aufgefordert, komplexe<br />

Sachverhalte unter Zeitdruck zu analysieren und aufbauend auf ihren<br />

Ergebnissen sinnvolle Maßnahmen, Strategien und Pläne für ein weiteres<br />

Vorgehen zu entwickeln. Der Fokus kann dabei entweder vermehrt auf dem<br />

analytischen oder dem konzeptionellen Part liegen. Generell ist jedoch<br />

anzumerken, dass sich dieses Instrument von Situation zu Situation und von<br />

46


Theoretischer Hintergrund<br />

Organisation zu Organisation unterscheiden kann, da es, ähnlich wie das AC<br />

selbst, auf das jeweilige Anforderungsprofil zugeschnitten sein sollte (siehe<br />

Kapitel 2.2.3.1) und somit unterschiedlichste Ziele und Messintentionen verfolgt<br />

werden können (Dommel, 1995). Der <strong>Postkorb</strong> eines Automobilkonzerns enthält<br />

also andere Vorgänge als der eines Dienstleistungsunternehmens.<br />

2.3.2 Durchführung<br />

Der Grundgedanke des <strong>Postkorb</strong>es ist, eine möglichst realistische Situation zu<br />

schaffen, die dem Berufsalltag der angestrebten (Führungs-)Position<br />

entstammen könnte und die vom Teilnehmer ein entsprechendes Verhalten<br />

verlangt (Dommel, 1995). Zu diesem Zweck wird der Teilnehmer vor<br />

Übungsbeginn mit einer entsprechenden Rahmenhandlung vertraut gemacht<br />

(Obermann, 2006). So übernimmt er beispielsweise die Rolle eines<br />

stellvertretenden Geschäftsführers, der kurzfristig den auf unbestimmte Zeit<br />

erkrankten Geschäftsstellenleiter vertreten und aus diesem Grund dessen<br />

Posteingang bearbeiten muss. Meist steht daraufhin ein wichtiger<br />

Anschlusstermin an, so dass dem Teilnehmer ein gewisser Zeitdruck bzw. eine<br />

zur Verfügung stehende Arbeitszeit von meist 45 bis 120 Minuten vermittelt wird<br />

(Thornton & Byham, 1982). Durch diese realitätsnahe Situationsgestaltung<br />

entspricht der <strong>Postkorb</strong> dem Prinzip der Simulation im Assessment Center<br />

(siehe Kapitel 2.2.3.2). Es sollte jedoch darauf hingewiesen werden, dass der<br />

Teilnehmer keine Rolle zu schauspielern hat, sondern dass er so handeln soll,<br />

wie er es für richtig hält und wie er es in der tatsächlichen Situation auch tun<br />

würde (Güllich, 1992).<br />

Nach der Einführung in die Rahmenhandlung findet der Teilnehmer einen<br />

Posteingang vor, der je nach Organisation ca. 15 bis 30 verschiedene<br />

Dokumente enthält, welche ihm die nötigen Informationen liefern. Diese können<br />

sich in Dringlichkeit, Komplexität und ihrer Bedeutsamkeit für die Firma<br />

erheblich unterscheiden, teilweise in Zusammenhang miteinander stehen und<br />

sich darüber hinaus gegenseitig widersprechen (Paschen et al., 2005). Die<br />

Aufgabe besteht darin, wichtige von unwichtigen Informationen zu<br />

unterscheiden, die Dokumente dementsprechend zu bearbeiten und daraus<br />

47


Theoretischer Hintergrund<br />

organisatorische Entscheidungen abzuleiten. Obermann (2006) beschreibt als<br />

mögliche Themenstellungen für einzelne <strong>Postkorb</strong>-Vorgänge etwa die Analyse<br />

von betriebswirtschaftlichen Zahlentabellen, eine Terminplanung und<br />

Koordination von Terminkollisionen, das Erkennen von Prioritäten von<br />

Schriftstücken oder die Delegation von Vorgängen und Personal, sowie das<br />

Herausfiltern von Hinweise zwischen den Zeilen, z.B. zur Kundenzufriedenheit<br />

oder das Koordinieren von Meetings und Problemfälle, in denen entschlossenes<br />

eigenes Handeln gefordert ist. Für Didi (2002) besteht der Charme der Übung<br />

darin, dass es sich bei diesen Vorgängen um besonders realistische<br />

Dokumente handeln kann, beispielsweise um Notizen auf firmeneigenen<br />

Formularen in unterschiedlicher Handschrift und Papiergröße oder um<br />

Geschäftspost auf realistisch wirkenden Briefbögen mit Briefköpfen, Stempeln<br />

oder Firmenlogos. Weitere potenzielle Informationsquellen können nach<br />

Obermann (2006) etwa Geschäftsberichte, Statistiken oder Budgetplanungen<br />

sein, darüber hinaus Kundenbriefe oder -verträge, Telefonnotizen,<br />

Zeitungsausschnitte, Artikel, Rechnungen, Mahnungen, Termine oder<br />

Einladungen. Zusätzliche Hintergrundinformationen wie Organigramme,<br />

Firmenbeschreibungen oder Briefings zu den wichtigsten Kollegen und<br />

Mitarbeitern erleichtern dem Bearbeiter den Zugang zu seiner Rolle und<br />

unterstützen dadurch die Simulation (Didi, 2002). Güllich (1992) weist jedoch<br />

darauf hin, dass es keine Eins-zu-eins-Beziehung zwischen den zu lösenden<br />

Problemen und Dokumenten gibt. Ein Thema könnte beispielsweise nur durch<br />

die Kombination mehrerer Dokumente korrekt bearbeitet werden; in anderen<br />

Fällen ist es möglich, dass ein Problem nicht ausdrücklich genannt wird,<br />

sondern der Teilnehmer indirekte Andeutungen erkennen und zwischen den<br />

Zeilen lesen muss.<br />

Der <strong>Postkorb</strong> wird jedem Teilnehmer als Einzelübung vorgelegt. Dabei sollten in<br />

den Instruktionen alle Informationen so enthalten sein, dass keine Rückfragen<br />

mehr nötig sind (Dommel, 1995). Die Dokumente des <strong>Postkorb</strong>s sollten nur lose<br />

geheftet sein, damit der Teilnehmer sie bei Bedarf auseinander nehmen und<br />

neu sortieren kann, um sich einen besseren Überblick zu verschaffen. Da dies<br />

gewöhnlich viel Platz in Anspruch nimmt, sollte jedem Teilnehmer ein<br />

Einzelzimmer zugewiesen werden oder alternativ ein ausreichend großer<br />

48


Theoretischer Hintergrund<br />

Gruppenraum zur Verfügung stehen. Äußere Störungen sind generell zu<br />

vermeiden, weil sie den gerade in dieser AC-Übung sehr hohen Stressfaktor<br />

noch zusätzlich erhöhen würden (Jeserich, 1981). Jedoch sollten innere<br />

Störungen, wie sie in der Realität auch vorkommen könnten, durchaus zu<br />

einem gewissen Maße eingebaut werden, in dem beispielsweise einzelne<br />

Schriftstücke erst zu einem späteren Zeitpunkt der Bearbeitung nachgereicht<br />

werden (Obermann, 2006).<br />

2.3.3 Auswertung<br />

Zum Ende der Bearbeitungszeit hinterlässt jeder Teilnehmer einen Stapel von<br />

bearbeiteten Notizen, Briefen, Memoranden und anderen Dokumenten, die<br />

seine Lösungen der Themen und Probleme beinhalten. Im Optimalfall steht<br />

dem Teilnehmer jedoch ein gesonderter Lösungsbogen zur Verfügung, in dem<br />

er die jeweiligen Verhaltensmöglichkeiten für die einzelnen Probleme<br />

ankreuzen und in einem Textfeld begründen kann. Somit ist für die Auswertung<br />

weitaus mehr Übersichtlichkeit gegeben und schon ein erster Schritt in Richtung<br />

Auswertungsobjektivität gemacht (Obermann, 2006). Für die Auswertung gibt<br />

es nach Meyer (1970) drei Möglichkeiten.<br />

Ein Fokus liegt auf dem Verhaltensinhalt, also den spezifischen, vom<br />

Teilnehmer ausgeführten Reaktionen. Dazu wird der ausgefüllte Lösungsbogen<br />

des Teilnehmers schablonenartig ausgewertet und für korrekte Lösungen und<br />

Entscheidungen eine gewisse Anzahl an Punkten für die beobachteten Kriterien<br />

wie z.B. analytische Fähigkeiten oder Entscheidungsverhalten gegeben<br />

(Obermann, 2006). Rein ökonomisch betrachtet macht diese quantitative<br />

Auswertungsart Sinn, da es hierfür keines geschulten Beobachters bedarf,<br />

sondern die Auswertung auch von einer AC-Assistenz durchgeführt werden<br />

kann.<br />

Ergänzend dazu schlägt Meyer (1970) die Betrachtung des Verhaltsstils vor.<br />

Dazu findet nach der Übung noch ein ausführliches Interview durch einen oder<br />

mehrere geschulte Beobachter statt, um die Vorgehensweisen und<br />

Lösungsstrategien des Teilnehmers für jedes Item qualitativ beleuchten zu<br />

können (Dommel, 1995). Darauf basierend nehmen die Beobachter analog zu<br />

49


Theoretischer Hintergrund<br />

anderen AC-Übungen ihre Bewertung hinsichtlich der zu erfassenden Kriterien<br />

vor. Hierbei spielt jedoch die Subjektivität der Beobachter eine besonders große<br />

Rolle, da die <strong>Postkorb</strong>ergebnisse im Interview durch verschiedenste<br />

Beurteilungseffekte wie beispielsweise globale Eindrucksbildung über alle AC-<br />

Übungen hinweg, Attributionsfehler, Halo-Effekt oder Erwartungseffekte verzerrt<br />

werden können (siehe Kapitel 2.2.5.1). Dieser Aspekt wird in der Praxis oft<br />

aufgrund mangelnder Fachkenntnisse der Anwender oder Kosteneinsparungen<br />

bei der Konzeption nicht beachtet, was einer der Hauptkritikpunkte an<br />

klassischen Postkörben darstellt (Dommel, 1995; Musch & Lieberei, 1997; Höft,<br />

2003; Obermann, 2006). Aus diesem Grund wurde vielfach eine objektivere<br />

Auswertungsform des <strong>Postkorb</strong>s angestrebt (Musch & Lieberei, 1997). Zum<br />

einen bezieht sich das auf eine Schulung der Beobachter (Dommel, 1995), wie<br />

sie ohnehin vor jedem Assessment Center erfolgen sollte (siehe Kapitel<br />

2.2.3.4). Zum anderen kann die Auswertungsobjektivität aber auch dadurch<br />

erhöht werden, dass eine möglichst weitgehende Standardisierung des<br />

Bewertungsmaßstabes durch eine eindeutige Festlegung der als korrekt zu<br />

bewertenden Handlungsalternativen vorab sichergestellt wird (Musch &<br />

Lieberei, 1997). Dies könnte beispielsweise durch eine Checkliste mit Soll-<br />

Lösungen und definierten Bewertungen realisiert werden, die den Beobachtern<br />

während des Interviews zur Verfügung steht (Höft, 2003). Ausschlaggebend für<br />

die Bewertung ist allerdings nicht die vollständige Übereinstimmung mit der<br />

Musterlösung, sondern die logische Nachvollziehbarkeit der Lösungen.<br />

Trotz aller Bemühungen können die genannten Maßnahmen nur Annäherungen<br />

an eine potenzielle Auswertungsobjektivität darstellen, da sich, sobald<br />

menschliche Beurteiler an der qualitativen Datengenerierung beteiligt sind, ein<br />

Mindestmaß an Subjektivität niemals ausschließen lässt (Dommel, 1995).<br />

Daher empfiehlt Meyer (1970) als dritte Variante die Auswertung per „over-allperformance“<br />

(S.300) vorzunehmen, was bedeutet, sowohl quantitative als auch<br />

qualitative Aspekte mit einzubeziehen. Zum einen bleibt jedoch auch dann noch<br />

eine gewisse Subjektivität vorhanden, zum anderen dürfte sich eine derart<br />

umfangreiche und sowohl zeit- als auch personalaufwändige Auswertung in der<br />

Praxis kaum noch rechnen.<br />

50


Theoretischer Hintergrund<br />

2.3.4 Gemessene Kriterien<br />

Analog zu anderen AC-Übungen unterscheiden sich die in den verschiedenen<br />

<strong>Postkorb</strong>-Übungen gemessenen Kriterien zum Teil erheblich (Dommel, 1995).<br />

Auch in der Literatur existieren unterschiedliche Ansichten über die<br />

Dimensionalität eines <strong>Postkorb</strong>es. Tabelle 3 soll dazu einen Überblick<br />

verschaffen.<br />

Tabelle 3: Erfassbare Kriterien durch <strong>Postkorb</strong>-Übungen, nach Weiss (2006)<br />

Dommel<br />

(1995, S.583)<br />

Schuler<br />

(1996, S.12)<br />

Musch & Lieberei<br />

(1997, S.12)<br />

Obermann<br />

(2006, S. 124)<br />

• Problemanalyse<br />

• Mündliche<br />

Kommunikationsfähigkeit<br />

• Schriftliche<br />

Kommunikationsfähigkeit<br />

• Stressbewältigung<br />

• Kreativität<br />

• Sensibilität<br />

• Flexibilität<br />

• Initiative<br />

• Planung und<br />

Organisation<br />

• Delegation<br />

• Kontrolle<br />

• Entscheidungsfähigkeit<br />

• Problemanalyse<br />

• Informationsverarbeitung<br />

• Entscheiden<br />

• Denken und<br />

Handeln in<br />

Zusammenhängen<br />

• Analyseverhalten<br />

• Organisation und<br />

Planung<br />

• Entscheidungsverhalten<br />

• Stressbewältigung<br />

• Delegation<br />

• Kontrolle<br />

• Entscheidungsverhalten<br />

• Ausdauer<br />

• Energie<br />

• Belastbarkeit<br />

• Konvergentes Denken<br />

(Analyse)<br />

• Divergentes Denken<br />

(Kreativität)<br />

• Organisation /<br />

Systematik<br />

Es wird deutlich, dass die verschiedenen Autoren dem Verfahren<br />

unterschiedliche Messdimensionen zuschreiben. Zum einen liegt dies ähnlich<br />

wie bei der Anforderungsanalyse des AC an den unterschiedlichen Definitionen<br />

psychologischer Begrifflichkeiten (siehe Kapitel 2.2.3.1), zum anderen aber<br />

auch an den jeweiligen Zielsetzungen des <strong>Postkorb</strong>es abhängig von dem<br />

Unternehmen, in dem er eingesetzt wird (Jeserich, 1981; Obermann, 2006). Die<br />

wichtigsten Kriterien, die der <strong>Postkorb</strong> erfassen soll, und über die sich die<br />

genannten Autoren trotz unterschiedlicher Benennungen (siehe oben) einig<br />

sind, sind analytische Fähigkeiten (in Tabelle 3 blau markiert), Planung und<br />

Organisation (in Tabelle 3 rot markiert) und Entscheidungsverhalten (in Tabelle<br />

3 grün markiert).<br />

51


Theoretischer Hintergrund<br />

2.3.5 Empirische Ergebnisse<br />

Die Tatsache, dass es starke Parallelen gibt zwischen den Anforderungen, die<br />

der <strong>Postkorb</strong> an den Bearbeiter und der Berufsalltag an den Manager stellen, ist<br />

augenscheinlich (Musch und Lieberei, 1997). So fand Mintzberg (1973, zit. n.<br />

Musch & Lieberei, 1997), dass Topmanagern pro Tag durchschnittlich 36<br />

Schriftstücke zur Bearbeitung vorgelegt wurden. Diese hohe<br />

Augenscheinvalidität war sicherlich der Hauptgrund für die weite Verbreitung<br />

des <strong>Postkorb</strong>es (Meyer, 1970). Allerdings könnte sie auch der Grund dafür sein,<br />

dass bisher vergleichsweise wenige Validierungsstudien durchgeführt wurden,<br />

zumindest im deutschsprachigen Raum (Didi, 2002; Obermann, 2006). Weitere<br />

Gründe für das Fehlen von neueren Studien, insbesondere nach einer ersten<br />

Reihe erfolgreicher Studien in den 1960er Jahren (Güllich, 1992), ist das<br />

zeitaufwändige und schwierige Bewerten von Postkörben, das die Anwender<br />

vom Durchführen adäquater Studien abhält (Thornton und Byham, 1982). Für<br />

Schippmann, Prien und Katz (1990) wurde die <strong>Postkorb</strong>-Übung immer nur im<br />

Gesamtzusammenhang des AC erforscht und als eigenständiges Instrument oft<br />

übersehen. Zwar existieren inzwischen einige Validitätsstudien für Postkörbe<br />

vor allem aus dem angloamerikanischen Raum, jedoch berichten diese<br />

teilweise von völlig unterschiedlichen Ergebnissen. Ein neuerer Überblick<br />

(Schippmann et al., 1990) ergab, dass die Validitätskoeffizienten je nach Studie<br />

von .40 bis .75 schwanken. Eine systematische Untersuchung der<br />

Zusammenhänge zwischen einzelnen <strong>Postkorb</strong>-Variablen und Kriterien steht<br />

zudem ebenfalls noch aus (Obermann, 2006). Dennoch sollen hier die<br />

wichtigsten Ergebnisse dargestellt werden, wobei sich hinsichtlich der<br />

klassischen Gütekriterien besonders auf eines der im deutschsprachigen Raum<br />

am häufigsten untersuchten Verfahren, den Bonner <strong>Postkorb</strong> Modulen von<br />

Musch, Rahn und Lieberei (2001) bezogen werden soll.<br />

2.3.5.1 Demographische Daten<br />

Zunächst ist die schon früh untersuchte Beziehung der <strong>Postkorb</strong>ergebnisse zu<br />

den demographischen Daten zu nennen. Nach Thornton und Byham (1982)<br />

52


Theoretischer Hintergrund<br />

korreliert die Variable Alter negativ mit den <strong>Postkorb</strong>werten, die Autoren<br />

berichten einen gefundenen Zusammenhang von -.49. Bildung weist hingegen<br />

einen positiven Zusammenhang von .56 auf (Meyer, 1970), was auch den<br />

Ergebnissen von Frederiksen (1962, zit. n. Güllich, 1992) bzgl. einer Korrelation<br />

von .41 zwischen <strong>Postkorb</strong>ergebnissen und Punkten im Wortschatztest<br />

entspricht. Die Autoren merken jedoch an, dass die Bildungsvariable<br />

unabhängig von der beruflichen Erfahrung sei. Meyer (1970) konnte<br />

nachweisen, dass zwischen Erfahrungen im Managementbereich und den<br />

einzelnen Werten im <strong>Postkorb</strong> kein Zusammenhang besteht. Neuere<br />

Untersuchungen zu den Bonner <strong>Postkorb</strong> Modulen ergaben weder einen<br />

negativen noch positiven Zusammenhang der <strong>Postkorb</strong>ergebnisse, weder mit<br />

dem Alter noch dem Geschlecht (Höft, 2003).<br />

2.3.5.2 Objektivität<br />

Bezüglich der Objektivität von <strong>Postkorb</strong>-Verfahren stellten Schippmann et al.<br />

(1990) erhebliche Schwankungen von -.20 bis .97 in der Übereinstimmung der<br />

Auswerter fest. Musch und Lieberei (1997) begründen diese Variationen durch<br />

die bereits angesprochene häufig unstandardisierte Auswertung sowie<br />

ungeschulte Beobachter (siehe Kapitel 2.3.3). Schippmann et al. (1990)<br />

bewerten die Objektivität jedoch als zufrieden stellend, sofern die zuvor<br />

beschrieben Maßnahmen ergriffen werden, um eine möglichst hohe<br />

Auswertungsobjektivität zu gewährleisten (siehe Kapitel 2.3.3). Zudem ist nach<br />

Musch und Lieberei (1997) die Durchführungsobjektivität aufgrund der<br />

fehlenden Interdependenzen zwischen den Teilnehmern hoch, im Gegensatz<br />

etwa zur typischen Fallstudie mit anschließender Diskussion (siehe Kapitel<br />

2.2.5.7). Dies entspricht auch den Ergebnissen der Bonner <strong>Postkorb</strong> Module.<br />

Hier ist eine weitgehende Objektivität durch die Auswertung mittels<br />

strukturierter Checklisten gegeben, die Testautoren berichten von<br />

Bewertungsübereinstimmungen von .81 bis zu 1. (Musch et al., 2001).<br />

53


Theoretischer Hintergrund<br />

2.3.5.3 Reliabilität<br />

Die in der Literatur für die <strong>Postkorb</strong>-Methode berechneten<br />

Reliabilitätskoeffizienten schwanken je nach gewählter Methode zum Teil<br />

erheblich, und die Resultate zur internen Konsistenz sind generell nicht<br />

zufrieden stellend (Schippmann et al., 1990). Für die Evaluation kommt<br />

erschwerend hinzu, dass sich durch die Interdependenzstruktur der Einzelitems<br />

des <strong>Postkorb</strong>s einfache Konsistenz- und Split-Half-Reliabilitätsschätzungen<br />

verbieten (Höft, 2003). Für Thornton und Byham (1982) steht aber fest, dass die<br />

Reliabilität im Laufe der Jahrzehnte durch die bereits beschriebenen neuen<br />

Bewertungsprozeduren gesteigert werden konnte. Auch Schippmann et al.<br />

(1990) deuten an, dass eine höhere Reliabilität erzielt werden kann, wenn bei<br />

der Konstruktion des Testes strukturiert vorgegangen wird und systematischere<br />

und objektivere Bewertungsmassstäbe verwendet werden. In den<br />

Untersuchungen zu den Bonner <strong>Postkorb</strong> Modulen, die diesen Anforderungen<br />

weitgehend entsprechen, werden somit Cronbachs Alpha-Koeffizienten<br />

berichtet, die mit Werten zwischen .82 und .91 die hohe Interkorrelation der<br />

Dimensionen bestätigen (Musch et al., 2001). Höft (2003) weist jedoch darauf<br />

hin, dass bisher keine annäherungsweise gültigen Realibilitätsinformationen<br />

vorliegen, die mittels Retest-Methode gewonnen wurden.<br />

2.3.5.4 Validität<br />

Die Inhaltsvalidität von Postkörben wird oft mit der hohen Augenscheinvalidität<br />

des Verfahrens begründet, auf konkrete Expertenratings wird daher weitgehend<br />

verzichtet (Meyer, 1970; Obermann, 2006). Aus ökonomischen Gründen ist dies<br />

jedoch nur zu vertreten, wenn die Verfahrenskonstruktion auf einer<br />

unternehmensspezifischen Anforderungsanalyse basiert. Der Einsatz der<br />

Bonner <strong>Postkorb</strong> Module beispielsweise ist deshalb auch nicht überall<br />

uneingeschränkt sinnvoll. Um den Simulationscharakter des Verfahrens zu<br />

gewährleisten, muss vor einem Einsatz genau geprüft werden, ob die<br />

Anforderungen der hausinternen Zielposition hinreichend gut operationalisiert<br />

sind (Höft, 2003; siehe Kapitel 2.2.3.1).<br />

54


Theoretischer Hintergrund<br />

Aus früheren Untersuchungen zur Kriteriumsvalidität wurde angenommen, dass<br />

die Validität des <strong>Postkorb</strong>s gesichert sei (Thornton und Byham, 1982). Wie<br />

erwähnt konnten Schippmann et al. (1990) in einer Überblicksstudie jedoch<br />

variierende Validitätskoeffizienten von .40 bis .75 aufzeigen. Darüber hinaus<br />

konnten Schuler, Funke, Moser und Donat (1995) nachweisen, dass die<br />

Korrelation der <strong>Postkorb</strong>ergebnisse mit den Ergebnissen anderer AC-Übungen<br />

relativ gering ausfällt. Überraschenderweise kann diese geringe Korrelation<br />

auch nicht mit den unterschiedlichen Messdimensionen der einzelnen Übungen<br />

erklärt werden. Musch und Lieberei (1997) fanden beim Vergleich ihrer<br />

<strong>Postkorb</strong>-Übung mit der schriftlichen Fallstudie eine negative Korrelation von<br />

r=-.22, obwohl die Übungen in drei von vier Kriterien (Analyseverhalten,<br />

Organisation & Planung und Entscheidungsverhalten) identisch sind. Ähnlich<br />

enttäuschende Ergebnisse liefern die Bonner <strong>Postkorb</strong> Module. Deren Modul<br />

„CaterTrans“ wurde von 47 Personen freiwillig parallel zu einem internen<br />

Auswahl-AC bearbeitet und die Ergebnisse verglichen (Musch et al., 2001). Am<br />

höchsten korrelierte der <strong>Postkorb</strong> mit der Präsentation (r=.51), gefolgt von der<br />

Gruppendiskussion (r=.43), der schriftlichen Fallstudie (r=.31) und dem<br />

Mitarbeitergespräch (r=.30). Für Höft (2003) sind diese Ergebnisse<br />

verwunderlich, da eigentlich der höchste Zusammenhang mit der schriftlichen<br />

Fallstudie zu erwarten gewesen wäre, zumal diese fast die gleichen<br />

Anforderungsdimensionen erfassen soll. Zusätzlich zum Modul „CaterTrans“<br />

wurde das Modul „Chronos“ von 54 Personen im gleichen Unternehmen<br />

bearbeitet. Hier korreliert der <strong>Postkorb</strong> sogar negativ mit allen anderen AC-<br />

Übungen, inklusive der Fallstudie (-.22). Für die Testautoren zeigen die<br />

Resultate, dass der <strong>Postkorb</strong> „Chronos“ im Gegensatz zum <strong>Postkorb</strong><br />

„CaterTrans“ spezifische, von anderen AC-Verfahren nicht abgedeckte<br />

Varianzanteile erfasst (Musch et al., 2001). Höft (2003) bezeichnet diese<br />

Auslegung jedoch als „elegante Formulierung“, die kaschiert, dass mangels<br />

weiterer Kriteriumsdaten offen bleibt, was denn der <strong>Postkorb</strong> genau erfasst, so<br />

dass weitere Forschungen dazu dringend nötig seien.<br />

Frühe Untersuchungen von Meyer (1970) zur Vorhersagevalidität fanden<br />

signifikante Korrelationen zwischen Dimensionen der <strong>Postkorb</strong>-Übung und Job-<br />

Performance. Besonders Führungsqualitäten sowie Verwaltungs- und<br />

55


Theoretischer Hintergrund<br />

Planungsfähigkeiten korrelierten im mittelstarken Bereich mit den <strong>Postkorb</strong>-<br />

Ergebnissen. Zudem konnte er belegen, dass die Vorhersagevalidität des<br />

<strong>Postkorb</strong>s hinsichtlich analytischer Fähigkeiten besser sei als in Bezug auf<br />

menschliche Führungsqualitäten. In der Studie zu den Bonner <strong>Postkorb</strong><br />

Modulen konnte von 39 der 47 Personen, die das Modul „CaterTrans“<br />

bearbeitet hatten, ein konkurrentes Vorgesetztenurteil eingeholt werden. Musch<br />

et al. (2001) berichten von (nicht näher genannten) positiven Zusammenhängen<br />

zu den <strong>Postkorb</strong>ergebnissen, jedoch bezweifelt Höft (2003), dass dieser Befund<br />

angesichts der geringen Stichprobengröße von n=47 einer Kreuzvalidierung<br />

standhalten würde.<br />

2.3.5.5 Zusammenfassung<br />

Insgesamt lässt sich feststellen, dass bei einer möglichst standardisierten<br />

Auswertung mittels Checklisten und festgelegten Bezugssystemen sowohl<br />

Objektivität als auch Reliabilität als gesichert angesehen werden können, was<br />

die Studien von Schippmann et al. (1990) und Untersuchungen der Bonner<br />

<strong>Postkorb</strong> Module (Musch et al., 2001) nahe legen. Die eher intuitive<br />

Augenscheinvalidierung des <strong>Postkorb</strong>s, welche in der Praxis oft die einzige<br />

Validierung darstellt, lässt sich zumindest mit der zufrieden stellenden und in<br />

der Eignungsdiagnostik wichtigen Vorhersagevalidität rechtfertigen. Die<br />

empirische Befundlage zur Kriteriums- sowie Konstruktvalidität gilt jedoch als<br />

unzureichend und lückenhaft, so dass noch ein hoher Forschungsbedarf zu<br />

diesem Thema besteht. Höft (2003) stellt abschließend die Frage, wie es denn<br />

erst um die Güte der vielen in der Praxis ungeprüft eingesetzten Postkörbe<br />

bestellt sei, wenn bereits bei den sorgfältig konstruierten Bonner <strong>Postkorb</strong><br />

Modulen solch deutliche Validitätsprobleme auftauchen.<br />

56


Theoretischer Hintergrund<br />

2.3.6 Kritische Betrachtung<br />

Der potentielle Einsatzbereich von Postkörben ist sehr umfassend. So kann er<br />

aufgrund seiner Anpassbarkeit an das jeweilige Anforderungsprofil sowohl zur<br />

Eignungsdiagnostik auf nahezu allen Hierarchieebenen einer Organisation<br />

eingesetzt werden, zum anderen bieten sich auch Einsätze in der<br />

Personalentwicklung zur gezielten Indizierung von Stärken und<br />

Verbesserungsmöglichkeiten von Mitarbeitern an. Das Bearbeiten von<br />

Schriftstücken und Vorgängen ist in so gut wie jedem Arbeitsumfeld<br />

erforderlich, weshalb sich der <strong>Postkorb</strong> besonders aufgrund der<br />

augenscheinlichen Validität großer Akzeptanz erfreut (Dommel, 1995; Weiss,<br />

2006).<br />

Für Höft (2003) weist der <strong>Postkorb</strong> als simulationsorientiertes<br />

Diagnoseverfahren mit testähnlicher Grundstruktur allerdings eine schwierige<br />

Mischcharakteristik auf, die Grundprinzipien der klassischen Testtheorie sind<br />

nur bedingt auf diese Verfahrensklasse übertragbar (Kubinger, 1993). Durch die<br />

inhaltlichen Wechselbeziehungen der einzelnen Vorgänge und Dokumente ist<br />

keine stochastische Unabhängigkeit der Bewertungen gegeben. Dies deckt sich<br />

mit der häufigen Kritik an der klassischen Testtheorie (siehe Kap 2.1.2) seitens<br />

der Eignungsdiagnostiker, so dass, wie für das Assessment Center allgemein,<br />

dem Ansatz der kriteriumsorientierten Leistungsmessung der Vorzug zu geben<br />

ist. Nach Musch und Lieberei (1997) kommt der <strong>Postkorb</strong> aber zumindest in<br />

seiner Durchführung dem Ideal eines kontrollierten psychologischen Tests im<br />

Vergleich mit anderen AC-Übungen noch am nächsten. Da das Instrument in<br />

Einzelarbeit bearbeitet wird, hängt die Leistung des Teilnehmers hierbei nicht<br />

von anderen Teilnehmern ab. Zudem erlaubt der <strong>Postkorb</strong> als eine der wenigen<br />

AC-Übungen zumindest eine ansatzweise objektive, beobachterunabhängige<br />

Auswertung und Interpretation der Performance.<br />

Diese unter wissenschaftlichen Aspekten korrekte Anwendung des Verfahrens,<br />

unter Berücksichtigung der gestellten Anforderungen zur Standardisierung und<br />

zur Anpassung an ein Anforderungsprofil, ist jedoch sehr zeit- und<br />

kostenaufwändig. Bei mehreren Teilnehmern nimmt der <strong>Postkorb</strong> mit einer<br />

Durchführungszeit von etwa 90 Minuten und einem anschließenden Interview<br />

von je 30 bis 60 Minuten schon mehr als einen halben Seminartag in Anspruch.<br />

57


Theoretischer Hintergrund<br />

(Roest, Scherzer, Urban, Gangl & Brandstätter, 1989). Die Methode bietet sich<br />

daher eher bei Auswahlverfahren mit begrenzter Teilnehmerzahl an.<br />

Andernfalls besteht schnell die Gefahr, dass die Standardisierung zugunsten<br />

der Ökonomie leidet und die Beurteiler zu globalen und verfälschten Urteilen<br />

kommen. (Musch & Lieberei, 1997).<br />

Weiterhin wird kritisiert, dass sich die <strong>Postkorb</strong>-Items oft durch ein hohes Maß<br />

an Uneindeutigkeit und Unklarheit auszeichnen, um genügend Spielraum für<br />

differentielle Bearbeitungsmuster zu lassen (Musch & Lieberei, 1997). Diese<br />

Vorgabe zur Konstruktion von Postkörben, die auf Lopez (1966, zit. n. Musch &<br />

Lieberei, 1997) zurückgeht, ist jedoch nach Meinung der Autoren mit der<br />

Konstruktion auswertungsobjektiver Postkörbe unvereinbar. Die für ein valides<br />

diagnostisches Instrument erforderliche Auswertungsobjektivität sei sogar<br />

notwendig an eine eindeutige Festlegung der Angemessenheit möglicher<br />

Antwortalternativen geknüpft. In den <strong>Postkorb</strong>-Modulen von Musch et al. (2001)<br />

werden deshalb ausschließlich solche Handlungsalternativen bewertet, die<br />

sachlogisch zwingend aus den zur Verfügung gestellten Informationen<br />

abgeleitet sind. Auf eine normative Bewertung von Handlungen in mehrdeutigen<br />

Situationen wurde hingegen verzichtet (Höft, 2003).<br />

Die weitgehende Standardisierung der Auswertung hat demzufolge das<br />

Weglassen von mehrdeutigen, offenen Items zur Folge, die breiteren Raum für<br />

eine Projektion individueller Stile lassen würden (Musch und Lieberei, 1997).<br />

Dadurch können kreative und originelle Lösungsvorschläge nicht mehr<br />

ausreichend gewürdigt werden (Obermann, 2006).<br />

Hinzu kommt, dass die Forderung nach Unklarheiten zwischen den Items in der<br />

Praxis häufig übertrieben wird. Wenn das Übersehen eines Zusammenhangs<br />

den Teilnehmer daran hindert, weitere Items zu lösen, ist die<br />

Differenzierungsfähigkeit der Übung stark eingeschränkt (Obermann, 2006).<br />

Roest et al. (1989) sehen ein weiteres Defizit klassischer <strong>Postkorb</strong>-Verfahren<br />

darin, dass keine Daten über den Ablauf der Bearbeitung vorliegen. Dies hat<br />

zur Konsequenz, dass anfänglich richtige oder falsche Entscheidungen auf dem<br />

Weg der Lösungsfindung, die dem Teilnehmer im anschließenden Interview<br />

vielleicht gar nicht mehr bewusst sind, nicht dokumentiert werden. Auch der<br />

zeitliche Ablauf der Vorgehensweise bleibt hierbei unberücksichtigt.<br />

58


Theoretischer Hintergrund<br />

Zwei weitere potenzielle Probleme sieht Obermann (2006) in der Entwicklung<br />

des Bearbeitungsmaterials. Demnach besteht bei der Konzeption des<br />

<strong>Postkorb</strong>s die Gefahr, zu leichte oder zu schwere Items einzubauen, die von<br />

fast allen oder fast keinem gelöst werden, was die Aussagekraft des<br />

Instruments schmälert. Gleiches gilt, wenn keine Variation der Anforderungen<br />

über mehrere Vorgänge mit unterschiedlichen Schwierigkeitsgraden hinweg<br />

besteht. Eine Überprüfung der Schwierigkeitsgrade der <strong>Postkorb</strong>-Items als<br />

Rangreihenbildung gestaltet sich jedoch durch die Vernetztheit der Items sehr<br />

schwierig.<br />

Für Dommel (1995) beziehen sich die grundsätzlichen Probleme von<br />

Postkörben auf die Übertragbarkeit der gewonnenen Erkenntnisse auf die<br />

Realsituation, auf Fehler im Beurteilungsprozess und auf die<br />

Zusammensetzung der <strong>Postkorb</strong>aufgaben. Diese Schwierigkeiten weisen für<br />

ihn darauf hin, dass eine weitere Objektivierung und Standardisierung des<br />

Verfahrens erfolgen muss. Eine potenzielle Lösung wird in den technischen<br />

Neuerungen der letzten Jahre gesehen, besonders in der <strong>EDV</strong>-Umsetzung von<br />

<strong>Postkorb</strong>verfahren für den Computer. Hierauf wird im folgenden Kapitel näher<br />

eingegangen.<br />

59


Theoretischer Hintergrund<br />

2.4 Der computergestützte <strong>Postkorb</strong><br />

Aufbauend auf Kapitel 2.3 soll nun der computergestützte <strong>Postkorb</strong> dargestellt<br />

werden. Zunächst erfolgt eine generelle Beschreibung des Verfahrens (2.4.1),<br />

inklusive einer Gegenüberstellung von Vor- und Nachteilen. Darauf folgt eine<br />

Diskussion zur potenziellen Problematik in der Interaktion von Mensch und<br />

Computer (2.4.2). In Kapitel 2.4.3 wird schließlich ein Überblick über die<br />

gängigsten Verfahren dieser Art gegeben, dargestellt werden Mailbox’90, PC-<br />

Office und der PC-<strong>Postkorb</strong> „Seeblick“. Nach einer Zusammenfassung der<br />

auffälligsten Vor- und Nachteile dieser Verfahren (2.4.4) wird dann im nächsten<br />

Kapitel auf den neuen computergestützten <strong>Postkorb</strong> KI.BOX eingegangen,<br />

welcher mit den bestehenden Verfahren verglichen wird.<br />

2.4.1 Was ist ein computergestützter <strong>Postkorb</strong>?<br />

Die computergestützte <strong>Postkorb</strong>-Übung oder <strong>EDV</strong>-<strong>Postkorb</strong> ist eine<br />

Weiterentwicklung des klassischen Paper-Pencil-<strong>Postkorb</strong>s (Hartung &<br />

Schneider, 1995). Grundsätzlich werden dieselben eignungsdiagnostischen<br />

Ziele verfolgt und es gelten die gleichen wissenschaftlichen und methodischen<br />

Anforderungen bei der Konzeption. Auch der Inhalt der Übung ist äquivalent. So<br />

wird der Teilnehmer in dieser situativen Übung ebenfalls in die Rolle eines<br />

Managers oder einer Führungskraft hineinversetzt, die mit verschiedensten<br />

Schriftstücken konfrontiert wird. Der Teilnehmer soll die Probleme erkennen<br />

und bearbeiten, woraufhin er entsprechend den in der Anforderungsanalyse<br />

festgelegten Kriterien bewertet wird (Funke, 1993, a; Riediger & Rolfs, 1998;<br />

Obermann, 2006; vgl. Kapitel 2.3). Der einzige, aber bedeutende Unterschied<br />

der beiden Versionen liegt in der Methode. So muss bei <strong>EDV</strong>-Verfahren im<br />

Rahmen der Instruktion eine zusätzliche Einführung über die Funktionsweisen<br />

von Computer und Programm erfolgen, besonders bei älteren oder<br />

computerunerfahrenen Mitarbeitern (Obermann, 2006). Insgesamt gesehen<br />

ermöglicht die inzwischen weite Verbreitung leistungsfähiger Computertechnik<br />

jedoch vielfältige Verbesserungen und Variationen des Verfahrens (Wottawa &<br />

Hossiep, 1997), so dass besonders bzgl. der Punkte, die beim klassischen<br />

60


Theoretischer Hintergrund<br />

<strong>Postkorb</strong> kritisiert wurden (siehe Kapitel 2.3.6), Innovationen zu verzeichnen<br />

sind. Der computergestützte <strong>Postkorb</strong> kann dadurch einen so hohen<br />

Realitätscharakter aufweisen, dass in der Literatur weniger von einem Test als<br />

viel mehr von einer computergestützten Arbeitsprobe (Funke, 1993, a) die Rede<br />

ist. Allerdings bringt eine Umsetzung des Instruments für den Computer auch<br />

neue Probleme mit sich. Aus diesem Grund werden die Vor- und Nachteile der<br />

<strong>EDV</strong>-Darbietung im Folgenden näher erläutert.<br />

2.4.1.1 Vorteile<br />

Einer der Hauptvorteile computergestützter Postkörbe ist besonders aus<br />

testtheoretischer Sicht wichtig. Der Computer bietet nämlich die Möglichkeit<br />

einer sekundenschnellen Auswertung der Ergebnisse direkt im Anschluss an<br />

die Durchführung. Die Auswertung ist somit von menschlichen Beobachtern<br />

vollkommen unabhängig und erfolgt für alle Teilnehmer gleichermaßen anhand<br />

zuvor festgelegter Musterlösungen bzw. operationalisierter Regelsysteme.<br />

Dadurch werden Verzerrungen der Testergebnisse durch Beurteilungsfehler<br />

gänzlich verhindert und eine maximale Auswertungsobjektivität gewährleistet<br />

(Hartung & Schneider, 1995; Riediger & Rolfs, 1998). Der Computer errechnet<br />

dazu Punktwerte aus den vom Teilnehmer gegeben Lösungen und bestimmt<br />

daraus einen quantitativen Wert für die Ausprägung des Teilnehmers<br />

hinsichtlich eines bestimmten Kriteriums in dieser Übung (siehe Kapitel 2.1.1.1).<br />

Im herkömmlichen <strong>Postkorb</strong>-Verfahren würde diese Beurteilung durch einen<br />

Beobachter geschehen, dessen Subjektivität jedoch trotz des Einsatzes von<br />

Checklisten nie ganz ausgeschlossen werden kann. Der von Dommel (1995)<br />

gestellten Forderung nach einer weiteren Objektivierung und Standardisierung<br />

von Postkörben wird also durch den Einsatz einer computergestützten<br />

Auswertung entsprochen.<br />

Eine Kritik, die jedoch gegenüber sehr standardisierten <strong>Postkorb</strong>-Auswertungen<br />

häufig formuliert wird, und die somit auch an den <strong>EDV</strong>-<strong>Postkorb</strong> adressiert sein<br />

dürfte, ist die Tatsache, dass hierbei offene oder projektive Items und originelle<br />

Lösungsstrategien keine Berücksichtigung mehr finden. Auf diese Weise fließt<br />

nur das „was“ und nicht das „wie“ einer Lösung in die Beurteilung ein (Roest et<br />

61


Theoretischer Hintergrund<br />

al., 1989; Obermann, 2006). Bei klassischen <strong>Postkorb</strong>-Auswertungen besteht<br />

für den Beobachter die Möglichkeit, im anschließenden Interview auf diese<br />

Lösungswege einzugehen und sie ggf. zu hinterfragen. Beim<br />

computergestützten <strong>Postkorb</strong> gibt es dagegen fast ausschließlich vorgegebene<br />

Antwortalternativen, die nur noch anzuklicken sind. Dem ist jedoch<br />

entgegenzuhalten, dass gerade bei einer computergestützten Bearbeitung<br />

sämtliche Prozessvariablen fortlaufend registriert werden können, ohne dass<br />

der Teilnehmer davon beeinflusst wird (Riediger & Rolfs, 1998). Je nach<br />

Wunsch können also sekundengenaue Informationen über die Bearbeitungsoder<br />

Reaktionszeit einzelner Items oder die Reihenfolge ihrer Bearbeitung<br />

angezeigt werden, sogar wie lange und wie oft jedes einzelne Dokument<br />

aufgerufen wurde (Obermann, 2006). Eine derartig detaillierte Erfassung<br />

wirklich objektiver Daten bzgl. der Lösungswege ist bei Paper-Pencil-Verfahren<br />

nicht möglich und somit als wesentliche Verbesserung der <strong>EDV</strong>-Postkörbe zu<br />

werten (Riediger & Rolfs, 1998). Die Nachbesprechung im anschließenden<br />

Interview wird dadurch unnötig, zumal in der Face to Face Situation der<br />

Teilnehmer seine Begründungen entsprechend dem Aufforderungscharakter<br />

der Fragen des Beobachters anpassen kann, was wiederum zu<br />

Ergebnisverzerrungen führen würde (Roest & Horn, 1990). Die Auswertung<br />

solcher Prozessvariablen kann also zu deutlich realistischeren Ergebnissen und<br />

somit auch einem adäquateren Feedback bzgl. der eingesetzten<br />

Lösungsstrategie führen (Hartung & Schneider, 1995; Pearson, Barnes &<br />

Onken, 2006).<br />

Mit den computergestützten Postkörben wurde zudem ein weiterer qualitativer<br />

Sprung im Vergleich zu den klassischen Verfahren gemacht, da nun eine<br />

wesentlich höhere Dynamik realisierbar ist (Obermann, 2006). Während zuvor<br />

höchstens zusätzliche Dokumente zu einem späteren Zeitpunkt der<br />

Bearbeitung nachgereicht werden konnten, eröffnen sich mit Hilfe der Technik<br />

völlig neue Möglichkeiten. So können beispielsweise mehrere E-Mails im Laufe<br />

der Bearbeitungszeit eintreffen oder ein Anruf oder eine andere interne Störung<br />

simuliert werden (Riediger & Rolfs, 1998). Außerdem können direkt Graphiken,<br />

Diagramme oder Tabellen erstellt werden, die dem Teilnehmer als Ergebnis<br />

beispielsweise seiner Berechnungen dargeboten und somit als weiterer Input<br />

62


Theoretischer Hintergrund<br />

dienen können (Pearson et al, 2006). Darüber hinaus hat man Aspekte<br />

komplexer computergestützter Problemlösesimulationen (vgl. Funke & Rasche,<br />

1992; Hösch, 1995; Hartung & Schneider, 1995; siehe Kapitel 2.2.5.6)<br />

übernommen, so dass auch im computergestützten <strong>Postkorb</strong> der Teilnehmer<br />

mit Konsequenzen seiner Tätigkeit konfrontiert werden kann. So können die<br />

Entscheidungen und Handlungen des Teilnehmers nun Rückwirkungen auf den<br />

Testverlauf haben, beispielsweise dass es Beschwerden oder Probleme im<br />

zeitlichen Ablauf aufgrund einer nicht sachgemäßen Delegation gibt<br />

(Obermann, 2006). Diese größere Dynamik trägt maßgeblich zur Realitätsnähe<br />

bei, was wiederum die Validität des Verfahrens steigert.<br />

Nicht nur die Validität, auch die Akzeptanz wird durch den Einsatz von<br />

computergestützten Verfahren im Vergleich zu Paper-Pencil-Übungen deutlich<br />

gesteigert. Nach Hartung und Schneider (1995) ergaben Fragebogenstudien<br />

bei großen Teilnehmergruppen, dass der inhaltliche Schwierigkeitsgrad von<br />

<strong>EDV</strong>-Aufgaben gegenüber anderen AC-Übungen zwar als überdurchschnittlich<br />

anspruchsvoll eingeschätzt wurde (72%), die Übungen aber auch für<br />

Computerlaien einfach und sicher zu bedienen waren (91%) (siehe Kapitel<br />

2.4.2). Ganze 96% der Befragten gaben sogar an, Spaß bei der Bearbeitung<br />

der Aufgaben zu haben. Ähnlich hohe Akzeptanzwerte berichten die Autoren<br />

auch auf Seiten der Beobachter, die während des Beobachtertrainings mit den<br />

PC-Übungen vertraut gemacht wurden. Auch Scharley und Partner (2007)<br />

berichten von hohen Akzeptanzwerten der Teilnehmer bzgl. des von ihnen<br />

entwickelten PC-<strong>Postkorb</strong>es „Seeblick“ (siehe Kapitel 2.4.3.3).<br />

Ein letzter Mehrwert computergestützter Verfahren betrifft die Ökonomie. Wie<br />

bereits angesprochen ist die Durchführung sowie die personal- und<br />

arbeitsintensive Auswertung und Nachbereitung von klassischen <strong>Postkorb</strong>-<br />

Verfahren sehr aufwändig (Roest et al., 1989; Funke, 1993, a). Der Einsatz von<br />

<strong>EDV</strong>-Postkörben ist dagegen zumindest vom zeitlichen Gesichtspunkt her<br />

weitaus ökonomischer, was vor allem in der rechnergestützten Auswertung und<br />

dem Wegfallen des nachfolgenden Interviews begründet liegt (Hartung &<br />

Schneider, 1995; Riediger & Rolfs, 1998). Aus diesem Grund eignet sich das<br />

Instrument auch für einen Einsatz im AC mit mehreren Teilnehmern, sofern<br />

genügend Laptops zur Verfügung stehen.<br />

63


Theoretischer Hintergrund<br />

2.4.1.2 Nachteile<br />

Die zuvor angesprochene Ökonomie des computergestützten <strong>Postkorb</strong>es mag<br />

für zeitliche und personelle Aspekte während des Assessment Centers<br />

gegeben sein, für die Konzeption des Instruments ist sie es jedoch nicht<br />

(Obermann, 2006). Die Neuentwicklung eines <strong>EDV</strong>-<strong>Postkorb</strong>es ist deutlich<br />

aufwändiger und somit kostenintensiver als bei einem herkömmlichen<br />

Verfahren, da neben der inhaltlichen Konzeption noch zusätzliche<br />

Programmierungsarbeiten zu verrichten sind (Riediger & Rolfs, 1998).<br />

Allerdings kann eine Anpassung des Verfahrens an ein neues Unternehmen<br />

bzw. Anforderungsprofil in der Folgezeit auf digitalem Wege wiederum schneller<br />

geschehen. Dennoch bleibt eine eventuelle Neuanschaffung von Laptops<br />

kostspielig, sofern diese nicht von einer externen Beratungsfirma zur Verfügung<br />

gestellt werden. Aus diesem Grund dürfte zumindest die Neukonzeption eines<br />

<strong>EDV</strong>-<strong>Postkorb</strong>es eher von größeren Unternehmen in Auftrag gegeben werden.<br />

Trotz aller Vorteile, die die Computerumsetzung des <strong>Postkorb</strong>es mit sich bringt,<br />

können nicht alle Kritikpunkte am klassischen <strong>Postkorb</strong> (siehe Kapitel 2.3.6)<br />

generell als beseitigt angesehen werden. Auch bei <strong>EDV</strong>-Versionen besteht<br />

beispielsweise die Gefahr, die Items zu unklar zu gestalten, so dass einzelne<br />

Zusammenhänge und Lösungen nicht mehr erkennbar sind, oder den<br />

Schwierigkeitsgrad der Items zu undifferenziert festzulegen (Obermann, 2006).<br />

Weitaus wichtiger ist jedoch auch bei <strong>EDV</strong>-Postkörben die Frage nach der<br />

Validität. Durch die computergestützte Realisierung der Übung ist eine völlig<br />

neue Verfahrensgruppe entstanden, auf die sich die vorliegenden Ergebnisse<br />

zu Paper-Pencil-Postkörben nicht ohne weiteres übertragen lassen (Fisseni,<br />

1990; Riediger & Rolfs, 1998). Allerdings sind wissenschaftliche Studien dazu<br />

gerade im deutschsprachigen Raum sehr rar, nur über einige wenige Verfahren<br />

liegen derzeit publizierte Untersuchungen vor (siehe Kapitel 2.4.3). Dem<br />

gegenüber steht aber ein stetig wachsendes Angebot unvalidierter<br />

computergestützter Postkörbe durch die verschiedenen<br />

Beratungsunternehmen, deren prognostische Güte eher fragwürdig bleibt.<br />

Bezüglich der Validität kommt ein weiterer Aspekt hinzu, der die Interaktion von<br />

Mensch und Computer betrifft. Obermann (2006) stellt die Frage, ob bei einem<br />

<strong>EDV</strong>-Verfahren die computerspezifischen Erfahrungen eines Teilnehmers<br />

64


Theoretischer Hintergrund<br />

mitentscheidend sind, d.h. ob diese Fertigkeiten das Ergebnis positiv oder<br />

negativ verzerren können. Auf diese Thematik wird im nachfolgenden Kapitel<br />

genauer eingegangen.<br />

2.4.2 Interaktion von Mensch und Computer<br />

In der zuvor genannten Studie von Hartung und Schneider (1995) gaben 91%<br />

der befragten AC-Teilnehmer in einer Fragebogenuntersuchung an, dass die<br />

eingesetzten computergestützten AC-Übungen auch für Computerlaien einfach<br />

und sicher zu bedienen seien. Leider geben die Autoren aber keine detaillierten<br />

Informationen darüber, um welche Verfahren es sich dabei genau gehandelt<br />

hat. Es wird lediglich gesagt, dass sowohl eine computergestützte Simulation<br />

als auch ein <strong>EDV</strong>-<strong>Postkorb</strong> eingesetzt wurden. Zudem muss bei<br />

Fragebogenuntersuchungen gerade im Rahmen von Assessment Centern<br />

immer der Aspekt der sozialen Erwünschtheit berücksichtigt werden. So<br />

könnten die Teilnehmer etwa gedacht haben, der Fragebogen sei noch Teil des<br />

Beurteilungsprozesses, so dass sie ihre eigenen Computerkenntnisse größer<br />

erscheinen lassen wollten als sie womöglich tatsächlich waren. Auch fehlen<br />

Informationen über die untersuchte Stichprobe. So dürfte klar sein, dass<br />

beispielsweise Mitarbeiter von Computer-Firmen höchstwahrscheinlich weniger<br />

Probleme bei der Bedienung der <strong>EDV</strong>-Verfahren haben als Teilnehmer gänzlich<br />

ohne Computererfahrung. Genau hierin liegt aber der entscheidende Punkt.<br />

So hat der Teilnehmer bei der Bearbeitung computergestützter Verfahren zwei<br />

Probleme zu überwinden (Kleinmann & Strauß, 1995): Einerseits soll das<br />

Sachproblem gelöst werden, womit der eigentliche Inhalt der Übung gemeint ist,<br />

z.B. das Bearbeiten von verschieden Schriftstücken und Erstellen eines<br />

Terminkalenders in einem <strong>Postkorb</strong>. Diese Probleme sind gekennzeichnet<br />

durch einen Anfangszustand, einen oder mehrere gewünschte Zielzustände<br />

und die dazwischen liegenden Barrieren. Zum Überwinden dieser Barrieren hat<br />

der Teilnehmer in der Regel zahlreiche Handlungsalternativen im <strong>Postkorb</strong>,<br />

etwa Tätigkeiten priorisieren oder delegieren, Termine wahrnehmen, absagen<br />

oder verlegen, etc. Diese Sachprobleme sind für alle Teilnehmer gleichermaßen<br />

definiert und setzen keine Vorkenntnisse voraus.<br />

65


Theoretischer Hintergrund<br />

Auf der anderen Seite steht bei computergestützten Übungen jedoch das<br />

Interaktionsproblem, womit gemeint ist, dass die Teilnehmer das Sachproblem<br />

mit Hilfe von Computern bearbeiten müssen und zunächst einmal die damit<br />

verbundenen Hürden in der Bedienung bewältigen müssen. So müssen<br />

zunächst derartige Fragen beantwortet werden wie „Wo finde ich was auf dem<br />

Bildschirm?“, „Wie bediene ich die Maus?“ oder „Was muss ich tun, um eine<br />

bestimmte Information aufzurufen?“ (Obermann, 2006). Der Anfangszustand<br />

bei diesem Problem ist also, dass der Teilnehmer weder das Programm noch<br />

seine Funktionsweise kennt. Der Endzustand soll sein, dass der Teilnehmer mit<br />

dem Programm vertraut ist. Die Verwendung des Computers kann also gerade<br />

bei computerunerfahrenen Teilnehmern zu einem zusätzlichen Problem<br />

werden, da durch die Lösung des Interaktionsproblems Kapazitäten in<br />

Anspruch genommen werden, die für die Lösung des Sachproblems fehlen. Bei<br />

erfahrenen Computeranwendern ist die Nutzung längst zu einem Automatismus<br />

geworden, d.h. der Endzustand ist von Anfang an vorhanden, so dass das<br />

Interaktionsproblem minimiert wird und mehr Kapazität für das Sachproblem zur<br />

Verfügung steht. Die computerspezifischen Fertigkeiten können also das<br />

Ergebnis in solchen Übungen verzerren (Kleinmann & Strauß, 1995). Dabei<br />

helfen den Computerlaien laut Obermann (2006) auch die von den<br />

Programmieren gut gemeinten Hilfefunktionen nicht weiter, da diese mit der<br />

Praxis nichts zu tun haben und ggf. sogar Zusatzstress erzeugen können. Auch<br />

die Instruktionen sind nicht immer für alle gleichermaßen verständlich.<br />

Tatsächlich gibt es zahlreiche Studien, die bezüglich des Interaktionsproblems<br />

große Differenzen zwischen Experten und Novizen aufweisen (Wandmacher,<br />

1993). Diese Unterschiede sind zum einen durch die Vorerfahrung mit<br />

Computern und Computeranwendungen begründet, zum anderen aber auch<br />

entscheidend durch die Gestaltung der jeweiligen Software, d.h. der<br />

Softwareergonomie geprägt (Wandmacher, 1993; Kleinmann & Strauß, 1995;<br />

Obermann, 2006).<br />

Die Vorerfahrung mit Computern ist im AC nicht beeinflussbar. Dennoch sollte<br />

sie beim Einsatz computergestützter Übungen mit erhoben werden, da sich nur<br />

so die Leistung eines Teilnehmers bei der Bearbeitung des Sachproblems<br />

adäquat beurteilen lässt (Kleinmann & Strauß, 1995).<br />

66


Theoretischer Hintergrund<br />

Hinsichtlich der Softwareergonomie gibt es jedoch verschiedene Möglichkeiten,<br />

diese während der Konzeptionsphase einer computergestützten Übung zu<br />

erhöhen. Je höher die Softwareergonomie, desto geringer ist der jeweilige<br />

Zusammenhang von Computererfahrung und Testleistung (Kleinmann &<br />

Strauß, 1995). Ein wesentlicher Punkt ist hierbei die Präsentation des<br />

Softwareprogramms. Wenn Vorwissen die Performance in der Übung durch die<br />

Überwindung des Interaktionsproblems adäquater macht, ist es sinnvoll, das<br />

Programm so zu gestallten, dass möglichst viele Teilnehmer über ähnliches<br />

Vorwissen verfügen. In diesem Sinne könnte das Programm beispielsweise an<br />

die Windows-Benutzeroberfläche oder gängige E-Mail-Programme wie<br />

Microsoft Outlook angepasst werden. Auch Usability-Tests im Rahmen der<br />

Konzeptions- und Programmierungsphase können helfen, die Unterschiede<br />

zwischen Experten und Novizen zu minimieren (ausführlich zur<br />

Softwaregestaltung bei computergestützten AV-Verfahren: Kleinmann & Strauß,<br />

1995) Zusammenfassend ist festzuhalten, dass es das Ziel einer jeden<br />

Softwaregestaltung, inklusive der von computergestützten Postkörben, sein<br />

sollte, dass selbst ungeübte Benutzer nach wenigen Probedurchläufen bzw.<br />

einer kurzen Einarbeitungszeit ähnlich mit dem Programm umgehen können<br />

wie erfahrene Nutzer (Kleinmann & Strauß, 1995; Obermann, 2006).<br />

2.4.3 Verfahren im Überblick<br />

Nachdem nun Vor- und Nachteile von <strong>EDV</strong>-Postkörben sowie mögliche<br />

Probleme bei der Interaktion von Mensch und Computer dargestellt wurden, soll<br />

nun ein Überblick über die gängigsten bereits bestehenden computergestützten<br />

Postkörbe gegeben werden. Hierbei ist zu betonen, dass in der Praxis eine<br />

Vielzahl solcher Verfahren existieren, diese jedoch meist von Beratungsfirmen<br />

entwickelt und an deren Kunden verkauft werden, ohne dass eine<br />

wissenschaftliche Untersuchung sowie publizierte Studien dazu stattgefunden<br />

haben (Riediger & Rolfs, 1998). Die drei hier dargestellten Verfahren haben<br />

sich jedoch dem Anspruch auf Überprüfbarkeit gestellt. Im Folgenden sollen<br />

daher die Mailbox’90 (2.4.3.1), PC-Office (2.4.3.2) und der PC-<strong>Postkorb</strong><br />

„Seeblick“ (2.4.3.3) dargestellt werden.<br />

67


Theoretischer Hintergrund<br />

2.4.3.1 Mailbox’90<br />

• Autoren: F. Roest, A. Scherzer, E. Urban, H. Gangl & C. Brandstätter<br />

(1989)<br />

• Aufgabenbeschreibung: Die Mailbox'90 ist ein Verfahren zur<br />

psychologischen Berufseignungsdiagnostik vor allem im Rahmen von<br />

Assessment Centern und Potenzialanalysen von Führungskräften<br />

(Brickenkamp, 2002). Der Teilnehmer wird bei diesem <strong>Postkorb</strong> in die<br />

Position des Direktors eines Versicherungsunternehmens hineinversetzt.<br />

Im Posteingang findet er neun Dokumente vor, die er innerhalb von 32<br />

Minuten bearbeiten soll, wobei in dieser Zeit noch mehrere Telefonate<br />

und Postzugänge eingehen (Roest et al., 1989). Dem Proband stehen<br />

dabei auf dem Bildschirm ein Rechner, ein Notizblock und ein Kalender<br />

zur Verfügung. Zusätzliche Informationen kann er aus einer Kundenliste<br />

sowie einem Organigramm des Unternehmens entnehmen. Neben dem<br />

Eingangskorb stehen auf dem Bildschirm zwei weitere Ablagekörbe zur<br />

Verfügung (Funke, 1993, siehe Abbildung 1).<br />

Abbildung 1: Display des Schreibtisches der Mailbox’90. Die verschiedenen Körbe sind groß in<br />

der Mitte dargestellt, oben in der Kopfzeile finden sich die Hilfsmittel. Rechts sind die<br />

Eingriffsmöglichkeiten aufgelistet (Funke, 1993, b).<br />

68


Theoretischer Hintergrund<br />

Die Bedienung erfolgt mausgesteuert. Einige Dokumente erfordern die<br />

Antwortauswahl aus einer Multiple-Choice-Vorgabe, in anderen Fällen ist<br />

die freie Antwortformulierung in einem Textfeld möglich, und andere<br />

Schriftstücke ermöglichen eine freie Multiple-Choice-Auswahl<br />

beispielsweise aus Delegieren, Ablegen, Termin festlegen, Versenden,<br />

etc. Der ausgewählte Umgang mit einem Dokument kann entsprechende<br />

Konsequenzen haben, so dass z.B. delegierte Dokumente bei falscher<br />

Zuständigkeit der Abteilung nur unvollständig bearbeitet zurückkommen<br />

(Riediger & Rolfs, 1998). Bei Bedienungsproblemen steht zusätzlich eine<br />

Hilfefunktion zur Verfügung.<br />

• Auswertung: Die Beurteilung der Testleistung erfolgt anhand der vier<br />

aufgabenorientierten Skalen Arbeitszeit, Arbeitseinteilung,<br />

Zielorientierung und Arbeitsgüte. Hinzu kommen die drei<br />

verlaufsorientierten Skalen Aktivität, Delegation und Ordnen (Roest &<br />

Horn, 1990). Zu diesen Kriterien lassen sich unterschiedlich stark<br />

differenzierte Ergebnisprotokolle ausgeben, die Roh- und Staninewerte<br />

zu den sieben Skalen beinhalten, aber auch die prozessorientierten<br />

Daten als Verlaufsprotokoll anzeigen können, in denen jeder einzelne<br />

Bearbeitungsschritt dokumentiert ist (Riediger & Rolfs, 1998). Die vom<br />

Teilnehmer vorgenommen Kalendereinträge, die als offene Testeingabe<br />

erfolgen, können vom Programm jedoch nicht ausgewertet werden,<br />

sondern werden dem Testleiter lediglich auf dem Ergebnisausdruck zur<br />

manuellen Auswertung mitgeliefert (Funke, 1993, b).<br />

• Güte des Verfahrens: Durch seine vollständige Darbietung per Computer<br />

und die rechnergestützte Ablaufkontrolle wird die<br />

Durchführungsobjektivität des Verfahrens als hoch angesehen, obwohl<br />

Einschränkungen durch eine zu hohe Dynamik erfolgen könnten (siehe<br />

unten). Auch die Auswertung unterliegt, abgesehen von der<br />

Terminplanauswertung, vollständig der Kontrolle des Programms und<br />

bezieht sich auf die von der Testperson angelegte Protokolldatei. Somit<br />

kann zumindest weitgehend von einer Auswertungsobjektivität<br />

ausgegangen werden (Funke, 1993, b). Zur Überprüfung der Reliabilität<br />

und Validität des Verfahrens wurden Erhebungen an 105 Grazer<br />

69


Theoretischer Hintergrund<br />

Psychologiestudenten sowie 193 Bewerbern für Trainee-Positionen<br />

vorgenommen (Roest & Horn, 1990). Den Ergebnissen zufolge besteht<br />

nur eine niedrige bis mittlere Reliabilität für die Skalen Arbeitseinteilung,<br />

Zielorientierung und Arbeitsgüte. Angaben zur Reliabilität der weiteren<br />

Skalen werden von den Testautoren nicht gegeben. Zur<br />

Validitätsbestimmung wurden Korrelationen zwischen den Mailbox’90-<br />

Skalen und verschiedenen Intelligenz- und Persönlichkeitstests ermittelt<br />

(Roest et al., 1989; Güllich, 1992) Die Auswahl der Tests ist jedoch nicht<br />

begründet, so dass nicht erkennbar ist, an welchen Stellen die Autoren<br />

Kriteriumsvalidität oder diskriminante Validität erwarten (Riediger &<br />

Rolfs, 1998). Von insgesamt 392 mitgeteilten Korrelationen erweisen<br />

sich nur 41 als statistisch bedeutsam, obwohl bei der zugrunde gelegten<br />

Irrtumswahrscheinlichkeit von α=.05 alleine schon 20 der 392 Korrelation<br />

per Zufall signifikant sein sollten (Funke, 1993, b). Die höchste, jedoch<br />

eher fragwürdige Korrelation von r=.41 (17% gemeinsame Varianz)<br />

besteht zwischen der Skala Zielorientierung der Mailbox’90 und der<br />

Skala Selbstbeschuldigung aus einem Stressverarbeitungsbogen.<br />

Daraus schlussfolgern Roest et al. (1989), dass die Mailbox’90 ein von<br />

anderen Verfahren nicht erfasstes Verhalten misst. Was der Test aber<br />

genau misst bzw. ob die angestrebten Verhaltensdimensionen<br />

tatsächlich erfasst werden, bleibt unbeantwortet (Fritz & Funke, 1995).<br />

Auch die Aussage der Autoren, dass die Ähnlichkeiten zu Ergebnissen<br />

anderer <strong>Postkorb</strong>-Validierungen darauf hindeutet, dass die<br />

Computerversion ähnliche Verhaltensmerkmale misst wie die Papier-<br />

Bleistift-Version, wird von anderen Autoren nicht geteilt (Funke, 1993, b;<br />

Riediger und Rolfs, 1998). Ergebnisse zur prädiktiven Validität des<br />

Verfahrens liegen bislang nicht vor.<br />

• Bewertung: Positiv zu bewerten ist, dass den Testautoren schon Anfang<br />

der 1990er Jahre ein Instrument gelungen ist, dessen Durchführung und<br />

Auswertung vollkommen objektiv von anderen Teilnehmern sowie<br />

Beobachtern vonstatten geht. Zudem hat die Mailbox’90 eine überaus<br />

gelungene Anpassung an das Medium des Computers vollzogen, was<br />

eine besonders hohe Dynamik erzeugt (Funke, 1993, b). So können die<br />

70


Theoretischer Hintergrund<br />

verschiedenartigen Störungen im Arbeitsablauf oder die Kooperation mit<br />

anderen Abteilungen hier höchst realistisch simuliert werden.<br />

Anzumerken ist hierbei jedoch, dass eine zu hohe Störungsquote die<br />

Durchführungsobjektivität beeinflussen kann, besonders wenn<br />

verschiedene Störungen die Teilnehmer während unterschiedlicher<br />

Arbeitsprozesse unterbrechen, wozu weitere Untersuchungen erfolgen<br />

sollten. Weiterhin positiv ist, dass in der Auswertung eine hohe<br />

Transparenz bezogen auf eine Musterlösung gegeben wird (Riediger und<br />

Rolfs, 1998).<br />

Die Ergebnisse zur Reliabilität und Validierung der Mailbox’90 können<br />

jedoch generell als unzureichend betrachtet werden (Funke, 1993, b).<br />

Auch die Benutzerfreundlichkeit lässt nach Meinung von Riediger und<br />

Rolfs (1998) zu wünschen übrig. Trotz Einführung und Instruktion hat der<br />

Teilnehmer ein recht komplexes Programm zu bewältigen, das bezüglich<br />

der Handhabung mit der wirklichen Arbeitswelt wenig gemein hat. Auch<br />

der mausgesteuerte Abruf der Funktionen ist wenig intuitiv, so dass<br />

computerunerfahrene Teilnehmer wohl Probleme damit haben dürften<br />

(siehe Kapitel 2.4.2). Auch hierzu wären weitere Forschungen<br />

wünschenswert. Hinzu kommt, dass die Interpretierbarkeit besonders der<br />

verlaufsorientierten Skalen trotz Interpretationshilfen der Autoren eher<br />

fraglich erscheint. So werden beispielsweise keine Belege dafür<br />

gegeben, warum die Häufigkeit, mit der ein Teilnehmer die Umblätter-<br />

Funktion genutzt hat, etwas mit Aktivität im Sinne einer<br />

Führungseigenschaft zu tun haben soll (Funke, 1993, b; Fritz & Funke,<br />

1995). Auch die noch manuell auszuführende Auswertung der<br />

Kalendereinträge beeinträchtigt die ansonsten hohe Objektivität und<br />

bedarf einer Verbesserung. Insgesamt gesehen kann die Mailbox’90<br />

aber als sinnvolles Instrument der Personalauswahl betrachtet werden,<br />

sofern noch weitere Forschungen zu ihrer Güte sowie eine Verbesserung<br />

bzw. Modernisierung der Softwareergonomie vorgenommen werden.<br />

71


Theoretischer Hintergrund<br />

2.4.3.2 PC-Office<br />

• Autor: G. Fennekels (1995)<br />

• Aufgabenbeschreibung: PC-Office stellt zwei <strong>Postkorb</strong>verfahren zur<br />

Verfügung: Polybon wurde für Zielpositionen im höheren Management<br />

konzipiert, Domobon für Abteilungs- und Gruppenleiter (Fennekels,<br />

1995). Beide Postkörbe sind bzgl. Durchführung und Auswertung<br />

äquivalent und unterscheiden sich lediglich im Inhalt der Dokumente<br />

(Sarges & Wottawa, 2001). Bei der Bearbeitung von Polybon nimmt der<br />

Proband die Position eines Werksleiters ein, der einen neuen<br />

Produktionsstandort übernommen hat. Domobon inszeniert dagegen die<br />

Arbeitssituation eines Gruppenleiters im Vertrieb, der den erkrankten<br />

Abteilungsleiter zu vertreten hat (Riediger & Rolfs, 1998). In beiden<br />

Postkörben sollen 17 Schriftstücke mit 26 Problemen innerhalb einer<br />

Stunde (Polybon) bzw. 45 Minuten (Domobon) erkannt und bearbeitet<br />

werden. Zur Lösung eines Problems können eine oder mehrere<br />

gegebene Antwortvorgaben ausgewählt werden. Termine können<br />

gelöscht, verschoben oder gekürzt werden. Neben einem<br />

Terminkalender stehen als weitere Hilfsmittel eine Uhr und ein<br />

Organigramm zur Verfügung. Die Handhabung beider Postkörbe erfolgt<br />

über die Tastatur, durch Betätigen der F1-Taste sind Hinweise bei<br />

Bedienungsproblemen abrufbar (Fennekels, 1995).<br />

• Auswertung: Die Auswertung der Testergebnisse erfolgt über die beiden<br />

Dimensionen Planung & Organisation und Unternehmerische Aktivität.<br />

Erstere wird durch die Kriterien Zeitmanagement, Problemerfassung<br />

sowie Entscheidungsverhalten abgebildet. Die Unternehmerische<br />

Aktivität setzt sich zusammen aus Initiative, Führungstechniken und<br />

Kontaktfähigkeit (Fennekels, 1995). Die Ergebnisausgabe besteht aus<br />

mehreren Teilbereichen (Riediger & Rolfs, 1998). In der quantitativen<br />

Analyse werden Staninewerte für die beiden übergeordneten<br />

Dimensionen gegeben. In der qualitativen Auswertung hingehen werden<br />

die Leistungen des Teilnehmers automatisch in einem Textgutachten<br />

zusammengefasst. Hinzu kommt eine Übersicht der „angemessenen“<br />

sowie „unangemessenen“ Entscheidungen bezogen auf die Gesamtzahl<br />

72


Theoretischer Hintergrund<br />

aller zu treffenden Entscheidungen für jedes der sechs Unterkriterien<br />

(Fennekels, 1995). In dieser Problemanalyse wird auch erkennbar,<br />

welche Problempunkte unberücksichtigt blieben. Zusätzlich liegen<br />

Prozessinformationen vor, wie beispielsweise die Dauer der<br />

Bearbeitungszeiten. Darüber hinaus wird Auswertung durch Grafiken und<br />

Schaubilder veranschaulicht (Sarges & Wottawa, 2001).<br />

• Güte des Verfahrens: Da die Durchführung sowie die Auswertung bei<br />

PC-Office in beiden <strong>Postkorb</strong>-Varianten vollständig durch das Programm<br />

realisiert wird, kann von maximaler Auswertungs- sowie<br />

Durchführungsobjektivität gesprochen werden (Riediger & Rolfs, 1998).<br />

Zur Bestimmung von Reliabilität und Validität wurde PC-Office an 500<br />

Führungskräften unterschiedlicher Hierarchieebenen im Rahmen von<br />

Assessment Centern erprobt, und die Ergebnisse mit denen anderer<br />

Übungen verglichen (Sarges & Wottawa, 2001). Im Testhandbuch finden<br />

sich diesbezüglich jedoch nur Angaben zum <strong>Postkorb</strong> Polybon. Die<br />

Reliabilitätskennwerte wurden mit Cronbachs Alpha bestimmt und<br />

ergeben für das Kriterium Problemerfassung mit .87 den höchsten Wert<br />

und für Entscheidungsverhalten mit .58 den niedrigsten. Zudem wurden<br />

sogar Split-Half-Reliabilitätskoeffizienten angegeben, welche für die<br />

sechs Kriterien von .64 bis .84 rangieren (Sarges & Wottawa, 2001). Zur<br />

Bestimmung der Validität wurde nach Abschluss der Assessment Center,<br />

in denen PC-Office erprobt wurde, in der Beobachterkonferenz eine<br />

Potenzialaussage über die vermutlichen Erfolge des Teilnehmers als<br />

Führungskraft auf der Zielstelle getroffen (Riediger & Rolfs, 1998). Diese<br />

Beurteilungen wurden mit den Anforderungsdimensionen Planung &<br />

Organisation und Unternehmerische Aktivität korreliert. Bei einer<br />

Irrtumswahrscheinlichkeit von α=.01 korrelierten die beiden Dimensionen<br />

signifikant mit .47 für Planung & Organisation sowie .41 für<br />

Unternehmerische Aktivität (Sarges & Wottawa, 2001).<br />

• Bewertung: Besonders positiv fällt auf, dass die Autoren großen Wert auf<br />

die Gestaltung des Programms und eine denkbar einfach Handhabung<br />

gelegt haben (Sarges & Wottawa, 2001). Voruntersuchungen zeigten,<br />

dass der Umgang mit PC-Office selbst computerunerfahrenen<br />

73


Theoretischer Hintergrund<br />

Testpersonen nach einer kurzen Einweisungsphase problemlos gelang<br />

(Fennekels, 1995). Besonders die Kalenderfunktion und das Eintragen<br />

der Termine wurde sehr intuitiv angelegt. Als ein weiterer Pluspunkt<br />

erscheint das Vorliegen von zwei Schwierigkeitsstufen, mit dem der<br />

Einsatz von PC-Office differenzierter erfolgen kann.<br />

Negativ ins Gewicht fällt jedoch die Tatsache, dass im Testhandbuch<br />

zwar eine einfache Bedienungsanleitung für das Programm zu finden ist,<br />

darüber hinaus jedoch kaum Informationen zu Testgrundlagen,<br />

Testwertberechnung oder psychometrischer Güte (Riediger & Rolfs,<br />

1998). Zur Validierung fehlen beispielsweise genaue Angaben über Art<br />

und Zusammensetzung der Stichprobe, detaillierte Erläuterungen zu den<br />

Dimensionen und eine Offenlegung der Erhebungsverfahren. Zudem ist<br />

eine rein subjektive Potenzialaussage im Anschluss an ein AC als höchst<br />

unzureichendes Validierungskriterium zu bewerten. Hierbei sei jedoch<br />

gesagt, dass nach Aussage von Riediger und Rolfs (1998) die<br />

Testautoren bereits weitere Validierungsstudien betreiben würden.<br />

Aktuelle Publikationen liegen dazu aber derzeit noch nicht vor. Als<br />

weitere Schwachstelle ist neben der unzureichenden Validierung auch<br />

die Intransparenz bei der Berechnung und Erstellung der<br />

Ergebnisausgabe zu sehen (Riediger & Rolfs, 1998). So ist die<br />

Aggregation der Verhaltensinformationen zu Testkennwerten nicht<br />

nachvollziehbar, und es fehlen auch hier jegliche Informationen zu der<br />

oder den herangezogenen Normstichprobe(n). Aus diesem Grund ist<br />

besonders das automatisch erstellte Textgutachten kritisch einzustufen,<br />

auch wenn es für den Testanwender eine verlockende<br />

Arbeitserleichterung darstellt. Wenn ausführlichere Validierungsstudien<br />

und umfangreichere Informationen zur Auswertung nachgereicht werden<br />

würden, wäre PC-Office als durchaus brauchbares Instrument der<br />

Eignungsdiagnostik einzustufen. Davon abgesehen bliebe jedoch ein<br />

inhaltlicher Kritikpunkt unberührt, nämlich dass das Verfahren eine relativ<br />

geradlinige Computerisierung von klassischen Paper-Pencil-Postkörben<br />

darstellt (Riediger & Rolfs, 1998). Eine Nutzung der<br />

Interaktivitätsmöglichkeiten, wozu der Computer zahlreiche Chancen<br />

74


Theoretischer Hintergrund<br />

bietet und wie sie beispielsweise von Mailbox’90 (siehe Kapitel 2.4.3.1)<br />

nahezu ausgereizt werden, wird hier vertan. Ein Indiz dafür ist auch die<br />

Reliabilitätsbestimmung des Verfahrens mittels Split-Half-Methode,<br />

welche für einen <strong>Postkorb</strong> aufgrund der sonstigen Vernetzung der Items<br />

sowie der Dynamik der Vorgänge eher ausgeschlossen erscheint (siehe<br />

Kapitel 2.1.3, 2.3.5.3). Somit kann PC-Office bzgl. Dynamik und<br />

Realitätsnähe nur als mäßig eingestuft werden.<br />

2.4.3.3 PC-<strong>Postkorb</strong> "Seeblick“<br />

• Autoren: Scharley & Partner (1991)<br />

• Aufgabenbeschreibung: Der PC-<strong>Postkorb</strong> „Seeblick“ wird hauptsächlich<br />

zur Selektion von Hochschulabsolventen, Sachbearbeitern, Projekt- und<br />

Teamleitern sowie Nachwuchsführungskräften eingesetzt (Scharley &<br />

Partner, 2007). Im Rahmen der Übung übernehmen die Teilnehmer die<br />

Rolle eines Managers, der ein Ausbildungszentrum einer Bank mit<br />

angeschlossenem Seminar-, Hotel- und Restaurantbetrieb leitet (Sarges<br />

& Wottawa, 2001). Die Bearbeitungszeit ist dabei abhängig von der<br />

Komplexität des Verfahrens, da es verschiedene Parallelversionen bzw.<br />

verschiedene Schwierigkeitsstufen gibt, um das Verfahren an den<br />

spezifischen Kundenbedarf anzupassen (Riediger & Rolfs, 1998). In der<br />

Basisversion hat der Teilnehmer aber eine Stunde Zeit, um insgesamt 40<br />

Dokumente zu bearbeiten. Davon befinden sich 35 Schriftstücke, bei<br />

denen es sich um Briefe, Notizen oder Memos handelt, bereits zu Beginn<br />

der Übung im virtuellen Posteingang, 5 weitere gehen im Verlauf der<br />

Bearbeitungszeit zusätzlich ein (Scharley & Partner, 1991). Für jedes<br />

dieser Dokumente muss der Teilnehmer vier Entscheidungen treffen: Er<br />

hat die Wichtigkeit des Vorgangs im Sinne einer Prioritätensetzung<br />

festzulegen, soll das Dokument einem inhaltlichen Problemfeld zuordnen<br />

und delegieren, wer den Vorgang bearbeiten soll. Zu jeder dieser<br />

Entscheidungen steht eine Multiple Choice-Auswahl zur Verfügung. Als<br />

vierte Aufgabe soll der Teilnehmer Termine festlegen, die sich aus den<br />

Schriftstücken ergeben (Scharley & Partner, 2007). Dafür stehen dem<br />

75


Theoretischer Hintergrund<br />

Teilnehmer ein eigener Kalender sowie die Kalender seiner Mitarbeiter<br />

zur Verfügung. Termine können gesetzt, verschoben und gelöscht<br />

werden. Zusätzlich bietet das Programm eine Uhr, einen Notizblock und<br />

eine Filterfunktion an, mit der die Vorgänge nach verschieden<br />

Gesichtspunkten sortiert werden können. Zudem wird der<br />

Bearbeitungsstand jedes Schriftstücks angezeigt. Die Bedienung des<br />

Programms erfolgt mausgesteuert und orientiert sich an gängigen<br />

windowsbasierten E-Mail-Clients (Scharley & Partner, 2007). Ein Abbild<br />

des Desktops zeigt Abbildung 2.<br />

Abbildung 2: Desktop des PC-<strong>Postkorb</strong>es „Seeblick“. Der Teilnehmers sieht eine Übersicht der<br />

Dokumente auf der linken Seite, rechts oben wird das jeweils ausgewählte Schriftstück<br />

angezeigt, rechts unten ist der Terminplaner zu sehen (Scharley & Partner, 2007).<br />

76


Theoretischer Hintergrund<br />

• Auswertung: Die Testauswertung erfolgt bezogen auf die vier<br />

Bearbeitungskategorien Delegation, Problemfelder festlegen, Prioritäten<br />

setzen und Terminplanung. Als weiterer Skalenwert wird das Einhalten<br />

einer logischen Terminplanung berechnet. Zusätzlich wird die<br />

Arbeitsgeschwindigkeit bewertet sowie ein Gesamttestwert bestimmt<br />

(Scharley & Partner, 1991). Das Auswertungsprogramm gibt die<br />

Testergebnisse im Hinblick auf verschiedene Aspekte wieder. Zum einen<br />

wird die Leistung des Probanden mit einem Prozentwert angegeben, der<br />

hinsichtlich des optimal erreichbaren Punktwertes verglichen mit einer<br />

Optimallösung errechnet wird. Zum anderen wird die Testleistung mit<br />

Werten einer Normstichprobe verglichen, und Prozentrang sowie<br />

Abweichung vom Durchschnitt der Normstichprobe angegeben. Diese<br />

Eichstichprobe besteht aus n=100 Personen im mittleren Management<br />

und n=360 Personen aus dem höheren Management. Die Software<br />

bietet zusätzlich die Möglichkeit, eigene Normstichproben aufzubauen<br />

und zu verwalten (Riediger & Rolfs, 1998). Ähnlich wie bei den zuvor<br />

dargestellten <strong>EDV</strong>-Postkörben bietet auch der PC-<strong>Postkorb</strong> „Seeblick“<br />

die Möglichkeit, durch eine zusätzliche Strategieanalyse der<br />

Prozessvariablen das Vorgehen der Teilnehmer während der Übung<br />

auszuwerten (Scharley & Partner, 2007).<br />

• Güte des Verfahrens: Die Durchführungs- und Auswertungsobjektivität<br />

des Verfahrens gilt analog zum Verfahren PC-Office (siehe Kapitel<br />

2.4.3.2) als maximal. Zur Bestimmung der Validität wurden<br />

Untersuchungen in den Niederlanden durchgeführt, wo das Verfahren<br />

sehr verbreitet ist. In einer Studie mit n=35 Führungskräften ergab die<br />

Split-Half-Methode Koeffizienten für die einzelnen Skalen von .55 bis .82<br />

und für den Gesamttest .96 (Riediger & Rolfs, 1998). Zur<br />

Kriteriumsvalidität liegen unterschiedliche Ergebnisse vor. Für die<br />

deutschsprachige Testversion berichten die Testautoren eine<br />

hochsignifikante Korrelation von <strong>Postkorb</strong>gesamtergebnis und einem<br />

unabhängig davon erhobenen Gesamtergebnis eines Assessment<br />

Centers (r=.37 bei α=.01 und n=54) sowie eine signifikante Korrelation zu<br />

einer Vorgesetztenbeurteilung des Führungspotenzials (r=.33 bei α=.05<br />

77


Theoretischer Hintergrund<br />

und n=54) (Riediger & Rolfs, 1998). In einer anderen Studie in den<br />

Niederlanden zeigte sich in einer ebenfalls kleinen Stichprobe von n=30<br />

kein Zusammenhang von Testleistung und Vorgesetztenbeurteilung, in<br />

einer späteren niederländischen Untersuchung jedoch eine Korrelation<br />

von .53 bei n=34 (Riediger & Rolfs, 1998). Eine weitere niederländische<br />

Studie berichtet darüber hinaus von Korrelationen des<br />

<strong>Postkorb</strong>ergebnisses zu einem Intelligenzwert von .29 bei n=117.<br />

• Bewertung: Der PC-<strong>Postkorb</strong> „Seeblick“ kann verglichen mit den bisher<br />

hier dargestellten Verfahren am positivsten bewertet werden. So<br />

überzeugt der <strong>EDV</strong>-<strong>Postkorb</strong> besonders durch seine<br />

benutzerfreundliche, windows-basierte Gestaltung, die sich an gängige<br />

E-Mail-Clients wie Microsoft Outlook anlehnt und somit auch für<br />

unerfahrene Benutzer schnell zu überschauen ist. Dazu tragen auch die<br />

gut interpretierbaren Icons und der übersichtliche Bildschirmaufbau<br />

sowie eine für den User gewohnte Bedienung mit der Maus bei (Sarges<br />

& Wottawa, 2001). Ein weiterer großer Vorteil ist die Tatsache, dass die<br />

Ergebnisse sowohl hinsichtlich des zu erfassenden Kriteriums wie auch<br />

mit Werten aus einer Normstichprobe verglichen werden. Dadurch<br />

werden sowohl Anforderungen der kriterienorientierten<br />

Leistungsmessung sowie der klassischen Testtheorie realisiert (siehe<br />

Kapitel 2.1), was für den <strong>Postkorb</strong> als Mischform aus psychologischem<br />

Testverfahren und situativer Arbeitsprobe besonders geeignet scheint.<br />

Zusätzlich positiv ist zu vermerken, dass der PC-<strong>Postkorb</strong> bereits in einer<br />

deutschen, englischen, französischen, italienischen und<br />

niederländischen Version vorliegt und die Versionen jeweils an die<br />

Zielunternehmen angepasst werden können (Sarges & Wottawa, 2001).<br />

Diese Tatsache bringt jedoch Validierungsprobleme mit sich. Es dürfte<br />

eher unwahrscheinlich sein, dass die publizierten Ergebnisse auch<br />

zutreffen, wenn der <strong>Postkorb</strong> in einem anderen Land mit anderen<br />

Arbeitsanforderungen, in einer anderen Sprache und zusätzlich noch in<br />

einer an ein Unternehmen spezifisch angepassten Version eingesetzt<br />

wird. Zusätzlich problematisch bei den vorliegenden Untersuchungen ist<br />

die geringe Stichprobengröße von teilweise nur n=30 Personen (Riediger<br />

78


Theoretischer Hintergrund<br />

& Rolfs, 1998). Zwar werden hierbei Hinweise auf eine vorhandene<br />

Reliabilität sowie Validität gegeben, jedoch wird für derartige Studien,<br />

sofern sie aussagekräftig sein sollen, eine Stichprobengröße von<br />

mindestens n=68 vorausgesetzt (Bortz, 1993). Analog zum PC-Office<br />

muss auch hier die Split-Half-Methode zur Reliabilitätsbestimmung<br />

aufgrund der interdependenten Itemstruktur als unpassend bezeichnet<br />

werden (Riediger & Rolfs, 1998). Ein zusätzliches Manko ist, dass die<br />

Musterlösung sowie die Zuordnung der Verhaltensweisen zu den<br />

Punktwerten nicht transparent und somit auch nicht nachvollziehbar ist<br />

(Riediger & Rolfs, 1998). Dennoch bleibt festzuhalten, dass der PC-<br />

<strong>Postkorb</strong> „Seeblick“ von den bisher dargestellten Verfahren das<br />

modernste und qualitativ hochwertigste zu sein scheint, auch wenn bzgl.<br />

der Validierung noch weitere, umfangreichere Studien nötig sind.<br />

2.4.3.4 Zusammenfassung<br />

In diesem Kapitel wurde zunächst auf die Vor- und Nachteile<br />

computergestützter Postkörbe eingegangen und anschließend die drei<br />

gängigsten Verfahren Mailbox’90, PC-Office und der PC-<strong>Postkorb</strong> „Seeblick“<br />

detailliert dargestellt und bewertet.<br />

Die Vorteile von Mailbox’90 liegen in einer überaus hohen Dynamik und<br />

Realitätsnähe, was jedoch die Durchführungsobjektivität beeinflussen könnte.<br />

Zudem wird eine hohe Transparenz bei der Ergebnisauswertung gegeben. Als<br />

unzureichend wird der derzeitige Stand der Validierung bezeichnet, ebenso wie<br />

die Benutzerfreundlichkeit. Letztere sollte durch eine Anpassung des<br />

Programms an aktuelle Softwarestandards erhöht werden. Zudem sollte ein<br />

computergestütztes Instrument gänzlich ohne zusätzliche manuelle<br />

Auswertungen, wie hier der Kalendereinträge, auskommen.<br />

Dem Verfahren PC-Office wird generell eine hohe Benutzerfreundlichkeit<br />

bescheinigt, auch wenn diese noch nicht an ein windowsbasiertes Design<br />

geknüpft ist. Zudem liegen zwei verschieden schwierige Versionen für den<br />

individuelleren Einsatz vor. Negativ wird auch hier die Validierungslage<br />

gesehen, wozu jedoch offenbar neue Studien in Arbeit sind. Hinzu kommt die<br />

79


Theoretischer Hintergrund<br />

kaum vorhandene Transparenz zu den Testgrundlagen, der<br />

Testwertberechnung oder den Normstichproben. Weiterhin negativ ist die relativ<br />

starre Umsetzung eines Paper-Pencil-Verfahrens, wodurch die Potenziale einer<br />

computergestützten Anwendung ungenutzt bleiben.<br />

Der PC-<strong>Postkorb</strong> „Seeblick“ überzeugt durch seine wesentlich zeitgemäßere<br />

Gestaltung und die daraus resultierende hohe Benutzerfreundlichkeit.<br />

Zusätzlich werden die Testwerte hier sowohl bezüglich des zu erreichenden<br />

Kriteriums bewertet als auch mit einer Normstichprobe verglichen. Einzig<br />

negativ erscheint hier wie bei den anderen Verfahren die unzureichende<br />

Validierungslage, was jedoch vor allem an den zu kleinen Stichproben und den<br />

lediglich in einem Land (Niederlande) durchgeführten Studien liegt.<br />

Alles in allem besitzt also jedes dieser Verfahren sowohl Vorteile wie Nachteile.<br />

Auffällig ist jedoch, dass bei allen drei <strong>EDV</strong>-Postkörben große Defizite in der<br />

Validierung herrschen. Im nachfolgenden Kapitel soll der neu entwickelte<br />

computergestützte <strong>Postkorb</strong> KI.BOX vorgestellt werden, der das Ziel hat, die<br />

Vorteile der bisherigen Verfahren aufzugreifen und deren Defizite<br />

auszugleichen.<br />

80


Der computergestützte <strong>Postkorb</strong> KI.BOX<br />

3 Der computergestützte <strong>Postkorb</strong> KI.BOX<br />

3.1 Beschreibung des Verfahrens<br />

Der computergestützte <strong>Postkorb</strong> KI.BOX wurde 2008 von Stephan Holtmeier für<br />

die Unternehmensberatung „kibit GmbH“ entwickelt und wird derzeit bereits<br />

erfolgreich bei Kunden, vor allem aus der Versicherungs-, Banken- und<br />

Automobilbranche im Rahmen von Assessment Centern und<br />

Potenzialbeurteilungen eingesetzt. Da es sich hierbei noch um ein sehr neues<br />

Verfahren handelt, existiert zurzeit noch kein ausführliches Testhandbuch. Die<br />

folgende Darstellung des Verfahrens basiert also hauptsächlich auf<br />

persönlichen Mitteilungen des Testautors, Produktinformationen von der<br />

Unternehmens-Homepage (Holtmeier, 2008) sowie eigenen Erfahrungen des<br />

Autors dieser <strong>Diplomarbeit</strong> mit der KI.BOX und wird mangels alternativer<br />

publizierten Testbeschreibungen ausführlicher erfolgen als bei den in Kapitel<br />

2.4.3 dargestellten <strong>EDV</strong>-Postkörben.<br />

Bei der Konzeption der KI.BOX wurde an ähnliche bereits bestehende<br />

Verfahren angeknüpft, allerdings mit dem Ziel, deren erkennbare Schwächen<br />

aufzugreifen und durch verbesserte Lösungen zu ersetzen. Somit sollte ein<br />

zeitgemäßes und für die Praxis sinnvoll einzusetzendes Instrument der<br />

Eignungsdiagnostik entwickelt werden, das sowohl wissenschaftlichen wie<br />

wirtschaftlich-ökonomischen Ansprüchen genügt. Dazu wurden jedoch nicht nur<br />

bereits bestehende Paper-Pencil- und computerbasierte Postkörbe als<br />

Konstruktionsgrundlage herangezogen. Auch das Berliner Intelligenzstruktur-<br />

Modell von Jäger, Süß und Beauducel (1997, vgl. Sarges & Wottawa, 2001)<br />

sowie Ansätze aus dem Büro-Test von Marschner (1981) wurden impliziert.<br />

Die Zielgruppe dieses <strong>EDV</strong>-<strong>Postkorb</strong>es setzt sich in erster Linie aus<br />

Hochschulabsolventen, Trainee-Bewerbern und Führungskräftenachwuchs<br />

zusammen. Das Programm ist, ähnlich wie der PC-<strong>Postkorb</strong> „Seeblick“ (siehe<br />

Kapitel 2.4.3.3), bzgl. Design und Handhabung windows-basiert und wird mit<br />

der Maus gesteuert, wobei in wenigen Fällen auch Zahlen über die Tastatur<br />

einzugeben sind. Die Benutzeroberfläche ist an allgemein gängige E-Mail-<br />

Clients wie Microsoft Outlook angelehnt und wurde zusätzlich vereinfacht, um<br />

81


Der computergestützte <strong>Postkorb</strong> KI.BOX<br />

Vorerfahrung mit dem Computer möglichst zu minimieren (siehe Kap 2.4.2).<br />

Darüber hinaus können Komplexität und Inhalte der KI.BOX flexibel an die<br />

jeweiligen Einsatzgebiete und Zielgruppen angepasst werden. Keine der<br />

Versionen benötigt spezielles Fachwissen. Die vorliegende Arbeit beschäftigt<br />

sich im Weiteren mit einer Basisversion, deren reine Bearbeitungszeit 60<br />

Minuten beträgt. Hinzuzurechnen ist eine insgesamt zwanzigminütige<br />

Instruktionsphase, die sich in zwei Teile gliedert und im folgenden Kapitel<br />

dargestellt wird.<br />

3.2 Instruktion<br />

Zunächst bekommt der Teilnehmer eine Instruktion auf Papier ausgehändigt,<br />

die ihn mit der Cover-Story der Übung, seiner diesbezüglichen Aufgabe,<br />

Hinweisen zur Bearbeitung und grundlegenden Bedienungsanweisungen<br />

inklusive Screenshots aus der KI.BOX vertraut macht (siehe Anhang A.1). Zur<br />

Durchsicht dieser Unterlage sind zehn Minuten vorgesehen, während der<br />

Bearbeitungszeit steht sie dem Teilnehmer aber auch weiterhin zur Verfügung.<br />

Im Anschluss daran folgt die zweite Phase der Einarbeitung, die ebenfalls zehn<br />

Minuten in Anspruch nimmt und am Computer erfolgt. Der Teilnehmer befindet<br />

sich nun auf der Startseite der KI.BOX, die in Abbildung 3 dargestellt wird:<br />

Abbildung 3: Startseite der KI.BOX.<br />

82


Der computergestützte <strong>Postkorb</strong> KI.BOX<br />

Oben im Bild befinden sich nochmals kurze Hinweise zur Bearbeitung, die der<br />

Teilnehmer schon aus der schriftlichen Instruktion kennt. Links befinden sich die<br />

Symbole für die Bearbeitungsbereiche der KI.BOX „Posteingang“, „Excel<br />

(Tabellen)“, Kalender Messeplanung“, „Prioritäten für heute“ und darunter<br />

„Startseite und Hilfe“, worüber der Teilnehmer immer wieder zur Startseite<br />

zurückkommen kann. Die späteren Bearbeitungsbereiche sind in der<br />

Einarbeitungsphase noch nicht frei geschaltet. Ganz unten ist die Zeitleiste zu<br />

erkennen, die jeweils während der Einarbeitungs- sowie der Bearbeitungszeit<br />

von links nach rechts ansteigt. Durch Klicken auf diesen Balken wird dem<br />

Teilnehmer Aufschluss darüber gegeben, wie viel Zeit ihm noch bleibt. In der<br />

Mitte der Startseite findet sich unter der Überschrift „Ihre Aufgabe“ nochmals<br />

eine kurze Zusammenfassung der Aufgabe aus der schriftlichen Instruktion.<br />

Darunter finden sich Hilfe zur „Navigation“ im Programm und seiner Bedienung.<br />

Durch Klicken auf die Links, die windows-typisch durch eine blaue Schrift und<br />

die Unterstreichung auch als solche gekennzeichnet sind, gelangt man zu<br />

weiterführenden Erläuterungen zu den vier Bearbeitungsbereichen. Abbildung 4<br />

zeigt exemplarisch die Erläuterung für den Bereich Posteingang:<br />

Abbildung 4: Erläuterungsseite zum Posteingang der KI.BOX<br />

83


Der computergestützte <strong>Postkorb</strong> KI.BOX<br />

Die zweigeteilte umfassende Einarbeitungszeit wurde realisiert, um auch<br />

computerunerfahrenen Teilnehmern die Handhabung des Programms maximal<br />

zu erleichtern und ihnen durch ein erstes „Herumklicken“ die Möglichkeit zu<br />

geben, bestehende Anfangsnervosität, die ihre tatsächlichen Leistungen<br />

beeinflussen könnte, abzubauen. Sind die zehn Minuten verstrichen, erscheint<br />

ein Popup-Fenster mit dem Text „Ihre Vorbereitungszeit ist vorbei“. Erst wenn<br />

dann in diesem Popup auf einen Button mit der Aufschrift „Bearbeitung jetzt<br />

starten“ geklickt wird, starten die 60 Minuten der Bearbeitungszeit des<br />

Teilnehmers und damit die Leistungserfassung.<br />

3.3 Durchführung<br />

Der Teilnehmer wird in die Rolle eines Projektleiters hineinversetzt, der einen<br />

Messeauftritt bei einer in sechs Wochen anstehenden Absolventenmesse<br />

planen soll. Dies ist eine typische Aufgabe, wie sie auf Trainees oder<br />

Nachwuchsführungskräfte in der Praxis auch zukommen könnte. In der<br />

Rahmenhandlung ist es früher Morgen, der Teilnehmer hat gerade seinen<br />

Computer eingeschaltet. Bevor er seinen nächsten Termin wahrnehmen kann,<br />

muss er noch seinen <strong>Postkorb</strong> bearbeiten. Dieser besteht aus den vier<br />

Aufgabenbereichen Posteingang für E-Mails, Excel-Tabellen, dem Kalender für<br />

die Messeplanung und einer Prioritätenliste für den aktuellen Tag.<br />

Im Bereich Posteingang findet der Teilnehmer zunächst 18 E-Mails vor, weitere<br />

vier treffen im Verlauf der Bearbeitungszeit ein. Diese neuen Mails enthalten<br />

teilweise Informationen, ohne die einige Probleme aus den bereits vorhandenen<br />

E-Mails nicht korrekt lösbar sind und dadurch ein schnelles Umdenken<br />

erfordern. Mit dieser Form der Dynamik soll, wie auch in den zuvor<br />

dargestellten Postkörben, eine höhere Realitätsnähe erzeugt werden. Damit<br />

orientiert sich die KI.BOX am PC-<strong>Postkorb</strong> „Seeblick“, da ein noch höheres Maß<br />

an Störungen, wie es bei der Mailbox’90 gegeben ist, die<br />

Durchführungsobjektivität zu stark beeinflussen könnte (siehe Kapitel 2.4.3.1).<br />

Um die Realitätsnähe zusätzlich zu erhöhen, wurden die E-Mails personalisiert.<br />

Das bedeutet, dass in den Anreden und Texten der Mails der Teilnehmer nicht<br />

nur als „Projektleiter“ oder „Herr/Frau XY“ angeredet wird, sondern automatisch<br />

84


Der computergestützte <strong>Postkorb</strong> KI.BOX<br />

der tatsächliche Name des Teilnehmers eingefügt wird, den er zu Beginn der<br />

Instruktionsphase in einem Fenster eingetragen hat. Abbildung 5 zeigt<br />

beispielhaft den Bildschirm bei der Bearbeitung einer E-Mail im Posteingang:<br />

Abbildung 5: Posteingang der KI.BOX. Angezeigt wird E-Mail 12, oben blau unterlegt.<br />

Links im Bild befinden sich wieder die Navigations-Icons zu den anderen<br />

Aufgabenbereichen, ganz unten ist die Zeitleiste zu erkennen. Oben befindet<br />

sich die Übersicht über die E-Mails, in der man hoch- und runterscrollen oder<br />

das Übersichtsfenster auch bei Bedarf vergrößern kann. Auch kann man die<br />

Mails nach Markierung, Message-Nummer, dem Absender und dem Betreff<br />

ordnen. In der Spalte für die Markierung hat der Teilnehmer die Möglichkeit, für<br />

jede Mail bestimmte Icons anzeigen zu lassen, z.B. ein Ausrufezeichen für<br />

besonders wichtige oder ein Papierkorb für besonders unwichtige E-Mails.<br />

Diese Markierung dient lediglich als Übersichtshilfe für den Teilnehmer und wird<br />

nicht bewertet. Unter dieser Übersicht über die Mails findet der Teilnehmer in<br />

der Mitte des Bildschirms den Inhalt der jeweils angewählten Mail (in der<br />

Abbildung: E-Mail 12, oben blau hinterlegt). Dieser Inhalt kann Text, Tabellen<br />

oder Diagramme beinhalten. Wenn der Teilnehmer die E-Mails durchgeht, stellt<br />

85


Der computergestützte <strong>Postkorb</strong> KI.BOX<br />

er fest, dass manche davon nur Informationen enthalten, andere eine Aufgabe<br />

beinhalten und wieder andere keine wichtigen Informationen vermitteln. In der<br />

oben abgebildeten E-Mail soll die Aufgabe gelöst werden, dass aus sechs<br />

verfügbaren Restaurants eines ausgewählt werden soll, an dem das Team am<br />

letzten Messetag sein Abschlussessen zu sich nimmt. Dazu muss der<br />

Teilnehmer Hinweise beachten, welche Restaurants welche Menus anbieten,<br />

um die Vorgaben einzuhalten. Unten im Bildschirm sind in blauen und weißen<br />

Balken die Lösungsmöglichkeiten auszuwählen, in diesem Fall die sechs<br />

Restaurants. In anderen E-Mails ist etwa die Reaktion auf die jeweilige Mail<br />

anzugeben, z.B. an wen man den Vorgang delegieren will. Des Weiteren soll<br />

der Teilnehmer in anderen Mails beispielsweise errechnete Geldbeträge über<br />

die Tastatur eingeben oder aus mehreren Aussagen zu einem Thema die<br />

zutreffenden markieren. Hierbei ist zu beachten, dass bei der Konzeption der<br />

einzelnen E-Mails in der KI.BOX auch Items aus verschiedenen Intelligenz- und<br />

Bürotests implementiert wurden.<br />

Bei der Bearbeitung einiger Aufgaben in den Mails ist es nötig, dass der<br />

Teilnehmer Informationen aus vier zur Verfügung stehenden Excel-Tabellen<br />

selektiert. In Abbildung 6 wird eine der Tabellen dargestellt.<br />

Abbildung 6: Excel-Funktion der KI.BOX. Angezeigt wird Tabelle 4, oben blau unterlegt.<br />

86


Der computergestützte <strong>Postkorb</strong> KI.BOX<br />

Die vier Tabellen dienen lediglich zur Information, aktiv bearbeitet werden<br />

müssen sie nicht. Zum schnelleren Finden der gesuchten Information hat der<br />

Teilnehmer aber die Möglichkeit, wie im gängigen Microsoft Excel die Spalten<br />

jeweils an- oder absteigend zu ordnen und sogar Spalten zu verschieben, um<br />

bestimmte Daten besser vergleichen zu können. Diese Tipps zum Umgang mit<br />

den Tabellen finden sich auch in den Erläuterungen, die über die Startseite<br />

abzurufen sind. Der Einsatz von Tabellen im Stil von Microsoft Excel wird<br />

aufgrund ihrer universellen Verständlichkeit auch von anderen Testautoren im<br />

Rahmen von computergestützten Postkörben empfohlen (Pearson et al., 2006)<br />

Aus manchen Mails ergeben sich darüber hinaus mögliche Termine für die zwei<br />

Messetage, die der Teilnehmer festzulegen hat. Möchte er einen Termin<br />

wahrnehmen, wechselt er über die linke Navigationsleiste in den Kalender, der<br />

in Abbildung 7 abgebildet ist:<br />

Abbildung 7: Kalender der KI.BOX. Zu bearbeiten sind die zwei Messtage, jeweils von 9 bis 20<br />

Uhr. Die Dauer der Termine wird automatisch als Größe der weißen Kästen festgesetzt.<br />

Über den Button „Neuer Eintrag“ oben im Bildschirm kann der Teilnehmer aus<br />

allen möglichen Terminen denjenigen auswählen, welchen er anlegen möchte.<br />

Zu beachten ist, dass auch hier Wichtiges von Unwichtigem selektiert werden<br />

87


Der computergestützte <strong>Postkorb</strong> KI.BOX<br />

muss. Die weißen Terminblöcke können dann im Kalender an die beliebige<br />

Stelle geschoben oder auch wieder gelöscht werden. Auch mehrere Termine<br />

gleichzeitig sind möglich, wie in der Abbildung am ersten Messetag um 10 und<br />

16 Uhr zu erkennen ist. Auch der Kalender folgt dabei dem Leitmotiv einer<br />

möglichst einfachen Handhabung und orientiert sich an windows-basierten,<br />

gängigen Designs.<br />

Der vierte Aufgabenbereich ist die Prioritätenliste, die in Abbildung 8 gezeigt<br />

wird.<br />

Abbildung 8: Prioritätenliste der KI.BOX<br />

Hierbei soll der Teilnehmer aus 24 Tätigkeiten die fünf anklicken, die er am<br />

heutigen Tage unbedingt noch erledigen muss. Die Tätigkeiten sowie die<br />

Information, welche davon am wichtigsten sind, ergeben sich aus den E-Mails.<br />

Über die ganze Bearbeitungszeit hinweg hat der Teilnehmer daher die<br />

Möglichkeit, Veränderungen an seinen Prioritäten vorzunehmen. Nur die fünf,<br />

die am Ende der Bearbeitungszeit ausgewählt sind, gehen in die Punktwertung<br />

mit ein.<br />

88


Der computergestützte <strong>Postkorb</strong> KI.BOX<br />

3.4 Erfasste Kriterien<br />

Die standardmäßig von der KI.BOX erfassten Kriterien sind Analytische<br />

Fähigkeiten und Organisatorisch-konzeptionelle Fähigkeiten.<br />

Das Kriterium Analytische Fähigkeiten wird in der KI.BOX als eine kognitive<br />

Kompetenz operationalisiert. Sie umfasst ein analytisches Vorgehen, das<br />

Erkennen von komplexen Zusammenhängen sowie die Ableitung richtiger<br />

Schlussfolgerungen. Der Teilnehmer wird dahingehend bewertet, wie korrekt<br />

und zügig er intellektuell anspruchsvolle Aufgabenstellungen sowie<br />

Mathematische Probleme löst. In dieses Kriterium gehen also<br />

Intelligenzkonzepte wie deduktives und induktives Denken ein sowie die<br />

Fähigkeit, sich schnell in neue Problemfelder einzuarbeiten, diese in ihrer<br />

Komplexität zu durchdringen und daraufhin Ideen zu entwickeln.<br />

Das Kriterium Organisatorisch-konzeptionelle Fähigkeiten wird nicht als primär<br />

kognitive Kompetenz operationalisiert, sondern im Vordergrund steht hier die<br />

Art der Herangehensweise an komplexe Situationen. Daher wird das<br />

Antwortverhalten des Teilnehmers dahingehend bewertet, ob es ihm gelingt,<br />

vernetzte und sinnvolle Lösungen zu entwickeln. Unter anderem werden hier<br />

eine logische Priorisierung von Aufgaben und eine umsetzbare Zeitplanung<br />

berücksichtigt. Es soll also die Fähigkeit zu einem ganzheitlichen<br />

systematischen Denken und die Strukturierung in der Bearbeitung komplexer<br />

Problemstellungen sowie ein geplantes Vorgehen erfasst werden.<br />

Je nach Kundenbedarf kann auch das Kriterium Entscheidungs- und<br />

Delegationskompetenz hinzugefügt werden. Dazu werden die von der KI.BOX<br />

zusätzlich erfassten Prozessvariablen der Lösungswege ausgewertet. Dieses<br />

zusätzliche Kriterium soll in dieser Arbeit jedoch nicht weiter untersucht werden.<br />

3.5 Auswertung<br />

Die Auswertung erfolgt bei der KI.BOX ausschließlich automatisch über ein<br />

beiliegendes Reporting-Tool. Dieses ist für den Anwender übersichtlich<br />

gestaltet und sehr leicht zu bedienen. Die Übersicht über die Ergebnisse erfolgt<br />

dabei in drei unterschiedlich stark differenzierten Darstellungsweisen.<br />

89


Der computergestützte <strong>Postkorb</strong> KI.BOX<br />

Das erste Fenster der Ergebnisausgabe wird in Abbildung 9 dargestellt. Dieser<br />

Ergebnisbericht bietet weiterhin die Möglichkeit eines individuellen Brandings,<br />

d.h. dass Labels und Logos des Kunden einzufügen sind, um besonders die<br />

erste Seite kundenspezifisch ausdrucken und als Gutachten(-vorlage)<br />

verwenden zu können. Um die Anonymität der Testperson zu gewährleisten,<br />

wurde der Name jeweils geschwärzt.<br />

Abbildung 9: automatisch generierter Ergebnisbericht des KI.BOX Reporters<br />

Statt schwer zu interpretierender fertiger Textgutachten wie bei PC-Office<br />

(siehe Kapitel 2.4.3.2) gibt dieser Bericht zunächst tabellarisch den Namen, das<br />

Alter und das Geschlecht der Testperson an, anschließend wird im Absatz zum<br />

Hintergrund kurz der Anlass der Testung (beispielsweise „Im Kontext des<br />

Auswahltages am 23.05.2008“) sowie die in der KI.BOX gestellte Aufgabe des<br />

Teilnehmers zusammengefasst. Darunter wird eine Operationalisierung der<br />

erfassten Kriterien gegeben, um die Transparenz bei jeder Auswertung zu<br />

gewährleisten. Unten im Bild erfolgt dann die Darstellung der Ergebnisse, und<br />

zwar in einer Form, die den Beurteilungslisten der Unternehmensberatung „kibit<br />

GmbH“ entspricht und somit direkt ins gesamte AC-Ergebnis integriert werden<br />

kann. Das bedeutet, dass sowohl für Analytische Fähigkeiten als auch<br />

Organisatorisch-Konzeptionelle Fähigkeiten eine Ausprägung angegeben wird,<br />

die einer sechsstufigen Skala entspricht. Ein dreifaches Minus ergibt den<br />

90


Der computergestützte <strong>Postkorb</strong> KI.BOX<br />

quantitativen Ausprägungsgrad von null, ein dreifaches Plus entspräche dem<br />

höchstmöglichen Wert von fünf. Diese Darstellungsweise wurde auch<br />

deswegen gewählt, weil sie für den ungeschulten Beurteiler anschaulicher<br />

erscheint als ein bloßer Zahlenwert.<br />

Wie sich die beiden Werte zusammensetzen zeigt das das zweite Fenster der<br />

Ergebnisdarstellung, die Auswertung. Diese wird in Abbildung 10 gezeigt.<br />

Abbildung 10: Auswertungstabelle des KI.BOX Reporters<br />

Für die beiden Kriterien werden die Plus- und Minuspunkte errechnet, die sich<br />

jeweils aus den richtig oder falsch beantworteten Aufgaben der E-Mails, der<br />

Kalendereinträge und der Prioritätenliste ergeben. Zusätzlich gibt es Angaben<br />

über Anzahl der beantworteten Items sowie über die maximal zu erreichenden<br />

Punkte. Dabei ist zu beachten, dass die Zahl der beantworteten Items wie in der<br />

Abbildung höher sein kann als die maximale Punktzahl, was daran liegt, dass<br />

es für manche Items auch halbe Punkte gibt (siehe unten). Weiter rechts lassen<br />

sich die entsprechenden Kennwerte ablesen, d.h. die Differenz aus Plus- und<br />

Minuspunkten, die Differenz aus Minus- und Pluspunkten, der Quotient aus<br />

Plus- und Minuspunkten und der Quotient aus Minus- und Pluspunkten. Da sich<br />

diese Kennwerte weitgehend entsprechen, wurde in der vorliegenden Arbeit<br />

lediglich der Kennwert Differenz aus Plus- und Minuspunkten zur Validierung<br />

verwendet. Aus diesen Kennwerten wird automatisch die Ausprägung der<br />

beiden Kriterien errechnet, wie sie auf der ersten Seite des Ergebnisberichtes<br />

angezeigt werden. Die Festlegung der Ausprägungsbereiche, d.h. welcher Wert<br />

welche Kriteriumsausprägung darstellt, beruht einerseits auf<br />

Voruntersuchungen an über 70 Hochschulabsolventen im Rahmen von Trainee-<br />

Auswahlverfahren einer deutschen Versicherungsgesellschaft, zum anderen auf<br />

einem vorher festgesetzten Vertrauensbereich (siehe Kapitel 2.1.3). Damit greift<br />

die Zuordnung der Verhaltensleistung zu den Testwerten sowohl Merkmale der<br />

klassischen Testtheorie sowie der kriteriumsorientierten Leistungsmessung auf<br />

91


Der computergestützte <strong>Postkorb</strong> KI.BOX<br />

(siehe Kapitel 2.1).<br />

Im dritten Fenster der Ergebnisausgabe sind schließlich die Rohwerte zu<br />

sehen. Das heißt, dass jede Antwortmöglichkeit einer E-Mail, jeder mögliche<br />

Kalendereintrag und jede mögliche Priorität in einer Zeile aufgelistet werden,<br />

und angegeben wird, ob die Bearbeitung des einzelnen Items einen Pluspunkt<br />

(Item wurde richtigerweise bearbeitet und korrekt gelöst) oder einen Minuspunkt<br />

(Item wurde fälschlicherweise bearbeitet oder richtigerweise bearbeitet und<br />

nicht korrekt gelöst) einbringt. Abbildung 11 macht diese Darstellung deutlich.<br />

Abbildung 11: Darstellung der Rohwerte im KI.BOX-Reporter<br />

Durch diese Darstellungsweise ergibt sich eine offen gelegte Musterlösung, wie<br />

sie in den zuvor dargestellten Postkörben häufig fehlt. Zu jedem Item wird<br />

zudem angegeben, ob es in die Berechnung zum Kennwert für die Analytischen<br />

Fähigkeiten oder für die Organisatorisch-konzeptionellen Fähigkeiten eingeht.<br />

Die Transparenz des Auswertungs-Reporters der KI.BOX kann daher als sehr<br />

hoch eingestuft werden.<br />

Nachdem die KI.BOX als Gegenstand dieser Arbeit nun ausführlich dargestellt<br />

wurde, sollen im folgenden Kapitel die Fragestellung und Hypothesen der<br />

vorliegenden Untersuchung verdeutlicht werden.<br />

92


Fragestellung und Hypothesen<br />

4 Fragestellung und Hypothesen<br />

Das Ziel der vorliegenden Arbeit ist es, Aussagen über die diagnostische Güte<br />

des computergestützten <strong>Postkorb</strong>es KI.BOX treffen zu können. Deshalb wurden<br />

aufbauend auf dem theoretischen Hintergrund Hypothesen deduktiv aus der<br />

Theorie abgeleitet und anhand des empirisch erhobenen Datensatzes überprüft<br />

(Hussy & Jain, 2002). Die Hypothesen wurden a priori formuliert und theoretisch<br />

und/oder empirisch begründet, so dass keine α-Fehler-Korrektur erforderlich ist<br />

(Bortz & Döring, 2002).<br />

Im Folgenden werden die Hypothesen zur Validitätsprüfung der KI.BOX (4.1),<br />

zu potenziellen Unterschieden in der <strong>Postkorb</strong>-Leistung durch<br />

Computerkenntnisse (4.2), zur Wirkung von Reihenfolgeeffekten beim Einsatz<br />

der KI.BOX innerhalb einer Sequenz von Tests und/oder Übungen (4.3) und zu<br />

den Auswirkungen der demographischen Daten auf die Ergebnisse der KI.BOX<br />

(4.4) präsentiert. Es wurde a priori ein Signifikanzniveau von α=5% als<br />

Falsifikationskriterium zur Widerlegung der Forschungshypothesen festgelegt<br />

(Bortz & Döring, 2002). Aussagen, die eine Überschreitungswahrscheinlichkeit<br />

(p) kleiner oder gleich 5% angeben, gelten als signifikant, Angaben kleiner oder<br />

gleich 1% als hoch signifikant.<br />

4.1 Hypothesen zur Validitätsprüfung<br />

Die Validierung eines neu entwickelten Verfahrens erfolgt generell anhand der<br />

Gütekriterien der jeweils entsprechenden testtheoretischen Grundlagen. Da es<br />

sich bei der KI.BOX um eine <strong>Postkorb</strong>-Übung und somit eine Mischform aus<br />

kognitivem Fähigkeitstest und situativer Arbeitsprobe handelt (Höft, 2003),<br />

müssen hier sowohl Aspekte der klassischen Testtheorie (siehe Kapitel 2.1.1),<br />

besonders aber der kriteriumsorientierten Leistungsmessung (siehe Kapitel<br />

2.1.3) berücksichtigt werden. Neben den demographischen Daten sind also<br />

besonders Aspekte der Objektivität, Reliabilität und Validität sowie bestimmte<br />

Nebengütekriterien zu überprüfen (siehe Kapitel 2.1).<br />

Zur Objektivität der KI.BOX kann entsprechend den Annahmen anderer<br />

computergestützter Postkörbe, besonders des im Aufbau ähnlichen PC-<br />

93


Fragestellung und Hypothesen<br />

<strong>Postkorb</strong>s „Seeblick“ (siehe Kapitel 2.4.3.3) von maximaler Durchführungs- und<br />

Auswertungsobjektivität ausgegangen werden, da der Ablauf vollkommen durch<br />

das Programm gesteuert wird, unabhängig von anderen Teilnehmern und<br />

Beobachtern erfolgt und entgegen einer zu hohen Dynamik bei der Mailbox’90<br />

(siehe Kapitel 2.4.3.1) bei der KI.BOX durch die neu eintreffenden E-Mails nicht<br />

von einer Störung der Durchführungsobjektivität ausgegangen werden muss<br />

(siehe Kapitel 7.1.1). Die Interpretationsobjektivität gilt nach Lienert (1969) als<br />

vollkommen gegeben, wenn die Testauswertung einen numerischen Wert<br />

liefert, der die Position eines Probanden innerhalb einer Testskala angibt. Auch<br />

dies geschieht automatisch durch das beiliegende Reporting-Tool, so dass die<br />

Objektivität der KI.BOX in allen Punkten als maximal gegeben angesehen<br />

werden kann und in dieser Arbeit keiner weiteren Überprüfung mehr bedarf.<br />

Die Überprüfung der Reliabilität gestaltet sich bei einem situativen <strong>Postkorb</strong> mit<br />

untereinander vernetzten Items sehr schwierig (siehe Kapitel 2.1.3). Nach<br />

Schuler (1996) gelten die Split-Half-Methode sowie die Konsistenzanalyse<br />

(siehe Kapitel 2.1.1.2) bei solchen Verfahren als ungeeignet, und bei Retestund<br />

Paralleltest-Methoden sind zu starke Übungseffekte zu erwarten. Generell<br />

ist nach Klauer (1987) noch unklar, was man genau unter der Reliabilität eines<br />

kriteriumsorientierten Tests zu verstehen hat. Für den <strong>Postkorb</strong> kann aber bei<br />

einer möglichst hohen Objektivität davon ausgegangen werden, dass auch die<br />

Reliabilität hoch ist (siehe Kapitel 2.3.5.3). Aus diesem Grund soll die<br />

Bestimmung der Reliabilität der KI.BOX in der vorliegenden Arbeit keine weitere<br />

Berücksichtigung finden, da andere Aspekte, besonders die der Validität, für<br />

eine erste Validierungsstudie zu diesem Verfahren wichtiger erscheinen.<br />

Hauptanliegen der vorliegenden Arbeit ist daher die Bestimmung der Validität<br />

der KI.BOX (siehe Kapitel 2.1.3). Nach Klauer (1987) und Fricke (1974)<br />

bestimmt sich ein kriteriumsorientierter Test hauptsächlich über seine<br />

Inhaltsvalidität, neueren Ansichten von Schuler (1996) und Obermann (2006)<br />

zufolge steht jedoch besonders die Kriteriumsvalidität im Vordergrund. Der<br />

Konstruktvalidität kommt in diesem Zusammenhang nur eine untergeordnete<br />

Bedeutung zu (Obermann, 2006), weswegen sie in dieser Arbeit nicht weiter<br />

untersucht werden soll.<br />

Die Inhaltsvalidität von Postkörben wird oft mit der hohen Augenscheinvalidität<br />

94


Fragestellung und Hypothesen<br />

des Verfahrens begründet (siehe Kapitel 2.1.1.3). Dass diese bei besonders<br />

realistisch gestalten Verfahren gegeben ist, die beispielsweise windows-basiert<br />

und an gängige E-Mail-Clients angelehnt sind und durch ein bestimmtes Maß<br />

an Dynamik sehr realistisch wirken, wurde bereits dargestellt (siehe Kapitel<br />

2.2.5.6, 2.3.5.4, 2.4.1.1, 2.4.3.3). Zudem basiert die Konzeption der KI.BOX<br />

jeweils auf einer unternehmensspezifischen Anforderungsanalyse, an welche<br />

das Verfahren angepasst werden kann. Da für die Inhaltsvalidität kein<br />

numerischer Kennwert berechnet wird, kann diese für die KI.BOX aufgrund der<br />

oben stehenden Ausführungen als ausreichend vorhanden angenommen<br />

werden.<br />

Im Vordergrund dieser Untersuchung soll demnach die Bestimmung der<br />

Kriteriumsvalidität stehen (siehe Kapitel 2.1.1.3). Sie wird ermittelt durch einen<br />

Vergleich von Testscore und Kriterien-Score, d.h. es werden<br />

Korrelationskoeffizienten für den Zusammenhang von den empirisch<br />

gemessenen KI.BOX-Ergebnissen und den Messungen der für sinnvoll<br />

gehaltenen Kriterien bestimmt und ihre Signifikanz geprüft (Fisseni, 1990). Bei<br />

der vorliegenden Untersuchung handelt es sich um eine Querschnittstudie unter<br />

Laborbedingungen, so dass die Bestimmung der Vorhersagevalidität als Aspekt<br />

der Kriteriumsvalidität nicht möglich ist, da aufgrund der Neuheit der KI.BOX<br />

zum gegenwärtigen Zeitpunkt noch keine Leistungsindikatoren des weiteren<br />

Berufserfolgs erfasst werden können. Wie in Validierungsstudien generell<br />

üblich, wird daher die Übereinstimmungsvalidität als Teilbereich der<br />

Kriteriumsvalidität überprüft, wobei vom Testscore auf das Verhalten außerhalb<br />

der Testsituation geschlossen werden soll (Lienert, 1969). Zu diesem Zweck<br />

wurden in der vorliegenden Untersuchung sowohl innere wie äußere Kriterien<br />

realisiert. Als äußere Kriterien wurden die Abiturnote sowie die letzten<br />

Schulnoten in Deutsch und Mathematik herangezogen (siehe Kapitel 5.2.4). Die<br />

Abiturdurchschnittsnote gilt unter anderem laut Studien von Schmidt-Atzert<br />

(2006) als guter Prädiktor für zukünftigen Berufserfolg, weshalb hier ein<br />

positiver Zusammenhang zu den KI.BOX-Ergebnissen angenommen wird<br />

(Hypothese A.1). Gleiches soll für die letzte Schulnote in Deutsch gelten<br />

(Hypothese A.2), die besonders hinsichtlich des Studienerfolges in Geistes- und<br />

Humanwissenschaften hohe prognostische Güte aufweist (Baron-Boldt,<br />

95


Fragestellung und Hypothesen<br />

Schuler, Funke, 1988). Der letzten Schulnote in Mathematik werden<br />

prognostische Qualitäten besonders für analytische Fähigkeiten bescheinigt. Da<br />

außerdem im Kriterium Analytische Fähigkeiten der KI.BOX auch rechnerische<br />

Probleme zu lösen sind, soll die Hypothese einen hohen Zusammenhang von<br />

der Mathematiknote und diesem Kriterium postulieren (Hypothese A.3). Als<br />

weiteres äußeres Kriterium werden Selbsteinschätzungen (siehe Kapitel 5.2.5)<br />

über die beiden Dimensionen der KI.BOX erfasst. Da den Studenten eine<br />

gewisse Fähigkeit zur Selbstreflexion zugesprochen wird, wird erwartet, dass<br />

die Ergebnisse mit den KI.BOX-Leistungen korrelieren (Hypothesen A.4 und<br />

A.5). Als innere Kriterien wurden der Gesamttestwert (Hypothese A.6) sowie im<br />

speziellen das Grundmodul (Hypothese A.7) und das Postmodul (Hypothese<br />

A.8) der AZUBI-BK (siehe Kapitel 5.2.1) eingesetzt, welche ähnliche<br />

Dimensionen wie die KI.BOX messen. Aufgrund dieser Kriteriennähe werden<br />

hier hohe Zusammenhänge zu den KI.BOX-Leistungen postuliert, ebenso<br />

bezüglich der Bearbeitungsgeschwindigkeit in beiden Tests (Hypothese A.9).<br />

Zudem wurde die Subskala zur Gewissenhaftigkeit aus dem BIP (siehe Kapitel<br />

5.2.2) verwendet. Da es in der KI.BOX von großer Bedeutung ist, über sechzig<br />

Minuten hinweg konzentriert und detailgenau zu arbeiten, wird hier ebenfalls ein<br />

positiver Zusammenhang zu den beiden Kriterien angenommen (Hypothesen<br />

A.10 und A.11). Somit werden folgende Hypothesen formuliert:<br />

• Hypothese A1: Es besteht ein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX und der<br />

Abiturnote der Probanden.<br />

• Hypothese A2: Es besteht ein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX und der letzten<br />

Schulnote in Deutsch.<br />

• Hypothese A3: Es besteht ein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX zu den<br />

analytischen Fähigkeiten und der letzten Schulnote in Mathematik.<br />

• Hypothese A4: Es besteht ein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX zu den<br />

analytischen Fähigkeiten und der Selbsteinschätzung der Probanden<br />

hinsichtlich ihrer analytischen Fähigkeiten.<br />

96


Fragestellung und Hypothesen<br />

• Hypothese A5: Es besteht ein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX zu den<br />

organisatorisch-konzeptionellen Fähigkeiten und der Selbsteinschätzung<br />

der Probanden hinsichtlich ihrer organisatorisch-konzeptionellen<br />

Fähigkeiten.<br />

• Hypothese A6: Es besteht ein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX und dem<br />

Gesamttestwert der AZUBI-BK.<br />

• Hypothese A7: Es besteht ein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX zu den<br />

analytischen Fähigkeiten und den Ergebnissen des Grundmoduls der<br />

AZUBI-BK.<br />

• Hypothese A8: Es besteht ein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX zu den<br />

organisatorisch-konzeptionellen Fähigkeiten und den Ergebnissen des<br />

Postmoduls der AZUBI-BK.<br />

• Hypothese A9: Es besteht ein statistisch signifikanter positiver<br />

Zusammenhang zwischen der Anzahl der bearbeiteten Items der KI.BOX<br />

und der Bearbeitungsgeschwindigkeit der AZUBI-BK.<br />

• Hypothese A10: Es besteht ein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX zu den<br />

Analytischen Fähigkeiten und dem Wert der Subskala zur<br />

Gewissenhaftigkeit aus dem BIP.<br />

• Hypothese A11: Es besteht ein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX zu den<br />

Organisatorisch-konzeptionellen Fähigkeiten und dem Wert der Subskala<br />

zur Gewissenhaftigkeit aus dem BIP.<br />

Die in Kapitel 2.1.1.4 dargestellten Nebengütekriterien Normierung,<br />

Vergleichbarkeit, Ökonomie und Nützlichkeit (Lienert, 1969) werden in der<br />

vorliegenden Arbeit nicht empirisch untersucht. Auf sie wird explorativ in Kapitel<br />

7 eingegangen.<br />

97


Fragestellung und Hypothesen<br />

4.2 Hypothesen zum Zusammenhang von Computererfahrung und<br />

Leistung in der KI.BOX<br />

Wie in Kapitel 2.4.2 herausgestellt wurde, kann die Performance eines<br />

Teilnehmers bei computergestützten AC-Übungen durch das Ausmaß seiner<br />

Kenntnisse im Umgang mit Computern sowie der Softwareergonomie des<br />

Verfahrens beeinflusst werden. Sofern die Fertigkeiten im Umgang mit<br />

Computern kein im Anforderungsprofil festgelegtes Messkriterium des<br />

Verfahrens sind, müssen derartige Verzerrungen unbedingt minimiert werden,<br />

um gültige Leistungsaussagen aus den Ergebnissen ableiten zu können.<br />

Die KI.BOX wurde so konzipiert, dass computererfahrene Teilnehmer keinen<br />

Vorteil gegenüber Computer-Laien haben sollen. Bezüglich der<br />

Softwareergonomie wurde versucht, den Vorgaben von Kleinmann und Strauß<br />

(1995) nach einem der Allgemeinheit bekannten Design Folge zu leisten.<br />

Ähnlich wie der PC-<strong>Postkorb</strong> „Seeblick“ (siehe Kapitel 2.4.3.3) lässt sich die<br />

KI.BOX wie gängige E-Mail- und Organizer-Programme bedienen. Die<br />

Softwareergonomie der KI.BOX lässt sich demnach als hoch bewerten.<br />

Zum Interaktionsproblem (Kleinmann & Strauß, 1995), also zu<br />

Leistungsverzerrungen, die durch den Umgang mit dem Computer durch<br />

mangelnde Kenntnisse über Hard- und Software entstehen können, wurden<br />

während der Entwicklungsphase der KI.BOX immer wieder Usability-Tests an<br />

Mitarbeitern der „kibit GmbH“ durchgeführt. Obwohl daher davon ausgegangen<br />

werden kann, dass die Bedienung des Programms nach der zweiteiligen<br />

Instruktion (siehe Kapitel 3.2) auch computerunerfahrenen Teilnehmern klar<br />

verständlich wird, wird dieser Aspekt in der vorliegenden Arbeit zusätzlich<br />

überprüft.<br />

Zu diesem Zweck wurden zwei an der Universität zu Köln entwickelte<br />

Fragebögen eingesetzt, der SUCA (Fragebogen zur Sicherheit im Umgang mit<br />

Computern und Computeranwendungen) und der VECA (Fragebogen zur<br />

Vertrautheit mit verschiedenen Computeranwendungen), bei denen es sich um<br />

Selbsteinschätzungsfragebögen handelt (Richter, Naumann & Groeben, 2001;<br />

siehe Kapitel 5.2.3). Aus dem VECA werden zudem drei Items gesondert<br />

überprüft, von denen angenommen wird, dass sie für die Bearbeitung der<br />

KI.BOX besonders bedeutsam sind: „Vertrautheit im Umgang mit<br />

98


Fragestellung und Hypothesen<br />

Textverarbeitung“, „Vertrautheit im Umgang mit E-Mail“ und „Vertrautheit im<br />

Umgang mit Terminplanungsprogrammen“. Die Ergebnisse der beiden<br />

Fragebögen sowie der drei Items aus dem VECA werden zur<br />

Hypothesenprüfung mit den KI.BOX-Ergebnissen korreliert. Aufgrund der<br />

sorgfältigen Konstruktion der KI.BOX, der ausführlichen Instruktion, nach der<br />

auch unerfahrenen Teilnehmern die Handhabung von Hard- und Software<br />

deutlich werden sollte, und der hohen Softwareergonomie der KI.BOX wird<br />

erwartet, dass die Kenntnisse im Umgang mit Computern und<br />

Computeranwendungen, erfasst durch SUCA (Hypothese B.1) und VECA<br />

(Hypothese B.2 und Hypothesen B.3, B.4 und B.5 zu den drei gesondert<br />

untersuchten Items des VECA), keinen signifikanten Zusammenhang mit den<br />

Ergebnissen in der KI.BOX aufweisen. Daher werden folgende Hypothesen<br />

überprüft:<br />

• Hypothese B1: Es besteht kein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX und dem<br />

Ergebnis des SUCA.<br />

• Hypothese B2: Es besteht kein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX und dem<br />

Ergebnis des VECA.<br />

• Hypothese B3: Es besteht kein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX und dem<br />

Ergebnis des Items „Vertrautheit im Umgang mit Textverarbeitung“ des<br />

VECA.<br />

• Hypothese B4: Es besteht kein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX und dem<br />

Ergebnis des Items „Vertrautheit im Umgang mit E-Mails“ des VECA.<br />

• Hypothese B5: Es besteht kein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX und dem<br />

Ergebnis des Items „Vertrautheit im Umgang mit<br />

Terminplanungsprogrammen“ des VECA.<br />

99


Fragestellung und Hypothesen<br />

4.3 Hypothese zur Wirkung von Reihenfolgeeffekten<br />

Wie in Kapitel 2.2.4 herausgestellt wurde, wird aus den wenigen zu diesem<br />

Thema publizierten Studien gefolgert, dass Reihenfolgeeffekte, die durch die<br />

Positionierung einer Übung im AC-Verlauf entstehen können, die Leistungen<br />

eines Teilnehmers nicht verzerren. Die vorliegende wissenschaftliche<br />

Befundlage wird jedoch insgesamt als zu gering betrachtet. Zudem raten<br />

sowohl Nienaber (1997) als auch Fruhner (2005), die jeweils Studien zu dieser<br />

Fragestellung betrieben haben, zu weiteren Untersuchungen. Aus diesem<br />

Grund soll dieser Aspekt in der vorliegenden Arbeit berücksichtigt werden, um<br />

Positionierungseffekte bei der KI.BOX identifizieren zu können.<br />

Dazu wurde eine experimentelle Variation der Versuchsbedingung „Reihenfolge<br />

der Verfahren“ realisiert, um herauszufinden, ob sich die Ergebnisse<br />

unterscheiden, wenn die Teilnehmer in der ersten Gruppe zuerst die KI.BOX<br />

und dann die AZUBI-BK oder in der zweiten Gruppe zuerst die AZUBI-BK und<br />

dann die KI.BOX bearbeiten (siehe Kapitel 5.3). Gruppe 1 bestand aus n=36<br />

Teilnehmern, Gruppe 2 aus n=33 Probanden. Die Teilnehmer wurden den<br />

Gruppen zufällig zugeteilt. Die potenziellen Gruppenunterschiede hinsichtlich<br />

der Leistung in der KI.BOX werden mittels T-Test für unabhängige Stichproben<br />

untersucht. Aufgrund der in Kapitel 2.2.4 dargestellten theoretischen<br />

Annahmen, die dafür sprechen, dass keine Reihenfolgeeffekte durch die<br />

Positionierung der Einzelverfahren entstehen, wird erwartet, dass die<br />

Reihenfolge der Bearbeitung keinen Einfluss auf die Ergebnisse in der KI.BOX<br />

hat.<br />

• Hypothese C1: Es besteht kein statistisch signifikanter Unterschied<br />

zwischen den Testwerten der KI.BOX in der Versuchsbedingung 1<br />

(Bearbeitung von KI.BOX, dann AZUBI-BK) und der Versuchsbedingung<br />

2 (Bearbeitung von AZUBI-BK, dann KI.BOX).<br />

1 0 0


Fragestellung und Hypothesen<br />

4.4 Hypothesen zum Zusammenhang der demographischen Daten<br />

und Leistung in der KI.BOX<br />

Zusätzlich zu den bisher aufgeführten Aspekten soll überprüft werden, ob die<br />

demographischen Daten eines Teilnehmers Einfluss auf die Ergebnisse der<br />

KI.BOX haben. In den bisherigen Forschungen, gerade zu klassischen<br />

Postkörben, liegen diesbezüglich unterschiedliche Ergebnisse vor (siehe Kapitel<br />

2.3.5.1). So fanden Thornton und Byham (1982) eine negative Korrelation von<br />

<strong>Postkorb</strong>ergebnissen und Alter, Untersuchungen zu den Bonner <strong>Postkorb</strong><br />

Modulen ergaben jedoch keinen Zusammenhang, weder zum Alter noch zum<br />

Geschlecht (Höft, 2003). Nach Meyer (1970) korreliert das <strong>Postkorb</strong>ergebnis<br />

zudem hoch mit der Bildung der Teilnehmer, mit der Berufserfahrung jedoch<br />

nicht.<br />

Aus diesem Grund wird in der vorliegenden Untersuchung die Auswirkung des<br />

Geschlechts, des Alters, des Studienfachs, der Semesteranzahl, der<br />

Deutschkenntnisse und der bisherigen Berufserfahrung der Teilnehmer erfasst.<br />

Basierend auf den neueren Studien von Höft (2003) wird angenommen, dass<br />

bzgl. des Geschlechtes (Hypothese D.1) und Alters (Hypothese D.2) kein<br />

Zusammenhang zu den <strong>Postkorb</strong>ergebnissen besteht. Da Postkörbe in vielen<br />

Assessment Centern zu verschiedensten Berufsgruppen eingesetzt werden,<br />

sollten sich Studenten verschiedener Studienfächer auch nicht signifikant in<br />

ihren Ergebnissen unterscheiden (Hypothese D.3). Die Bildung wird in der<br />

vorliegenden Untersuchung operationalisiert durch die in den Hypothesen A1<br />

bis A3 schon erfassten äußeren Kriterien Abiturnote und letzte Schulnoten in<br />

Deutsch und Mathematik. Zusätzlich wird bei den demographischen Daten noch<br />

die Semesteranzahl hinzugenommen, unter der Annahme, dass mit<br />

fortlaufender Semesterzahl mehr Bildung erreicht wird, was somit das <strong>Postkorb</strong>-<br />

Ergebnis beeinflussen kann. Entsprechend der Studie von Meyer (1970) wird<br />

also ein Zusammenhang der KI.BOX-Leistungen mit der Semesterzahl<br />

postuliert (Hypothese D.4). Bezüglich der Deutschkenntnisse wird kein<br />

Zusammenhang angenommen, da die Items des <strong>Postkorb</strong>es klar und für jeden<br />

durchschnittlich gut Deutsch sprechenden Teilnehmer leicht verständlich<br />

formuliert wurden (Hypothese D.5). Die bisherige Berufserfahrung sollte, wie<br />

1 0 1


Fragestellung und Hypothesen<br />

von Meyer (1970) festgestellt, ebenfalls keinen Einfluss auf <strong>Postkorb</strong>-Leistung<br />

ausüben (Hypothese D.6). Als Hypothesen werden also formuliert:<br />

• Hypothese D1: Es besteht kein statistisch signifikanter Unterschied<br />

zwischen Männern und Frauen in den Ergebnissen der KI.BOX.<br />

• Hypothese D2: Es besteht kein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX und dem Alter<br />

der Teilnehmer.<br />

• Hypothese D3: Es besteht kein statistisch signifikanter Unterschied<br />

zwischen Teilnehmern verschiedener Studienfächer in den Ergebnissen<br />

der KI.BOX.<br />

• Hypothese D4: Es besteht ein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX und der<br />

Semesteranzahl der Teilnehmer.<br />

• Hypothese D5: Es besteht kein statistisch signifikanter Unterschied<br />

zwischen Teilnehmern mit unterschiedlich guten Deutschkenntnissen in<br />

den Ergebnissen der KI.BOX.<br />

• Hypothese D6: Es besteht kein statistisch signifikanter Unterschied<br />

zwischen Teilnehmern mit verschieden viel Berufserfahrung in den<br />

Ergebnissen der KI.BOX.<br />

Anders als bei der Berufserfahrung wurden positive Zusammenhänge zwischen<br />

der Performance und Erfahrung mit Postkörben gefunden (siehe Kapitel 5.2.5).<br />

Zur Vorerfahrung mit Assessment Centern gibt es gegensätzliche Befunde. Die<br />

meisten Studien deuten aber darauf hin, dass Lerneffekte nur bei weiteren<br />

Interventionen wie einem ausführlichen Feedback durch die Beobachter und<br />

einem anschließenden Verhaltenstraining zu einer Steigerung der Leistungen<br />

führen (Obermann, 1994). Die Auswirkungen dieser Erfahrungen auf die<br />

Ergebnisse der KI.BOX sollen in dieser Untersuchung überprüft werden. Es<br />

wird also erwartet, dass es einen Zusammenhang zwischen Erfahrungen mit<br />

Postkörben und den Ergebnissen der KI.BOX gibt, so wie es durch Studien von<br />

Marggraf-Micheel, Höft und Bonnist (2004) belegt wird (Hypothesen D.7 und<br />

D.8). Bezüglich Erfahrungen mit Assessment Centern wird kein<br />

Zusammenhang angenommen (Hypothesen D.9 und D.10).<br />

1 0 2


Fragestellung und Hypothesen<br />

• Hypothese D7: Es besteht ein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX und dem<br />

theoretischen Wissen der Teilnehmer über <strong>Postkorb</strong>-Übungen.<br />

• Hypothese D8: Es besteht ein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX und der<br />

praktischen Erfahrung der Teilnehmer mit <strong>Postkorb</strong>-Übungen.<br />

• Hypothese D9: Es besteht kein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX und dem<br />

theoretischen Wissen der Teilnehmer über Assessment Center.<br />

• Hypothese D10: Es besteht kein statistisch signifikanter positiver<br />

Zusammenhang zwischen den Ergebnissen der KI.BOX und der<br />

praktischen Erfahrung der Teilnehmer mit Assessment Centern.<br />

1 0 3


Methodik<br />

5 Methodik<br />

Nachdem in den vorangegangenen Kapiteln eine theoretische Einordnung der<br />

Thematik sowie eine Beschreibung des Verfahrens KI.BOX und Darstellung der<br />

Fragestellung und Hypothesen der vorliegenden Arbeit erfolgt ist, soll<br />

nachfolgend das methodische Vorgehen der aktuellen Studie beschrieben<br />

werden. Zunächst wird die zu untersuchende Stichprobe (5.1) dargestellt.<br />

Hiernach folgt eine Übersicht über die in der Untersuchung verwendeten<br />

Verfahren und Prüfkriterien (5.2). Abschließend wird die<br />

Untersuchungsdurchführung (5.3) erläutert.<br />

5.1 Stichprobe<br />

Für die Stichprobengröße gibt Bortz (1993) einen Stichprobenumfang von n=68<br />

an, um mittlere Effekte (Korrelationen von über r=.30 bei α=.05 und β=.20)<br />

nachzuweisen. Um schwächere Effekte auszuweisen benötige man deutlich<br />

größere Stichproben (für r=.10 gilt n>=618), was aber die Grenzen der<br />

vorliegenden Untersuchung weit überschritten hätte. Aus diesem Grund wurde<br />

eine Stichprobengröße von n=69 realisiert und auf den Nachweis von<br />

schwächeren Effekten aus ökonomischen Gründen verzichtet.<br />

Um dennoch gültige Aussagen zur Validität des Verfahrens zu erhalten, sollte<br />

eine Stichprobe herangezogen werden, die das später zu testende Kollektiv<br />

möglichst gut widerspiegelt (Lienert, 1969). Da das KI.BOX-Verfahren<br />

vornehmlich zur Auswahl von Hochschulabsolventen eingesetzt werden soll, die<br />

sich auf Trainee-Stellen oder Führungspositionen auf unterer Führungsebene<br />

bewerben, wurde eine rein studentische Stichprobe gewählt, die sich aus<br />

unterschiedlichen Fachrichtungen, Semestern und bereits gesammelter<br />

Berufserfahrung zusammensetzte.<br />

Da es oft eine hohe Varianz bzgl. des Alters von Hochschulabsolventen gibt,<br />

wurde auch in der vorliegenden Untersuchung auf eine solche geachtet.<br />

Ebenso sollten Frauen und Männer in die Untersuchung mit einbezogen<br />

werden, um mögliche Geschlechtseffekte ausmachen zu können. Für eine<br />

detaillierte Aufstellung der demographischen Daten der Teilnehmer siehe<br />

Kapitel 6.1 und Anhang C.1.<br />

1 0 4


Methodik<br />

Die Teilnehmer der Studie wurden an der Universität zu Köln über Aushänge<br />

vor Ort sowie über Rundschreiben über diverse Verteiler der geistes- und<br />

wirtschaftwissenschaftlichen Fakultäten geworben. Für die Teilnahme an der<br />

Untersuchung wurden die Versuchspersonen mit Versuchspersonenstunden<br />

und Süßigkeiten entlohnt. Damit handelte es sich um eine angefallene<br />

Stichprobe (Hussy & Jain, 2002). Zudem wurde den Versuchspersonen ein<br />

ausführliches individuelles Feedback über ihre Leistungen in den einzelnen<br />

Tests in Aussicht gestellt. Damit sollten zumindest annähernd ähnliche<br />

Motivationsbedingungen hergestellt werden, wie sie in der realen<br />

Anwendungssituation der KI.BOX, nämlich im Rahmen eines Assessment<br />

Centers, ebenfalls gegeben sind. Laut Lerner und Tetlock (1999) erzeugt die<br />

Erwartung, dass das eigene Verhalten hinsichtlich eines Maßstabes beurteilt<br />

wird, eine so genannte „Accountability“, womit der soziale Druck gemeint ist,<br />

sein Verhalten verantworten zu müssen. Die unerwünschte Konsequenz<br />

daraus, in diesem Fall eine negative Bewertung über die eigenen Leistungen zu<br />

bekommen, gilt es durch Anpassung des eigenen Verhaltens, nämlich<br />

möglichst hohe Testergebnisse zu erzielen, zu vermeiden. Es wird also von<br />

einer hohen Motivation der Teilnehmer ausgegangen.<br />

5.2 Übersicht über die verwendeten Verfahren und Prüfkriterien<br />

Da es Hauptabsicht dieser Studie ist, einen potenziellen Zusammenhang<br />

zwischen den Messdimensionen der KI.BOX und entsprechenden bereits<br />

bewährten Maßen der kognitiven Leistungsfähigkeit nachzuweisen, wurden zu<br />

diesem Zweck verschiedene in der Eignungsdiagnostik übliche Verfahren sowie<br />

weitere geeignete Prüfkriterien herangezogen.<br />

Als inneres Validierungskriterium wurde die „Arbeitsprobe zur berufsbezogenen<br />

Intelligenz für büro- und kaufmännische Tätigkeiten“ oder kurz AZUBI-BK<br />

(5.2.1) verwendet, ebenso die Subskala zur Gewissenhaftigkeit aus dem<br />

Bochumer Inventar zur berufsbezogenen Persönlichkeitsbeschreibung (BIP)<br />

(5.2.2). Als externes Validierungskriterium wurde die Vertrautheit im Umgang<br />

mit Computern und Computeranwendungen (5.2.3) erhoben, ebenso wie die<br />

Abiturnote und die letzte Schulnote in Deutsch und Mathematik (5.2.4). Darüber<br />

1 0 5


Methodik<br />

hinaus wurden Selbsteinschätzungen über kognitive Leistungen,<br />

Vorerfahrungen mit Assessment Centern sowie Postkörben (5.2.5) und<br />

demographische Daten (5.2.6) erfragt.<br />

Auf diese Verfahren und Prüfkriterien wird im Folgenden näher eingegangen.<br />

Für eine detaillierte Beschreibung des computergestützten <strong>Postkorb</strong>es KI.BOX<br />

siehe Kapitel 3.<br />

5.2.1 AZUBI-BK<br />

Bei der AZUBI-BK, entwickelt von Schuler & Klingner (2005), handelt es sich<br />

um eine Arbeitsprobe zur berufsbezogenen Intelligenz für büro- und<br />

kaufmännische Tätigkeiten. Dieses Testkonzept vereint in sich sowohl<br />

Intelligenzkomponenten als auch Arbeitsproben (Konstruktansatz und<br />

Simulationsansatz, siehe Kapitel 2.3.3). Wie auch bei der KI.BOX wurden hier<br />

die Aufgaben vor dem theoretischen Hintergrund des Berliner<br />

Intelligenzstrukturmodells (siehe Jäger et al., 1997; Sarges & Wottawa, 2001)<br />

und nach Anforderungsanalysen für Büro- und kaufmännische Berufe<br />

konstruiert. Ziele der Testentwicklung waren neben den psychometrischen<br />

Kriterien zudem eine hohe Praktikabilität und Akzeptanz bei den Probanden.<br />

Die AZUBI-BK setzt sich aus zwei Modulen zusammen, dem Grundmodul und<br />

dem Postmodul, die verschiedene Schwerpunkte haben und einander<br />

ergänzen. Das Grundmodul umfasst acht Teilarbeitsproben, die separat das<br />

sprachliche Denken (Protokoll überarbeiten, Informationsschreiben korrigieren),<br />

rechnerisches Denken (Logistikfragen bearbeiten, Bilanzwerte vergleichen,<br />

Verkaufszahlen prognostizieren) und das Gedächtnis (Kurzzeit, Langzeit,<br />

unintentional) prüfen. Das Postmodul setzt sich aus vier Teilarbeitsproben zum<br />

Posteingang und Postausgang zusammen (Fax vervollständigen, E-Mails<br />

sortieren, Adressen prüfen und Porto berechnen) und misst vor allem das<br />

logische Herangehen an komplexe Aufgaben, die Bearbeitungsgeschwindigkeit<br />

und -genauigkeit sowie Konzentration und Gewissenhaftigkeit. Die Auswertung<br />

erfolgt mit Hilfe eines <strong>EDV</strong>-Programms, um die Objektivität zu sichern und<br />

Auswertungsfehler zu vermeiden.<br />

Die AZUBI-BK eignet sich nicht nur wegen der analog zur KI.BOX<br />

1 0 6


Methodik<br />

alltagsrelevanten Aufgaben und der damit immanenten hohen<br />

Augenscheinvalidität gut zur Verwendung in der vorliegenden Studie, auch die<br />

Anforderungen an wissenschaftliche Gütekriterien werden erfüllt. Die interne<br />

Konsistenz (Cronbachs Alpha) liegt laut den Autoren (Schuler & Klingner, 2005)<br />

bei α=.96, die Retestreliabilität bei rtt=.91. Auch die Validität ist den Autoren<br />

zufolge sehr hoch, da die AZUBI-BK mit dem Berliner Intelligenzstruktur-Test,<br />

Form 4 (BIS-4) zu .87 und mit dem Intelligenz-Struktur-Test (IST-70) zu .78<br />

korreliert. Zudem konnten hohe Zusammenhänge mit Leistungen in der<br />

Berufsschule (Korrelation zum IHK-Zwischenzeugnis =.68) und mit Berufserfolg<br />

(Korrelation zur Leistungsbeurteilung durch Vorgesetzte =.56) eruiert werden. In<br />

der Regressionsgleichung von AZUBI-BK und IST-70 kann die AZUBI-BK die<br />

Leistungsbeurteilung durch den Vorgesetzten vollständig vorhersagen, das<br />

Beta-Gewicht des IST-70 ist null. Somit kann die AZUBI-BK nicht nur als<br />

vollwertiger Intelligenztest angesehen werden, sondern weist darüber hinaus<br />

noch inkrementelle Validität bezüglich des Erfolgs in Büro- und kaufmännischen<br />

Berufen auf. Hinzu kommt, dass bereits eine umfangreiche Normierung von<br />

n=1966 stattgefunden hat. Aufgrund all dessen kann die AZUBI-BK als<br />

geeignetes inneres Validierungskriterium für die KI.BOX angesehen werden.<br />

5.2.2 BIP<br />

Verschiedenen Metaanalysen von Schmidt und Hunter (1998) zur Validität<br />

eignungsdiagnostischer Verfahren zufolge kann die Leistungsbeurteilung der<br />

Arbeit eines Probanden zu .31 durch Gewissenhaftigkeit aufgeklärt werden. Aus<br />

diesem Grund wurde die Subskala zur Gewissenhaftigkeit aus dem Bochumer<br />

Inventar zur berufsbezogenen Persönlichkeitsbeschreibung (Hossiep &<br />

Paschen, 1998) in die vorliegende Untersuchung mit aufgenommen. Das BIP ist<br />

speziell für Anwendungen im Personalmanagement entwickelt worden und ist<br />

ein Fragebogen mit Aussagen zur Selbsteinschätzung im beruflichen Kontext<br />

(Item-Beispiel: „Ich verwalte meine Unterlagen so, dass ich alles auf Anhieb<br />

wieder finde.“) Zur Beantwortung der Items steht eine sechsstufige<br />

Antwortskala zur Verfügung, die von „trifft voll zu“ bis „trifft überhaupt nicht zu“<br />

reicht (siehe Anhang B.2). Die Subskala zur Gewissenhaftigkeit ist eine von<br />

1 0 7


Methodik<br />

insgesamt 14 Dimensionen der persönlichen Eignungsvoraussetzung und<br />

besteht aus 14 Items, die mittels einer Schablone ausgewertet werden.<br />

Untersuchungen zur Validität des BIP haben gezeigt, dass es substanzielle<br />

Zusammenhänge der BIP-Skalen mit Merkmalen des beruflichen Erfolges und<br />

beruflicher Zufriedenheit gibt. (Hossiep & Paschen, 1998) Zusammenhänge<br />

zwischen BIP-Skalen und Einkommen, Hierarchiestufe oder beruflicher<br />

Zufriedenheit bewegen sich demnach auf einem Niveau von r=.41 bis .49. Mit<br />

der 2. Auflage des BIP können auch Validitätskennwerte zur Übereinstimmung<br />

mit grundlegenden persönlichkeitsorientierten Fragebogenverfahren, etwa dem<br />

NEO-Fünf-Faktoren-Inventar (NEO-FFI) von Borkenau und Ostendorf oder dem<br />

16-Persönlichkeits-Faktoren-Test in der revidierte Fassung (16 PF-R) von<br />

Schneewind und Graf vorgelegt werden. Die Kennwerte liegen für verwandte<br />

Konstrukte zwischen r = .54 und .84 (Hossiep, Paschen & Mühlhaus, 2003).<br />

Aus Kostengründen wird in der vorliegenden Studie jedoch weiterhin die erste<br />

Auflage verwendet, da sich diese nicht immens von der zweiten Auflage<br />

unterscheidet und als den Gütekriterien ausreichend entsprechend angesehen<br />

wird.<br />

5.2.3 SUCA / VECA<br />

Bei diesen beiden Fragebögen (vgl. Anhang B.3 und B.4) handelt es sich um<br />

zwei Teile eines Inventars zur Computerbildung, das von Dozenten und<br />

Studierenden der Geistes- und Sozialwissenschaften an der Universität zu Köln<br />

konzipiert wurde, und deren einzelne Fragebögen auch getrennt voneinander<br />

eingesetzt werden können (Richter, Naumann & Groeben, 2001).<br />

Mit dem SUCA wird zunächst ein Fragebogen zur Sicherheit im Umgang mit<br />

Computern und Computeranwendungen eingesetzt. Dessen<br />

Selbsteinschätzungsskala enthält elf Aussagen, die als Kompetenzerwartungen<br />

im Umgang mit Computern formuliert sind (Beispiel: „Die Verwendung<br />

unbekannter Software-Programme kann ich schnell erlernen.“) und auf einer<br />

fünfstufigen Skala hinsichtlich ihres Zutreffens eingeschätzt werden (-2=„trifft<br />

nicht zu“ bis +2=„trifft zu“). Die Autoren schätzen den Fragebogen als<br />

ausreichend reliabel und valide zur Erfassung der Sicherheit im Umgang mit<br />

1 0 8


Methodik<br />

Computern und Computeranwendungen ein (Naumann, Richter & Groeben,<br />

2002).<br />

Auch der VECA, ein Fragebogen zur Vertrautheit mit verschiedenen<br />

Computeranwendungen, erfüllt alle Anforderungen an die Gütekriterien. In ihm<br />

sind zwölf Arten von Computeranwendungen aufgelistet (Beispiel:<br />

„Textverarbeitung“, „E-Mail“ oder „Terminplanungsprogramme“), bei denen<br />

beurteilt werden soll, wie vertraut man damit im Vergleich zu anderen<br />

Studentinnen und Studenten ist. Auch hier wird eine fünfstufige Skala zur<br />

Beurteilung herangezogen (-2=“weit unterdurchschnittlich“ bis +2=“weit<br />

überdurchschnittlich“).<br />

Da sowohl SUCA als auch VECA die Anforderungen an Validität und Reliabilität<br />

erfüllen, können sie als Verfahren zur Bestimmung der Sicherheit und<br />

Vertrautheit mit Computern und Computeranwendungen in dieser<br />

Untersuchung verwendet werden.<br />

5.2.4 Abiturnote und letzte Schulnoten in Deutsch und Mathematik<br />

Schulische Leistungen, gemessen mittels Schulnoten, gelten gemeinhin als<br />

gute Prädiktoren hinsichtlich des Studien -und Berufserfolgs. Eine Metaanalyse<br />

von Baron-Boldt, Schuler und Funke (1988) basierend auf Studien, welche im<br />

deutschsprachigen Raum durchgeführt wurden, berichtet von einem r=.46<br />

bezüglich der Vorhersagekraft von Abiturnoten für den Studienerfolg über alle<br />

Studienfächer hinweg. Der Zusammenhang von Abiturnote und Studienerfolg in<br />

den Wirtschaftswissenschaften wurde sogar mit r=.56 ausgewiesen. Für den<br />

Zusammenhang von einzelne Schulabschlussnoten in Fächern wie Mathematik<br />

oder Deutsch und dem Ausbildungserfolg konnte die Metaanalyse immer noch<br />

Korrelationen von bis zu r=.34 nachweisen. Den Abschlussnoten in Mathematik<br />

werden prognostische Qualitäten besonders für den Erfolg in analytischen<br />

Tätigkeiten bescheinigt.<br />

Auch Schmidt-Atzert (2006) bescheinigt in einer aktuellen Studie der Abiturnote<br />

eine hohe prognostische Validität. An der Universität Marburg untersuchte er<br />

den Zusammenhang von Abiturnote und Studienerfolg, operationalisiert durch<br />

die Vordiplomnoten von 106 Studierenden im Diplomstudiengang Psychologie<br />

1 0 9


Methodik<br />

im Wintersemester 2002/03. Es wurde gezeigt, dass die Vordiplomnote mit<br />

r=.37 durch die Abiturnote vorhersagbar war.<br />

Die Ergebnisse dieser beiden Studien sollen genügen, um die Abiturnote sowie<br />

die letzte Schulnote in Deutsch und in Mathematik als äußere<br />

Validierungskriterien in die vorliegende Untersuchung mit aufzunehmen. Erfragt<br />

werden sie im Rahmen eines demographischen Fragebogens (siehe Kap.<br />

5.2.6.). Die Abiturnote und die letzte Schulnote in Deutsch sollen mit beiden<br />

Kriterien der KI.BOX korreliert werden, da die Abiturnote auch ein allgemeines,<br />

unterschiedliche Bereiche erfassenden Leistungsindiz ist und die Fähigkeit, die<br />

deutsche Sprache zu beherrschen, für jede textgebundene Testart in allen<br />

Bereichen von Bedeutung ist. Die letzte Schulnote in Mathematik soll mit dem<br />

KI.BOX-Kriterium Analytische Fähigkeiten korreliert werden, da das Lösen<br />

mathematischer Problemstellungen in dieses Kriterium mit eingeht<br />

5.2.5 Selbsteinschätzung und Vorerfahrung<br />

Des Weiteren findet ein Fragebogen Verwendung, der die Selbsteinschätzung<br />

der Probanden bezüglich der in der KI.BOX erfassten Dimensionen und die<br />

Vorerfahrung mit Assessment Centern und speziell Postkörben erfragt. In<br />

Ermangelung eines validierten Instruments zur Erfassung dieser Kriterien und<br />

aus ökonomischen Gründen wurden intuitiv, aber unter Berücksichtigung<br />

entsprechender Fachliteratur sieben Items konstruiert, die jeweils anhand einer<br />

sechsstufigen Skala beurteilt werden sollten (vgl. Anhang B.5).<br />

Nach Bandura (1997) sind Selbstwirksamkeitserwartungen einer Person keine<br />

stabile Persönlichkeitsdisposition, sondern beinhalten eine Gruppe<br />

differenzierter Selbsteinschätzungen, die sich hinsichtlich verschiedener<br />

Funktionsbereiche unterscheiden. Die Erfassung einer globalen<br />

Selbstwirksamkeit hätte daher nur einen geringen Validierungswert für die<br />

vorliegende Studie. Stattdessen empfiehlt es sich, die Selbsteinschätzung einer<br />

Person aufgabenspezifisch zu erfassen (Bandura, 2006). Im verwendeten<br />

Fragebogen sollen die Probanden daher ihre analytischen Fähigkeiten sowie<br />

ihre organisatorisch-konzeptionellen Fähigkeiten im Vergleich zu anderen<br />

Studierenden anhand einer sechsstufigen Skala bewerten. Die Skala reicht<br />

1 1 0


Methodik<br />

dabei von „unterdurchschnittlich“ bis „überdurchschnittlich“.<br />

Die Frage, ob Vorerfahrung mit Assessment Centern einen Einfluss auf die<br />

Leistungen im AC und deren Übungen hat, wird in der aktuellen Forschung<br />

nicht ausreichend geklärt. Obermann (1994) fand heraus, dass die reine<br />

Wiederholung von AC-Simulationen ohne weitere Interventionen wie einem<br />

ausführlichen Feedback durch die Beobachter zu keiner Steigerung der<br />

Leistungen führt. Kelbetz und Schuler (2002) wiederum folgerten aus ihren<br />

Studien, dass Assessment Center sehr wohl übungsanfällig sind, da sie für den<br />

Übungsgewinn mittlere Effektstärken von d=.41 aufzeigen konnten. Marggraf-<br />

Micheel, Höft und Bonnist (2004) bestätigten diese Ergebnisse mit einer<br />

gefundenen Effektstärke von d=.45. Weiterhin belegten sie, dass insbesondere<br />

bei <strong>Postkorb</strong>-Übungen durch vage Tipps keine Lerneffekte erreicht werden, bei<br />

einem Training mit Verhaltenshinweisen jedoch mittlere bis hohe Effekte von<br />

d=.42 bis sogar .99. Aus diesem Grund soll sowohl die theoretische als auch<br />

praktische Vorerfahrung mit Postkörben und Assessment Center im<br />

Allgemeinen durch Selbstauskünfte in der vorliegenden Untersuchung ermittelt<br />

werden. Ebenso wird nach genereller Erfahrung mit kaufmännischen<br />

Tätigkeiten oder Büroarbeit gefragt. Die Items sind jeweils als Aussagen<br />

formuliert und die sechsstufige Beurteilungsskala reicht in diesem Fall von „trifft<br />

gar nicht zu“ bis „trifft vollkommen zu“.<br />

5.2.6 Demographischer Fragebogen<br />

Zur Erfassung der demographischen und weiterer möglichen<br />

untersuchungsrelevanter Kontrollvariablen wird ein eigens konzipierter<br />

Fragebogen (vgl. Anhang B.6) eingesetzt. Darin werden Alter, Geschlecht,<br />

Studienfach, Semesteranzahl, Deutschkenntnisse und bisherige<br />

Berufserfahrung der Probanden erfasst. Darüber hinaus werden Abitur-<br />

Durchschnitt und die letzte Schulnote in Deutsch und Mathematik erfragt (vgl.<br />

Kap.5.2.4.). Außerdem kann angekreuzt werden, ob ein schriftliches Feedback<br />

über die erzielten Ergebnisse in der KI.BOX und der AZUBI-BK gewünscht ist.<br />

(siehe Kapitel 5.1)<br />

1 1 1


Methodik<br />

5.3 Durchführung der Untersuchung<br />

Die Untersuchung wurde im Zeitraum vom 10. Dezember 2007 bis 25. Januar<br />

2008 mit Studenten verschiedener Studiengänge (siehe Kapitel 5.1) an der<br />

Universität zu Köln durchgeführt, wobei zwischen dem 21. Dezember 2007 und<br />

07. Januar 2008 aufgrund der Feiertage keine Testungen möglich waren. Um<br />

mögliche Störvariablen zu kontrollieren, fanden alle Untersuchungen im selben<br />

Laborraum statt, der <strong>EDV</strong>-<strong>Postkorb</strong> KI.BOX wurde jeweils an drei baugleichen<br />

Laptops bearbeitet und alle Testungen wurden vom selben Versuchsleiter<br />

durchgeführt. Da der zur Verfügung gestellte Untersuchungsraum nur drei<br />

Arbeitsplätze hatte und auch nur ebenso viele Laptops desselben Typs<br />

bereitgestellt werden konnten, war die Anzahl der Probanden pro Testung auf<br />

höchstens drei beschränkt. Erschwerend hinzu kamen einige Ausfälle und<br />

Verschiebungen seitens der Versuchspersonen kurz vor den Weihnachtsferien,<br />

so dass im Januar noch Zusatztermine vereinbart werden mussten, um die<br />

nötige Probandenzahl nicht zu unterschreiten. Im Folgenden werden Struktur<br />

und Ablauf der Durchführung genauer beschrieben.<br />

Zu Beginn wurde den Versuchspersonen ein kurzer Überblick über die nun<br />

folgende Untersuchung gegeben, um Transparenz und Akzeptanz zu schaffen.<br />

Allerdings wurden keine Details, beispielsweise über die einzelnen Teile des<br />

Fragebogens zum Ende der Untersuchung, preisgegeben. Außerdem wurde<br />

erneut darauf hingewiesen, dass sie auf Wunsch ein individuelles, aber<br />

schriftliches Feedback über ihre Testleistungen im Anschluss an die<br />

Datenerhebung erhalten könnten (siehe Kapitel 5.1).<br />

Der Untersuchungsplan sah eine experimentelle Variation der unabhängigen<br />

Variablen „Reihenfolge der Verfahren“ vor (siehe Kapitel 2.2.4, 4.3). Aus<br />

diesem Grund wurden die Probanden randomisiert zwei Gruppen zugeteilt<br />

(Hussy & Jain, 2002). Gruppe A bearbeitete zuerst die KI.BOX an je einem<br />

Laptop pro Versuchsperson, was inklusive Instruktion und Einarbeitungszeit<br />

etwa 80 Minuten dauerte. Nach einer Pause von 20 Minuten, in der die Technik<br />

vom Versuchsleiter abgebaut wurde, bearbeiteten die Versuchspersonen das<br />

Grundmodul der AZUBI-BK als Paper-Pencil-Verfahren, was etwa 60 Minuten in<br />

Anspruch nahm. Nach einer weiteren etwa zehnminütigen Pause wurde mit<br />

dem Postmodul der AZUBI-BK fortgefahren, was weitere 30 Minuten dauerte.<br />

1 1 2


Methodik<br />

Es folgte eine letzte zehnminütige Pause, nach der die Versuchspersonen die<br />

Subskala zur Gewissenhaftigkeit aus dem BIP, den SUCA und VECA, den<br />

Fragebogen zu Selbsteinschätzungen und Vorerfahrungen sowie den<br />

demographischen Fragebogen, der auch die Frage nach den Abitur- und<br />

Schulnoten beinhaltete, ausfüllen sollten. Diese einzelnen Fragebögen wurden<br />

den Probanden der Ökonomie halber in zusammengehefteter Form in der oben<br />

beschriebenen Reihenfolge als ein einziger Fragebogen mit verschiedenen<br />

Unterteilen vorgelegt. Dessen Bearbeitung lag zwischen 10 und 20 Minuten, so<br />

dass die gesamte Untersuchung ca. vier Stunden dauerte. Bei Gruppe B wurde<br />

die Reihenfolge von KI.BOX und AZUBI-BK vertauscht, d.h. die Probanden<br />

starteten mit dem Grundmodul der AZUBI-BK, machten eine zwanzigminütige<br />

Pause, bearbeiteten das Postmodul und dann nach einer weiteren Pause die<br />

KI.BOX auf dem Laptop. Auch bei Gruppe B wurden die übrigen Fragebögen<br />

erst zum Ende der Untersuchung ausgeteilt, um Hypothesenbildung und andere<br />

Verzerrungseffekte zu vermeiden. Die Dauer der Untersuchung war bei beiden<br />

Gruppen identisch. Die Abfolge der Untersuchungseinheiten wird zusätzlich in<br />

Abbildung 12 veranschaulicht:<br />

Abbildung 12: Ablauf der Untersuchung.<br />

1 1 3


Methodik<br />

Gruppe A umfasste 36 Probanden (27 Frauen, 9 Männer), das<br />

Durchschnittsalter lag bei 25 Jahren. Gruppe B bestand aus 33<br />

Versuchspersonen (25 Frauen, 8 Männer) mit einem Durchschnittsalter von 26<br />

Jahren. Die Zuordnung der Probanden zu den Bedingungen der unabhängigen<br />

Variablen erfolgte per Zufall.<br />

5.4 Zusammenfassung<br />

Die vorliegende Validierungsstudie der KI.BOX wird an einer Stichprobe von 69<br />

Studenten der Geistes- und Wirtschaftswissenschaften der Universität zu Köln<br />

durchgeführt.<br />

Zur inneren Validierung wird die AZUBI-BK verwendet, ebenso wie die<br />

Subskala zur Gewissenhaftigkeit aus dem BIP. Als äußere Kriterien werden die<br />

Abiturnote und die letzte Schulnote in Deutsch und Mathematik erhoben, zudem<br />

Selbsteinschätzungen über eigene kognitive Leistungen. Außerdem werden<br />

zwei Fragebögen verwendet, die Vertrautheit mit Computern und<br />

Computeranwendungen (SUCA und VECA) erfassen. Die Vorerfahrung mit<br />

Assessment Centern und Postkörbe sowie demographische Daten der<br />

Teilnehmer werden ebenfalls untersucht.<br />

Die Untersuchung wird von Dezember 2007 und Januar 2008 durchgeführt mit<br />

höchstens drei Probanden pro Testung. Zu Beginn wird den Versuchspersonen<br />

eine kurze Einführung mit Hinweis auf das zu erwartende Feedback gegeben,<br />

anschließend wird entsprechend der experimentellen Variation zur Identifikation<br />

möglicher Reihenfolgeeffekte je nach Gruppenzuweisung zuerst die KI.BOX<br />

oder AZUBI-BK bearbeitet, danach das jeweils andere Verfahren. In beiden<br />

Gruppen wird zuletzt der Fragebogen, bestehend aus BIP-Subskala, SUCA und<br />

VECA, den Selbsteinschätzungen und den personenbezogenen Daten<br />

ausgefüllt.<br />

1 1 4


Ergebnisse<br />

6 Ergebnisse<br />

In diesem Kapitel werden die Ergebnisse der Untersuchung dargestellt.<br />

Nachdem die Daten in das <strong>EDV</strong>-Programm SPSS eingegeben und einer<br />

Prüfung auf mögliche Fehlerquellen unterzogen worden waren, fungierte die<br />

Datenmatrix als Grundlage für die statistischen Berechnungen. Zum Auftakt<br />

werden die deskriptiven Ergebnisse der Stichprobe vorgestellt (6.1), bevor im<br />

Folgenden die Ergebnisse der Hypothesenprüfung dargestellt werden (6.2 bis<br />

6.5). Die berechneten Daten werden aus Gründen der Übersichtlichkeit bis auf<br />

zwei Nachkommastellen gekürzt (Bortz & Döring, 2002). Im Anhang C.1 bis C.4<br />

sind zudem die wichtigsten Ergebnisse in Tabellenform hinterlegt, so dass<br />

sowohl die Nachvollziehbarkeit der statistischen Rechnungen als auch eine<br />

Replikation gewährleistet sind.<br />

6.1 Deskriptive Statistik<br />

Wie in Kapitel 5.1 bereits beschrieben, nahmen n=69 Studenten der Universität<br />

zu Köln an der Untersuchung teil. Das Durchschnittsalter der<br />

Versuchspersonen betrug 25,7 Jahre, der insgesamt erfasste Altersbereich lag<br />

zwischen 18 und 49 Jahren. Der Anteil der Frauen betrug 75,4% (n=52), der<br />

Anteil der männlichen Probanden 24,6% (n=17).<br />

Die Stichprobe bestand ausschließlich aus Studierenden der Universität zu Köln<br />

und setzte sich aus 90% (n=62) Psychologiestudenten zusammen, drei<br />

Studenten der Betriebswirtschaftslehre, zwei Soziologiestudenten, einem<br />

Studenten der Wirtschaftspsychologie und einem Studierenden der<br />

Landschaftsarchitektur. In dieser Stichprobe befanden sich 46% (n=32) im<br />

ersten Semester, 30% (n=21) im dritten Semester, 10% (n=7) im fünften<br />

Semester und weitere neun Studenten im sechsten bis vierzehnten Semester.<br />

67% (n=46) gaben an, bisher über keine Berufserfahrung zu verfügen, d.h.<br />

bisher weder eine Ausbildung noch ein Studium abgeschlossen zu haben.<br />

Weitere 16% (n=11) hatten vor ihrem aktuellen Studium bereits eine Ausbildung<br />

abgeschlossen, 13% (n=9) bereits ein anderes Studium. Auf einer<br />

sechsstufigen Selbsteinschätzungsskala bezüglich der eigenen Erfahrung mit<br />

1 1 5


Ergebnisse<br />

kaufmännischen Tätigkeiten oder Büroarbeit (siehe Kapitel 5.2.5) gaben 56%<br />

(n=39) an, bisher gar keine oder wenig Erfahrung in diesem Bereich gesammelt<br />

zu haben, 19% (n=13) verfügten der eigenen Einschätzung nach über mittlere<br />

Erfahrungswerte und 25% (n=17) gaben an, über viel bis sehr viel Erfahrung in<br />

diesem Tätigkeitsbereich zu verfügen. Für eine detaillierte tabellarische<br />

Aufstellung der demographischen Daten der Versuchspersonen siehe Anhang<br />

C.1.<br />

In Tabelle 4 werden die Stichprobenergebnisse in der KI.BOX dargestellt. Für<br />

die beiden erfassten Kriterien Analytische Fähigkeiten und Organisatorischkonzeptionelle<br />

Fähigkeiten werden jeweils die Mengenleistung und die Güte<br />

angegeben. Die Mengenleistung wird definiert durch die Anzahl der<br />

bearbeiteten Items zum jeweiligen Kriterium, unabhängig von der richtigen oder<br />

falschen Lösung dieses Items. Die Mengenleistung dient als Indiz für die<br />

Bearbeitungsgeschwindigkeit der Teilnehmer. Die Güte definiert sich über den<br />

erreichten Kennwert für das jeweilige Kriterium, welcher sich aus der Differenz<br />

von richtig und falsch gelösten Items zusammensetzt und somit auch im<br />

negativen Zahlenbereich liegen kann, wenn mehr Items falsch als richtig gelöst<br />

wurden (siehe Kapitel 3.5).<br />

Tabelle 4: Ergebnisse der KI.BOX<br />

N Minimum Maximum Mittelwert Standardabweichung<br />

Analyt. Fähigkeiten<br />

Mengenleistung<br />

Analyt. Fähigkeiten<br />

Güte<br />

Orga.-konzept. Fähigkeiten<br />

Mengenleistung<br />

Orga.-konzept. Fähigkeiten<br />

Güte<br />

69 0 17 8,71 3,6866<br />

69 -3 9 2,71 2,4441<br />

69 15 42 25,29 7,2398<br />

69 -31 13 -1,67 8,1411<br />

Bei den Analytischen Fähigkeiten betrug die durchschnittliche Mengenleistung<br />

8,71 bearbeitete Items. Der langsamste Teilnehmer beantwortete keines dieser<br />

Items, der produktivste Teilnehmer 17 Items. Die durchschnittliche Güte zu<br />

diesem Kriterium lag bei 2,71 Punkten. Der Teilnehmer mit dem niedrigsten<br />

Ergebnis erreichte -3 Punkte, zwei Teilnehmer erzielten mit 9 von maximal 15<br />

möglichen Punkten die Bestleistung in dieser Stichprobe.<br />

1 1 6


Ergebnisse<br />

Die durchschnittliche Mengenleistung bei den Organisatorisch-konzeptionellen<br />

Fähigkeiten betrug 25,29 bearbeitete Items. Vier Teilnehmer bearbeiteten mit<br />

15 die wenigsten, zwei Teilnehmer mit 42 die meisten Items. Die Tatsache,<br />

dass hier im Durchschnitt deutlich mehr Items als bei den Analytischen<br />

Fähigkeiten bearbeitet wurden, liegt daran, dass die Analytischen Fähigkeiten<br />

hauptsächlich durch weniger, jedoch zeitlich umfangreichere Items innerhalb<br />

der E-Mails getestet werden, während die Organisatorisch-konzeptionellen<br />

Fähigkeiten zudem noch in mehreren, dafür aber zeitlich kürzeren Items im<br />

Kalender und der Prioritätenliste erfasst werden. Bei der Güte zum Kriterium<br />

Organisatorisch-konzeptionelle Fähigkeiten lag der Mittelwert bei -1,67<br />

Punkten, ein Teilnehmer erreichte mit -31 Punkten das niedrigste, ein<br />

Teilnehmer mit 13 Punkten das höchste Ergebnis in dieser Stichprobe. Für eine<br />

detaillierte tabellarische Aufstellung der deskriptiven Statistik zu den beiden<br />

Kriterien siehe Anhang C.2.<br />

Die Verteilung der Leistungskennwerte bzw. der erzielten Punkte in der KI.BOX<br />

kann für beide erfasste Kriterien als normalverteilt angenommen werden.<br />

Abbildung 14 zeigt die Verteilung für das Kriterium Analytische Fähigkeiten:<br />

16<br />

14<br />

12<br />

Häufigkeit<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

-4<br />

-3<br />

-2<br />

-1<br />

1<br />

2<br />

3<br />

4<br />

5<br />

6<br />

7<br />

8<br />

9<br />

10<br />

11<br />

Analytische Fähigkeiten: Erzielte Punkte<br />

Abbildung 14: Verteilung der Häufigkeiten zu den erzielten Punkten bzgl. Analytischer<br />

Fähigkeiten<br />

1 1 7


Ergebnisse<br />

In Abbildung 14 wird die Verteilung für das Kriterium Organisatorischkonzeptionelle<br />

Fähigkeiten dargestellt:<br />

14<br />

12<br />

10<br />

Häufihkeiten<br />

8<br />

6<br />

4<br />

2<br />

0<br />

-33 -27 -21 -15 -9 -3<br />

-30 -24 -18 -12 -6<br />

0<br />

3<br />

6<br />

9<br />

15 21<br />

12 18 24<br />

Organisatorisch-konzeptionelle Fähigkeiten: Erzielte Punkte<br />

Abbildung 14: Verteilung der Häufigkeiten zu den erzielten Punkten bzgl. Organisatorischkonzeptioneller<br />

Fähigkeiten<br />

Die Ergebnisse dieser graphischen Überprüfung belegen in ausreichender<br />

Weise die gegebene Normalverteilung der Testkennwerte, so dass auf weitere<br />

statistische Überprüfungen verzichtet werden kann (Diehl & Kohr, 1999).<br />

Die nachfolgende Darstellung der Ergebnisse erfolgt in der Reihenfolge der in<br />

Kapitel 4 aufgestellten Hypothesen.<br />

6.2 Tests der Hypothesen zur Validitätsprüfung<br />

Die kriterienbezogene Validität wird nun durch den Bezug der empirisch<br />

erhobenen KI.BOX-Ergebnisse zu den zwei Messkriterien Analytische<br />

Fähigkeiten und Organisatorisch-konzeptionelle Fähigkeiten mit den<br />

beschriebenen äußeren und inneren Kriterienpunktwerten (siehe Kapitel 4.1,<br />

5.2) mithilfe der Pearson-Korrelation überprüft (Lienert, 1969).<br />

1 1 8


Ergebnisse<br />

Überprüfung der Hypothese A.1: Die Hypothese A.1 besagt, dass ein<br />

statistisch signifikanter positiver Zusammenhang zwischen den Ergebnissen der<br />

KI.BOX und der Abiturnote der Probanden bestehe. Die Abiturnote soll dabei<br />

gemäß dem theoretischen Hintergrund (siehe Kapitel 5.2.4) als äußeres<br />

Validierungskriterium gelten. Sie wurde im Rahmen des demographischen<br />

Fragebogens (siehe Kapitel 5.2.6) als Notendurchschnitt mit einer Kommastelle<br />

erfragt und für die statistische Untersuchung in das für das deutsche<br />

Schulsystem übliche 15 Punkte-System umgewandelt. Tabelle 5 zeigt das<br />

Ergebnis der statistischen Untersuchung:<br />

Tabelle 5: Korrelationen von Abiturnote und KI.BOX-Ergebnissen<br />

Abiturnote<br />

Analytische<br />

Fähigkeiten<br />

(KI.BOX)<br />

Organisatorischkonzeptionelle<br />

Fähigkeiten<br />

(KI.BOX)<br />

Korrelation nach Pearson -.08 -.04<br />

Signifikanz (2-seitig) .53 .76<br />

N 69 69<br />

Es zeigt sich, dass in der untersuchten Stichprobe die Abiturnoten der<br />

Teilnehmer entgegen der Annahme nicht mit den beiden Kriterien der KI.BOX<br />

korrelieren. Es werden sogar schwache negative Korrelationen für beide<br />

Kriterien von -.08 bzw. -.04 ermittelt. Auf mögliche Begründungen hierfür wird<br />

auf Kapitel 7 verwiesen. Aufgrund dieser Ergebnisse können jedoch für diese<br />

Stichprobe zunächst die theoretischen Annahmen nicht bestätigt werden, so<br />

dass die Hypothese A.1 abgelehnt werden muss.<br />

Überprüfung der Hypothese A.2: Die Hypothese A2 besagt, dass ein<br />

statistisch signifikanter positiver Zusammenhang zwischen den Ergebnissen der<br />

KI.BOX und der letzten Schulnote in Deutsch bestehe. Ebenso wie die<br />

Abiturnote gilt die letzte Schulnote in Deutsch als äußeres Validierungskriterium<br />

(siehe Kapitel 5.2.4). Sie wurde auch im Rahmen des demographischen<br />

Fragebogens erfasst und in das 15 Punkte-System umgewandelt. In Tabelle 6<br />

werden die Ergebnisse der statistischen Untersuchung veranschaulicht:<br />

1 1 9


Ergebnisse<br />

Tabelle 6: Korrelationen der letzten Schulnote in Deutsch und KI.BOX-Ergebnissen<br />

letzte<br />

Schulnote in<br />

Deutsch<br />

Analytische<br />

Fähigkeiten<br />

(KI.BOX)<br />

Organisatorischkonzeptionelle<br />

Fähigkeiten<br />

(KI.BOX)<br />

Korrelation nach Pearson -.05 -.05<br />

Signifikanz (2-seitig) .66 .69<br />

N 69 69<br />

Analog zu den Ergebnissen der Abiturnote zeigen sich auch hier nur schwache<br />

negative Zusammenhängen von jeweils -.05 zwischen der letzten Schulnote in<br />

Deutsch und den beiden Kriterien der KI.BOX der Teilnehmer in der<br />

untersuchten Stichprobe. Somit muss auch die Hypothese A.2 abgelehnt<br />

werden. Jedoch sei auch hierbei auf Kapitel 7 für mögliche Begründungen<br />

hingewiesen.<br />

Überprüfung der Hypothese A.3: Die Hypothese A3 besagt, dass ein<br />

statistisch signifikanter positiver Zusammenhang zwischen den Ergebnissen der<br />

KI.BOX zu den Analytischen Fähigkeiten und der letzten Schulnote in<br />

Mathematik bestehe. Auch hier gilt die letzte Schulnote in Mathematik als<br />

äußeres Validierungskriterium (siehe Kapitel 5.2.4). Sie wurde mit Hilfe des<br />

demographischen Fragebogens erfasst und in das 15 Punkte-System<br />

umgewandelt. Tabelle 7 stellt die Ergebnisse der statistischen Auswertung dar:<br />

Tabelle 7: Korrelationen der letzten Schulnote in Mathematik und KI.BOX-Ergebnissen im<br />

Kriterium Analytische Fähigkeiten<br />

Analytische<br />

Fähigkeiten<br />

(KI.BOX)<br />

letzte Korrelation nach Pearson .31**<br />

Schulnote in Signifikanz (2-seitig) .01<br />

Mathematik<br />

N 69<br />

** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />

Die statistische Auswertung zeigt einen hochsignifikanten Zusammenhang<br />

(p


Ergebnisse<br />

Teilnehmer im Kriterium Analytische Fähigkeiten der KI.BOX in dieser<br />

Stichprobe. Die mathematischen Fähigkeiten, hier operationalisiert durch die<br />

letzte Schulnote in Mathematik, können also nach der Bestimmung des<br />

Determinationskoeffizienten r 2 zu etwa 10% das Ergebnis im Kriterium<br />

Analytische Fähigkeiten in der KI.BOX erklären. Damit wird die Annahme der<br />

Hypothese A.3 bestätigt, so dass diese angenommen wird.<br />

Überprüfung der Hypothese A.4: Die Hypothese A4 besagt, dass ein<br />

statistisch signifikanter positiver Zusammenhang zwischen den Ergebnissen der<br />

KI.BOX zu den Analytischen Fähigkeiten und der Selbsteinschätzung der<br />

Probanden hinsichtlich ihrer analytischen Fähigkeiten im Vergleich zu anderen<br />

Studierenden bestehe. Die Selbsteinschätzung der Teilnehmer hinsichtlich ihrer<br />

Analytischen Fähigkeiten wurde anhand einer sechsstufigen Beurteilungsskala<br />

erhoben, welche von „unterdurchschnittlich“ bis „überdurchschnittlich“ reichte<br />

(siehe Kapitel 5.2.5). Die Selbsteinschätzung für diese Dimension dient als<br />

zusätzliches äußeres Validierungskriterium. Tabelle 8 zeigt das Ergebnis der<br />

Datenauswertung:<br />

Tabelle 8: Korrelationen von Selbsteinschätzungen der eigenen analytischen Fähigkeiten und<br />

KI.BOX-Ergebnissen im Kriterium Analytische Fähigkeiten<br />

Analytische<br />

Fähigkeiten<br />

(KI.BOX)<br />

Selbsteinschätzung der Korrelation nach Pearson .29*<br />

eigenen analytischen Signifikanz (2-seitig) .02<br />

Fähigkeiten<br />

N 69<br />

* Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.<br />

Es zeigt sich, dass zwischen der subjektiven Selbsteinschätzung der<br />

Teilnehmer über ihre eigenen analytischen Fähigkeiten und den KI.BOX-<br />

Ergebnissen im Kriterium Analytische Fähigkeiten ein signifikanter<br />

Zusammenhang von .29 besteht bei einem Signifikanzniveau von .05. Die<br />

Hypothese A.4 wird somit angenommen.<br />

1 2 1


Ergebnisse<br />

Überprüfung der Hypothese A.5: In Hypothese A.5 wurde postuliert, dass ein<br />

statistisch signifikanter positiver Zusammenhang zwischen den Ergebnissen der<br />

KI.BOX zu den Organisatorisch-konzeptionellen Fähigkeiten und der<br />

Selbsteinschätzung der Probanden hinsichtlich ihrer organisatorischkonzeptionellen<br />

Fähigkeiten bestehe. Auch hier wurde die Selbsteinschätzung<br />

durch eine sechsstufige Beurteilungsskala erhoben und sie dient ebenfalls als<br />

äußeres Validierungskriterium. In Tabelle 9 werden die Ergebnisse der<br />

statistischen Hypothesenprüfung dargelegt:<br />

Tabelle 9: Korrelationen von Selbsteinschätzungen der eigenen organisatorisch-konzeptionellen<br />

Fähigkeiten und KI.BOX-Ergebnissen im Kriterium Organisatorisch-konzeptionelle Fähigkeiten<br />

Selbsteinschätzung der<br />

eigenen orga.-konzept.<br />

Fähigkeiten<br />

Organisatorischkonzeptionelle<br />

Fähigkeiten<br />

(KI.BOX)<br />

Korrelation nach Pearson .14<br />

Signifikanz (2-seitig) .25<br />

N 69<br />

Entgegen der Annahmen konnte in der vorliegenden Untersuchung kein<br />

signifikanter Zusammenhang zwischen der Selbsteinschätzung der und den<br />

Ergebnissen zu den Organisatorisch-konzeptionellen Fähigkeiten gefunden<br />

werden. Die festgestellte Korrelation zeigt mit .14 zwar leichte Tendenzen in die<br />

angestrebte Richtung, kann aber einer Signifikanzprüfung nicht standhalten<br />

(siehe Kapitel 7.1). Die Hypothese A.5 muss also abgelehnt werden.<br />

Überprüfung der Hypothese A.6: Nachdem die Validierung anhand der<br />

beschriebenen äußeren Kriterien nur mittelmäßig erfolgreich war, werden nun<br />

die inneren Kriterien geprüft. In Hypothese A.6 wird angenommen, dass ein<br />

statistisch signifikanter positiver Zusammenhang zwischen den Ergebnissen der<br />

KI.BOX und dem Gesamttestwert der AZUBI-BK bestehe. Der Gesamttestwert<br />

wird, wie auch die anderen Kennwerte der AZUBI-BK, automatisch mit Hilfe<br />

eines Auswertungsprogramms generiert (siehe Kapitel 5.2.1). Tabelle 10 stellt<br />

die Ergebnisse der statistischen Untersuchung dar:<br />

1 2 2


Ergebnisse<br />

Tabelle 10: Korrelationen des Gesamttestwertes der AZUBI-BK und KI.BOX-Ergebnissen<br />

Analytische<br />

Fähigkeiten<br />

(KI.BOX)<br />

Organisatorischkonzeptionelle<br />

Fähigkeiten<br />

(KI.BOX)<br />

Korrelation nach Pearson .48** .52**<br />

AZUBI-BK<br />

Signifikanz (2-seitig) ,00 ,00<br />

Gesamttestwert<br />

N 69 69<br />

** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />

Die statistische Auswertung zeigt hochsignifikante Zusammenhänge von .48<br />

bzw. .52 zwischen dem Gesamttestwert der AZUBI-BK und sowohl den<br />

Analytischen Fähigkeiten als auch den Organisatorisch-konzeptionellen<br />

Fähigkeiten als Kriterien der KI.BOX. Da im Gesamttestwert der AZUBI-BK<br />

sowohl analytische als auch konzeptionelle Leistungsmerkmale verrechnet<br />

werden, ist dieses Ergebnis als besonders positiv zu bewerten. Die Hypothese<br />

A.6 wird demnach angenommen.<br />

Überprüfung der Hypothese A.7: In Hypothese A.7 wird die Behauptung<br />

aufgestellt, dass ein statistisch signifikanter positiver Zusammenhang zwischen<br />

den Ergebnissen der KI.BOX zu den Analytischen Fähigkeiten und den<br />

Ergebnissen des Grundmoduls der AZUBI-BK besteht. Da das Grundmodul der<br />

AZUBI-BK ähnliche Anforderungen erfassen soll wie die KI.BOX mit dieser<br />

Messdimension, gilt das Grundmodul als geeignetes inneres Kriterium. In<br />

Tabelle 11 wird das Ergebnis der Datenanalyse gezeigt:<br />

Tabelle 11: Korrelationen des Grundmoduls der AZUBI-BK und KI.BOX-Ergebnissen zum<br />

Kriterium Analytische Fähigkeiten<br />

Analytische<br />

Fähigkeiten<br />

(KI.BOX)<br />

Korrelation nach Pearson .44**<br />

AZUBI-BK<br />

Signifikanz (2-seitig) .00<br />

Grundmodul<br />

N 69<br />

** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />

1 2 3


Ergebnisse<br />

Überprüfung der Hypothese A.8: Hypothese A.8 besagt, es bestehe ein<br />

statistisch signifikanter positiver Zusammenhang zwischen den Ergebnissen der<br />

KI.BOX zu den Organisatorisch-konzeptionellen Fähigkeiten und den<br />

Ergebnissen des Postmoduls der AZUBI-BK. Auch das Postmodul wurde als<br />

geeignetes inneres Validierungskriterium ausgewählt, da es ähnliche Aspekte<br />

erfasst wie die Messdimension Organisatorisch-konzeptionelle Fähigkeiten der<br />

KI.BOX. Das Ergebnis der statistischen Auswertung ist in Tabelle 12<br />

veranschaulicht:<br />

Tabelle 12: Korrelationen des Postmoduls der AZUBI-BK und KI.BOX-Ergebnissen zum<br />

Kriterium Organisatorisch-konzeptionelle Fähigkeiten<br />

Es wird deutlich, dass die Ergebnisse der Teilnehmer in dieser Stichprobe im<br />

Grundmodul der AZUBI-BK hochsignifikant zu .44 mit den Ergebnissen in der<br />

KI.BOX zu den Analytischen Fähigkeiten korrelieren. Der<br />

Determinationkoeffizient r 2 besagt demnach, dass 19% der Varianz im Ergebnis<br />

der KI.BOX durch die erfassten Leistungsaspekte des Grundmoduls der AZUBI-<br />

BK (siehe Kapitel 5.2.1) erklärt werden können. Daher wird die Hypothese A.7<br />

angenommen.<br />

Organisatorischkonzeptionelle<br />

Fähigkeiten<br />

(KI.BOX)<br />

Korrelation nach Pearson .53**<br />

AZUBI-BK<br />

Signifikanz (2-seitig) ,00<br />

Postmodul<br />

N 69<br />

** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />

Die Ergebnisse der Teilnehmer im Postmodul der AZUBI-BK korrelieren zu .53<br />

hochsignifikant mit den Organisatorisch-konzeptionellen Fähigkeiten, die durch<br />

die KI.BOX erfasst werden. Somit können 28% der Varianz dieses Kriteriums<br />

durch die erfassten Leistungsaspekte des Postmoduls der AZUBI-BK (siehe<br />

Kapitel 5.2.1) erklärt werden, weshalb auch die Hypothese A.8 angenommen<br />

wird.<br />

1 2 4


Ergebnisse<br />

Überprüfung der Hypothese A.9: In Hypothese A.9 wird postuliert, dass ein<br />

signifikanter positiver Zusammenhang zwischen der Anzahl der bearbeiteten<br />

Items der KI.BOX und der Bearbeitungsgeschwindigkeit der AZUBI-BK bestehe.<br />

Da das Auswertungsprogramm der AZUBI-BK keinen zusammengefassten<br />

Wert für die Bearbeitungsgeschwindigkeit liefert, sondern diese stattdessen in<br />

die Bearbeitungsgeschwindigkeit für sprachgebundene Aufgaben, für<br />

Mehrfachkategorien bilden, für Detailaufmerksamkeit und -verarbeitung und für<br />

die Geschwindigkeit im Umgang mit Tabellen unterteilt, wurden diese<br />

Unterpunkte summiert und daraus ein Mittelwert generiert, mit dem die<br />

statistische Auswertung erfolgte. Das Reporting-Tool der KI.BOX gibt zwei<br />

Werte für die Bearbeitungsgeschwindigkeit aus, nämlich die Anzahl der<br />

bearbeiteten Items zu den Analytischen Fähigkeiten und die Anzahl der<br />

bearbeiteten Items der Organisatorisch-konzeptionellen Fähigkeiten. Diese<br />

beiden Werte wurden ebenfalls summiert, um einen Wert über alle bearbeiteten<br />

Items in der KI.BOX zu erhalten. Dieser Wert und der Mittelwert aller<br />

angegebenen Bearbeitungsgeschwindigkeiten der AZUBI-BK wurden<br />

miteinander korreliert und das Ergebnis in Tabelle 12a dargestellt:<br />

Tabelle 13a: Korrelationen der durchschnittlichen Bearbeitungsgeschwindigkeit in der AZUBI-<br />

BK und der bearbeiteten Items in der KI.BOX<br />

Summe der bearbeiteten Items in<br />

der KI.BOX<br />

AZUBI-BK durchschnittliche<br />

Bearbeitungsgeschwindigkeit<br />

Korrelation nach Pearson .19<br />

Signifikanz (2-seitig) .11<br />

N 69<br />

Es zeigt sich, dass kein signifikanter Zusammenhang zwischen der<br />

durchschnittlichen Bearbeitungsgeschwindigkeit in der AZUBI-BK und der<br />

Gesamtzahl der bearbeiteten Items in der KI.BOX besteht. Da dieses Ergebnis<br />

eher unerwartet war und zudem die gefundene Korrelation mit .19 eine<br />

Tendenz in die richtige Richtung aufwies, wurden im zweiten Schritt der<br />

Analyse statt durchschnittlichen und summierten Werten die einzelnen Werte<br />

der Bearbeitungsgeschwindigkeit miteinander korreliert. Tabelle 13b zeigt<br />

Auszüge über die wichtigsten Zusammenhänge. Die detaillierte Tabelle über<br />

alle dazu berechneten Korrelation finden sich in Anhang C.4.<br />

1 2 5


Ergebnisse<br />

Tabelle 13b: bedeutende Korrelationen der Bearbeitungsgeschwindigkeiten in der AZUBI-BK<br />

und der bearbeiteten Items in der KI.BOX für beide Kriterien<br />

Summe der bearbeiteten<br />

Items in der KI.BOX<br />

bearbeitete Items bei den<br />

Organisat.-konzept.<br />

Fähigkeiten in der KI.BOX<br />

Bearbeitungsgeschwindigkeit<br />

im Pearson<br />

Korrelation nach<br />

.24* ,32**<br />

Umgang mit Signifikanz<br />

.05 ,01<br />

Tabellen in der (2-seitig)<br />

AZUBI-BK N 69 69<br />

** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />

* Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.<br />

Die einzigen signifikanten positiven Zusammenhänge, die in der sekundären<br />

statistischen Analyse gefunden wurden, bestanden zwischen der<br />

Bearbeitungsgeschwindigkeit im Umgang mit Tabellen in der AZUBI-BK und der<br />

Summe der bearbeiteten Items in der KI.BOX (.24 auf Signifikanzniveau .05)<br />

bzw. den bearbeiteten Items in der KI.BOX zu den Organisatorischkonzeptionellen<br />

Fähigkeiten (.32 auf Signifikanzniveau .01). Da der Umgang mit<br />

Tabellen im Postmodul der AZUBI-BK erfasst wird und die Ergebnisse in<br />

diesem wie oben beschrieben hochsignifikant mit den Organisatorischkonzeptionellen<br />

Fähigkeiten der KI.BOX korrelieren, lässt sich die hier<br />

gefundene Korrelation erklären. Alle anderen Korrelationen konnten der<br />

Signifikanzprüfung jedoch nicht standhalten und fielen teilweise sogar negativ<br />

aus, so dass die Annahme insgesamt nicht bestätigt werden konnte, dass<br />

Teilnehmer, die in der AZUBI-BK schnell bzw. langsam arbeiten, eine ähnliche<br />

Bearbeitungsgeschwindigkeit in der KI.BOX aufweisen, trotz ähnlicher<br />

Messdimensionen. Die Hypothese A.9 wird daher abgelehnt.<br />

Überprüfung der Hypothese A.10 und A.11: Die Subskala zur<br />

Gewissenhaftigkeit aus dem BIP (siehe Kapitel 5.2.2) wurde aufgrund der<br />

Tatsache, dass die Leistungsbeurteilung der Arbeit eines Probanden zu 31%<br />

durch Gewissenhaftigkeit erklärt werden kann (Schmidt & Hunter, 1998), als<br />

inneres Kriterium in diese Untersuchung aufgenommen. Besonders bei einem<br />

computergestützten <strong>Postkorb</strong> wie der KI.BOX, in der über 60 Minuten hinweg<br />

konzentriert und schnell gearbeitet werden und zudem auf Details geachtet<br />

1 2 6


Ergebnisse<br />

werden muss, liegt die Vermutung nahe, dass die Gewissenhaftigkeit eines<br />

Teilnehmers bei seiner erzielten Leistung eine Rolle spielt. In Hypothese A.10<br />

wird deshalb ein positiver Zusammenhang mit den Ergebnissen in der KI.BOX<br />

zu den Analytischen Fähigkeiten und in Hypothese A.11 zu den<br />

Organisatorisch-konzeptionellen Fähigkeiten postuliert. Tabelle 14 stellt die<br />

Ergebnisse der statistischen Untersuchung dar:<br />

Tabelle 14: Korrelationen der Subskala zur Gewissenhaftigkeit aus dem BIP und der<br />

Ergebnisse in der KI.BOX für beide Kriterien<br />

BIP<br />

Gewissenhaftigkeit<br />

Korrelation nach<br />

Pearson<br />

Signifikanz<br />

(2-seitig)<br />

Analytische Fähigkeiten<br />

(KI.BOX)<br />

Organisatorisch-konzeptionelle<br />

Fähigkeiten (KI.BOX)<br />

.10 .29*<br />

.41 .014<br />

N 69 69<br />

* Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.<br />

Es zeigt sich, dass zwischen der Subskala zur Gewissenhaftigkeit aus dem BIP<br />

und den Ergebnissen in der KI.BOX zu den Analytischen Fähigkeiten kein<br />

signifikanter Zusammenhang besteht. Zur Lösung der diesbezüglichen<br />

Aufgaben scheint die Gewissenhaftigkeit, so wie im BIP erfasst, also keine<br />

(ausschlaggebende) Rolle zu spielen. Bezüglich der Organisatorischkonzeptionellen<br />

Fähigkeiten wurde jedoch ein signifikanter Zusammenhang von<br />

.29 bei einem Signifikanzniveau von .05 ermittelt. Somit können 8% der Varianz<br />

im Ergebnis zu diesem Kriterium der KI.BOX durch Gewissenhaftigkeit<br />

aufgeklärt werden. Aufgrund der gefundenen Ergebnisse wird daher die<br />

Hypothese A.10 abgelehnt, während die Hypothese A.11 angenommen werden<br />

kann.<br />

6.2.1 Zusammenfassung<br />

Im Zuge der Validitätsprüfung der KI.BOX wurden verschiedene äußere und<br />

innere Validitätskriterien mit den Ergebnissen der Teilnehmer in der KI.BOX<br />

korreliert.<br />

1 2 7


Ergebnisse<br />

Bei den äußeren Kriterien stellte sich heraus, dass es weder zwischen der<br />

Abiturnote noch zwischen der letzten Schulnote in Deutsch und den KI.BOX<br />

Ergebnissen ein signifikanter Zusammenhang bestand. Die letzte Schulnote in<br />

Mathematik korrelierte dagegen hoch mit dem Kriterium Analytische<br />

Fähigkeiten der KI.BOX. Bei den subjektiven Selbsteinschätzungen der<br />

Probanden zeigte sich ein signifikanter Zusammenhang bzgl. der eigenen<br />

analytischen Fähigkeiten und der entsprechenden KI.BOX-Dimension, bzgl. der<br />

Organisatorisch-konzeptionellen Fähigkeiten und der dazugehörigen<br />

Selbsteinschätzung konnte kein Zusammenhang aufgedeckt werden.<br />

Die Ergebnisse der inneren Validitätsprüfung fielen günstiger aus. So korrelierte<br />

der Gesamttestwert der AZUBI-BK signifikant hoch mit beiden Kriterien der<br />

KI.BOX. Ähnlich hohe Zusammenhänge bestanden zwischen dem Grundmodul<br />

der AZUBI-BK und den Analytischen Fähigkeiten der KI.BOX sowie dem<br />

Postmodul der AZUBI-BK und den Organisatorisch-konzeptionellen Fähigkeiten<br />

der KI.BOX. Bezüglich der Bearbeitungsgeschwindigkeit konnten kaum<br />

nennenswerte Zusammenhänge zwischen den Ergebnissen beider Tests<br />

gefunden wurden. Die Ergebnisse der Subskala zur Gewissenhaftigkeit aus<br />

dem BIP wiesen jedoch einen signifikanten Zusammenhang zu den<br />

Organisatorisch-konzeptionellen Fähigkeiten der KI.BOX auf, zu den<br />

Analytischen Fähigkeiten wurde kein bedeutsamer Zusammenhang gefunden.<br />

6.3 Tests der Hypothesen zum Zusammenhang von<br />

Computererfahrung und Leistung in der KI.BOX<br />

Im Folgenden wird überprüft, ob das Interaktionsproblem (Kleinmann & Strauß,<br />

1995), also Leistungsverzerrungen, die durch den Umgang mit dem Computer<br />

durch mangelnde Kenntnisse über Hard- und Software entstehen können, bei<br />

der Bearbeitung der KI.BOX eine Rolle spielen, d.h. es wird geprüft, ob es<br />

überzufällig starke Zusammenhänge von KI.BOX-Ergebnissen und<br />

Computererfahrung gibt. Die Überprüfung wurde mit Hilfe von zwei<br />

Selbsteinschätzungsfragebögen, dem SUCA und dem VECA (Richter,<br />

Naumann & Groeben, 2001; siehe Kapitel 5.2.3) durchgeführt.<br />

1 2 8


Ergebnisse<br />

Überprüfung der Hypothese B.1: In Hypothese B.1 wird angenommen, dass<br />

kein statistisch signifikanter positiver Zusammenhang zwischen den<br />

Ergebnissen der KI.BOX und dem Ergebnis des SUCA bestehe. Zur<br />

Überprüfung dessen wurde das Testergebnis des SUCA (Fragebogen zur<br />

Sicherheit im Umgang mit Computern und Computeranwendungen) mit den<br />

Ergebnissen der beiden Kriterien der KI.BOX mit Hilfe der Pearson-Korrelation<br />

in Beziehung gesetzt (Lienert, 1969). Das Ergebnis wird in Tabelle 15 gezeigt:<br />

Tabelle 15a: Korrelationen des SUCA und den Ergebnissen in der KI.BOX für beide Kriterien<br />

SUCA<br />

Analytische Fähigkeiten<br />

(KI.BOX)<br />

Organisatorisch-konzeptionelle<br />

Fähigkeiten (KI.BOX)<br />

Korrelation nach Pearson .06 .06<br />

Signifikanz<br />

(2-seitig)<br />

.63 .65<br />

N 69 69<br />

Die statistische Auswertung zeigt, dass kein signifikanter Zusammenhang<br />

zwischen den Testergebnissen des SUCA und den Ergebnissen der beiden<br />

Kriterien der KI.BOX besteht. Bevor die Hypothese B.1 aber angenommen wird,<br />

soll noch eine weitere Datenanalyse erfolgen. Hierbei soll geprüft werden, ob<br />

sich die in Kapitel 6.2 im Rahmen der Hypothesenprüfung zur Validität der<br />

KI.BOX gefundenen höchsten signifikanten Zusammenhänge, nämlich<br />

zwischen den Ergebnissen der KI-BOX und dem Gesamttestwert, dem<br />

Grundmodul und dem Postmodul der AZUBI-BK, durch Auspartialisierung der<br />

Variable Sicherheit im Umgang mit Computern und Computeranwendungen,<br />

operationalisiert durch die SUCA-Ergebnisse, verändern. Zu diesem Zweck<br />

wurden Partialkorrelationskoeffizienten r xy.z berechnet und mit den zuvor<br />

gefundenen Koeffizienten r xy verglichen. Diese Berechnung erscheint sinnvoll,<br />

da die AZUBI-BK als Paper-Pencil-Verfahren durchgeführt wurde. Sollten sich<br />

veränderte Koeffizienten ergeben, würde dies auf den Einfluss des Mediums<br />

Computer zurückzuführen sein. In Tabelle 15b werden die Ergebnisse gezeigt:<br />

1 2 9


Ergebnisse<br />

Tabelle 15b: Auswirkungen der Auspartialisierung der Sicherheit im Umgang mit Computern<br />

und Computeranwendungen auf die Korrelationen der Ergebnisse von KI.BOX zu AZUBI-BK<br />

AZUBI-BK AZUBI-BK<br />

Gesamttestwert Grundmodul<br />

Analytische<br />

r xy<br />

.48** .44**<br />

Fähigkeiten<br />

(KI.BOX) r xy.z<br />

.49** .44**<br />

AZUBI-BK<br />

Postmodul<br />

Orga.-konzept.<br />

r xy<br />

.52** .53**<br />

Fähigkeiten<br />

(KI.BOX r xy.z<br />

.53** .53**<br />

** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />

Auch hieraus wird deutlich, dass der Umgang mit Computern und<br />

Computeranwendungen keinen Einfluss auf die Leistungen der Probanden hat.<br />

Die Koeffizienten mit und ohne Auspartialisierung dieses Faktors unterscheiden<br />

sich nicht oder nur sehr geringfügig, was wiederum dafür spricht, die Hypothese<br />

B1 anzunehmen. Zuvor soll jedoch eine dritte Analyse stattfinden. Es hat sich<br />

gezeigt, dass kein signifikanter Zusammenhang zwischen der<br />

Bearbeitungsgeschwindigkeit in der KI.BOX und in der AZUBI-BK besteht<br />

(siehe Tabelle 13a). Dies bedeutet, dass Teilnehmer, die in der AZUBI-BK<br />

schnell arbeiteten, im <strong>Postkorb</strong> etwas weniger schnell waren und umgekehrt.<br />

Ob dies auf den Einfluss der Sicherheit im Umgang mit Computern und<br />

Computeranwendungen zurückgeführt werden kann, soll nun errechnet werden,<br />

indem die Partialkoeffizienten r xy.z bestimmt werden und mit den vorigen<br />

Ergebnissen verglichen werden. Tabelle 15c stellt die Ergebnisse dar:<br />

Tabelle 15c: Auswirkungen der Auspartialisierung der Sicherheit im Umgang mit Computern<br />

und Computeranwendungen auf die Korrelation der Bearbeitungsgeschwindigkeiten in KI.BOX<br />

und AZUBI-BK<br />

Summe der bearbeiteten Items in<br />

der KI.BOX<br />

AZUBI-BK durchschnittliche r xy<br />

.19<br />

Bearbeitungsgeschwindigkeit<br />

r xy.z<br />

.18<br />

Erneut wird kein bedeutsamer Unterschied zwischen den beiden Koeffizienten<br />

sichtbar, was bedeutet, dass die Sicherheit im Umgang mit Computern und<br />

Computeranwendungen keinen Einfluss auf die unterschiedlichen<br />

1 3 0


Ergebnisse<br />

Bearbeitungszeiten in den beiden Tests hat. Nach den drei hier beschriebenen<br />

statistischen Auswertungen kann also mit Sicherheit gesagt werden, dass die<br />

Sicherheit im Umgang mit Computern und Computeranwendungen keinen<br />

bedeutsamen Einfluss auf die Ergebnisse in der KI.BOX haben. Die Hypothese<br />

B.1 wird also angenommen.<br />

Überprüfung der Hypothese B.2: Hypothese B.2 postuliert, dass kein<br />

statistisch signifikanter positiver Zusammenhang zwischen den Ergebnissen der<br />

KI.BOX und dem Ergebnis des VECA bestehe. Um dies zu überprüfen wurde<br />

das Testergebnis des VECA (Fragebogen zur Vertrautheit mit verschiedenen<br />

Computeranwendungen) mit den Ergebnissen der beiden Kriterien der KI.BOX<br />

korreliert. Das Ergebnis wird in Tabelle 15 gezeigt:<br />

Tabelle 16a: Korrelationen des VECA und den Ergebnissen in der KI.BOX für beide Kriterien<br />

VECA<br />

Analytische Fähigkeiten<br />

(KI.BOX)<br />

Organisatorisch-konzeptionelle<br />

Fähigkeiten (KI.BOX)<br />

Korrelation nach Pearson .06 -.08<br />

Signifikanz<br />

(2-seitig)<br />

,61 ,51<br />

N 69 69<br />

Ähnlich wie beim SUCA kann auch hier kein signifikanter Zusammenhang<br />

zwischen den Testergebnissen des VECA und den Ergebnissen der beiden<br />

Kriterien der KI.BOX aufgedeckt werden. Jedoch soll auch hier geprüft werden,<br />

ob sich die Korrelationskoeffizienten zwischen KI.BOX und AZUBI-BK bei<br />

Auspartialisierung der Vertrautheit der Teilnehmer mit verschiedenen<br />

Computeranwendungen ändern, indem abermals die Partialkoeffizienten r xy.z<br />

errechnet werden und diese mit den in Kapitel 6.2 gefunden<br />

Korrelationskoeffizienten r xy verglichen werden. Der auspartialisierte Faktor z<br />

wird hier durch den Testwert des VECA operationalisiert. In Tabelle 16b werden<br />

die Ergebnisse der statistischen Auswertung veranschaulicht:<br />

1 3 1


Ergebnisse<br />

Tabelle 16b: Auswirkungen der Auspartialisierung der Vertrautheit der Teilnehmer mit<br />

verschiedenen Computeranwendungen auf die Korrelationen der Ergebnisse von KI.BOX zu<br />

AZUBI-BK<br />

AZUBI-BK<br />

Gesamttestwert<br />

AZUBI-BK<br />

Grundmodul<br />

AZUBI-BK<br />

Postmodul<br />

Analytische<br />

r xy<br />

.48** .44**<br />

Fähigkeiten<br />

(KI.BOX) r xy.z<br />

.48** .44**<br />

Orga.-konzept.<br />

r xy<br />

.52** .53**<br />

Fähigkeiten<br />

(KI.BOX r xy.z<br />

.55** .55**<br />

** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />

Die Auswertung macht ebenfalls deutlich, dass die Vertrautheit der Teilnehmer<br />

mit verschiedenen Computeranwendungen keinen Einfluss auf die Leistungen<br />

der Probanden hat, da sich die Koeffizienten mit und ohne Auspartialisierung<br />

dieses Faktors nicht oder nur sehr geringfügig unterscheiden. Bevor nun die<br />

Hypothese B.2 angenommen wird, soll noch der Einfluss der Vertrautheit der<br />

Teilnehmer mit verschiedenen Computeranwendungen auf die<br />

Bearbeitungszeiten ermittelt werden. Das Vorgehen ist analog zur<br />

Untersuchung der Auswirkung der Sicherheit im Umgang mit Computern und<br />

Computeranwendungen. Tabelle 16c stellt die Ergebnisse dar:<br />

Tabelle 16c: Auswirkungen der Auspartialisierung der Vertrautheit der Teilnehmer mit<br />

verschiedenen Computeranwendungen auf die Korrelation der Bearbeitungsgeschwindigkeiten<br />

in KI.BOX und AZUBI-BK<br />

Summe der bearbeiteten Items in<br />

der KI.BOX<br />

AZUBI-BK durchschnittliche r xy<br />

.19<br />

Bearbeitungsgeschwindigkeit<br />

r xy.z<br />

.17<br />

Wie zuvor zeigt sich kein bedeutsamer Unterschied zwischen den beiden<br />

Koeffizienten, was bedeutet, dass auch die Vertrautheit der Teilnehmer mit<br />

verschiedenen Computeranwendungen keinen Einfluss auf die<br />

unterschiedlichen Bearbeitungszeiten in den beiden Tests hat. Insgesamt kann<br />

also festgehalten werden, dass die Vertrautheit der Teilnehmer mit<br />

verschiedenen Computeranwendungen keinen Einfluss auf die Ergebnisse der<br />

Teilnehmer in der KI.BOX hat und daher die Hypothese B.2 angenommen wird.<br />

1 3 2


Ergebnisse<br />

Überprüfung der Hypothese B.3, B.4 und B.5: Obwohl bereits festgestellt<br />

wurde, dass die Vertrautheit der Teilnehmer mit verschiedenen<br />

Computeranwendungen keinen Einfluss auf die Ergebnisse in der KI.BOX hat,<br />

soll nun noch speziell der Einfluss von drei Anwendungen untersucht werden,<br />

deren Funktionen Hauptbestandteile der KI.BOX sind. Die Hypothesen B.3, B.4<br />

und B5 besagen, dass keine statistisch signifikanten positiven Zusammenhänge<br />

zwischen den Ergebnissen der KI.BOX und den Ergebnissen der Items des<br />

VECA „Vertrautheit im Umgang mit Textverarbeitung“ (B.3), „Vertrautheit im<br />

Umgang mit E-Mails“ (B.4) und „Vertrautheit im Umgang mit<br />

Terminplanungsprogrammen“ (B.5) bestehen. Zur Prüfung dieser Hypothesen<br />

wurden die Itemwerte mit den Ergebnissen beider Kriterien der KI.BOX<br />

korreliert, die Ergebnisse sind in Tabelle 17 ablesbar:<br />

Tabelle 17: Korrelationen der drei für die KI.BOX bedeutsamsten Icons des VECA und den<br />

Ergebnissen in der KI.BOX für beide Kriterien<br />

Vertrautheit im<br />

Umgang mit<br />

Textverarbeitung<br />

Vertrautheit im<br />

Umgang mit<br />

E-Mails<br />

Vertrautheit im<br />

Umgang mit<br />

Terminplanungsprogrammen<br />

Analytische Fähigkeiten<br />

(KI.BOX)<br />

Organisatorisch-konzeptionelle<br />

Fähigkeiten (KI.BOX)<br />

Korrelation nach<br />

Pearson<br />

-.09 -.06<br />

Signifikanz<br />

(2-seitig)<br />

.47 .60<br />

N 69 69<br />

Korrelation nach<br />

Pearson<br />

-.12 -.23<br />

Signifikanz<br />

(2-seitig)<br />

.34 .054<br />

N 69 69<br />

Korrelation nach<br />

Pearson<br />

.04 .08<br />

Signifikanz<br />

(2-seitig)<br />

.78 .50<br />

N 69 69<br />

Aus den Ergebnissen wird erkennbar, dass die Vertrautheit mit<br />

Textverarbeitungs-, E-Mail- und Terminplanungsprogrammen nicht signifikant<br />

mit den Ergebnissen der KI.BOX in beiden Kriterien zusammenhängen.<br />

Überraschenderweise weisen sogar vier der sechs Korrelationen einen<br />

schwachen bis mittleren negativen Wert auf, auch wenn diese nicht signifikant<br />

werden. Ob es Gründe für diese Ergebnisse gibt oder sie in dieser Stichprobe<br />

1 3 3


Ergebnisse<br />

zufällig zustande kamen, soll in Kapitel 7 thematisiert werden. Fest steht<br />

jedoch, dass die Vertrautheit mit den drei hier untersuchten Anwendungsarten<br />

keinen Einfluss auf die Ergebnisse der KI.BOX in beiden Kriterien hat, weshalb<br />

die Hypothesen B.3, B.4 und B.5 angenommen werden können.<br />

6.3.1 Zusammenfassung<br />

In diesem Kapitel wurde untersucht, ob Vorerfahrung und Wissen über<br />

Computer und Computeranwendungen die Ergebnisse in der KI.BOX<br />

beeinflussen. Dazu wurden umfangreiche Untersuchungen mit den Ergebnissen<br />

der Fragebögen SUCA und VECA vorgenommen, die genau diese Erfahrung<br />

erfassen. Auch die Erfahrung mit den drei Anwendungen Textverarbeitung, E-<br />

Mail und Terminplanung, die in der KI.BOX besonders von Bedeutung sind,<br />

wurde untersucht. Es konnte gezeigt werden, dass sich, wie von den<br />

Testautoren vorgesehen, keine Zusammenhänge von Computererfahrung und<br />

KI.BOX-Leistungen ergeben, so dass alle dazu aufgestellten Hypothesen<br />

angenommen werden konnten.<br />

6.4 Test der Hypothese zur Wirkung von Reihenfolgeeffekten<br />

Aufgrund der bisherigen Forschungslage (siehe Kapitel 2.2.4) wird davon<br />

ausgegangen, dass die Reihenfolge der Testdarbietung keinen Einfluss auf die<br />

Ergebnisse in der KI.BOX hat. Da dieser Aspekt jedoch noch nicht<br />

aussagekräftig genug untersucht wurde, wird er in die vorliegende<br />

Untersuchung mit aufgenommen. Zu diesem Zweck wurden zwei<br />

Versuchsbedingungen realisiert und die Teilnehmer diesen zufällig zugeteilt.<br />

Die Teilnehmer in der Gruppe 1 bearbeiteten zunächst die KI.BOX und im<br />

Anschluss daran das Grund- und Postmodul der AZUBI-BK. In Gruppe 2<br />

standen die beiden Module der AZUBI-BK am Anfang der Testung und danach<br />

erst wurde die KI.BOX bearbeitet. Die Hypothese C.1 besagt nun, dass kein<br />

statistisch signifikanter Unterschied zwischen den Testwerten der KI.BOX in der<br />

Versuchsbedingung 1 und der Versuchsbedingung 2 bestehe. Um dies zu<br />

überprüfen wurden für beide Messkriterien der KI.BOX die Mittelwerte beider<br />

1 3 4


Ergebnisse<br />

Versuchsgruppen gebildet und mittels T-Test für unabhängige Stichproben<br />

(Diehl & Arbinger, 2001) auf signifikante Gruppenunterschiede geprüft. Der T-<br />

Test ist als ein effizientes und robustes Verfahren einzuschätzen. Um aber eine<br />

adäquate Anwendung des T-Tests zu gewährleisten, sollten die Testwerte in<br />

den Stichproben normalverteilt sein, was bereits in Kapitel 6.1 bestätigt wurde.<br />

Zudem sollte in den zu vergleichenden Stichproben approximativ eine<br />

Varianzhomogenität erfüllt sein, welche im Folgenden durch den Levene-Test<br />

überprüft werden soll. Tabelle 18 stellt die Ergebnisse der statistischen<br />

Auswertung für das Kriterium Analytische Fähigkeiten dar:<br />

Tabelle 18: T-Test für die Bedingung Reihenfolge der Verfahren bei den Analytischen<br />

Fähigkeiten in der KI.BOX<br />

Analytische Fähigkeiten<br />

(KI.BOX)<br />

Bedingung<br />

„Reihenfolge der Verfahren“<br />

N<br />

Mittelwert<br />

Standardabweichung<br />

Bed.1 (KI.BOX, AZUBI-BK) 36 2,44 2,29<br />

Bed.2 (AZUBI-BK, KI.BOX) 33 3,00 2,61<br />

Analytische Fähigkeiten (KI.BOX)<br />

F .73<br />

Levene-Test<br />

Signifikanz .40<br />

Die Differenz in den Gruppenvarianzen ist nicht signifikant, die<br />

Varianzen sind homogen. Der T-Test kann somit durchgeführt werden.<br />

T-Test<br />

T -.94<br />

df 67<br />

Signifikanz (2-seitig) ,35<br />

In der oberen Tabelle ist zu erkennen, dass der Mittelwert von Bedingung 1 bei<br />

2,44 und von Bedingung 2 bei 3,00 Punkten liegt. Die Mittelwerte der beiden<br />

Gruppen unterscheiden sich also um 0.56 Punkte. Ob dieser Unterschied<br />

überzufällig ist, soll mittels T-Test überprüft werden. Diesen einzusetzen ist<br />

zulässig, da der Levene-Test in der mittleren Tabelle keine signifikanten<br />

Varianzunterschiede zwischen den beiden Gruppen ausmachen konnte. In der<br />

unteren Tabelle sind die Ergebnisse des T-Tests aufgeführt. Da dieser kein<br />

signifikantes Ergebnis erbringt, kann festgehalten werden, dass es hinsichtlich<br />

des Kriteriums Analytische Fähigkeiten keine entscheidende Rolle spielt, an<br />

welcher Position die KI.BOX innerhalb einer Testsequenz eingesetzt wird.<br />

1 3 5


Ergebnisse<br />

Diese statistische Untersuchung soll im Folgenden genauso für das Kriterium<br />

Organisatorisch-konzeptionelle Fähigkeiten erfolgen, um die Hypothese C.1<br />

endgültig annehmen oder ablehnen zu können. Tabelle 19 zeigt die Ergebnisse<br />

für dieses Messkriterium:<br />

Tabelle 19: Levene-Test und T-Test für die Bedingung Reihenfolge der Verfahren bei den<br />

Organisatorisch-konzeptionellen Fähigkeiten in der KI.BOX<br />

Orga-konzept. Fähigkeiten<br />

(KI.BOX)<br />

Bedingung<br />

„Reihenfolge der Verfahren“<br />

N<br />

Mittelwert<br />

Standardabweichung<br />

Bed.1 (KI.BOX, AZUBI-BK) 36 -3,04 9,30<br />

Bed.2 (AZUBI-BK, KI.BOX) 33 -0,18 6,48<br />

Orga-konzept. Fähigkeiten<br />

(KI.BOX)<br />

F 2,388<br />

Levene-Test<br />

Signifikanz .13<br />

Die Differenz in den Gruppenvarianzen ist nicht signifikant, die<br />

Varianzen sind homogen. Der T-Test kann somit durchgeführt werden.<br />

T-Test<br />

T -1,47<br />

df 67<br />

Signifikanz (2-seitig) .15<br />

In der oberen Tabelle sieht man, dass der Mittelwert von Bedingung 1 bei -3,04<br />

und von Bedingung 2 bei -0,18 Punkten liegt. Die Mittelwerte der beiden<br />

Gruppen unterscheiden sich 2,86 Punkte. Warum diese Werte hier im negativen<br />

Bereich liegen, wurde bereits in Kapitel 6.1 erläutert. Genau wie zuvor zeigt<br />

auch bei diesem Kriterium der KI.BOX der Levene-Test in der mittleren Tabelle<br />

keine signifikanten Varianzunterschiede zwischen den beiden Gruppen auf,<br />

weshalb der T-Test angewandt werden kann. In der unteren Tabelle wird<br />

erkennbar, dass der T-Test kein signifikantes Ergebnis liefert. Somit haben<br />

Reihenfolgeeffekte, die durch die Positionierung der KI.BOX innerhalb einer<br />

Testsequenz entstehen können, auch bzgl. des Kriteriums Organisatorischkonzeptionelle<br />

Fähigkeiten keinen entscheidenden Einfluss auf die Leistungen<br />

der Teilnehmer. Nach diesen beiden Ergebnissen kann also die Hypothese C.1<br />

angenommen werden.<br />

1 3 6


Ergebnisse<br />

6.4.1 Zusammenfassung<br />

Es wurde untersucht, ob sich die Mittelwerte der beiden Versuchsbedingungen<br />

signifikant unterscheiden, d.h. ob es sich überzufällig stark in den Ergebnissen<br />

der Teilnehmer widerspiegelt, ob sie zuerst die KI.BOX und dann die AZUBI-BK<br />

bearbeiteten oder umgekehrt. In beiden Kriterien der KI.BOX konnten mittels T-<br />

Tests keine statistisch bedeutsamen Auswirkungen von Reihenfolgeeffekten<br />

ausgemacht werden, so dass die Hypothese C.1 angenommen wird.<br />

6.5 Test der Hypothesen zum Zusammenhang von<br />

demographischen Daten und Leistung in der KI.BOX<br />

Im Folgenden werden die Hypothesen zum potenziellen Einfluss der<br />

demographischen Daten der Teilnehmer auf die KI.BOX-Ergebnisse überprüft.<br />

Diese Untersuchungen sollen jedoch hauptsächlich zur explorativen Analyse<br />

dienen, da die Daten der Stichprobe bezüglich einiger Variablen wie<br />

beispielsweise Studienfach oder Semesteranzahl nicht gleich verteilt sind.<br />

Dennoch wurden zur Auswertung unter anderem der T-Test und die<br />

einfaktorielle Varianzanalyse eingesetzt, obwohl diese eine Normalverteilung<br />

voraussetzen. Da besonders der T-Test aber als sehr robust einzuschätzen ist<br />

(Diehl & Arbinger, 2001) und es wie erwähnt um eher explorative Auswertungen<br />

geht, soll diese Einschränkung vernachlässigt werden.<br />

Überprüfung der Hypothese D.1: Zunächst soll überprüft werden, ob es<br />

signifikante Mittelwertsunterschiede zwischen Männern und Frauen in den<br />

KI.BOX Ergebnissen bezüglich beider Messkriterien gibt. In Hypothese D.1 wird<br />

postuliert, dass es keinen solchen Unterschied gäbe. Die statistische<br />

Auswertung erfolgt mittels T-Test für unabhängige Stichproben, Tabelle 20 zeigt<br />

die Ergebnisse. Die Ergebnisse des Levene-Tests werden im Folgenden<br />

weiterhin beschrieben, jedoch nicht mehr tabellarisch dargestellt.<br />

1 3 7


Ergebnisse<br />

Tabelle 20: T-Test für die Variable Geschlecht bei den Ergebnissen der KI.BOX<br />

Analytische Fähigkeiten<br />

(KI.BOX)<br />

Orga-konzept. Fähigkeiten<br />

(KI.BOX)<br />

Geschlecht N Mittelwert Standardabweichung<br />

männlich 17 2,12 2,76<br />

weiblich 52 2,90 2,33<br />

Geschlecht N Mittelwert Standardabweichung<br />

männlich 17 -4,85 9,86<br />

weiblich 52 -0,64 7,31<br />

T-Test<br />

Analytische<br />

Fähigkeiten (KI.BOX)<br />

Orga-konzept. Fähigkeiten<br />

(KI.BOX)<br />

T 1,15 1,89<br />

df 67 67<br />

Signifikanz (2-seitig) .25 .06<br />

Aus der oberen Tabelle lassen sich die Mittelwerte beider Geschlechter für<br />

beide Kriterien ablesen. Bei den Analytischen Fähigkeiten lag das Mittel der<br />

Männer bei 2,12 Punkten, das der Frauen bei 2,90. In den Organisatorischkonzeptionellen<br />

Tätigkeiten schnitten die Männer durchschnittlich mit -4,85<br />

Punkten ab, die Frauen erreichten im Durchschnitt -0,64 Punkte. Tendenziell<br />

schnitten in der KI.BOX weibliche Teilnehmer also besser ab. Ob diese<br />

Unterschiede signifikant sind, wurde mittels T-Test errechnet, nachdem die<br />

Varianzhomogenität mittels Levene-Test bestätigt wurde. Der T-Test erbringt<br />

weder in den Ergebnissen zu den Analytischen Fähigkeiten noch zu den<br />

Organisatorisch-konzeptionellen Fähigkeiten signifikante Unterschiede<br />

zwischen Männern und Frauen, auch wenn sich mit p=.06 leichte Tendenzen<br />

dazu bei den Organisatorisch-konzeptionellen Fähigkeiten zeigen. Wie bereits<br />

angesprochen, handelt es sich hierbei eher um eine explorative Datenanalyse,<br />

da die Stichprobe aus weit weniger Männern (n=17) als Frauen (n=52) bestand.<br />

Ob sich bei einer Stichprobe, bei denen beide Geschlechter gleich häufig<br />

vertreten wären, andere Ergebnisse zeigen würden, kann hier nicht beantwortet<br />

werden. Aufgrund der hier vorliegenden Daten können jedoch keine<br />

bedeutsamen Geschlechtseffekte ausgemacht werden, so dass die Hypothese<br />

D.1 angenommen werden kann.<br />

1 3 8


Ergebnisse<br />

Überprüfung der Hypothese D.2: In Hypothese D.2 wird davon ausgegangen,<br />

dass kein statistisch signifikanter positiver Zusammenhang zwischen den<br />

Ergebnissen der KI.BOX und dem Alter der Teilnehmer bestehe. Um dies zu<br />

überprüfen, werden die Ergebnisse der beiden Messkriterien der KI.BOX und<br />

das Alter der Teilnehmer mittel Pearson-Korrelation untersucht. In Tabelle 21<br />

werden die Ergebnisse abgebildet:<br />

Tabelle 21: Korrelationen des Alters der Teilnehmer mit den Ergebnissen in der KI.BOX für<br />

beide Kriterien<br />

Alter<br />

Analytische Fähigkeiten<br />

(KI.BOX)<br />

Organisatorisch-konzeptionelle<br />

Fähigkeiten (KI.BOX)<br />

Korrelation nach<br />

Pearson<br />

-.31** -.28*<br />

Signifikanz<br />

(2-seitig)<br />

.01 .02<br />

N 69 69<br />

** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />

* Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.<br />

Die Ergebnisse der statistischen Analyse überraschen: In beiden Kriterien der<br />

KI.BOX besteht zwar hypothesenkonform kein positiver signifikanter<br />

Zusammenhang zum Alter der Teilnehmer, jedoch werden für die Analytischen<br />

Fähigkeiten ein hochsignifikanter negativer Zusammenhang von -.31 und für die<br />

Organisatorisch-konzeptionellen Fähigkeiten ein signifikanter negativer<br />

Zusammenhang von -.28 ermittelt. Dies bedeutet also, dass mit zunehmendem<br />

Alter die Ergebnisse in der KI.BOX in beiden Kriterien schlechter ausfallen.<br />

Mögliche Erklärungen hierzu werden in Kapitel 7 gegeben. Jedoch sei an dieser<br />

Stelle erneut auf die eingeschränkte Aussagekraft einer explorativen<br />

Datenanalyse verwiesen, da auch hier die Verteilung des Alters in der zugrunde<br />

liegenden Stichprobe sehr linkslastig war. So befand sich ein Drittel der<br />

Teilnehmer zwischen dem 18. und 20. Lebensjahr, ein weiteres Drittel war<br />

zwischen 21 und 24 Jahren alt und ein Drittel deckte die Altersspanne 25 bis 49<br />

ab, so dass ältere Teilnehmer hier deutlich unterrepräsentiert waren. Dennoch<br />

kann aufgrund der vorliegenden Daten nicht von einem positiven und<br />

überzufälligem Zusammenhang von Alter und KI.BOX Ergebnissen<br />

ausgegangen werden, so dass die Hypothese D.2 angenommen werden kann.<br />

1 3 9


Ergebnisse<br />

Überprüfung der Hypothese D.3: In Hypothese D.3 wird behauptet, dass kein<br />

statistisch signifikanter Unterschied zwischen Teilnehmern verschiedener<br />

Studienfächer in den Ergebnissen der KI.BOX bestehe. Aufgrund der<br />

vorliegenden Stichprobe ist diese Hypothese jedoch kaum sinnvoll zu<br />

überprüfen, da bereits 89,9% der Teilnehmer (n=62) im Studiengang<br />

Psychologie eingeschrieben waren und sich nur weitere 7 Teilnehmer auf vier<br />

andere Studienfächer aufteilten (siehe Kapitel 6.1). Um dennoch zumindest<br />

ansatzweise Aussagen über mögliche Tendenzen machen zu können, wurde<br />

eine einfaktorielle Varianzanalyse (Diehl & Arbinger, 2001) durchgeführt. Als<br />

abhängige Variablen gelten dabei die beiden Messkriterien der KI.BOX,<br />

während die unabhängige Variable Studienfach mit den fünf in die<br />

Untersuchung eingehenden Studienfächern den Faktor bildet. Zuvor wurde die<br />

Varianzhomogenität mittels Levene-Test bestätigt. In Tabelle 22 werden die<br />

Ergebnisse der Varianzanalyse in verkürzter Form dargestellt:<br />

Tabelle 22: Varianzanalyse für die Variable Studienfach und die Ergebnisse in der KI.BOX für<br />

beide Kriterien<br />

df F Signifikanz<br />

Analytische Fähigkeiten<br />

(KI.BOX)<br />

Orga.-konzept. Fähigkeiten<br />

(KI.BOX)<br />

4 1,07 .38<br />

4 2,10 .09<br />

Die Varianzanalyse belegt, dass es keinen signifikanten Unterschied zwischen<br />

den Gruppen, d.h. den Teilnehmern der fünf aufgeführten Studienfächer, in<br />

ihren Leistungen in der KI.BOX gibt. Obwohl diese Analyse wie beschrieben als<br />

äußerst explorativ angesehen werden muss, kann dadurch bis auf weiteres die<br />

Hypothese D.3 angenommen werden.<br />

Überprüfung der Hypothese D.4: In Hypothese D.4 wird davon ausgegangen,<br />

dass ein statistisch signifikanter positiver Zusammenhang zwischen den<br />

Ergebnissen der KI.BOX und der Semesteranzahl der Teilnehmer bestehe. Für<br />

die statistische Analyse werden daher analog zur Prüfung der Hypothese D.1<br />

1 4 0


Ergebnisse<br />

die Ergebnisse der KI.BOX in beiden Kriterien mit der Semesteranzahl<br />

korreliert. Die Ergebnisse finden sich in Tabelle 23:<br />

Tabelle 23: Korrelationen der Semesterzahl der Teilnehmer mit den Ergebnissen in der KI.BOX<br />

für beide Kriterien<br />

Semesterzahl<br />

Analytische Fähigkeiten<br />

(KI.BOX)<br />

Organisatorisch-konzeptionelle<br />

Fähigkeiten (KI.BOX)<br />

Korrelation nach<br />

Pearson<br />

-.04 -.05<br />

Signifikanz<br />

(2-seitig)<br />

.75 .68<br />

N 69 69<br />

Es fällt auf, dass die Semesteranzahl der Teilnehmer negativ mit den<br />

Ergebnissen für beide Kriterien der KI.BOX korreliert, allerdings mit -.04 bzw. -<br />

.05 deutlich schwächer als zuvor bei der Variable Alter und zudem nicht<br />

signifikant. Dabei ist jedoch wiederholt auf die linkslastige Verteilung der<br />

Variable Semesterzahl in der untersuchten Stichprobe zu achten: So befanden<br />

sich knapp die Hälfte der getesteten Studenten im ersten Semester (n=32),<br />

weitere 25% (n=21) im dritten Semester und das verbleibende Viertel der<br />

Untersuchten (n=16) befand sich im fünften bis vierzehnten Semester, so dass<br />

auch hier die höheren Semester unterrepräsentiert sind. Die Frage, ob es bei<br />

einer gleich verteilten Ausprägung der Semesterzahl andere Ergebnisse gäbe,<br />

bleibt daher bis auf weiteres ungeklärt. Auf Grundlage des vorliegenden<br />

Datensatzes ist jedoch kein positiver signifikanter Zusammenhang von KI.BOX-<br />

Ergebnissen und Semesterzahl zu erkennen, so dass die Hypothese D.4<br />

abgelehnt wird.<br />

Überprüfung der Hypothese D.5: Die Hypothese D.5 besagt, dass kein<br />

statistisch signifikanter Unterschied zwischen Teilnehmern mit verschieden<br />

ausgeprägten Deutschkenntnissen in den Ergebnissen der KI.BOX bestehe.<br />

Die Deutschkenntnisse der Teilnehmer wurden, neben der letzten Schulnote in<br />

Deutsch (siehe Kapitel 5.2.4, 6.2), im Rahmen des demographischen<br />

Fragebogens als Multiple-Choice-Frage erhoben. Die Teilnehmer konnten dabei<br />

1 4 1


Ergebnisse<br />

zwischen den drei Möglichkeiten „Deutsch als erste Muttersprache“, „Deutsch<br />

als zweite Muttersprache“ und „Deutsch als Fremdsprache“ wählen. In der<br />

vorliegenden Stichprobe hatten 81,2% der Teilnehmer (n=56) Deutsch als erste<br />

Muttersprache, vier Teilnehmer als zweite Muttersprache und 9 Teilnehmer als<br />

Fremdsprache, so dass Teilnehmer mit Deutsch als erste Muttersprache<br />

überrepräsentiert sind. Um aber explorative Aussagen über mögliche<br />

Tendenzen machen zu können, wurde eine einfaktorielle Varianzanalyse<br />

durchgeführt, wobei die Ergebnisse der beiden Messkriterien der KI.BOX als<br />

abhängige Variablen und die unabhängige Variable Deutschkenntnisse mit den<br />

drei Ausprägungen als Faktor herangezogen wurden. Tabelle 24 stellt die<br />

Ergebnisse in verkürzter Form dar. Die Varianzhomogenität wurde zuvor als<br />

gegeben festgestellt.<br />

Tabelle 24: Varianzanalyse für die Variable Deutschkenntnisse und die Ergebnisse in der<br />

KI.BOX für beide Kriterien<br />

df F Signifikanz<br />

Analytische Fähigkeiten<br />

(KI.BOX)<br />

2 1,652 .20<br />

Orga.-konzept. Fähigkeiten<br />

2 6,122 .00**<br />

(KI.BOX)<br />

** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />

Die Ergebnisse zeigen, dass die Deutschkenntnisse der Stichprobe keinen<br />

überzufälligen Effekt auf die Leistungen im Kriterium Analytische Fähigkeiten<br />

haben. Für das Kriterium Organisatorisch-konzeptionelle Fähigkeiten wurden<br />

jedoch hochsignifikante Unterschiede zwischen den drei Gruppen gefunden.<br />

Vergleicht man die Mittelwerte für die Ergebnisse in diesem Kriterium der<br />

KI.BOX, so erkennt man, dass die Teilnehmer mit Deutsch als erster<br />

Muttersprache im Durchschnitt -0,16 Punkte erzielten, Teilnehmer mit Deutsch<br />

als zweiter Muttersprache kamen durchschnittlich auf -6,13 Punkte, während<br />

die Teilnehmer mit Deutsch als Fremdsprache im Mittel -9,11 Punkte erreichten.<br />

Warum die Deutschkenntnisse gerade bei diesem Kriterium einen solchen<br />

Einfluss haben, wird in Kapitel 7 diskutiert. Die Hypothese D.5, in der es um die<br />

Auswirkung der Deutschkenntnisse auf die gesamte Leistung in der KI.BOX,<br />

also in beiden Kriterien geht, wird somit abgelehnt.<br />

1 4 2


Ergebnisse<br />

Überprüfung der Hypothese D.6: Die Hypothese D.6 postuliert, dass kein<br />

statistisch signifikanter Unterschied zwischen Teilnehmern mit verschieden<br />

ausgeprägter Berufserfahrung in den Ergebnissen der KI.BOX bestehe. Die<br />

Berufserfahrung wurde ebenso wie die Deutschkenntnisse im Rahmen des<br />

demographischen Fragebogens erhoben und als Frage mit Multiple-Choice-<br />

System dargeboten. Die anzukreuzenden Möglichkeiten waren „keine<br />

Berufsausbildung“ (67% der Teilnehmer, n=46), „abgebrochene Ausbildung“<br />

(3%, n=2), „abgeschlossene Ausbildung“ (16%, n=11) und „abgeschlossenes<br />

Studium“ (14%, n=9). Auf die Ausprägung „abgebrochenes Studium“ wurde<br />

verzichtet, da dies mit „keine Berufserfahrung“ gleichzusetzen ist. Erneut<br />

herrscht in der Stichprobe eine Überrepräsentation von Teilnehmern ohne<br />

Berufserfahrung vor. Dennoch wurde auch hier zur explorative Analyse eine<br />

einfaktorielle Varianzanalyse durchgeführt, mit den Ergebnissen in der KI.BOX<br />

für beide Kriterien als abhängige Variable und mit der unabhängigen Variable<br />

Berufserfahrung mit den vier Ausprägungen als Faktor. Die Varianzhomogenität<br />

gilt nach den Ergebnissen des Levene-Test als gesichert. Die Ergebnisse der<br />

Varianzanalyse werden in verkürzter Form in Tabelle 25 gezeigt:<br />

Tabelle 25: Varianzanalyse für die Variable Berufserfahrung und die Ergebnisse in der KI.BOX<br />

für beide Kriterien<br />

Analytische Fähigkeiten<br />

(KI.BOX)<br />

Orga.-konzept. Fähigkeiten<br />

(KI.BOX)<br />

df F Signifikanz<br />

4 .40 .81<br />

4 .06 .99<br />

** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />

Aus den nicht signifikanten Ergebnissen wird deutlich, dass sich die Teilnehmer<br />

mit verschieden ausgeprägter Berufserfahrung nicht überzufällig in den<br />

Ergebnissen in der KI.BOX über beide Kriterien unterscheiden. Obwohl auch<br />

hier die Teilnehmer ohne Berufserfahrung in der Stichprobe überrepräsentiert<br />

sind und diesbezügliche Aussagen daher eher explorativen Charakter haben,<br />

lässt sich aus diesen deutlichen Ergebnissen doch ein klarer Trend ablesen.<br />

Aus diesem Grund wird die Hypothese D.6 angenommen.<br />

1 4 3


Ergebnisse<br />

Überprüfung der Hypothese D.7, D.8, D.9 und D.10: In diesem Abschnitt wird<br />

überprüft, ob theoretische und/oder praktische Vorerfahrung mit Postkörben<br />

und Assessment Centern Einfluss auf die Ergebnisse in der KI.BOX haben.<br />

Basierend auf den theoretischen Überlegungen (siehe Kapitel 5.2.5) wird davon<br />

ausgegangen, dass es einen positiven signifikanten Zusammenhang zwischen<br />

KI.BOX-Ergebnissen und theoretischen (Hypothese D.7) sowie praktischen<br />

Vorerfahrungen (Hypothese D.8) mit Postkörben gibt, bezüglich der<br />

theoretischen (Hypothese D.9) und praktischen (Hypothese D.10) Vorerfahrung<br />

mit Assessment Centern wird kein Zusammenhang vermutet. Die jeweiligen<br />

Erfahrungswerte der Teilnehmer wurden anhand eines<br />

Selbsteinschätzungsfragebogens (siehe Anhang B.5) am Ende der<br />

Untersuchung erhoben. Die vier entsprechenden Items wurden als positive<br />

Aussagen formuliert (Beispiel: „Ich habe theoretisches Wissen über <strong>Postkorb</strong>-<br />

Übungen.“). Wie bei den zuvor beschriebenen Selbsteinschätzungen (siehe<br />

Kapitel 6.2) wurde auch hier mit einer sechsstufigen Beurteilungsskala<br />

gearbeitet, die in diesem Fall von „trifft gar nicht zu“ bis „trifft vollkommen zu“<br />

reichte. Die Ergebnisse zu allen vier Items sind erneut linkslastig, d.h. es<br />

überwiegen jeweils die Teilnehmer, die gar keine bis wenig Erfahrung mit<br />

Postkörben und Assessment Centern haben, sowohl im theoretischen als auch<br />

im praktischen Bereich. Dies hängt sicherlich zum Großteil mit der Tatsache<br />

zusammen, das zwei Drittel der Teilnehmer in der Stichprobe unter 25 Jahren<br />

bzw. drei Viertel von ihnen höchstens im dritten Semester waren und somit die<br />

wenigsten bisher an einem AC teilgenommen haben dürften. Dennoch erfolgt<br />

auch hier eine explorative Datenanalyse, indem die Werte der vier Icons mit<br />

den Ergebnissen der KI.BOX in beiden Kriterien korreliert werden. Die<br />

diesbezüglichen Ergebnisse sind Tabelle 26 zu entnehmen:<br />

1 4 4


Ergebnisse<br />

Tabelle 26: Korrelationen der theoretischen und praktischen Vorerfahrungen der Teilnehmer mit<br />

Postkörben und Assessment Centern und den Ergebnissen in der KI.BOX für beide Kriterien<br />

theoretische<br />

Vorerfahrung mit<br />

Postkörben<br />

praktische<br />

Vorerfahrung mit<br />

Postkörben<br />

theoretische<br />

Vorerfahrung mit<br />

Assessment<br />

Centern<br />

praktische<br />

Vorerfahrung mit<br />

Assessment<br />

Centern<br />

Analytische Fähigkeiten<br />

(KI.BOX)<br />

Organisatorisch-konzeptionelle<br />

Fähigkeiten (KI.BOX)<br />

Korrelation nach<br />

Pearson<br />

-.003 .29*<br />

Signifikanz<br />

(2-seitig)<br />

.98 .05<br />

N 69 69<br />

Korrelation nach<br />

Pearson<br />

.06 .23<br />

Signifikanz<br />

(2-seitig)<br />

.61 .06<br />

N 69 69<br />

Korrelation nach<br />

Pearson<br />

.25* .27*<br />

Signifikanz<br />

(2-seitig)<br />

.04 .03<br />

N 69 69<br />

Korrelation nach<br />

Pearson<br />

.11 .07<br />

Signifikanz<br />

(2-seitig)<br />

.39 .56<br />

N 69 69<br />

** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />

* Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.<br />

Die Ergebnisse der statistischen Analyse sind wie folgt zu beschreiben: Das<br />

theoretische Wissen bzw. die theoretische Vorerfahrung mit Postkörben der<br />

Teilnehmer hängt nicht überzufällig stark mit ihren Ergebnissen in den<br />

Analytischen Fähigkeiten zusammen, wohl jedoch mit einer Korrelation von .29<br />

auf signifikantem Niveau mit dem Kriterium Organisatorisch-konzeptionelle<br />

Fähigkeiten. Für eine potenzielle Erklärung sei auf Kapitel 7 verwiesen. Die<br />

Hypothese D.7, die einen Zusammenhang von theoretischer Vorerfahrung mit<br />

Postkörben und beiden Kriterien der KI.BOX postuliert, wird demnach<br />

abgelehnt.<br />

Überraschenderweise hat auch die praktische Vorerfahrung dieser Stichprobe<br />

mit Postkörben keinen Einfluss auf die Ergebnisse in der KI.BOX in beiden<br />

Kriterien, auch wenn bzgl. der Organisatorisch-konzeptionellen Fähigkeiten mit<br />

p=.06 und einer Korrelation in Höhe von .23 ein Trend in die angenommene<br />

Richtung besteht. Die Hypothese D.8 wird also abgelehnt.<br />

Entgegen der aufgestellten Hypothese bestehen signifikante Zusammenhänge<br />

von theoretischem Wissen über Assessment Center und beiden Kriterien der<br />

1 4 5


Ergebnisse<br />

KI.BOX in Höhe von .25 bzw. .27 (beides auf Signifikanzniveau .05). Die<br />

Hypothese D.9 wird somit ebenfalls abgelehnt.<br />

Den Ergebnissen der statischen Analyse zufolge besteht kein signifikanter<br />

positiver Zusammenhang von praktischer Vorerfahrung mit Assessment<br />

Centern und den KI.BOX-Ergebnissen in beiden Kriterien. Dies ist<br />

hypothesenkonform, überrascht jedoch aufgrund der gefundenen<br />

Zusammenhänge mit der theoretischen Vorerfahrung zum AC. Obwohl die<br />

Hypothese D.10 bestätigt wurde und somit angenommen wird, werden in<br />

Kapitel 7 mögliche Überlegungen über das Zustandekommen dieser teilweise<br />

überraschenden Ergebnisse diskutiert.<br />

6.5.1 Zusammenfassung<br />

Es wurde untersucht, ob verschiedene demographische Daten sowie die<br />

Vorerfahrung der Teilnehmer Zusammenhänge mit den Ergebnissen in der<br />

KI.BOX haben. Die vorgenommen Datenanalysen weisen aufgrund der<br />

unregelmäßig verteilten Merkmale in der Stichprobe eher explorativen<br />

Charakter auf. Bezüglich des Geschlechts und des Alters der Teilnehmer<br />

konnten keine Effekte festgestellt werden. Gleiches gilt für das Studienfach der<br />

Teilnehmer. Des Weiteren wurde kein Zusammenhang zwischen KI.BOX-<br />

Ergebnissen und der Semesterzahl gefunden. Die Deutschkenntnisse weisen<br />

einen überzufälligen Effekt auf das Kriterium Organisatorisch-konzeptionelle<br />

Fähigkeiten auf, jedoch keinen bedeutsamen Einfluss auf die Analytischen<br />

Fähigkeiten. Bezüglich der Berufserfahrung wurde gar kein Zusammenhang<br />

gefunden. Zum theoretischen Wissen über Postkörbe wurde lediglich ein<br />

Zusammenhang mit den Organisatorisch-konzeptionellen Fähigkeiten ermittelt,<br />

nicht zu den Analytischen Fähigkeiten. Praktische Erfahrungen mit Postkörben<br />

weisen indes gar keinen bedeutsamen Zusammenhang zu keinem der beiden<br />

Kriterien auf. Entgegen der Hypothese konnten jedoch signifikante positive<br />

Korrelationen zum theoretischen Wissen über Assessment Center gefunden<br />

werden. Die praktischen AC-Erfahrungen weisen wiederum keinen<br />

überzufälligen Zusammenhang zu den KI.BOX-Ergebnissen auf.<br />

1 4 6


Diskussion<br />

7 Diskussion<br />

In den folgenden Abschnitten werden die in Kapitel 6 dargestellten Ergebnisse<br />

dieser Untersuchung diskutiert. Konkret wird dabei in der Reihenfolge der im<br />

Vorfeld formulierten Hypothesen vorgegangen und die Ergebnisse im Hinblick<br />

auf potenzielle Ursachen interpretiert. Zunächst werden die Ergebnisse<br />

bezüglich der Gütekriterien der KI.BOX (7.1) sowie zu Leistungsunterschieden<br />

von computererfahrenen und -unerfahrenen Teilnehmern (7.2) behandelt. Im<br />

Anschluss daran erfolgt die Diskussion zur Auswirkung von Reihenfolgeeffekten<br />

(7.3) und der demographischen Daten der Teilnehmer (7.4). Abschließend<br />

sollen im Fazit Implikationen der gefundenen Ergebnisse für die Praxis und ein<br />

Ausblick auf zukünftige Forschungsfragen (7.5) dargestellt werden.<br />

7.1 Gütekriterien der KI.BOX<br />

Da die Objektivität (7.1.1) und Reliabilität (7.1.2) der KI.BOX nicht explizit Teil<br />

der empirische Untersuchung dieser Arbeit waren, soll nur kurz auf diese<br />

beiden Gütekriterien eingegangen werden. Danach erfolgt eine ausführlichere<br />

Diskussion der untersuchten Validitätsaspekte (7.1.3), bevor dann in Kapitel<br />

7.1.4 auf die Nebengütekriterien eingegangen wird.<br />

7.1.1 Objektivität<br />

Die Objektivität eines Tests wird nach Lienert (1969) definiert als der Grad, mit<br />

dem das Ergebnis eines Testes unabhängig vom Untersucher ist. Wie bereits in<br />

Kapitel 4.1 festgestellt wurde, kann die Objektivität der KI.BOX sowohl in Bezug<br />

auf die Durchführung, die Auswertung als auch die Interpretation als gegeben<br />

beurteilt werden.<br />

Die Durchführung erfolgt in Einzelarbeit und ausschließlich durch das<br />

Programm gesteuert, so dass die Leistung eines Teilnehmers nicht durch<br />

Gruppenprozesse oder Interaktionen mit anderen Teilnehmern beeinflusst wird.<br />

Zudem erfolgt die Instruktion zum einen in schriftlicher Form, zum anderen als<br />

1 4 7


Diskussion<br />

Einarbeitungszeit direkt auf dem Computer, so dass nahezu keine Interaktion<br />

mit dem Versuchsleiter von Nöten ist (siehe Kapitel 3.2). Auch die Auswertung<br />

gilt als maximal objektiv, da die Vergabe von Punkten und Testkennwerten<br />

automatisch durch das Reporting-Tool erfolgt. Zudem gibt es bei der KI.BOX<br />

keine offenen Fragen, so dass kein Raum für subjektive Interpretationen bleibt.<br />

Die Interpretationsobjektivität gilt somit ebenfalls als gegeben, da das<br />

Reporting-Tool die Testkennwerte unmittelbar in die AC-übliche sechsstufige<br />

Skala von „---„ bis „+++“ einordnet (siehe Kapitel 3.5), wodurch die Position<br />

eines Probanden innerhalb eines Assessment Centers verdeutlicht wird.<br />

Als möglicher Kritikpunkt zur Objektivität ist jedoch ein ähnlicher Aspekt wie bei<br />

der Mailbox’90 (siehe Kapitel 2.4.3.1) anzuführen. So ist anzunehmen, dass im<br />

Arbeitsprozess auftretende Störungen, wie bei der KI.BOX etwa durch neu<br />

eintreffende E-Mails, die Durchführungsobjektivität beeinflussen können,<br />

besonders wenn Störungen die Teilnehmer während unterschiedlicher<br />

Arbeitsprozesse unterbrechen. Es könnte demnach einen Unterschied machen,<br />

ob dieselbe neu eintreffende Mail einen Teilnehmer genau im Übergang von<br />

einem Item zum nächsten oder inmitten der Bearbeitung eines schwierigen<br />

Items erreicht, so dass er aus seiner Konzentration gerissen wird. Ob dies bei<br />

einer im Vergleich zur Mailbox’90 eher geringen Störungsquote schon<br />

ausschlaggebend sein kann, bedarf noch weiterer Forschung, erscheint aber<br />

generell als unwahrscheinlich, da es sich bei der KI.BOX lediglich um vier neu<br />

eintreffende E-Mails handelt. Zudem ist zu betonen, dass es sich bei diesem<br />

<strong>Postkorb</strong> um einen situativen Test handelt und das Eintreffen neuer Mails, die<br />

die aktuellen Arbeiten kurzeitig unterbrechen können, in der hier realisierten<br />

Frequentierung im Büroalltag durchaus realistisch ist. Sollten diese wenigen<br />

Störungen also tatsächlich Einflüsse auf die Performance haben, was nicht<br />

anzunehmen ist, so wäre ggf. dem Argument der realistischen Simulation in<br />

diesem Fall der Vorzug zu geben. Immerhin sind gerade die Fähigkeiten, neue<br />

Aspekte zügig und ganzheitlich zu erfassen und daraufhin eine logische<br />

Priorisierung zu treffen, Bestandteile der Messung der KI.BOX. Obwohl von<br />

einer Beeinträchtigung der Objektivität also nicht auszugehen ist, könnte man<br />

zur abschließenden Klärung dieser Frage in nachfolgenden Untersuchungen<br />

aufgrund der vom Computer zusätzlich erfassten Daten feststellen, welche<br />

1 4 8


Diskussion<br />

Items gerade bei den jeweiligen Störungen bearbeitet wurden und analysieren,<br />

ob es dahingehend Unterschiede zwischen Teilnehmern mit guten und weniger<br />

guten Ergebnissen gibt.<br />

7.1.2 Reliabilität<br />

Wie in Kapitel 2.3.5.3 und 4.1 beschrieben, ist die Überprüfung der Reliabilität<br />

eines situativen, kriteriumsorientierten Tests mit untereinander vernetzten und<br />

teilweise dynamischen Items auf Grundlage des aktuellen Forschungsstands<br />

nahezu unmöglich. Da sämtliche aus der klassischen Testtheorie bekannte<br />

Methoden zur Reliabilitätsbestimmung (siehe Kapitel 2.1.1.2) unzulässig oder<br />

wegen auftretender Übungseffekte nicht aussagekräftig wären, kann nur von<br />

einer vorhandenen hohen Objektivität, die bei der KI.BOX gegeben ist, auf eine<br />

ebenfalls hohe Reliabilität geschlossen werden. Aufgrund dessen bleibt<br />

anzunehmen, dass die Reliabilität, soweit diese bei kriteriumsorientierten Tests<br />

überhaupt existiert (Klauer, 1987), bei der KI.BOX vergleichsweise hoch ist. Als<br />

einzige denkbare Annäherung an eine Reliabilitätsbestimmung in<br />

nachfolgenden Untersuchungen könnte ggf. eine andere Version der KI.BOX,<br />

d.h. eine Version, die an ein anderes Unternehmen angepasst wurde und daher<br />

geringfügig von der Basisversion abweicht, als Paralleltest dargeboten werden.<br />

Um Übungseffekte möglichst zu vermeiden und um die Teilnehmer aufgrund<br />

der hohen Stressbelastung bei Postkörben nicht zu überfordern, sollten diese<br />

Testungen an verschiedenen Tagen stattfinden, wobei sich wiederum das<br />

Problem von Versuchspersoneneffekten als mögliche Störvariablen stellt.<br />

Wirklich exakte Aussagen über die Reliabilität der KI.BOX können jedoch<br />

derzeit und womöglich auch in zukünftigen Untersuchungen nicht getroffen<br />

werden.<br />

7.1.3 Validität<br />

Die Überprüfung der Validität der KI.BOX wurde anhand verschiedener Kriterien<br />

überprüft und erbrachte zum Teil sehr günstige, mitunter aber auch unerwartete<br />

1 4 9


Diskussion<br />

Ergebnisse. Wie diese möglicherweise zustande kamen und zu bewerten sind,<br />

soll nun diskutiert werden. In Kapitel 7.1.3.1 wird im Rahmen der Überprüfung<br />

der Kriteriumsvalidität auf die Ergebnisse zu den äußeren Validierungskriterien<br />

eingegangen, Kapitel 7.1.3.2 befasst sich mit der inneren Validität der KI.BOX.<br />

Zu den anderen Validitätsarten sei auf Kapitel 4.1 verwiesen.<br />

7.1.3.1 Äußere Validität<br />

Zunächst wurden die Ergebnisse der beiden Kriterien der KI.BOX mit der<br />

Abiturnote der Probanden als äußeres Validierungskriterium korreliert, da diese<br />

als guter Prädiktor für Studien- und Berufserfolg gelten (siehe Kapitel 5.2.4).<br />

Entgegen den Annahmen, die sich aus den theoretischen Überlegungen und<br />

Studien von Baron-Boldt, Funke und Schuler (1989) oder Schmidt-Atzert (2006)<br />

ergaben, wurden jedoch keine signifikanten Zusammenhänge gefunden. Eine<br />

mögliche Erklärung für dieses Ergebnis findet sich möglicherweise in der<br />

Stichprobe selbst. Diese setzte sich wie erwähnt hauptsächlich aus<br />

Psychologiestudenten im Grundstudium der Universität zu Köln zusammen, an<br />

der zum Zeitpunkt der Datenerhebung ein Numerus Clausus von 1,7 für dieses<br />

Studienfach galt. Da die meisten Teilnehmer zudem zwischen dem 18. und 25.<br />

Lebensjahr waren, sind diese auch nicht über Wartezeiten an den Studienplatz<br />

gekommen, sondern mussten vornehmlich einen sehr niedrigen<br />

Abiturdurchschnitt haben. Tatsächlich zeigt eine Häufigkeitsverteilung dieser<br />

Variable einen deutlichen Deckeneffekt, nämlich dass über die Hälfte der<br />

Teilnehmer (n=35) einen Abiturdurchschnitt von unter 1,7 aufwiesen. Nach<br />

Hussy und Jain (2002) kann eine geringe Streuung der Werte in einer<br />

Stichprobe dazu führen, dass bestehende Unterschiede zwischen den<br />

Untersuchungsgruppen oder Variablen verwischt oder Korrelationen<br />

unterschätzt werden. Es ist also denkbar, dass zwar ein möglicherweise<br />

signifikanter Zusammenhang von Abiturnote und den Ergebnissen in der<br />

KI.BOX besteht, dieser in der untersuchten Stichprobe allerdings nicht<br />

aufgedeckt werden konnte. Da die KI.BOX jedoch zur Auswahl von<br />

Hochschulabsolventen und Trainees verschiedener Fachbereiche eingesetzt<br />

1 5 0


Diskussion<br />

werden soll, sollte in nachfolgenden Untersuchungen unbedingt eine<br />

gemischtere Stichprobe herangezogen werden, in der mehrere Studienfächer,<br />

unter anderem auch solche mit niedrigerem oder gänzlich ohne<br />

Zulassungsbeschränkung, gleich stark repräsentiert sind.<br />

Ähnlich wie bei der Abiturnote wurde auch bezüglich der letzten Schulnote in<br />

Deutsch entgegen der Hypothese kein signifikanter Zusammenhang zu den<br />

KI.BOX-Ergebnissen gefunden, obwohl auch diese als guter Prädiktor für<br />

Studien- und Berufserfolg gilt. Die zuvor gegebene Erklärung mag auch hier<br />

zutreffen, da knapp 80% der Teilnehmer (n=57) keine Deutschnote unter 10<br />

Punkten bzw. der Note 2- hatten. Für diese Annahme spricht auch, dass die<br />

Schulnote in Deutsch besonders hoch mit dem Studienerfolg in Geistes- und<br />

Humanwissenschaften korreliert (Baron-Boldt, Funke & Schuler, 1989) und die<br />

meisten Teilnehmer Psychologiestudenten mit einem guten bis sehr guten<br />

Abiturdurchschnitt waren, was eine Begründung dafür sein könnte, dass beide<br />

Variablen nicht mit den KI.BOX-Ergebnissen korrelieren. Somit gilt also auch<br />

hier, dass ein möglicherweise vorhandener Zusammenhang zwischen<br />

Deutschnote und KI.BOX-Ergebnissen existieren könnte, dieser jedoch in der<br />

untersuchten Stichprobe nicht auszumachen ist. Um diese These zu<br />

bekräftigen, wurde eine Sekundäranalyse mit Hilfe der AZUBI-BK<br />

vorgenommen. Diese kann in ihrem Auswertungsprogramm neben den bereits<br />

beschriebenen Kennwerten einen Wert für die „sprachlichen Fähigkeiten“ jedes<br />

Teilnehmers ausgeben. Da die AZUBI-BK aber komplett in Deutsch<br />

durchgeführt wird, dürfte es sich wohl genauer um die Fähigkeiten bzgl. der<br />

deutschen Sprache handeln. Werden diese nun mit den Ergebnissen beider<br />

Kriterien der KI.BOX korreliert, so ergeben sich hochsignifikante<br />

Zusammenhänge von .35 zu den Analytischen Fähigkeiten und .42 zu den<br />

Organisatorisch-konzeptionellen Fähigkeiten. Die sprachlichen Fähigkeiten aus<br />

der AZUBI-BK korrelieren wiederum laut den Testautoren hoch mit den<br />

entsprechenden Schulnoten (Schuler & Klingner, 2005). Es scheint also doch<br />

einen deutlichen Zusammenhang von sprachlicher Fähigkeit in Deutsch, welche<br />

als Prädiktor für Studien- und Berufserfolg gilt, und der Leistung in der KI.BOX<br />

zu geben, die jedoch nicht anhand der Schulnoten in dieser Stichprobe ermittelt<br />

werden kann. Eine zukünftige Untersuchung mit einer Stichprobe, in der die<br />

1 5 1


Diskussion<br />

letzten Schulnoten in Deutsch besser verteilt sind, könnte also auch hier offen<br />

gebliebene Fragen beantworten. Die im Rahmen der demographischen Daten<br />

erfasste Frage nach Deutsch als Muttersprache der Teilnehmer soll in dieser<br />

Diskussion zunächst außen vor bleiben, da diese Frage weniger prognostische<br />

Aussagen zulässt. Vielmehr sollte sie zeigen, ob die Items der KI.BOX klar<br />

formuliert und leicht verständlich sind, worauf in Kapitel 7.4 eingegangen wird.<br />

Hinsichtlich der letzten Schulnote in Mathematik konnte hypothesenkonform ein<br />

signifikanter Zusammenhang von .31 zu den Analytischen Fähigkeiten der<br />

KI.BOX gefunden werden. Ein Grund dafür, welcher ebenfalls für die Annahme<br />

spricht, dass die zuvor genannten Zusammenhänge aufgrund der ungünstigen<br />

Stichprobenmerkmale nicht ermittelt werden konnten, liegt an der weniger<br />

starken Ausprägung des Deckeneffekts bzgl. dieses Merkmals. Zwar existiert<br />

immer noch ein leichter Deckeneffekt, jedoch liegen hier nur etwa 60% der<br />

Teilnehmer (n=40) über 10 Punkten. Diese Verteilung in der<br />

Merkmalsausprägung, die eher im mittelmäßigen bis guten Bereich liegt,<br />

scheint somit deutlich repräsentativer für die Zielgruppe zu sein, die mit der<br />

KI.BOX getestet werden sollen, was bei den hier erfragten Abitur- und<br />

Deutschnoten nicht unbedingt der Fall war. Ein weiterer Aspekt ist, dass in der<br />

KI.BOX und im Speziellen in den Items zu den Analytischen Fähigkeiten auch<br />

mathematische Problemstellungen enthalten sind und das zügige und korrekte<br />

Lösen dieser Probleme sogar in die Kriteriendefinition aufgenommen wurde<br />

(siehe Kapitel 3.4). Es ist demnach als äußerst positiv zu bewerten, dass ein<br />

diesbezüglicher Zusammenhang aufgedeckt wurde, da somit belegt wird, dass<br />

die KI.BOX im Kriterium Analytische Fähigkeiten den Aspekt der<br />

mathematischen Fähigkeiten valide erfasst. Um dies zu untermauern, wurde<br />

auch hier eine Sekundäranalyse durch die AZUBI-BK und den in ihrem<br />

Auswertungsprogramm zusätzlich generierten Kennwert „rechnerische<br />

Fähigkeiten“ durchgeführt. Es zeigt sich eine hochsignifikante Korrelation zu<br />

den Analytischen Fähigkeiten der KI.BOX von .31, so dass die Validität der<br />

KI.BOX zum Erfassen der mathematischen Fähigkeiten der Teilnehmer im<br />

Kriterium Analytische Fähigkeiten als gesichert gelten kann.<br />

Neben dem Abiturdurchschnitt und den beiden Einzelschulnoten wurden<br />

Selbsteinschätzungen der Teilnehmer bezüglich ihrer analytischen und<br />

1 5 2


Diskussion<br />

organisatorisch-konzeptionellen Fähigkeiten anhand einer sechsstufigen<br />

Beurteilungsskala erfasst, und diese mit den Ergebnissen der KI.BOX zu den<br />

jeweiligen Kriterien korreliert. Im Bereich Analytische Fähigkeiten fand sich ein<br />

signifikanter Zusammenhang von .29, so dass dieses Kriterium durch die<br />

Selbsteinschätzung der Teilnehmer validiert wird. Die Selbsteinschätzung ist<br />

jedoch ein höchst subjektives Kriterium und daher für sich allein genommen<br />

kaum aussagekräftig. In Zusammenhang mit den anderen<br />

Validierungsergebnissen dieser Studie scheint das Ergebnis jedoch<br />

aussagekräftiger, da auch viele andere Punkte für eine Validität der KI.BOX im<br />

Bereich Analytische Fähigkeiten sprechen (z.B. hochsignifikante Korrelation zur<br />

letzten Schulnote in Mathematik, darüber hinaus verschiedene Ergebnisse der<br />

inneren Validitätsprüfung, siehe Kapitel 7.1.3.2). Im Bereich der<br />

Organisatorisch-konzeptionellen Fähigkeiten fand sich entgegen der Annahme<br />

kein signifikanter Zusammenhang, jedoch immerhin eine positive Korrelation<br />

von .14, was zumindest einen Trend in die richtige Richtung darstellt. Eine<br />

mögliche Erklärung für die geringe Ausprägung der Korrelation könnte die<br />

Formulierung des Kriteriums sein. Während der Begriff „Analytische<br />

Fähigkeiten“ einleuchtend beschreibt, dass es darum geht, wie gut<br />

Sachverhalte analysiert und durchdrungen werden können, oder zumindest,<br />

dass dieses Messkriterium etwas mit Intelligenz zu tun haben muss, könnte die<br />

Definition des Begriffs „Organisatorisch-konzeptionelle Fähigkeiten“ für nicht<br />

oder wenig psychologisch geschulte Teilnehmer bzw. Studienanfänger schon<br />

weniger eindeutig sein. Dies wird auch durch die Tatsache gestützt, dass<br />

während der Bearbeitung dieses Selbsteinschätzungsitems mehrfache<br />

Verständnisnachfragen der Teilnehmer auftraten. Ob die Ergebnisse auf das<br />

sprachliche Hindernis, nämlich dem Verständnis des doppelten Adverbs<br />

„organisatorisch-konzeptionell“ zurückzuführen ist oder darauf, dass sich die<br />

Teilnehmer zu wenig Inhaltliches unter diesem Begriff vorstellen konnten, bleibt<br />

ungewiss. Ein weiterer Grund für einen nicht gefundenen, jedoch<br />

möglicherweise doch bestehenden Zusammenhang von <strong>Postkorb</strong>ergebnis und<br />

Selbsteinschätzung könnte die soziale Erwünschtheit sein. Die Teilnehmer<br />

wollten sich im Fragebogen möglicherweise besser darstellen, was zu<br />

überhöhten Antwortwerten geführt haben könnte. Hierfür sprechen auch die<br />

1 5 3


Diskussion<br />

Mittelwerte der beiden Selbstenschätzungsitems, die mit 4,35 bei den<br />

Analytischen Fähigkeiten und 4,28 bei den Organisatorisch-konzeptionellen<br />

Fähigkeiten jeweils im überdurchschnittlichen Bereich der sechsstufigen<br />

Einschätzungsskala liegen. Dies wiederum könnte jedoch auch an der<br />

Formulierung der Items gelegen habe, da hier nach einem Vergleich der<br />

eigenen Fähigkeiten „zu anderen Studierenden“ gefragt wurde. Anzunehmen<br />

wäre demnach, dass besonders die Psychologiestudenten, die wie erwähnt<br />

überwiegend gute Noten und einen niedrigen Abiturdurchschnitt aufwiesen<br />

(siehe oben), in der untersuchten Stichprobe von ihren Fähigkeiten in diesen<br />

kognitiven Kompetenzen sehr überzeugt waren und diese im Vergleich etwa zu<br />

Studenten in Fächern ohne Zulassungsbeschränkungen durchschnittlich höher<br />

einschätzten. Diese Annahmen sind jedoch bis dato rein spekulativ und<br />

bedürfen weiterer Studien, in der auch genügend Teilnehmer aus anderen<br />

Studienbereichen vertreten sind. Aufgrund der Selbsteinschätzung der<br />

Teilnehmer zu ihren Organisatorisch-konzeptionellen Fähigkeiten können bis<br />

dahin jedoch keine abgesicherten Aussagen über die Validität der KI.BOX<br />

gemacht werden. Da der Trend der Korrelation jedoch erkennbar wird, könnten<br />

in nachfolgenden Untersuchungen erneut Selbsteinschätzungen zu den beiden<br />

Kriterien erhoben werden. Allerdings müssten den Teilnehmern dann adäquate<br />

Definitionen zur Verfügung stehen, die möglichst alle Aspekte des jeweiligen<br />

Kriteriums erfassen, besonders bezüglich der Organisatorisch-konzeptionellen<br />

Fähigkeiten. Weiterhin sollte die Stichprobe wie oben erwähnt mehr Studenten<br />

aus anderen Fachrichtungen enthalten.<br />

7.1.3.2 Innere Validität<br />

Die für die KI.BOX günstigsten Ergebnisse liefert die Validierung mittels der<br />

AZUBI-BK. Die beiden Kriterien der KI.BOX korrelieren jeweils hochsignifikant<br />

bei mittleren bis starken Effekten mit dem Gesamttestwert der AZUBI-BK bzw.<br />

die Analytischen Fähigkeiten der KI.BOX zu .44 mit dem Grundmodul und die<br />

Organisatorisch-konzeptionellen Fähigkeiten zu .53 mit Postmodul der AZUBI-<br />

BK. Da die jeweiligen Kriterien und Module ähnliche Verhaltensmerkmale<br />

erfassen, und zudem diverse andere Ergebnisse dieser Studie auch dafür<br />

1 5 4


Diskussion<br />

sprechen, kann von einer bestätigten Validität der KI.BOX in beiden Kriterien<br />

ausgegangen werden. Es bleibt die Frage, ob die gefundenen Koeffizienten<br />

unter anderen Bedingungen anders ausfallen würden. Auf mögliche<br />

Implikationen für nachfolgende Studien sei diesbezüglich aber auf Kapitel 7.5<br />

verwiesen.<br />

Als nicht signifikant wurde jedoch die Korrelation zwischen den<br />

Bearbeitungszeiten in beiden Tests beobachtet. Dieses Ergebnis überraschte<br />

zunächst, da doch beide Tests ähnliche Dimensionen erfassen und gleichsam<br />

im Bürokontext angesiedelt sind. Erklären lässt sich dieses Ergebnis womöglich<br />

dadurch, dass die KI.BOX als computergestützter Test für die Teilnehmer neu<br />

und ungewohnt war, während die Paper-Pencil-Form der AZUBI-BK besonders<br />

den vielen Psychologiestudenten vertrauter gewesen sein dürfte. Obwohl die<br />

Computerkenntnisse keine bedeutende Rolle für die Performance in der KI.BOX<br />

haben (siehe unten), war es wohl dennoch für viele der Studentinnen und<br />

Studenten zumindest ungewohnt, bei einem Test am Computer zu sitzen und<br />

zwischen verschiedenen Seiten hin- und herklicken zu müssen, anstatt wie bei<br />

der AZUBI-BK und den meisten anderen Tests auf einem Blatt Papier die<br />

Lösungen einfach von oben nach unten anzukreuzen. Da jedoch die KI.BOX im<br />

Rahmen von Auswahlverfahren für Positionen mit Büroarbeitsplätzen eingesetzt<br />

werden soll, ist zu erwarten, dass die Bewerber mit der realistischen und an<br />

gängigen Programmen orientierten Darstellungsform der KI.BOX,<br />

beispielsweise einem wiederholten Wechsel vom Posteingangsfenster zur<br />

Kalenderfunktion, besser vertraut sind als die Teilnehmer der studentischen<br />

Stichprobe zu Beginn ihres Studiums.<br />

Mittels der entsprechenden Subskala aus dem BIP wurde überprüft, ob die<br />

Gewissenhaftigkeit mit den Ergebnissen der KI.BOX korreliert, da nach Schmidt<br />

und Hunter (1998) die Leistungsbeurteilung der Arbeit eines Probanden zu 31%<br />

durch Gewissenhaftigkeit erklärt werden kann. Tatsächlich korrelierten die<br />

Ergebnisse dieses Fragebogens zu .29 signifikant mit den KI.BOX-Ergebnissen,<br />

allerdings nur im Kriterium Organisatorisch-konzeptionelle Fähigkeiten, bei den<br />

Analytischen Fähigkeiten wurde mit einer Korrelation von .10 kein signifikanter<br />

Zusammenhang ausgemacht. Eine mögliche Begründung hierfür könnte sein,<br />

dass sich die Aufgaben zu den Analytischen Fähigkeiten in der KI.BOX klarer<br />

1 5 5


Diskussion<br />

darstellen als zu den Organisatorisch-konzeptionellen Fähigkeiten. Man hat<br />

meist eine E-Mail mit einer darin enthaltenen Aufgabe vor sich, bei der man<br />

beispielsweise etwas logisch kombinieren oder errechnen muss, und wenn man<br />

eine Aufgabe aus diesem Bereich gelöst hat, kann zur nächsten übergegangen<br />

werden. Bei den Organisatorisch-konzeptionellen Aufgaben hingegen muss<br />

man dagegen eher aufwändigere Probleme lösen, z.B. etwas aus Tabellen<br />

heraussuchen, zwischen früheren und späteren Mails hin- und herklicken, aus<br />

verschiedenen Alternativen aufgrund der Informationslage die richtigen<br />

Lösungen aussuchen, den Kalender sinnvoll anlegen, etc. Diese Items korrekt<br />

zu bearbeiten erfordert mitunter ein detailliertes und somit gewissenhafteres<br />

Vorgehen, was die gefundene Korrelation erklären würde. Somit können also<br />

8% der Varianz im Ergebnis zu diesem Kriterium der KI.BOX durch die BIP-<br />

Skala zur Gewissenhaftigkeit aufgeklärt werden. Da diese als recht<br />

verlässlicher Prädiktor für spätere Leistungsbeurteilungen, Einkommen oder<br />

beruflicher Zufriedenheit gilt (siehe Kapitel 5.2.2), spricht auch dieses Ergebnis<br />

für die Validität der KI.BOX.<br />

Insgesamt kann man festhalten, dass auf Grundlage der in dieser<br />

Untersuchung gefundenen Ergebnisse die Validität der KI.BOX zunächst als<br />

gesichert anzusehen ist, da die beiden Kriterien offensichtlich auch das<br />

messen, was sie messen sollen. Die Ergebnisse zur inneren Validitätsprüfung<br />

sprechen deutlich dafür, die äußere Validitätsprüfung weist hauptsächlich bei<br />

den Analytischen Fähigkeiten in diese Richtung. Dennoch sollten hierzu weitere<br />

Untersuchungen mit den oben angesprochenen Variationen folgen,<br />

insbesondere mit einer gemischteren, der tatsächlichen Bewerberpopulation<br />

ähnlicheren Stichprobe.<br />

7.1.4 Nebengütekriterien<br />

Im Folgenden soll die KI.BOX im Hinblick auf die in Kapitel 2.1.1.4 aufgeführten,<br />

von Lienert (1969) aufgestellten Nebengütekriterien besprochen werden. Dabei<br />

wird auf die Aspekte der Normierung, Vergleichbarkeit, Ökonomie und<br />

Nützlichkeit genauer eingegangen.<br />

1 5 6


Diskussion<br />

Eine Normierung der KI.BOX ist bis zum Abschluss dieser Arbeit noch nicht<br />

erfolgt, da der <strong>Postkorb</strong> noch sehr neu und der bisher vorliegende Datensatz zu<br />

gering ist. Die Normierung sollte aus den oben angesprochenen Gründen auch<br />

nicht anhand der hier erhobenen vergleichsweise kleinen studentischen<br />

Stichprobe erfolgen, sondern anhand realistischer, aus der Praxis gewonnener<br />

Daten, wenn die KI.BOX in wirklichen Assessment Centern zur Auswahl von<br />

Hochschulabsolventen und Trainees eingesetzt wird. Sollte diese Normierung<br />

mit einer ausreichend hohen Teilnehmeranzahl erfolgen, könnte eine<br />

diesbezügliche zusätzliche Auswertung in das Reporting-Tool der KI.BOX<br />

integriert werden, um zu zeigen, welche Position ein Proband hinsichtlich der<br />

beiden Kriterien im Verhältnis zu den Testergebnissen anderer Probanden<br />

einnimmt. Diese relative Ergebnisbetrachtung, die bereits im PC-<strong>Postkorb</strong><br />

„Seeblick“ (Kapitel 2.4.3.3) realisiert ist, würde einerseits einen deutlichen<br />

Informationsgewinn bei der Auswertung der KI.BOX bedeuten, zum anderen<br />

würde man somit dem <strong>Postkorb</strong> als Mischform aus Modellen der klassischen<br />

Testtheorie sowie der kriteriumsorientierten Leistungsmessung gerecht werden.<br />

Die Umsetzung einer solchen Normierung ist nach Aussagen des Testautors<br />

bereits in Planung.<br />

Die Vergleichbarkeit der KI.BOX gilt als gesichert, da das Verfahren über die<br />

AZUBI-BK, welche ähnliche Dimensionen erfasst, einer inneren<br />

Validitätskontrolle unterzogen wurde, in der hochsignifikante Zusammenhänge<br />

gezeigt werden konnten. Die Überprüfung der Vergleichbarkeit mittels<br />

Paralleltest-Methode ist kaum möglich, da bei einem <strong>Postkorb</strong> zu starke<br />

Übungseffekte wirken würden.<br />

Des Weiteren kann festgehalten werden, dass die KI.BOX wie die meisten<br />

computergestützten Postkörbe als ökonomisch zu bewerten ist. Die<br />

Vorbereitung-, Durchführungs- und Auswertungszeit beträgt insgesamt etwa 85<br />

Minuten. Dies klingt zunächst lang, ist aber im Vergleich etwa zu einem<br />

Intelligenztest oder auch einer Übung des Assessment Centers, wie<br />

beispielsweise der Fallstudie mit Vorbereitung und Durchführung durch die<br />

Teilnehmer und anschließender Beurteilung und Konferenz der Beobachter,<br />

durchaus im kurzen bis durchschnittlichen Zeitbereich. Hinzu kommt, dass ein<br />

computergestützter <strong>Postkorb</strong> zwar während der Konzeptions- und<br />

1 5 7


Diskussion<br />

Programmierungsphase kostenintensiver als andere Verfahren ist, er aber nach<br />

der Fertigstellung einfach und schnell auf die entsprechenden<br />

Kundenbedürfnisse angepasst werden kann, was bei der KI.BOX bei<br />

zukünftigen Einsätzen der Fall wäre. Material wird auch kaum verbraucht, da<br />

außer die wenigen Seiten der Papier-Instruktion alles über den Computer läuft.<br />

Theoretisch wäre die KI.BOX sogar als Gruppentest einsetzbar, sofern<br />

ausreichend Computerarbeitsplätze bzw. Laptops vorhanden sind.<br />

Ebenso kann die Nützlichkeit der KI.BOX als hoch eingeschätzt werden. Zwar<br />

existieren bereits andere Postkörbe, die ähnliche Kriterien erfassen (siehe<br />

Tabelle 3), und auch computergestützte Verfahren dieser Art werden bereits auf<br />

dem Markt angeboten (siehe Kapitel 2.4.3), jedoch bietet die KI.BOX doch<br />

besonders in Hinblick auf ihr modernes Design und die damit verbundene hohe<br />

Softwareergonomie sowie ihre wissenschaftliche Güte, die in der vorliegenden<br />

Arbeit bestätigt wurde, bedeutende Vorteile, mit denen sie vergleichbaren<br />

Verfahren überlegen scheint.<br />

In Bezug auf die Nebengütekriterien kann die KI.BOX also als sehr zufrieden<br />

stellend beurteilt werden, besonders wenn die zusätzliche Auswertung per<br />

Normstichprobe in naher Zukunft noch verwirklicht wird.<br />

7.2 Zusammenhang von Computererfahrung und Leistung in der<br />

KI.BOX<br />

In der vorliegenden Untersuchung konnte bestätigt werden, dass die Leistung<br />

der Probanden in der KI:BOX nicht davon abhängt, wie erfahren sie im Umgang<br />

mit Computern und Computeranwendungen sind. Zur Überprüfung des<br />

Einflusses dieser Variablen wurden mit SUCA und VECA zwei<br />

Selbsteinschätzungsfragebögen eingesetzt (siehe Kapitel 5.2.3).<br />

Selbstauskunftsfragebögen bringen jedoch immer die Gefahr von Verzerrungen<br />

durch soziale Erwünschtheit mit sich. Dies könnte in der aktuellen<br />

Untersuchung besonders der Fall gewesen sein, wenn die Testpersonen nicht<br />

verstanden hätten, dass das Ausfüllen des Fragebogens nicht mehr Teil der<br />

Testung war, über das ihnen ein Feedback versprochen worden war. Somit<br />

1 5 8


Diskussion<br />

hätten einzelne Teilnehmer möglicherweise versuchen können, ihr Wissen im<br />

Umgang mit Computern als umfangreicher darzustellen als es in Wirklichkeit ist.<br />

Um diesen Effekt zu vermeiden, wurden die Teilnehmern vor dem Austeilen des<br />

Fragebogens, der ja sowohl in Versuchsbedingung 1 wie Bedingung 2 am Ende<br />

der Untersuchung, also jeweils nach KI.BOX und AZUBI-BK ausgeteilt wurde,<br />

explizit darauf hingewiesen, dass die Ergebnisse im nun folgenden Fragebogen<br />

nicht mehr Teil des Feedbacks sein würden und sie deshalb möglichst ehrlich<br />

antworten sollten. Dass dies von den Teilnehmern wohl auch größtenteils<br />

berücksichtigt wurde, zeigt die Verteilung der Werte der SUCA- und VECA-<br />

Ergebnisse. Diese sind jeweils über den Range der zu erreichenden möglichen<br />

Punkte normalverteilt, d.h. in der untersuchten Stichprobe lagen die<br />

Erfahrungen und Kenntnisse im Umgang mit Computern im durchschnittlichen<br />

Bereich, was man in einer Stichprobe von Studienanfängern aus nicht<br />

computerbezogenen Studiengänge auch so erwarten würde.<br />

Bezüglich der drei aus dem VECA herausgegriffenen Computeranwendungen<br />

E-Mail, Textverarbeitung und Terminplanungsprogrammen wurde ebenfalls kein<br />

Zusammenhang zu den KI.BOX-Ergebnissen festgestellt. Die Vertrautheit mit<br />

E-Mail-Anwendungen korrelierte mit beiden Kriterien der KI.BOX sogar im<br />

negativen Bereich, bezüglich der Organisatorisch-konzeptionellen Fähigkeiten<br />

sogar recht hoch mit -.23. Diese Korrelation war zwar nicht signifikant, liegt aber<br />

mit einem errechneten Signifikanzwert von p=.054 stark an der Grenze zum<br />

überzufälligen Zusammenhang, der eventuell in einer anderen,<br />

repräsentativeren Stichprobe aufgedeckt werden könne. Mögliche Gründe für<br />

einen solchen negativen Zusammenhang zwischen der Vertrautheit mit E-Mail-<br />

Anwendungen und den KI.BOX-Ergebnissen könnte sein, dass die meisten<br />

Studienanfänger, die beispielsweise noch kein Praktikum oder andere<br />

Berufserfahrung im kaufmännischen- oder bürogebundenen Arbeitsumfeld<br />

haben, für private E-Mails eher Online-Anbieter wie GMX, Hotmail oder Freenet<br />

nutzen und vergleichsweise wenig Erfahrung mit solchen E-Mail-Clients haben,<br />

wie sie in Büros verwendet werden und an welche die Softwareergonomie der<br />

KI.BOX angelehnt ist. Dass dies eine Rolle spielen könnte, zeigt die Verteilung<br />

der Antworten zu den drei Items des VECA: Bezüglich<br />

Textverarbeitungsprogrammen schätzen die meisten Teilnehmer ihre<br />

1 5 9


Diskussion<br />

Vertrautheit damit im durchschnittlichen Bereich ein, ca. 90% der Teilnehmer<br />

(n=61) kreuzten auf der sechsstufigen Beurteilungsskala die Werte drei oder<br />

vier an. Bezüglich der Vertrautheit mit E-Mails lagen die Selbsteinschätzung<br />

ausschließlich im durchschnittlichen bis guten Bereich, zu fast gleichen Anteilen<br />

wurden von Teilnehmern einzig die Werte drei, vier und fünf angekreuzt. Bei<br />

den Terminplanungsprogrammen lagen die Selbsteinschätzungen deutlich<br />

tiefer, da über 81% der Teilnehmer (n=56) die Werte eins bis drei ankreuzten.<br />

Es zeigt sich also, dass die eigene Vertrautheit mit E-Mails als mittel bis hoch<br />

eingeschätzt wird, mit Terminplanungsprogrammen jedoch eher als niedrig.<br />

Würden die Teilnehmer hauptsächlich bürotypische Clients verwenden, in<br />

denen jeweils eine Terminplanungsfunktion enthalten ist, wäre anzunehmen,<br />

dass diese Funktion auch genutzt würde und die Selbsteinschätzungen<br />

demnach höher ausfielen. Diese Vermutung ist jedoch rein spekulativer Natur<br />

und bedarf noch weiterer Untersuchungen.<br />

Eine näher liegende Erklärung könnte sein, dass, wie erwähnt, besonders<br />

bezüglich der Organisatorisch-konzeptionellen Items nicht nur die Bearbeitung<br />

der E-Mails, sondern auch die des Kalenders oder der Prioritätenliste von<br />

Bedeutung ist. Somit könnten also die Teilnehmer durchaus Erfahrung mit<br />

derartigen E-Mail-Clients haben, jedoch würden ihnen diese bei der<br />

Bearbeitung der Organisatorisch-konzeptionellen Items nicht viel nützen, so<br />

dass sie hier schlechter abschneiden als in den Analytischen Fähigkeiten,<br />

deren Items fast ausschließlich durch die Bearbeitung von E-Mails bestimmt<br />

sind. Ein Beleg dafür findet sich womöglich in dem insgesamt tiefer liegenden<br />

Mittelwert der Organisatorisch-konzeptionellen Items (-1,67; Mittelwert bei den<br />

Analytischen Fähigkeiten: 2,71).<br />

Insgesamt kann es folglich sein, dass dieser vergleichsweise hohe, wenn auch<br />

nicht signifikante negative Zusammenhang von Vertrautheit mit E-Mails und den<br />

Ergebnissen in den Organisatorisch-konzeptionellen Fähigkeiten in zukünftigen<br />

Untersuchungen deutlich tiefer ausfällt oder sogar ganz wegfällt und, wie das<br />

Ergebnis in dieser Stichprobe zeigt, lediglich zufällig zustande gekommen ist.<br />

Aufgrund der hier ermittelten Ergebnisse kann also zunächst davon<br />

ausgegangen werden, dass die Computererfahrung keinen Einfluss auf die<br />

Ergebnisse in der KI.BOX hat. Zu beurteilen ist diese Tatsache als höchst<br />

1 6 0


Diskussion<br />

positiv, da dies vom Testautor bei Konzeption auch so beabsichtigt wurde<br />

(siehe Kapitel 3.1). Des Weiteren kann damit ein häufiges Vorurteil an<br />

computergestützten AC-Übungen sowohl von Eignungsdiagnostikern als auch<br />

von Kunden, die Assessment Center in Auftrag geben, zumindest für die<br />

KI.BOX verworfen werden.<br />

7.3 Auswirkung von Reihefolgeeffekten<br />

In der vorliegenden Untersuchung wurde hypothesenkonform festgestellt, dass<br />

sich Reihenfolgeeffekte, die durch die Positionierung der KI.BOX innerhalb<br />

einer Testsequenz entstehen könnten, nicht überzufällig auf die Leistungen der<br />

Probanden in der KI.BOX auswirken. Das heißt also, dass Teilnehmer ähnliche<br />

Ergebnisse erzielen würden, wenn sie das Verfahren zu Beginn oder im<br />

späteren Verlauf einer Testsequenz bearbeiteten. Die Ergebnisse der Studien<br />

von Nienaber (1997) und Fruhner (siehe Kapitel 2.2.4) konnten somit bestätigt<br />

werden. Bezogen auf die Praxis ist dies ebenfalls sehr positiv, da die KI.BOX<br />

problemlos zu jedem Zeitpunkt innerhalb eines Assessment Centers eingesetzt<br />

werden kann. Es bestehen keine diesbezüglichen Einschränkungen, etwa in der<br />

Weise, dass sie unbedingt als erste Übung absolviert werden müsste, da die<br />

Teilnehmer im späteren Verlauf sonst schlechter abschneiden würden.<br />

Besonders für die Zeitplanung eines Assessment Centers ist dies sehr hilfreich<br />

und ökonomisch, da eine solche Übung, für die der Teilnehmer nicht von<br />

Beobachtern beurteilt werden muss, in Einzelarbeit bearbeitet und daher<br />

zwischen die anderen Übungen „eingeschoben“ werden kann.<br />

Jedoch soll angemerkt werden, dass die hier gefundenen Ergebnisse der<br />

vorliegenden Studien nur eingeschränkt auf ein wirkliches Assessment Center<br />

übertragen werden können. Die Untersuchung dauerte im Höchstfall etwa 4<br />

Stunden, während ein Assessment Center mitunter mehrere Tage in Anspruch<br />

nehmen kann. Ob es also auch keine Leistungsunterschiede in den KI.BOX-<br />

Ergebnissen geben würde zwischen Teilnehmern, die das Verfahren zu Beginn<br />

des ersten Tages oder gegen Ende des dritten Tages bearbeiten, bleibt<br />

ungewiss und konnte in dieser Untersuchung nicht überprüft werden. Lediglich<br />

die Analysen mehrerer tatsächlicher Assessment Center, in denen die KI.BOX<br />

1 6 1


Diskussion<br />

von verschiedenen Teilnehmern mit einem wie oben beschriebenen größeren<br />

Zeitabstand bearbeitet würde, könnte diese Frage klären. Jedoch wäre es aus<br />

ethischen Gründen höchst fraglich, das Risiko einzugehen, dass ein Teilnehmer<br />

aufgrund doch bestehender Reihenfolgeeffekten in der KI.BOX, die sich erst<br />

über größere Zeitdifferenzen ergeben, ein schlechteres Gesamtergebnis im AC<br />

bekommt, und ihm daher womöglich eine angestrebte Arbeitsstelle verwehrt<br />

bleibt. Als Mögliche Lösung bliebe, dass man diese Untersuchung im AC eines<br />

Unternehmens durchführt und die KI.BOX nicht in das AC-Ergebnis einfließen<br />

lassen würde, ohne die Teilnehmer darüber zu informieren. Ob sich jedoch<br />

Unternehmen fänden, die ihre Teilnehmer eine insgesamt etwa achtzigminütige<br />

Übung im Laufe ihres Assessment Centers durchführen ließen, ohne dass sich<br />

dadurch ein unmittelbarer Nutzen für das Unternehmen ergäbe, könnte sich als<br />

schwierig erweisen. Empfohlen wird also, sich zunächst auf die hier<br />

durchgeführte Untersuchung zu stützen und die KI.BOX von den Teilnehmern<br />

eines Assessment Centers in nicht allzu großen Zeitabständen bearbeiten zu<br />

lassen. In der Untersuchung betrug die Zeitdifferenz etwa zwei Stunden, und<br />

die Ergebnisse, die gegen eine Wirkung von Reihenfolgeeffekten sprechen,<br />

waren recht eindeutig. Ein durchschnittlicher AC-Durchführungstag dauert für<br />

den Teilnehmer etwa sieben bis neun Stunden, wenn man davon die<br />

Bearbeitungszeit der KI.BOX abzieht, bleiben noch etwa fünfeinhalb bis<br />

siebeneinhalb Stunden übrig. Es dürfte nach Meinung des Autors dieser Arbeit<br />

also vertretbar sein, die KI.BOX an unterschiedlichen Positionen eines AC-<br />

Tages einzusetzen, ohne dass sich aufgrund von Reihefolgeeffekten<br />

überzufällig bedeutende Leistungsunterschiede bei den Teilnehmern einstellen.<br />

Jedoch sollte es nicht zu einem Einsatz des Instruments an unterschiedlichen<br />

Durchführungstagen des Assessment Centers kommen, ohne das hierzu<br />

weitere Studien betrieben wurden.<br />

7.4 Einfluss der demographischen Daten<br />

Wie bereits in Kapitel 6.5 angesprochen, können aufgrund der hier erfolgten<br />

Auswertungen zum Einfluss der demographischen Daten auf die KI.BOX-<br />

Ergebnisse nur explorative Aussagen getroffen werden, da die Ausprägungen<br />

1 6 2


Diskussion<br />

in nahezu keiner der untersuchten Variablen gleich verteilt waren. Die<br />

Stichprobe bestand hauptsächlich aus weiblichen Psychologiestudentinnen<br />

unter 25 Jahren im ersten bis dritten Semester mit Deutsch als erster<br />

Muttersprache und überwiegend ohne Berufserfahrung. Obwohl eine<br />

repräsentativere Stichprobe, die die tatsächliche Bewerbersituation der KI.BOX-<br />

Zielgruppe besser widerspiegelt, andere als die hier gefundenen Ergebnisse<br />

erbringen könnte, wird davon ausgegangen, dass zumindest der Trend von<br />

vorhandenem oder nicht vorhandenem Einfluss der jeweiligen Variable<br />

bestehen bliebe. Demnach ist bis auf weiteres positiv zu bewerten, dass kein<br />

signifikanter Leistungsunterschied in der KI.BOX zwischen Männern und<br />

Frauen sowie Studenten unterschiedlicher Studienfächer und Semesteranzahl<br />

oder variierender Berufserfahrung aufgedeckt wurde, was bedeutet, dass<br />

niemand hinsichtlich dieser Merkmale bevorteilt oder benachteiligt wird.<br />

Anders sieht dies bezüglich der Variable Alter aus. Entgegen der Annahme der<br />

Hypothese wurde in der untersuchten Stichprobe für die Analytischen<br />

Fähigkeiten ein hochsignifikanter negativer Zusammenhang von -.31 zum Alter<br />

der Testpersonen gefunden, für die Organisatorisch-konzeptionellen<br />

Fähigkeiten ein signifikanter Zusammenhang von -.28. Dies belegt, dass die<br />

Ergebnisse der Teilnehmer in beiden Kriterien der KI.BOX mit zunehmendem<br />

Alter geringer ausfallen. Die Streudiagramme in Abbildung 15 verdeutlichen<br />

diese Zusammenhänge zusätzlich:<br />

10<br />

15<br />

Punktzahl Analytische Fähigkeiten<br />

8<br />

6<br />

4<br />

2<br />

0<br />

-2<br />

Punktzahl Orga.-konzept. Fähigkeiten<br />

5<br />

-5<br />

-15<br />

-25<br />

-4<br />

15<br />

20<br />

25<br />

30<br />

35<br />

40<br />

45<br />

50<br />

-35<br />

15<br />

20<br />

25<br />

30<br />

35<br />

40<br />

45<br />

50<br />

Alter<br />

Alter<br />

Abbildung 15: Zusammenhang von Alter und Punktzahlen in der KI.BOX (links: Analytische<br />

Fähigkeiten, rechts: Organisatorisch-konzeptionelle Fähigkeiten)<br />

1 6 3


Diskussion<br />

Mit diesen Ergebnissen werden Untersuchungen von Thornton und Byham<br />

(1982) bestätigt, die eine negative Korrelation von Ergebnissen eines Paper-<br />

Pencil-<strong>Postkorb</strong>s und dem Alter fanden. Andere Untersuchungen zu den<br />

Bonner <strong>Postkorb</strong> Modulen (Höft, 2003) ergaben jedoch keinen Zusammenhang<br />

zum Alter (siehe Kapitel 2.3.5.1). Da diese Untersuchungen aktuelleren Datums<br />

als die von Thornton und Byham waren und aufgrund der unzureichenden<br />

Validierungslage keine Daten zum Zusammenhang des Alters und der KI.BOX<br />

ähnlichen computergestützten Postkörben vorlagen, stützte sich die hier<br />

aufgestellte und inzwischen abgelehnte Hypothese auf die von Höft<br />

dargestellten Ergebnisse. Warum bei den Bonner Postkorn Modulen jedoch<br />

weder ein negativer noch ein positiver Zusammenhang gefunden wurde, bleibt<br />

fraglich. Möglich wäre, dass dies mit dem bereits von Höft (2003) kritisierten<br />

kleinen Stichprobenumfang dieser Untersuchungen zusammenhängt (siehe<br />

Kapitel 2.3.5.4). Warum besteht nun also bei der KI.BOX ein negativer<br />

Zusammenhang von Punktzahl und Alter? Sowohl die jüngeren als auch die<br />

älteren Teilnehmer befanden sich zum Großteil im Psychologiestudium, so dass<br />

beide Gruppen zumindest ansatzweise theoretisches Wissen über Tests haben<br />

dürften. Denkbar wäre jedoch, dass jüngere Teilnehmer besonders aus<br />

Schulzeiten generell noch stärker daran gewöhnt sind, selbst getestet zu<br />

werden. Bei älteren Teilnehmern liegt die Schulzeit schon deutlich länger<br />

zurück, so dass sie nicht mehr in so starkem Maße mit Testsituationen vertraut<br />

sind. Für diese Annahme spricht auch eine Sekundäranalyse der Daten, die<br />

ebenfalls hochsignifikante negative Korrelationen von -.39 bis -.48 zwischen<br />

dem Alter und den Ergebnissen in der AZUBI-BK liefert, und dies sowohl zum<br />

Gesamttestwert, dem Grundmodul als auch dem Postmodul. Auch hier<br />

schnitten ältere Teilnehmer also durchschnittlich mit deutlich niedrigeren<br />

Ergebnissen ab. Daraus lässt sich die Schlussfolgerung ziehen, dass ältere<br />

Teilnehmer in testähnlichen Auswahlverfahren generell benachteiligt zu sein<br />

scheinen, und die hier gefundenen Ergebnisse nicht auf ein Defizit speziell in<br />

der KI.BOX hinweisen. Dennoch wären hierzu noch weitere Studien mit<br />

repräsentativeren Stichproben nötig. Bis dahin ist zu empfehlen, die KI.BOX nur<br />

in Assessment Centern einzusetzen, bei denen die Teilnehmer im selben<br />

Altersbereich liegen.<br />

1 6 4


Diskussion<br />

Überraschenderweise wurden auch hochsignifikante Gruppenunterschiede<br />

zwischen Teilnehmern mit unterschiedlich ausgeprägten Deutschkenntnissen<br />

gefunden, jedoch nur für die Ergebnisse in den Organisatorisch-konzeptionellen<br />

Fähigkeiten. Teilnehmer mit Deutsch als erster Muttersprache erzielten im<br />

Durchschnitt -0,16 Punkte, in der Gruppe der Teilnehmer mit Deutsch als<br />

zweiter Muttersprache lag der Mittelwert bei -6,11. Teilnehmer mit Deutsch als<br />

Fremdsprache erzielten durchschnittlich nur -9,11 Punkte in diesem Kriterium.<br />

Woran kann es also liegen, dass bei den Organisatorisch-konzeptionellen<br />

Fähigkeiten solche Unterschiede bestehen, während dies hinsichtlich der<br />

Analytischen Fähigkeiten nicht der Fall ist? Als eine der wahrscheinlichsten<br />

Erklärungen ist auch hier sicher die ungleich verteilte Stichprobe anzuführen.<br />

Über 81% der Teilnehmer, also 56 der 69 Studenten, hatten Deutsch als erste<br />

Muttersprache, nur vier von ihnen als zweite Muttersprache und neun<br />

Teilnehmer als Fremdsprache. In einer Untersuchung, in der in etwa gleich viele<br />

Teilnehmer in den drei Gruppen wären, könnten diesbezüglich ganz andere<br />

Ergebnisse erzielt werden, weshalb hierzu für zukünftige Studien noch<br />

Forschungsbedarf bleibt. Allerdings ist für die hier gefundenen Ergebnisse<br />

zusätzlich eine ähnliche Erklärung denkbar wie zum gefundenen<br />

Zusammenhang von Gewissenhaftigkeit und Organisatorisch-konzeptionellen<br />

Fähigkeiten in der KI.BOX (siehe Kapitel 7.1). Die Items der Analytischen<br />

Fähigkeiten sind klarer zu überblicken, da meist eine Aufgabe durch eine E-Mail<br />

dargeboten wird. Sollte man hier nicht jedes Wort verstehen, hat dies<br />

womöglich nicht so eine entscheidende Bedeutung wie bei den Items der<br />

Organisatorisch-konzeptionellen Fähigkeiten. Falls man hier nicht alles<br />

verstehen sollte, wird schnell ein Hinweis zu einer anderen Mail, dem Kalender<br />

oder der Prioritätenliste übersehen, der jedoch von entscheidender Bedeutung<br />

für die korrekte Lösung des Items wäre. Allerdings stellt sich daraufhin die<br />

Frage, ob die Items und die darin enthaltenen Vernetzungen bei diesem<br />

Kriterium deutlicher formuliert und somit vereinfacht werden sollten, um<br />

Teilnehmern, die Deutsch nicht als erste Muttersprache sprechen, nicht zu<br />

benachteiligen. Dies wiederum würde jedoch sicherlich dazu führen, dass<br />

Teilnehmer, die Deutsch als erster Muttersprache sprechen und wohl auch in<br />

den realen ACs, in denen die KI.BOX eingesetzt werden soll, die Mehrzahl<br />

1 6 5


Diskussion<br />

darstellen, zu viele dieser Items lösen würden und die KI.BOX in diesem<br />

Kriterium nicht mehr zwischen guten und weniger guten Leistungen<br />

differenzieren würde. Aus diesem Grund wird empfohlen, die Schwierigkeit des<br />

Kriteriums so zu belassen und die KI.BOX, so wie im Übrigen auch andere<br />

sprachgebundene Testverfahren, nicht in Auswahlverfahren einzusetzen, in<br />

denen Bewerber ausgewählt werden sollen, die Deutsch nicht als erste<br />

Muttersprache sprechen.<br />

Auch bezüglich theoretischer und praktischer Vorerfahrung mit Postkörben und<br />

Assessment Centern überraschen die Ergebnisse. Obwohl aufgrund der<br />

theoretischen Überlegungen (siehe Kapitel 5.2.5) angenommen wurde, dass<br />

sowohl theoretische als praktische Vorerfahrung mit Postkörben eine<br />

Zusammenhang zu den KI.BOX-Ergebnissen in beiden Kriterien aufweisen und<br />

es keinen Zusammenhang von theoretischer und praktischer Vorerfahrung mit<br />

Assessment Center gebe, wurde lediglich ein signifikanter Zusammenhang von<br />

theoretischer Vorerfahrung mit Postkörben und dem Ergebnis bei den<br />

Organisatorisch-konzeptionellen Fähigkeiten sowie ebenfalls signifikante<br />

Zusammenhänge von theoretischer Vorerfahrung mit Assessment Centern und<br />

beiden KI.BOX-Kriterien gefunden.<br />

Hierfür gibt es zwei denkbare Erklärungen: Zum einen könnte die Frage nach<br />

der „theoretischen und praktischen Vorerfahrung“ zu undeutlich formuliert<br />

gewesen sein, so dass die Teilnehmer nicht genau wussten, was damit gemeint<br />

war. Möglicherweise beurteilten es manche Teilnehmer beispielsweise als stark<br />

ausgeprägte theoretische Vorerfahrung, zu wissen, dass eine Übung namens<br />

<strong>Postkorb</strong> in Assessment Centern eingesetzt wird, andere wiederum kannten<br />

womöglich sogar erfasste Kriterien oder Übungsabläufe, beurteilten ihr Wissen<br />

aber dennoch als gering. Ebenso erscheint die sechsstufige Skala zur<br />

Beurteilung der praktischen Vorerfahrungen im Nachhinein als ungünstig,<br />

besser wären die dichotomen Fragen gewesen, ob man schon mal einen<br />

<strong>Postkorb</strong> bearbeitet bzw. an einem AC teilgenommen hat oder nicht. In<br />

zukünftigen Untersuchungen sollten also klare Definitionen bei den jeweiligen<br />

Items mitgeliefert werden. Alternativ könnte man das Wissen über Postkörbe<br />

und Assessment Center über einige verschieden schwere Items erfassen, in<br />

denen richtige und falsche Aussagen über die beiden Themen formuliert sind,<br />

1 6 6


Diskussion<br />

und der Teilnehmer die richtigen Aussagen ankreuzen soll. Daraus könnte sich<br />

wiederum ein Punktwert ergeben, der dann mit den KI.BOX-Ergebnissen<br />

korreliert werden könnte. Mit dieser Methode wäre auch der zweite mögliche<br />

Erklärungsgrund für die hier gefundenen gänzlich unerwarteten Ergebnisse<br />

ausgeräumt, nämlich die bereits oben erwähnte soziale Erwünschtheit.<br />

Möglicherweise wollten sich die Teilnehmer auch in diesen<br />

Selbsteinschätzungsfragen besser darstellen, was zu verfälschten Antworten<br />

geführt haben könnte. Die Ergebnisse zum Zusammenhang von<br />

Vorerfahrungen mit Postkörben bzw. Assessment Centern und den KI.BOX-<br />

Ergebnissen sind demnach also nur schwer bis gar nicht interpretierbar. Die<br />

Frage, ob mit diesen Themen bereits vertraute Teilnehmer Vorteile in der<br />

Bearbeitung der KI.BOX haben, sollte in nachfolgenden Studien mit den hier<br />

beschriebenen methodischen Variationen erneut untersucht werden.<br />

7.5 Fazit und Ausblick<br />

Auf Grundlage der in dieser Untersuchung gefundenen Ergebnisse kann die<br />

KI.BOX als valides und insgesamt gut für den AC-Einsatz geeignetes<br />

eignungsdiagnostisches Instrument befunden und somit für die Auswahl von<br />

Hochschulabsolventen, Trainee-Bewerbern oder Führungskräftenachwuchs<br />

empfohlen werden. Bezüglich der Gütekriterien kann von einer nahezu<br />

maximalen Objektivität ausgegangen werden, was zudem auf eine hohe<br />

Reliabilität schließen lässt. Die Inhaltsvalidität gilt als gesichert und die<br />

Kriteriumsvalidität wurde in dieser Untersuchung besonders über die innere<br />

Validität nachgewiesen. Zur äußeren Validität besteht allerdings noch<br />

Forschungsbedarf, besonders hinsichtlich des Kriteriums Organisatorischkonzeptionelle<br />

Fähigkeiten. Auch die Nebengütekriterien gelten mit Ausnahme<br />

der Normierung als erfüllt, wobei hieran nach Aussage des Testautors jedoch<br />

bereits gearbeitet wird. Weiterhin konnte kein Zusammenhang der Erfahrung<br />

mit Computern bzw. Computeranwendungen und den Leistungen in der KI.BOX<br />

gefunden werden, so dass diesbezüglich keinerlei Vor- oder Nachteile für<br />

einzelne Teilnehmer zu erwarten sind. Zudem konnten keine Reihenfolgeeffekte<br />

1 6 7


Diskussion<br />

ermittelt werden, d.h. es besteht kein Leistungsunterschied zwischen<br />

Teilnehmern, die die KI.BOX zu Beginn oder im späteren Verlauf einer<br />

Testsequenz bearbeiten, so dass das Verfahren flexibel innerhalb eines AC<br />

eingesetzt werden kann. Darüber hinaus konnten zumindest explorativ keine<br />

Leistungsunterschiede hinsichtlich der Merkmale Geschlecht, Studienfach,<br />

Semesterzahl, Deutschkenntnissen oder Berufserfahrungen aufgedeckt<br />

werden, so dass auch bezüglich dieser Merkmale in der KI.BOX keine Effekte<br />

auszumachen sind. Lediglich zum Alter wurde festgestellt, dass ältere<br />

Teilnehmer durchschnittlich schlechtere Leistungen im Vergleich zu jüngeren<br />

Teilnehmern aufweisen. Zum Einfluss von theoretischer und praktischer<br />

Vorerfahrung mit Postkörben sowie Assessment Centern kann die vorliegende<br />

Untersuchung keine aussagekräftigen Ergebnisse liefern.<br />

Dieser für eine erste Validierung durchaus günstigen Ergebnislage zufolge kann<br />

die KI.BOX wie erwähnt für einen Einsatz im AC empfohlen werden. Dennoch<br />

bleiben, wie bei einer ersten Validierungsstudie üblich, noch offene Fragen, die<br />

es in nachfolgenden Studien zu beantworten gilt. Diese noch zu überprüfenden<br />

Aspekte sollen im Folgenden nochmals kurz zusammengefasst und dazu<br />

Vorschläge gemacht werden, wie die entsprechende Untersuchung dazu<br />

konzipiert werden könnte.<br />

• Beeinflussen die vier neu eintreffenden E-Mails die<br />

Durchführungsobjektivität? (siehe Kapitel 7.1.1) In nachfolgenden<br />

Studien könnten die vom Computer zusätzlich erfassten Prozessdaten<br />

ausgewertet werden, um festzustellen, welche Items gerade bei den<br />

jeweiligen Störungen bearbeitet wurden. Diese Prozessdaten müssten<br />

dann zur Überprüfung herangezogen werden, dass man erkennt, ob es<br />

bei unterschiedlichen Störungszeitpunkten Unterschiede zwischen<br />

Teilnehmern mit guten und weniger guten Ergebnissen gibt.<br />

• Ist die Reliabilität der KI.BOX bestimmbar? (siehe Kapitel 7.1.2) Man<br />

könnte die Reliabilität mittels einer anderen Version der KI.BOX, die<br />

beispielsweise an ein anderes Unternehmen angepasst wurde, als<br />

Paralleltest bestimmen. Dennoch wären auch hier Übungseffekte nicht<br />

ganz auszuschließen.<br />

1 6 8


Diskussion<br />

• Wie ist die äußere Validität aussagekräftiger zu bestimmen? (siehe<br />

Kapitel 7.1.3.1) Obwohl auch hier teilweise hypothesenkonforme<br />

Ergebnisse gefunden werden konnten, insbesondere zu den<br />

Analytischen Fähigkeiten, besteht zu diesem Validitätsaspekt noch<br />

Klärungsbedarf. Die hier eingesetzten Validierungskriterien, z.B. die<br />

Abitur- oder Schulnoten, eignen sich durchaus auch für spätere Studien,<br />

jedoch sollte dann wie erwähnt eine Stichprobe herangezogen werden,<br />

die in diesen Merkmalen auch genügend Varianz aufweist, um evtl.<br />

bestehende Gruppenunterschiede auch aufdecken zu können. Zusätzlich<br />

zu diesen Kriterien könnte die äußere Validität dadurch bestimmt<br />

werden, dass man in Langzeituntersuchungen Vorgesetztenurteile über<br />

die Leistungen der ehemaligen AC-Teilnehmer einholt, die mit der<br />

KI.BOX getestet wurden, und diese Urteile mit den KI.BOX-Ergebnissen<br />

validiert. Dies wäre natürlich sehr aufwendig und ist aufgrund der<br />

Neuheit des Instruments in naher Zukunft noch nicht zu bewerkstelligen.<br />

Dennoch gilt eine äußere Validierung über Vorgesetztenurteile, die evtl.<br />

in einem oder zwei Jahren erfolgen könne, gemeinhin als recht<br />

aussagekräftig, da somit auch die prognostische Güte des Verfahrens<br />

überprüft werden könnte.<br />

• Wie ist die Güte der Selbsteinschätzungen zu den Organisatorischkonzeptionellen<br />

Fähigkeiten zu erhöhen? (siehe Kapitel 7.1.3.1) Wie<br />

erwähnt müssten hier klare Definitionen dieses Kriteriums mitgeliefert<br />

werden, die den Teilnehmern erlauben, damit inhaltlich konkretere<br />

Verhaltensbeispiele zu verbinden. Die Kriteriendefinition der KI.BOX, die<br />

auf der ersten Seite im Ergebnisbericht des Reporting-Tools ausgegeben<br />

wird, könnte hier schon ausreichend sein. Zudem müsste sichergestellt<br />

werden, dass die Teilnehmer nicht nur im Sinne der sozialen<br />

Erwünschtheit antworten, da sie glauben, der Fragebogen wäre noch Teil<br />

der Testung, über welche sie Feedback bekommen. Eine<br />

repräsentativere Stichprobe der späteren Bewerberpopulation würde<br />

außerdem zu aussagekräftigeren Ergebnissen beitragen.<br />

1 6 9


Diskussion<br />

• Wie könnten die gefundenen hohen Korrelationen von KI.BOX und<br />

inneren Kriterien noch erhöht werden? (siehe Kapitel 7.1.3.2) Die<br />

höchsten Korrelationen zu den KI.BOX-Kriterien erbrachten die ähnlichen<br />

Messdimensionen der AZUBI-BK. In nachfolgenden Studien sollte jedoch<br />

auf Paper-Pencil-Tests verzichtet und ein weiteres <strong>EDV</strong>-Verfahren als<br />

inneres Validierungskriterium ausgewählt werden. Wie bereits erwähnt<br />

könnte der Medienwechsel innerhalb einer Testsequenz für die<br />

Teilnehmer ungewohnt gewesen sein, trotz nicht identifizierter Effekte<br />

der Computererfahrung. Somit wäre also, ähnlich wie zur Frage der<br />

Reliabilitätsbestimmung, auch hier eine Parallelversion der KI.BOX oder<br />

alternativ ein anderer <strong>Postkorb</strong> mit ähnlichen Dimensionen einzusetzen,<br />

beispielsweise der PC-<strong>Postkorb</strong> „Seeblick“ (siehe Kapitel 2.4.3.3).<br />

• Werden auch in längeren Assessment Centern keine Reihenfolgeeffekte<br />

wirksam? (siehe Kapitel 7.3) Die Ergebnisse zur Wirkung dieser Effekte<br />

können nicht ohne weiteres auf längere AC von mehreren Tagen<br />

ausgeweitet werden. Die flexible Positionierung der KI.BOX über einen<br />

AC-Tag hinweg dürfte unbedenklich sein. Zur Überprüfung der Wirkung<br />

von Reihenfolgeeffekten bei längeren Verfahren müsste die KI.BOX in<br />

mehreren länger dauernden Assessment Centern bei verschiedenen<br />

Teilnehmern zu unterschiedlichen Positionen an verschiedenen Tagen<br />

durchgeführt werden. Die Ergebnisse der KI.BOX dürften jedoch nicht in<br />

das Gesamt-AC-Ergebnis eingehen, um ethische Konflikte zu vermeiden.<br />

• Haben Teilnehmer verschiedener demographischer Merkmale Vor- oder<br />

Nachteile in der KI.BOX? (siehe Kapitel 7.4) Die Ergebnisse zeigen, dass<br />

nur hinsichtlich des Alters negative Zusammenhänge zu den<br />

Ergebnissen der KI.BOX, aber auch der AZUBI-BK bestehen. Bezüglich<br />

Geschlecht, Studienfach, Semesterzahl, Deutschkenntnisse und<br />

Berufserfahrung wurden keine Effekte gefunden. Dennoch sollten in<br />

zukünftigen Studien die Merkmale erneut untersucht werden, allerdings<br />

mit einer Stichprobe, in der diese Merkmalsausprägungen gleich verteilt<br />

sind.<br />

1 7 0


Diskussion<br />

• Beeinflusst die Vorerfahrung mit Postkörben und Assessment Centern<br />

die Leistungen in der KI.BOX? (siehe Kapitel 7.4) Diese Frage konnte in<br />

der vorliegenden Untersuchung aufgrund definitorischer Schwierigkeiten<br />

und uneindeutigen Beurteilungsskalen nicht ausreichend geklärt werden.<br />

In nachfolgenden Studien sollte dieser Aspekt jedoch erneut untersucht<br />

werden, allerdings nicht über Selbsteinschätzungen. Stattdessen könnte<br />

man das Wissen über Postkörbe und Assessment Center über einige<br />

verschieden schwere Items erfassen, in denen richtige und falsche<br />

Aussagen über die beiden Themen vom Teilnehmer zu markieren sind.<br />

Daraus könnte sich wiederum ein Punktwert ergeben, der dann mit den<br />

KI.BOX-Ergebnissen korreliert würde. Mit dieser Erhebungsmethode<br />

ließe sich auch das Problem der sozialen Erwünschtheit eliminieren.<br />

Zusätzlich zu den hier aufgeführten Aspekten, die sich direkt aus den<br />

Ergebnissen dieser Studie ergaben, soll noch auf eine weitere Implikation für<br />

zukünftige Untersuchungen hingewiesen werden. So stellt sich trotz der<br />

insgesamt günstigen Befundlage die Frage, ob die Ergebnisse aus der<br />

Untersuchung überhaupt auf die tatsächliche AC-Situation übertragbar sind, da<br />

in beiden Settings gänzlich verschiedene Motivationsbedingungen herrschen.<br />

Im AC zeigt der Teilnehmer seine ihm bestmögliche Performance, da seine<br />

Leistungsmotivation oft durch eine angestrebte Arbeitsposition bestimmt ist. Die<br />

Teilnehmer der Untersuchung wurden hingegen wohl hauptsächlich durch die<br />

Vergütung mit Versuchspersonenstunden motiviert, die sie natürlich auch bei<br />

niedriger Anstrengung ausgestellt erhielten. Derartige qualitative und<br />

quantitative Motivationsdifferenzen wurden zu überbrücken versucht, in dem<br />

den Teilnehmern nach der gesamten Datenauswertung ein ausführliches<br />

schriftliches Feedback versprochen wurde, was nach Lerner und Tetlock (1999)<br />

zufolge die Motivation erhöht, das bestmögliche Verhalten zu zeigen. Diese<br />

Maßnahme dürfte in Anbetracht der positiv ausgefallenen<br />

Untersuchungsergebnisse auch weitgehend erfolgreich gewesen sein. Auch<br />

wurde dem Versuchsleiter nach der jeweiligen Erhebung im persönlichen<br />

Gespräch mit den Teilnehmern oft eine hohe Motivation ihrerseits bestätigt.<br />

Hinzu kommt jedoch noch die wahrgenommene Künstlichkeit der<br />

Untersuchungssituation unter Laborbedingungen, die sich zusätzlich negativ auf<br />

1 7 1


Diskussion<br />

die Motivation der Teilnehmer ausgewirkt haben könnte. In dieser ersten<br />

Validierungsarbeit wurde jedoch mehr Wert auf die experimentelle<br />

Untersuchung der kausalen Hypothesen gelegt, so dass einer möglichst hohen<br />

Standardisierung und der Kontrolle potenzieller Störvariablen zunächst der<br />

Vorzug zu geben war. Zukünftige Forschung sollte daher die Güte der KI.BOX<br />

im realen Assessment Center in Form von Feldstudien untersuchen. Sollte dies<br />

nicht zu realisieren sein, bestände alternativ die Möglichkeit, die Motivation der<br />

Teilnehmer im Labor zusätzlich erhöhen. So ließen sich beispielsweise<br />

realistischere AC-Rahmenbedingungen schaffen, wenn die KI.BOX<br />

beispielsweise in Form eines Auswahlverfahrens für Studenten als<br />

wissenschaftliche Hilfskräfte angewandt würde. Darüber hinaus könnte es im<br />

Sinne der von Lerner und Tetlock (1999) nachgewiesenen Effekte zur<br />

Motivationssteigerung hilfreich sein, wenn die Teilnehmer ihr Feedback nicht in<br />

schriftlicher Form am Ende der Datenerhebung, also teilweise mehrere Woche<br />

nach ihrer Testung bekämen, sondern direkt im Anschluss daran durch den<br />

Versuchsleiter. Die Accountability (siehe Kapitel 5.1) würde dadurch sicher<br />

stärker zum Tragen kommen, da der Teilnehmer stärkeren Druck verspürt,<br />

seine Leistungen rechtfertigen zu müssen und sich somit mehr anstrengen wird.<br />

Zu erwarten ist, dass in nachfolgenden Studien, in denen die hier<br />

vorgeschlagenen methodischen Veränderungen realisiert werden, noch<br />

positiver ausfallende Ergebnisse erzielt werden, für die hier bereits erste Trends<br />

erkennbar wurden. Die Güte der KI.BOX gilt jedoch bereits jetzt weitgehend als<br />

gesichert. Somit schließt die vorliegende Arbeit mit der Aussage, dass der<br />

computergestützte <strong>Postkorb</strong> KI.BOX als valides Instrument im Assessment<br />

Center eingesetzt werden kann.<br />

1 7 2


Literaturverzeichnis<br />

8 Literaturverzeichnis<br />

Arbeitskreis Assessment Center e.V. (2004). Standards der Assessment Center<br />

Technik 2004. [Online]. Verfügbar unter HTTP: www.arbeitskreis-ac.de<br />

Verzeichnis: projekte/standards/ Dateiname: ac-standards_2004.htm<br />

[31.05.2008].<br />

Bandura, A. (1997). Self-efficacy: The exercise of control. New York: Freeman.<br />

Bandura, A. (2006). Guide for Constructing Self-Efficacy Scales. In F. Pajares &<br />

T. Urdan (Eds.), Self-Efficacy Beliefs of Adolescents (pp. 307-337).<br />

Greenwich: Information Age Publishing.<br />

Baron-Boldt, J., Schuler, H. & Funke, U. (1988): Prädiktive Validität von<br />

Schulabschlussnoten: Eine Metaanalyse. Zeitschrift für Pädagogische<br />

Psychologie, 2, 79–90.<br />

Bolte, E.A. & Sünderhauf, K. (2005). Konstruktion von Assessment Center<br />

Übungen. In K. Sünderhauf, S. Stumpf & S. Höft (Hrsg.), Assessment<br />

Center- Von der Auftragsklärung bis zur Qualitätssicherung (S. 138-154).<br />

Lengerich: Pabst Science Publishers.<br />

Bortz, J. (1993). Statistik für Sozialwissenschaftler. Berlin: Springer<br />

Bortz, J. & Döring, N. (2002). Forschungsmethoden und Evaluation für Human-<br />

und Sozialwissenschaftler. Berlin: Springer.<br />

Brickenkamp, R. (2002). Brickenkamp Handbuch psychologischer und<br />

pädagogischer Tests, 2 Bde. Göttingen: Hogrefe<br />

Daumenlang, K. (1995): Intelligenztests. In: W. Sarges (Hrsg.) Management<br />

Diagnostik (S. 540-548). Göttingen: Hogrefe.<br />

1 7 3


Literaturverzeichnis<br />

Didi, H.J. (2002). Der <strong>Postkorb</strong>. In: E. Fay (Hrsg). Das Assessment Center in<br />

der Praxis. (S. 77-103). Göttingen: Vandenhoeck und Rupprecht.<br />

Diehl, J. M. & Kohr, H.-U. (1999). Deskriptive Statistik. Eschborn: Verlag D.<br />

Klotz.<br />

Diehl, J. M. & Arbinger, M. (2001). Inferenzstatistik. Eschborn: Verlag D. Klotz.<br />

Dommel, N. A. (1995). Postkörbe. In: W. Sarges (Hrsg.) Management<br />

Diagnostik (S. 582-585). Göttingen: Hogrefe.<br />

Domsch, M. & Jochum, I. (1989). Zur Geschichte des Assessment Centers –<br />

Ursprünge und Werdegänge. In C. Lattmann (Hrsg.), Das Assessment-<br />

Center-Verfahren der Eignungsbeurteilung. Sein Aufbau, seine<br />

Anwendung und sein Aussagegehalt (S. 4-18). Heidelberg: Physica.<br />

Domsch, M. (1995): Fallstudien. In: W. Sarges (Hrsg.) Management Diagnostik<br />

(S. 602-608). Göttingen: Hogrefe.<br />

Eggers, R. & Oetting, M. (1995): Vorträge und Präsentationen. In: W. Sarges<br />

(Hrsg.) Management Diagnostik (S. 568-591). Göttingen: Hogrefe.<br />

Fassheber, P. (1995): Planspiele. In: W. Sarges (Hrsg.) Management<br />

Diagnostik (S. 608-617). Göttingen: Hogrefe.<br />

Fennekels, G. (1995). PC-Office 1.0. <strong>Postkorb</strong> zur Diagnose von<br />

Führungsverhalten (Handanweisung). Göttingen: Hogrefe.<br />

Fisseni, H.-J. (1990). Lehrbuch der psychologischen Diagnostik. Göttingen:<br />

Hogrefe.<br />

Fisseni, H.-J. & Preusser, I. (2007). Assessment-Center. Eine Einführung in<br />

Theorie und Praxis. Göttingen: Hogrefe.<br />

1 7 4


Literaturverzeichnis<br />

Frey, D. (1979). Einstellungsforschung: Neuere Ergebnisse der Forschung<br />

Einstellungsänderungen. Marketing, 1, 31-45<br />

Fricke, R. (1974). Kriterienorientierte Leistungsmessung. Stuttgart:<br />

Kohlhammer.<br />

Friedrich, A. & Schwarz, M. (1989). Assessment-Center und Führungsplanspiel.<br />

Personal - Mensch und Arbeit im Betrieb, 1, 12-17<br />

Fritz, A & Funke, J. (1995): Übersicht über die vorliegenden Verfahren zur<br />

Planungsdiagnostik. In: J. Funke & A. Fritz (Hrsg.) Neue Konzepte und<br />

Instrumente zur Planungsdiagnostik (S. 47-78). Bonn: Deutscher<br />

Psychologen Verlag GmbH.<br />

Fruhner, R. (2005). Reihenfolgeeffekte im Assessment Center: Hat die<br />

unterschiedliche Abfolge von Einzelverfahren einen Einfluss auf das<br />

Gesamtergebnis eines Bewerbers) - Ein Beispiel der Hamburger<br />

Sparkasse AG. In K. Sünderhauf, S. Stumpf & S. Höft (Hrsg.),<br />

Assessment Center - von der Auftragsklärung bis zur Qualitätssicherung<br />

(S. 216-224). Lengerich: Pabst Science Publishers.<br />

Funke, J. (1993, a). Computergestützte Arbeitsproben: Begriffsklärung,<br />

Beispiele sowie Entwicklungspotentiale. Zeitschrift für Arbeits- und<br />

Organisationspsychologie, 37, 119-129.<br />

Funke, J. (1993, b). Aus der Arbeit des Testkuratoriums: MAILBOX ´90. Ein<br />

computergestütztes Test- und Trainingsverfahren zur<br />

Personalentwicklung. Diagnostica, 39, 177-187.<br />

Funke, J. & Rasche, B. (1992) Einsatz computersimulierter Szenarien im<br />

Rahmen eines Assessment Center. Zeitschrift Führung + Organisation,<br />

2, 110-118<br />

1 7 5


Literaturverzeichnis<br />

Grubitzsch, S. (1999). Testtheorie Testpraxis. Psychologische Tests und<br />

Prüfverfahren im kritischen Überblick. Eschborn bei Frankfurt am Main:<br />

Verlag Dietmar Klotz.<br />

Güllich, R. (1992). Die computergestützte <strong>Postkorb</strong>übung MAILBOX’90 im<br />

Assessment Center. Eine Validierungsstudie. Unveröffentlichte<br />

<strong>Diplomarbeit</strong>, Katholische Universität Eichstätt, philosophischpädagogische<br />

Fakultät.<br />

Hartung, S. & Schneider, I. (1995): Entwicklung und Anwendung<br />

computersimulierter Szenarien. In: B. Strauß & M. Kleinmann (Hrsg.)<br />

Computersimulierte Szenarien in der Personalarbeit (S. 219-236).<br />

Göttingen: Hogrefe.<br />

Höft, S. (2003). Rezension der „BPM – Bonner <strong>Postkorb</strong>-Module“. Zeitschrift für<br />

Arbeits- und Organisationspsychologie, 47, 4, 104-108. Göttingen:<br />

Hogrefe.<br />

Höft, S. & Funke, U. (2006). Simulationsorientierte Verfahren der<br />

Personalauswahl. In H. Schuler (Hrsg.), Lehrbuch der<br />

Personalpsychologie (S. 145-187). Göttingen: Hogrefe.<br />

Holtmeier, S. (2008). KI.BOX Der elektronische <strong>Postkorb</strong> für Ihr Assessment<br />

Center. [Online]. Verfügbar unter HTTP: http://www.ki-bit.com<br />

Verzeichnis: web/content/view/8/10/ [08.07.2008].<br />

Hösch, G. (1995). Evaluation eines computergestützten Planspiels. Dissertation<br />

Johannes Gutenberg-Universität Mainz, Fachbereich 12<br />

Hossiep, R. & Paschen, M. (1998). BIP: Bochumer Inventar zur<br />

berufsbezogenen Persönlichkeitsbeschreibung. Göttingen: Hogrefe.<br />

1 7 6


Literaturverzeichnis<br />

Hossiep, R., Paschen, M. & Mühlhaus, O. (2003). BIP: Bochumer Inventar zur<br />

berufsbezogenen Persönlichkeitsbeschreibung. Zweite, vollständig<br />

überarbeitete Auflage. Göttingen: Hogrefe.<br />

Hussy, W. & Jain, A. (2002). Experimentelle Hypothesenprüfung in der<br />

Psychologie. Göttingen: Hogrefe.<br />

Jäger, A. O., Süß, H. M. & Beauducel, A. (1997). Berliner Intelligenzstruktur-<br />

Test. Form 4. Göttingen: Hogrefe<br />

Jerusalem, R. (2003). Soziale Faktoren im Kontext eines Assessment Centers.<br />

Münster: LIT Verlag.<br />

Jeserich, W. (1981). Mitarbeiter auswählen und fördern: Assessment-Center-<br />

Verfahren. München: Hanser.<br />

Jeserich, W. (1995): Assessment-Center (AC). In: W. Sarges (Hrsg.)<br />

Management Diagnostik (S. 717-728). Göttingen: Hogrefe.<br />

Jung, P. (1995): Rollenspiele. In: W. Sarges (Hrsg.) Management Diagnostik (S.<br />

591-596). Göttingen: Hogrefe.<br />

Kersting, M. (2001). Zur Konstrukt- und Kriteriumsvalidität von<br />

Problemlöseszenarien anhand der Vorhersage von Vorgesetztenurteilen<br />

über die berufliche Bewährung. Diagnostica, 47, 67-76.<br />

Kersting, M. (2003). Augenscheinvalidität. In K. D. Kubinger und R. S. Jäger<br />

(Hrsg.), Schlüsselbegriffe der psychologischen Diagnostik (S. 54-55).<br />

Weinheim: Beltz, PVU.<br />

Klauer, K. J. (1987). Kriteriumsorientierte Tests. Göttingen: Hogrefe.<br />

1 7 7


Literaturverzeichnis<br />

Kleinmann, M. & Strauß, B. (1995): Softwareergonomische Voraussetzungen<br />

computersimulierter Szenarien. In: B. Strauß & M. Kleinmann (Hrsg.)<br />

Computersimulierte Szenarien in der Personalarbeit (S. 127-141).<br />

Göttingen: Hogrefe.<br />

Krause, D. & Gebert, D. (2005). Die Entwicklung, Durchführung und Evaluation<br />

des Assessment Centers in der deutschsprachigen und U.S.-<br />

amerikanischen Wirtschaft. In K. Sünderhauf, S. Stumpf & S. Höft<br />

(Hrsg.), Assessment Center - von der Auftragsklärung bis zur<br />

Qualitätssicherung (S. 410-436). Lengerich: Pabst Science Publishers.<br />

Krause, D.E., Meyer zu Kniendorf, C. & Gebert, D. (2001). Das Assessment<br />

Center in der deutschsprachigen Wirtschaft. Personal - Zeitschrift für<br />

Human Resource Management, 53, 638-642.<br />

Kelbetz, G. & Schuler, H. (2002). Verbessert Vorerfahrung die Leistung im<br />

Assessment Center? Zeitschrift für Personalpsychologie, 1/2002, 4-18.<br />

Kluwe, R.H. (1995): Computergestützte Systemsimulationen. In: W. Sarges<br />

(Hrsg.) Management Diagnostik (S. 572-577). Göttingen: Hogrefe.<br />

Kubinger, K. D. (1993). Testtheoretische Probleme der Computerdiagnostik.<br />

Zeitschrift für Arbeits- und Organisationspsychologie, 37, 139-137.<br />

Kupka, R. (2005). Personalpolitische Rahmenbedingungen für die Einführung<br />

und Verankerung von Assessment Centern in Unternehmen. In K.<br />

Sünderhauf, S. Stumpf & S. Höft (Hrsg.), Assessment Center- Von der<br />

Auftragsklärung bis zur Qualitätssicherung (S. 19-34). Lengerich: Pabst<br />

Science Publishers.<br />

Lerner, J.S. & Tetlock, P.E. (1999). Accounting for the effects of accountability.<br />

Psychological Bulletin, 125(2), 255-275.<br />

1 7 8


Literaturverzeichnis<br />

Lienert, G. A. (1969). Testaufbau und Testanalyse. Weinheim: Beltz.<br />

Marggraf-Micheel, C., Höft, S. & Bonnist, H. (2004): Coaching statt faking - wie<br />

bereite ich Teilnehmer auf ihr Assessment Center vor? 6. Deutscher<br />

Assessment-Center-Kongress des Arbeitskreis Assessment Center e.V.,<br />

Dresden, 18.-19. Nov. 2004.<br />

Marschner, G. (1981). Büro-Test, 2. ergänzte und erweiterte Auflage.<br />

Göttingen: Hogrefe<br />

Meyer, H. H. (1970). The validity of the in-basket as a measure of managerial<br />

performance. Personnel Psychology, 23, 297-307<br />

Musch, J. & Lieberei, W. (1997). Eine auswertungsobjektive <strong>Postkorb</strong>übung für<br />

Assessment Center. Berichte aus dem Psychologischen Institut der<br />

Universität Bonn, Band 23, Heft 1<br />

Musch, J., Rahn, B., Lieberei, W. (2001). Bonner <strong>Postkorb</strong>-Module (BPM): die<br />

Postkörbe CaterTrans, Chronos, Minos und AeroWings. Göttingen:<br />

Hogrefe.<br />

Naumann, J., Richter, T. & Groeben, N. (2002). Validierung des Inventars zur<br />

Computerbildung (INCOBI) anhand eines Vergleichs von<br />

Anwendungsexperten und Anwendungsnovizen. Zeitschrift für<br />

Pädagogische Psychologie, 15, 219-232.<br />

Neubauer, R. (2005). AC-Studie 2001: Was machen eigentlich die anderen<br />

Unternehmen im AC? In K. Sünderhauf, S. Stumpf & S. Höft (Hrsg.),<br />

Assessment Center- Von der Auftragsklärung bis zur Qualitätssicherung<br />

(S. 89-106). Lengerich: Pabst Science Publishers.<br />

1 7 9


Literaturverzeichnis<br />

Neubauer, R. & Volkmann, D. (1995). Beobachtungs- und<br />

Beurteilungsprozesse im Assessment Center. In Arbeitskreis<br />

Assessment Center e.V. (Hg.), Assessment-Center in der betrieblichen<br />

Praxis. Erfahrungen und Perspektiven (Reihe Assessment-Center, Bd. 1,<br />

S.83-107). 2., überarb. Aufl. Hamburg.<br />

Nienaber, C. (1997). Psychische Beanspruchung im Assessment Center.<br />

Dissertation, Westfälische Wilhelms-Universität Münster, Fachbereich<br />

Psychologie. Münster: LIT Verlag<br />

Obermann, C. (1994). Wer profitiert von Führungstrainings? Interindividuelle<br />

Determinanten des Lernerfolgs bei Führungstrainings. Unveröffentlichte<br />

Dissertation, Ruhrgebiet Universität Bochum, Fakultät für Psychologie.<br />

Obermann, C. (2006). Assessment Center: Entwicklung, Durchführung, Trends.<br />

Wiesbaden: Gabler.<br />

Paschen, M., Weidemann, A., Turck, D. & Stöwe, C. (2005). Assessment<br />

Center Professionell - Worauf es ankommt und wie Sie vorgehen.<br />

Göttingen: Hogrefe.<br />

Pearson, M. M., Barnes, J. W. & Onken, M. H. (2006). Development of a<br />

Computerized In-Basket Exercise for the Classroom: A Sales<br />

Management Example. Journal of Marketing Education, 28, 227-236.<br />

Reiter, M. (1995): Gruppendiskussionen. In: W. Sarges (Hrsg.) Management<br />

Diagnostik (S. 596-602). Göttingen: Hogrefe.<br />

Richter, T., Naumann, J. & Groeben, N. (2001). Das Inventar zur<br />

Computerbildung (INCOBI): Ein Instrument zur Erfassung von Computer<br />

Literacy und computerbezogenen Einstellungen bei Studierenden der<br />

Geistes- und Sozialwissenschaften. Psychologie in Erziehung und<br />

Unterricht, 48, 1-13.<br />

1 8 0


Literaturverzeichnis<br />

Riediger, M. & Rolfs, H. (1998). Instrumente der Arbeits- und<br />

Organisationspsychologie. Computergestützte <strong>Postkorb</strong>verfahren:<br />

Mailbox’90, PC-Office und PC-<strong>Postkorb</strong> „Seeblick“. Zeitschrift für Arbeitsund<br />

Organisationspsychologie, 42, 43-50.<br />

Roest, F., Scherzer, A., Urban, E., Gangl, H. & Brandstätter, C. (1989).<br />

MAILBOX’90. Ein computergestütztes Test- und Trainingsverfahren zur<br />

Personalentwicklung. Wien und Weinheim: Scicon und Beltz.<br />

Roest, F. & Horn, R. (1990). Mailbox’90: Computergestützte Diagnostik im<br />

Assessment Center. Diagnostica, 36 (2), 213-219.<br />

Sackett, P. R. & Dreher, G. F. (1982). Constructs and assessment center<br />

dimensions: Some troubling empirical findings. Journal of Applied<br />

Psychology, 67, 401-410<br />

Sarges, W. (1995): Interviews. In: W. Sarges (Hrsg.) Management Diagnostik<br />

(S. 475-489). Göttingen: Hogrefe.<br />

Sarges, W. (2000). Personal: Auswahl, Beurteilung und Entwicklung. In:<br />

J.Straub, A. Kochinka und H. Werbik (Hrsg.) Psychologie in der Praxis.<br />

Anwendung und Berufsfelder einer modernen Wissenschaft (S. 487-<br />

522). München: Deutscher Taschenbuchverlag.<br />

Sarges, W. & Wottawa, H. (2001) Handbuch wirtschaftspsychologischer<br />

Testverfahren. Lengerich: Pabst Science Publishers.<br />

Scharley & Partners. (1991). Seeblick/Lakeview computerized In-basket-test.<br />

Konstanz: Scharley & Partner GmbH.<br />

1 8 1


Literaturverzeichnis<br />

Scharley & Partner (2007). PC-<strong>Postkorb</strong> Seeblick. Ein effizientes<br />

Beurteilungsinstrument. [Online]. Verfügbar unter HTTP:<br />

www.scharley.com Verzeichnis: pc-postkorb/ Dateiname:<br />

PKS_16.04.08.pdf [06.06.2008].<br />

Schippmann, J., Prien, E., Katz, J. (1990). Reliability and Validity of In-Basket<br />

performance measures. Personnel Psychology, 43 , 837-859<br />

Schmidt-Atzert, L. (2006). Verfahren zur Studierendenauswahl. Vortag<br />

anlässlich der Informationsveranstaltung der Deutschen Gesellschaft für<br />

Psychologie, Frankfurt/Main: Januar 2006, Berlin: Februar 2006.<br />

Schmidt, F. & Hunter, J. (1998). The validity and utility of selection methods in<br />

personnel psychology: Practical and theoretical implications of 85 years<br />

of research findings. Psychological Bulletin, Vol 124(2), 262-274.<br />

Schuler, H. (1987): Assessment-Center als Auswahl- und<br />

Entwicklungsinstrument. Ein Überblick. In H. Schuler & W. Stehle (Hrsg.):<br />

Assessment-Center als Methode der Personalentwicklung (S.1-35).<br />

Stuttgart: Verlag für Angewandte Psychologie.<br />

Schuler, H. (1996). Psychologische Personalauswahl: Einführung in die<br />

Berufseignungsdiagnostik. Göttingen: Hogrefe.<br />

Schuler, H., Funke, U., Moser, K., Donat, M. (1995). Personalauswahl in<br />

Forschung und Entwicklung. Göttingen: Hogrefe<br />

Schuler, H. & Moser, K. (1995). Geschichte der Managementdiagnostik. In: W.<br />

Sarges (Hrsg.) Management Diagnostik (S. 32-42). Göttingen: Hogrefe.<br />

Schuler, H. & Klingner, Y. (2005). AZUBI-BK: Arbeitsprobe zur<br />

berufsbezogenen Inteligenz - Büro- und kaufmännische Tätigkeiten.<br />

Göttingen: Hogrefe.<br />

1 8 2


Literaturverzeichnis<br />

Sünderhauf, K., Stumpf, S. & Höft, S. (2005). Assessment Center - von der<br />

Auftragsklärung bis zur Qualitätssicherung. Lengerich: Pabst Science<br />

Publishers.<br />

Thornton, G. & Byham, W. (1982). Assessment centers and managerial<br />

performance. New York: Academic Press.<br />

Wandmacher, J. (1993). Software-Ergonomie. Berlin: de Gruyter.<br />

Weiss, M. (2006). Die <strong>Postkorb</strong>-Übung - ein Instrument des Assessment<br />

Centers unter der Lupe. Unveröffentlichte <strong>Diplomarbeit</strong>, Züricher<br />

Fachhochschule, Hochschule für Angewandte Psychologie<br />

Wernimont, P. F. & Campbell, J.P. (1968). Signs, samples, and criteria. Journal<br />

of Applied Psychologie, 52, 372 - 376<br />

Will, D. (2006). Evaluation eines computergestützten Tests zur<br />

Konzentrationsmessung. Unveröffentlichte <strong>Diplomarbeit</strong>, Universität zu<br />

Köln, Fakultät für Psychologie<br />

Wottawa, H. & Hossiep, R. (1997). Anwendungsfelder psychologischer<br />

Diagnostik. Göttingen: Hogrefe.<br />

1 8 3


Anhang<br />

9 Anhang<br />

A: Instruktion für die KI.BOX<br />

A.1: Teilnehmerunterlage der KI.BOX<br />

B: eingesetzte Fragebögen<br />

B.1: Instruktionsseite des Fragebogens<br />

B.2: Fragebogen Teil 1: BIP Subskala zur Gewissenhaftigkeit<br />

B.3: Fragebogen Teil 2: SUCA<br />

B.4: Fragebogen Teil 3: VECA<br />

B.5: Fragebogen Teil 4: Selbsteinschätzung<br />

B.6: Fragebogen Teil 5: Demographische Daten<br />

C: Statistik<br />

C.1: Demographische Verteilung der Stichprobe<br />

C.2: Deskriptive Statistik der KI.BOX-Ergebnisse<br />

C.3: Korrelationskoeffizienten der Prüfkriterien<br />

C.4: Korrelationskoeffizienten der Bearbeitungsgeschwindigkeiten<br />

D: Selbstständigkeitserklärung<br />

1 8 4


A.1: Teilnehmerunterlage der KI.BOX<br />

A.1: Teilnehmerunterlage der KI.BOX<br />

Teilnehmerunterlage<br />

<strong>Postkorb</strong><br />

_______________________________________________________<br />

1 8 5


A.1: Teilnehmerunterlage der KI.BOX<br />

Teilnehmerunterlage<br />

<strong>Postkorb</strong><br />

Hintergrund<br />

Die Absolventenmesse „Career4U“ steht in sechs Wochen vor der Tür. Ab heute unterstützen<br />

Sie das Projektteam "Nachwuchs", das sich aus Ihrem Vorgesetzten Thomas Friedrichs und<br />

Ihrer Kollegin Alexandra Maier zusammensetzt.<br />

Es ist früh am Morgen. Sie haben gerade Ihren Computer eingeschaltet. Bevor Sie Ihren<br />

nächsten Termin wahrnehmen, müssen Sie noch Ihren <strong>Postkorb</strong> bearbeiten. Dieser besteht aus<br />

den folgenden vier Aufgabenbereichen: Ihrem Posteingang für E-Mails, verschiedenen Excel-<br />

Tabellen, Ihrem Kalender für die Messeplanung und einer Prioritätenliste für heute.<br />

Ziel dabei ist es, Ihren <strong>Postkorb</strong> innerhalb der vorgegebenen Zeit möglichst umfassend und<br />

korrekt zu bearbeiten.<br />

Nach der Durchsicht dieser Unterlage steht Ihnen zusätzlich eine zehnminütige<br />

„Aufwärmphase“ am Computer zur Verfügung, in der Sie sich mit der Bedienung des<br />

<strong>Postkorb</strong>s und den Erläuterungen zu den einzelnen Bereichen vertraut machen können.<br />

Anschließend haben sie für die Bearbeitung des <strong>Postkorb</strong>s exakt 60 Minuten Zeit.<br />

Aufgabe<br />

Ihre Aufgabe ist es, Ihren <strong>Postkorb</strong> zu bearbeiten. Er umfasst vier Aufgabenbereiche:<br />

1. Posteingang:<br />

In Ihrem Posteingang finden Sie bereits eine Vielzahl unterschiedlicher E-Mails. Es ist<br />

nicht auszuschließen, dass während der Bearbeitung der E-Mails noch weitere<br />

hinzukommen. Einige E-Mails sind rein informativer Natur, andere beinhalten konkrete<br />

Fragen oder Aufgabenstellungen.<br />

2. Excel (Tabellen):<br />

Bei der Bearbeitung Ihrer E-Mails müssen Sie zum Teil auf Tabellen (Excel)<br />

zurückgreifen, die wichtige Informationen für Sie beinhalten. Wenn das der Fall sein<br />

sollte, wird explizit auf die entsprechende Tabelle in der E-Mail hingewiesen.<br />

3. Kalender Messeplanung:<br />

Die beiden Messetage der Absolventenmesse Career4U müssen in Ihrem Kalender<br />

geplant werden. Tragen Sie bitte in den Kalender alle Termine ein, die Sie oder einer<br />

Ihrer Kollegen auf der Messe wahrnehmen müssen.<br />

4. Prioritäten für heute:<br />

In einer Prioritätenliste sollen Sie Ihre fünf wichtigsten ToDos für den heutigen Tag<br />

festlegen.<br />

Ziel<br />

• Sie haben für die Durchsicht dieser Informationen 10 Minuten Zeit.<br />

• Danach erfolgt eine zehnminütige Einarbeitungszeit am Computer.<br />

• Für die anschließende Bearbeitung des <strong>Postkorb</strong>s haben Sie 60 Minuten Zeit.<br />

1 8 6


A.1: Teilnehmerunterlage der KI.BOX<br />

Teilnehmerunterlage<br />

<strong>Postkorb</strong><br />

Allgemeine Hinweise zur Bearbeitung des <strong>Postkorb</strong>s<br />

1. Bearbeiten Sie bitte alle Aufgabenbereiche, da alle gleichermaßen in die Auswertung<br />

einfließen.<br />

2. Gehen Sie bitte bei der Bearbeitung Ihrer Aufgaben nicht ausschließlich sequentiell vor,<br />

da Sie mitunter die benötigten Informationen an unterschiedlichen Stellen finden.<br />

3. Da sich in Ihrem <strong>Postkorb</strong> viele zu erledigende Aufgaben angesammelt haben, ist es<br />

durchaus möglich, dass Sie in der vorgegebenen Zeit (60 Minuten) nicht alle Aufgaben<br />

bearbeiten und lösen können.<br />

4. Klicken Sie während der Bearbeitungszeit mit der Maus alles das an, was Sie anklicken<br />

möchten!<br />

5. Nutzen Sie Ihre <strong>EDV</strong>-Kenntnisse bei der Bearbeitung Ihres <strong>Postkorb</strong>s! Sie können<br />

beispielsweise mit Hilfe der Maus in Ihrem Posteingang und in den Tabellen die<br />

Spaltenbreite verändern, Zeilen markieren oder sie so sortieren, dass Ihnen die<br />

gewählte Anordnung das Arbeiten erleichtert.<br />

6. Bedenken Sie, dass falsche Antworten in der Auswertung als Negativpunkte<br />

berücksichtigt werden.<br />

7. Sie können bei Bedarf einen Taschenrechner zur Hilfe nehmen.<br />

Einführung in die Bearbeitung des <strong>Postkorb</strong>s<br />

Nach dem Start des computergestützten <strong>Postkorb</strong>s erhalten Sie auf der Startseite (siehe<br />

Screenshot auf Seite 4 dieser Teilnehmerunterlage) zunächst einige Hinweise zur Bearbeitung<br />

des <strong>Postkorb</strong>s, die Sie auch in dieser Teilnehmerunterlage vermittelt bekommen. Ihnen werden<br />

noch einmal die Rahmenhandlung und Ihre Aufgaben bei der Bearbeitung des <strong>Postkorb</strong>s<br />

erläutert.<br />

Am unteren Bildschirmrand (oberhalb der Windows-Startzeile) ist eine Zeitleiste für Sie<br />

eingeblendet, die Ihnen in Form eines Balkens angibt, wie viel Zeit seit dem Programmstart<br />

bereits verstrichen ist. Eine genaue Zeitangabe erhalten Sie, wenn Sie mit der Maus auf die<br />

Zeitleiste zeigen. Ihnen stehen ab dem Programmstart 60 Minuten zur Verfügung, danach<br />

deaktiviert sich das Programm automatisch.<br />

Am linken Bildschirmrand befindet sich Ihre Menüleiste. Wenn Sie in dieser Leiste auf die<br />

einzelnen Menüpunkte klicken, gelangen Sie zu Ihren einzelnen Aufgaben.<br />

Nähere Informationen zur Bearbeitung der vier Aufgabenbereiche erhalten Sie, wenn Sie mit<br />

der Maus auf der Startseite im Abschnitt „Ihre Aufgabe“ auf die unter der Überschrift<br />

„Navigation“ stehenden Links „Erläuterung: Posteingang“, „Erläuterung: Excel“, „Erläuterung:<br />

Kalender Messeplanung“ sowie „Erläuterung: Prioritäten heute“ klicken. Über den Link „Zurück<br />

zur Startseite“ gelangen Sie jeweils zurück zur Startseite.<br />

1 8 7


A.1: Teilnehmerunterlage der KI.BOX<br />

Teilnehmerunterlage<br />

<strong>Postkorb</strong><br />

Startseite<br />

Hier gelangen Sie zu<br />

Ihren Aufgaben!<br />

Hier erhalten Sie Erklärungen zu den 4<br />

Aufgabenbereichen (siehe folgende<br />

Screenshots)!<br />

Ihre Zeit-Leiste<br />

1 8 8


A.1: Teilnehmerunterlage der KI.BOX<br />

Teilnehmerunterlage<br />

<strong>Postkorb</strong><br />

Erläuterungen zum „Posteingang“<br />

1 8 9


A.1: Teilnehmerunterlage der KI.BOX<br />

Teilnehmerunterlage<br />

<strong>Postkorb</strong><br />

Erläuterungen zu „Excel (Tabellen)“<br />

1 9 0


A.1: Teilnehmerunterlage der KI.BOX<br />

Teilnehmerunterlage<br />

<strong>Postkorb</strong><br />

Erläuterungen zum „Kalender Messeplanung“<br />

1 9 1


A.1: Teilnehmerunterlage der KI.BOX<br />

Teilnehmerunterlage<br />

<strong>Postkorb</strong><br />

Erläuterungen zu den „Prioritäten für heute“<br />

1 9 2


B.1: Instruktionsseite des Fragebogens<br />

B.1: Instruktionsseite des Fragebogens<br />

Code:<br />

Liebe Untersuchungsteilnehmerin, lieber Untersuchungsteilnehmer,<br />

Noch einmal vielen Dank, dass Du an meiner Untersuchung „Career4U“ teilnimmst und mit<br />

Deinem Einsatz die Datenerhebung für meine <strong>Diplomarbeit</strong> unterstützt.<br />

Um die Anonymität Deiner Daten zu gewährleisten, trage bitte JETZT oben deinen<br />

persönlichen Code ein. Zur Erinnerung:<br />

1. Kästchen: Der dritte Buchstabe deines Vornamens (z.B. R für <strong>Christian</strong>)<br />

2. Kästchen: Der erste Buchstabe des Vornamens deiner Mutter (z.B. C für Carola)<br />

3. und 4. Kästchen: Der Tag deines Geburtstag (z.B. 0 und 9 für 09. März)<br />

5. Kästchen: Der letzte Buchstabe des Vornamens deines Vaters (z.B. Z für Heinz)<br />

In diesem Beispiel würde der Code also lauten: R C 0 9 Z<br />

Bitte erst weitermachen, wenn Du den Code eingetragen hast.<br />

Du wirst nun im Folgenden 5 kurze Fragebögen vorfinden.<br />

Bei der Beantwortung der Fragen gibt es keine richtigen oder falschen Antworten. Überlege<br />

deshalb nicht lange, sondern kreuze spontan das Kästchen an, welches Deine Einschätzung<br />

am besten ausdrückt. Bitte sei bei der Beantwortung des Fragebogens ganz offen und ehrlich,<br />

denn Deine persönliche Einschätzung ist gefragt. Natürlich bleiben alle deine Angaben anonym.<br />

Du kannst jetzt mit der Beantwortung des Fragebogens beginnen. Wenn Du fertig bist,<br />

vergewissere Dich bitte noch einmal, ob Du auch alle Fragen beantwortest hast.<br />

Anschließend gib dem Versuchsleiter bitte ein Zeichen, dass Du fertig bist.<br />

Vielen Dank für das Ausfüllen dieses Fragebogens.<br />

1 9 3


B.3: Fragebogen Teil 2: SUCA<br />

B.3: Fragebogen Teil 2: SUCA<br />

Fragebogen zur Sicherheit im Umgang mit Computern und Computeranwendungen<br />

(SUCA)<br />

Bei diesem Fragebogen geht es darum, wie sicher Sie selbst Ihren Umgang mit dem Computer<br />

und verschiedenen Computeranwendungen einschätzen. Auf dieser und der folgenden Seite<br />

sind elf Feststellungen aufgeführt, die sich auf Ihren Umgang mit dem Computer beziehen. Wir<br />

möchten Sie bitten, jeweils anzugeben, in welchem Ausmaß die Aussagen auf Sie zutreffen.<br />

Hier ein Beispiel:<br />

trifft zu<br />

trifft<br />

Neutral<br />

trifft<br />

trifft<br />

keine Ein-<br />

eher zu<br />

eher<br />

nicht<br />

schätzung<br />

nicht zu<br />

zu<br />

Bei der Arbeit am Computer fühle<br />

ich mich so sicher wie beim<br />

täglichen Zähneputzen.<br />

Wenn die Aussage auf Sie zutrifft, kreuzen Sie das Feld bei "trifft zu" an, wenn die Aussage<br />

tendenziell auf Sie zutrifft, kreuzen Sie das Feld bei "trifft eher zu an", wenn die Aussage Ihrer<br />

Einschätzung nach auf Sie eher nicht zutrifft, kreuzen Sie das Feld bei "trifft eher nicht zu" an<br />

usw. Wenn Sie keine Einschätzung abgeben können oder wollen, haben Sie die Möglichkeit,<br />

das Feld in der Spalte "keine Einschätzung" zu markieren. Beachten Sie bitte, daß es hier keine<br />

'richtigen' oder 'falschen' Antworten gibt. Versuchen Sie, spontan zu antworten, jedoch nicht,<br />

ohne die jeweilige Aussage gründlich gelesen zu haben.<br />

1 9 8


B.3: Fragebogen Teil 2: SUCA<br />

Bitte bearbeiten Sie alle elf Aussagen.<br />

trifft zu<br />

trifft<br />

Neutral<br />

trifft<br />

trifft<br />

keine<br />

eher zu<br />

eher<br />

nicht zu<br />

Einschät<br />

nicht zu<br />

zung<br />

1. Im Umgang mit Computern fühle ich<br />

mich sicher.<br />

2. Die Verwendung unbekannter<br />

Software-Programme kann ich<br />

schnell erlernen.<br />

3. Bei der Arbeit mit dem Computer<br />

lasse ich mich durch auftretende<br />

(computerbedingte) Schwierigkeiten<br />

leicht frustrieren.<br />

4. Im Allgemeinen bereitet mir die<br />

Arbeit mit Computern wenige<br />

Probleme.<br />

5. Bei Problemen mit einem<br />

Computerprogramm würde ich eher<br />

das Handbuch als die Online-Hilfe<br />

heranziehen.<br />

6. Bei auftretenden<br />

Computerproblemen frage ich<br />

meistens andere Leute.<br />

7. Ich schätze mich so ein, daß ich von<br />

der Informationssuche im Internet<br />

profitieren kann.<br />

8. Mit der Computer-Maus<br />

umzugehen, bereitet mir manchmal<br />

Schwierigkeiten.<br />

9. Bei Literaturrecherchen würde ich<br />

elektronische Datenbanken<br />

Bibliographien in Buchform in der<br />

Regel den Vorzug geben.<br />

10. Mit den Fehlermeldungen meines<br />

Computers kann ich in der Regel<br />

etwas anfangen.<br />

11. Das Formatieren eines längeren<br />

Textdokuments ist für mich kein<br />

Problem.<br />

Teil 2 des Fragebogens ist damit beendet.<br />

Bitte umblättern, um mit Teil 3 fortzufahren.<br />

1 9 9


B.4: Fragebogen Teil 3: VECA<br />

B.4: Fragebogen Teil 3: VECA<br />

Fragebogen zur Vertrautheit mit verschiedenen Computeranwendungen (VECA)<br />

Bei diesem Fragebogen geht es um Ihre Vertrautheit mit verschiedenen Computeranwendungen. Sie<br />

sollen sich selbst daraufhin einschätzen, wie vertraut Sie im Umgang mit einzelnen<br />

Computeranwendungen sind. Im Folgenden sind einige Computeranwendungen aufgelistet. Wir<br />

möchten Sie bitten, jeweils zu beurteilen, ob Sie meinen, im Umgang mit den jeweiligen Anwendungen<br />

im Vergleich zu anderen Studentinnen und Studenten "weit überdurchschnittlich",<br />

"überdurchschnittlich", "durchschnittlich", "unterdurchschnittlich" oder "weit<br />

unterdurchschnittlich" vertraut zu sein.<br />

Ich bin vertraut im Umgang mit<br />

weit über-<br />

über-<br />

durch-<br />

unter-<br />

weit<br />

durch-<br />

durch-<br />

schnitt-<br />

durch-<br />

unter-<br />

<br />

schnittlich<br />

schnitt-<br />

lich<br />

lich<br />

schnitt-<br />

lich<br />

durch-<br />

schnittlich<br />

1. Computern im allgemeinen<br />

2. Textverarbeitung<br />

3. Multimedia-Anwendungen<br />

4. Programmiersprachen<br />

5. Tabellenkalkulation<br />

6. Statistik-Programmen<br />

7. E-Mail<br />

8. Datenbanken<br />

9. Internet/WWW<br />

10. Computerspielen<br />

11. Graphikprogrammen<br />

12. Terminplanungsprogrammen<br />

Teil 3 des Fragebogens ist damit beendet.<br />

Bitte umblättern, um mit Teil 4 fortzufahren.<br />

2 0 0


B.5: Fragebogen Teil 4: Selbsteinschätzung<br />

B.5: Fragebogen Teil 4: Selbsteinschätzung<br />

Selbsteinschätzung:<br />

1. Im Vergleich zu anderen Studierenden schätze ich meine analytischen Fähigkeit ein als:<br />

<br />

unterdurchschnittlich<br />

überdurchschnittlich<br />

2. Im Vergleich zu anderen Studierenden schätze ich meine organisatorisch-konzeptionellen<br />

Fähigkeit ein als:<br />

<br />

unterdurchschnittlich<br />

überdurchschnittlich<br />

3. Ich habe Erfahrung mit kaufmännisch Tätigkeiten und / oder Büroarbeit.<br />

<br />

trifft gar nicht zu<br />

trifft vollkommen zu<br />

4. Ich habe theoretisches über Assessment Center.<br />

<br />

trifft gar nicht zu<br />

trifft vollkommen zu<br />

5. Ich habe schon an Assessment Centern teilgenommen.<br />

<br />

trifft gar nicht zu<br />

trifft vollkommen zu<br />

6. Ich habe theoretisches Wissen über <strong>Postkorb</strong>-Übungen.<br />

<br />

trifft gar nicht zu<br />

trifft vollkommen zu<br />

7. Ich habe schon einmal eine <strong>Postkorb</strong>-Übung durchlaufen.<br />

<br />

trifft gar nicht zu<br />

trifft vollkommen zu<br />

Teil 4 des Fragebogens ist damit beendet.<br />

Bitte umblättern, um mit Teil 5 fortzufahren<br />

2 0 1


B.6: Fragebogen Teil 5: Demographische Daten<br />

B.6: Fragebogen Teil 5: Demographische Daten<br />

Demographische Daten:<br />

Geschlecht: weiblich männlich <br />

Alter: ______<br />

Studienfach:___________________________<br />

Semester: _______<br />

Abitur-Durchschnitt: ___________<br />

Letzte Schulnote in Deutsch: ___________<br />

Letzte Schulnote in Mathematik: ___________<br />

Deutschkenntnisse:<br />

<br />

<br />

<br />

Deutsch als 1. Muttersprache<br />

Deutsch als 2. Muttersprache<br />

Deutsch als Fremdsprache<br />

Berufserfahrung:<br />

<br />

<br />

<br />

<br />

keine Berufserfahrung<br />

abgebrochene Ausbildung als:<br />

_________________________<br />

abgeschlossene Ausbildung als:<br />

_________________________<br />

abgeschlossenes Studium:<br />

_________________________<br />

Ja, ich möchte ein anonymes schriftliches Feedback über meine Ergebnisse in dieser<br />

Untersuchung erhalten.<br />

Vielen Dank für das Ausfüllen dieses Fragebogens!<br />

Die Untersuchung ist nun beendet.<br />

Gib dem Untersuchungsleiter bitte ein Zeichen, dass Du fertig bist.<br />

2 0 2


C.1: Demographische Verteilung der Stichprobe<br />

C.1: Demographische Verteilung der Stichprobe<br />

Geschlecht<br />

Häufigkeit<br />

Prozent<br />

Kumulierte<br />

Prozente<br />

weiblich 52 75,4 75,4<br />

männlich 17 24,6 100,0<br />

Gesamt 69 100,0<br />

Alter<br />

Häufigkeit<br />

Prozent<br />

Kumulierte<br />

Prozente<br />

18 1 1,4 1,4<br />

19 8 11,6 13,0<br />

20 11 15,9 29,0<br />

21 2 2,9 31,9<br />

22 5 7,2 39,1<br />

23 7 10,1 49,3<br />

24 6 8,7 58,0<br />

25 7 10,1 68,1<br />

26 1 1,4 69,6<br />

28 3 4,3 73,9<br />

29 5 7,2 81,2<br />

31 1 1,4 82,6<br />

32 2 2,9 85,5<br />

33 1 1,4 87,0<br />

36 2 2,9 89,9<br />

40 3 4,3 94,2<br />

41 1 1,4 95,7<br />

42 1 1,4 97,1<br />

44 1 1,4 98,6<br />

49 1 1,4 100,0<br />

Gesamt 69 100,0<br />

2 0 3


C.1: Demographische Verteilung der Stichprobe<br />

Studienfach<br />

Häufigkeit<br />

Prozent<br />

Kumulierte<br />

Prozente<br />

Psychologie 62 89,9 89,9<br />

Wirtschaftspsychologie 1 1,4 91,3<br />

BWL 3 4,3 95,7<br />

Soziologie 2 2,9 98,6<br />

Landschaftsarchitektur 1 1,4 100,0<br />

Gesamt 69 100,0<br />

Semesteranzahl<br />

Häufigkeit<br />

Prozent<br />

Kumulierte<br />

Prozente<br />

1 32 46,4 46,4<br />

3 21 30,4 76,8<br />

5 7 10,1 87,0<br />

6 1 1,4 88,4<br />

7 1 1,4 89,9<br />

8 1 1,4 91,3<br />

9 3 4,3 95,7<br />

10 1 1,4 97,1<br />

11 1 1,4 98,6<br />

14 1 1,4 100,0<br />

Gesamt 69 100,0<br />

Berufserfahrung<br />

Häufigkeit<br />

Prozent<br />

Kumulierte<br />

Prozente<br />

keine Berufsausbildung 46 66,7 66,7<br />

abgebrochene Ausbildung 2 2,9 69,6<br />

abgeschlossene Ausbildung 11 15,9 85,5<br />

abgeschlossenes Studium 9 13,0 98,6<br />

keine Angaben 1 1,4 100,0<br />

Gesamt 69 100,0<br />

2 0 4


C.1: Demographische Verteilung der Stichprobe<br />

wenn Berufserfahrung, dann abgebrochene Ausbildung im Bereich:<br />

Häufigkeit<br />

Prozent<br />

Kumulierte<br />

Prozente<br />

Naturwissenschaft 1 1,4 1,4<br />

Technik 1 1,4 2,9<br />

keine Angaben 67 97,1 100,0<br />

Gesamt 69 100,0<br />

wenn Berufserfahrung, dann abgeschlossene Ausbildung im Bereich:<br />

Häufigkeit<br />

Prozent<br />

Kumulierte<br />

Prozente<br />

Technik 1 1,4 1,4<br />

kaufmännisch 8 11,6 13,0<br />

Sozialwesen 3 4,3 17,4<br />

keine Angaben 57 82,6 100,0<br />

Gesamt 69 100,0<br />

wenn Berufserfahrung, dann abgeschlossenes Studium im Bereich:<br />

Häufigkeit<br />

Prozent<br />

Kumulierte<br />

Prozente<br />

Technik 1 1,4 1,4<br />

kaufmännisch 1 1,4 2,9<br />

Geisteswissenschaft 7 10,1 13,0<br />

keine Angaben 60 87,0 100,0<br />

Gesamt 69 100,0<br />

2 0 5


C.1: Demographische Verteilung der Stichprobe<br />

„Ich habe Erfahrung mit kaufmännisch Tätigkeiten und / oder Büroarbeit.“<br />

(1 = trifft nicht zu, 6 = trifft vollkommen zu)<br />

Häufigkeit<br />

Prozent<br />

Kumulierte<br />

Prozente<br />

1 23 33,3 33,3<br />

2 16 23,2 56,5<br />

3 3 4,3 60,9<br />

4 10 14,5 75,4<br />

5 11 15,9 91,3<br />

6 6 8,7 100,0<br />

Gesamt 69 100,0<br />

Abitur Durchschnitt<br />

Häufigkeit<br />

Prozent<br />

Kumulierte<br />

Prozente<br />

1,0 3 4,3 4,3<br />

1,1 5 7,2 11,6<br />

1,2 2 2,9 14,5<br />

1,3 5 7,2 21,7<br />

1,4 1 1,4 23,2<br />

1,5 9 13,0 36,2<br />

1,6 4 5,8 42,0<br />

1,7 6 8,7 50,7<br />

1,8 2 2,9 53,6<br />

1,9 1 1,4 55,1<br />

2,0 4 5,8 60,9<br />

2,1 3 4,3 65,2<br />

2,2 3 4,3 69,6<br />

2,3 2 2,9 72,5<br />

2,4 1 1,4 73,9<br />

2,5 3 4,3 78,3<br />

2,6 3 4,3 82,6<br />

2,7 5 7,2 89,9<br />

2,8 2 2,9 92,8<br />

2,9 1 1,4 94,2<br />

3,0 2 2,9 97,1<br />

3,2 1 1,4 98,6<br />

3,5 1 1,4 100,0<br />

Gesamt 69 100,0<br />

2 0 6


C.1: Demographische Verteilung der Stichprobe<br />

letzte Schulnote in Deutsch (in Punkten)<br />

Häufigkeit<br />

Prozent<br />

Kumulierte<br />

Prozente<br />

2 1 1,4 1,4<br />

5 1 1,4 2,9<br />

7 3 4,3 7,2<br />

8 7 10,1 17,4<br />

9 1 1,4 18,8<br />

10 3 4,3 23,2<br />

11 17 24,6 47,8<br />

12 4 5,8 53,6<br />

13 8 11,6 65,2<br />

14 16 23,2 88,4<br />

15 8 11,6 100,0<br />

Gesamt 69 100,0<br />

letzte Schulnote in Mathematik (in Punkten)<br />

Häufigkeit<br />

Prozent<br />

Kumulierte<br />

Prozente<br />

1 3 4,3 4,3<br />

2 4 5,8 10,1<br />

5 7 10,1 20,3<br />

7 3 4,3 24,6<br />

8 12 17,4 42,0<br />

9 1 1,4 43,5<br />

10 1 1,4 44,9<br />

11 13 18,8 63,8<br />

12 4 5,8 69,6<br />

13 10 14,5 84,1<br />

14 7 10,1 94,2<br />

15 4 5,8 100,0<br />

Gesamt 69 100,0<br />

2 0 7


C.1: Demographische Verteilung der Stichprobe<br />

Deutschkenntnisse<br />

Häufigkeit<br />

Prozent<br />

Kumulierte<br />

Prozente<br />

Deutsch als 1. Muttersprache 56 81,2 81,2<br />

Deutsch als 2. Muttersprache 4 5,8 87,0<br />

Deutsch als Fremdsprache 9 13,0 100,0<br />

Gesamt 69 100,0<br />

2 0 8


C.2: Deskriptive Statistik der KI.BOX-Ergebnisse<br />

C.2: Deskriptive Statistik der KI.BOX-Ergebnisse<br />

Deskriptive Statistik<br />

N Minimum Maximum Mittelwert<br />

Standard-<br />

abweichung<br />

Analyt. Fähigkeiten<br />

Mengenleistung 69 ,0 17,0 8,710 3,6866<br />

Analyt. Fähigkeiten<br />

erreichte Punkte 69 -3,0 9,0 2,710 2,4441<br />

Orga.-konzept. Fähigkeiten<br />

Mengenleistung 69 15,0 42,0 25,290 7,2398<br />

Orga.-konzept. Fähigkeiten<br />

erreichte Punkte 69 -31,0 13,0 -1,674 8,1411<br />

bearbeitete Items in den Analytischen Fähigkeiten (KI.BOX)<br />

Häufigkeit Prozent Kumulierte Prozente<br />

0 1 1,4 1,4<br />

3 1 1,4 2,9<br />

4 4 5,8 8,7<br />

5 9 13,0 21,7<br />

6 8 11,6 33,3<br />

7 9 13,0 46,4<br />

8 4 5,8 52,2<br />

9 6 8,7 60,9<br />

10 4 5,8 66,7<br />

11 7 10,1 76,8<br />

12 4 5,8 82,6<br />

13 1 1,4 84,1<br />

14 7 10,1 94,2<br />

15 1 1,4 95,7<br />

16 2 2,9 98,6<br />

17 1 1,4 100,0<br />

Gesamt 69 100,0<br />

2 0 9


C.2: Deskriptive Statistik der KI.BOX-Ergebnisse<br />

erreichte Punkte in den Analytischen Fähigkeiten (KI.BOX)<br />

Häufigkeit Prozent Kumulierte Prozente<br />

-3 1 1,4 1,4<br />

-2 2 2,9 4,3<br />

-1 4 5,8 10,1<br />

0 4 5,8 15,9<br />

1 10 14,5 30,4<br />

2 11 15,9 46,4<br />

3 14 20,3 66,7<br />

4 6 8,7 75,4<br />

5 9 13,0 88,4<br />

6 5 7,2 95,7<br />

7 1 1,4 97,1<br />

9 2 2,9 100,0<br />

Gesamt 69 100,0<br />

bearbeitete Items in den Organisatorisch-konzeptionellen Fähigkeiten (KI.BOX)<br />

Häufigkeit Prozent Kumulierte Prozente<br />

15 4 5,8 5,8<br />

16 1 1,4 7,2<br />

17 2 2,9 10,1<br />

18 7 10,1 20,3<br />

19 2 2,9 23,2<br />

20 5 7,2 30,4<br />

21 5 7,2 37,7<br />

22 3 4,3 42,0<br />

23 4 5,8 47,8<br />

24 6 8,7 56,5<br />

25 1 1,4 58,0<br />

26 3 4,3 62,3<br />

27 3 4,3 66,7<br />

29 4 5,8 72,5<br />

30 3 4,3 76,8<br />

31 3 4,3 81,2<br />

32 2 2,9 84,1<br />

34 2 2,9 87,0<br />

35 2 2,9 89,9<br />

36 1 1,4 91,3<br />

39 1 1,4 92,8<br />

40 3 4,3 97,1<br />

42 2 2,9 100,0<br />

Gesamt 69 100,0<br />

2 1 0


C.2: Deskriptive Statistik der KI.BOX-Ergebnisse<br />

erreichte Punkte in den Organisatorisch-konzeptionellen Fähigkeiten (KI.BOX)<br />

Häufigkeit Prozent Kumulierte Prozente<br />

-31 1 1,4 1,4<br />

-19 1 1,4 2,9<br />

-18,5 1 1,4 4,3<br />

-18 1 1,4 5,8<br />

-16 1 1,4 7,2<br />

-13 1 1,4 8,7<br />

-11 2 2,9 11,6<br />

-10 1 1,4 13,0<br />

-9,5 1 1,4 14,5<br />

-9 2 2,9 17,4<br />

-8,5 2 2,9 20,3<br />

-8 1 1,4 21,7<br />

-7 1 1,4 23,2<br />

-6,5 1 1,4 24,6<br />

-6 1 1,4 26,1<br />

-5,5 1 1,4 27,5<br />

-5 1 1,4 29,0<br />

-4 3 4,3 33,3<br />

-3,5 2 2,9 36,2<br />

-3 2 2,9 39,1<br />

-2 4 5,8 44,9<br />

-1,5 1 1,4 46,4<br />

-1 4 5,8 52,2<br />

-0,5 1 1,4 53,6<br />

0 2 2,9 56,5<br />

0,5 3 4,3 60,9<br />

1 2 2,9 63,8<br />

2 3 4,3 68,1<br />

3 4 5,8 73,9<br />

4 5 7,2 81,2<br />

5 2 2,9 84,1<br />

6 3 4,3 88,4<br />

8 1 1,4 89,9<br />

9 1 1,4 91,3<br />

10 2 2,9 94,2<br />

11 2 2,9 97,1<br />

12 1 1,4 98,6<br />

13 1 1,4 100,0<br />

Gesamt 69 100,0<br />

2 1 1


C.3: Korrelationskoeffizienten der Prüfkriterien<br />

C.3: Korrelationskoeffizienten der Prüfkriterien<br />

Analytische<br />

Fähigkeiten<br />

(erreichte<br />

Punkte)<br />

Orga.-konzept.<br />

Fähigkeiten<br />

(erreichte<br />

Punkte)<br />

Abitur Durchschnitt Korrelation nach Pearson -.08 -.04<br />

Signifikanz (2-seitig) .53 .76<br />

N 69 69<br />

letzte Schulnote in Deutsch<br />

(in Punkten) Korrelation nach Pearson -.05 -.05<br />

Signifikanz (2-seitig) .66 ,69<br />

N 69 69<br />

letzte Schulnote in Mathematik<br />

(in Punkten) Korrelation nach Pearson .31** .16<br />

Signifikanz (2-seitig) .01 .19<br />

Selbsteinschätzung der<br />

eigenen analytischen<br />

Fähigkeiten<br />

Selbsteinschätzung der<br />

eigenen orga.-konzept.<br />

Fähigkeiten<br />

N 69 69<br />

Korrelation nach Pearson .29* .30*<br />

Signifikanz (2-seitig) .02 .01<br />

N 69 69<br />

Korrelation nach Pearson -.05 .14<br />

Signifikanz (2-seitig) .69 .25<br />

N 69 69<br />

AZUBI-BK Gesamttestwert Korrelation nach Pearson .48** .52**<br />

Signifikanz (2-seitig) .00 .00<br />

N 69 69<br />

AZUBI-BK Grundmodul Korrelation nach Pearson .44** .51**<br />

Signifikanz (2-seitig) .00 .00<br />

N 69 69<br />

AZUBI-BK Postmodul Korrelation nach Pearson .52** .53**<br />

Signifikanz (2-seitig) .00 .00<br />

N 69 69<br />

BIP Gewissenhaftigkeit Korrelation nach Pearson .10 .29*<br />

Signifikanz (2-seitig) .41 .01<br />

N 69 69<br />

SUCA Korrelation nach Pearson .06 .06<br />

Signifikanz (2-seitig) .63 .65<br />

N 69 69<br />

2 1 2


C.3: Korrelationskoeffizienten der Prüfkriterien<br />

VECA Korrelation nach Pearson .06 -.08<br />

Signifikanz (2-seitig) .61 .51<br />

N 69 69<br />

Vertrautheit mit<br />

Textverarbeitung (VECA) Korrelation nach Pearson -.09 -.06<br />

Signifikanz (2-seitig) .47 .60<br />

N 69 69<br />

Vertrautheit mit E-Mail (VECA) Korrelation nach Pearson -.12 -.23<br />

Signifikanz (2-seitig) .34 .05<br />

N 69 69<br />

Vertrautheit mit Terminplanungsprogrammen<br />

(VECA) Korrelation nach Pearson .04 .08<br />

Signifikanz (2-seitig) .78 .50<br />

N 69 69<br />

Alter Korrelation nach Pearson -.30** -.28*<br />

Signifikanz (2-seitig) .01 .02<br />

N 69 69<br />

Semesteranzahl Korrelation nach Pearson -.04 -.05<br />

Signifikanz (2-seitig) .75 .68<br />

N 69 69<br />

theoretische Vorerfahrung mit<br />

Assessment Center Korrelation nach Pearson .25* .27*<br />

Signifikanz (2-seitig) .04 .03<br />

N 69 69<br />

schon teilgenommen an<br />

Assessment Centern Korrelation nach Pearson .11 .07<br />

Signifikanz (2-seitig) .39 .56<br />

N 69 69<br />

theoretische Vorerfahrung mit<br />

<strong>Postkorb</strong>-Übungen Korrelation nach Pearson -.00 .29*<br />

Signifikanz (2-seitig) .98 .02<br />

N 69 69<br />

schon <strong>Postkorb</strong>-Übungen<br />

durchlaufen Korrelation nach Pearson .06 .23<br />

Signifikanz (2-seitig) .61 .06<br />

N 69 69<br />

** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />

* Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.<br />

2 1 3


C.4: Korrelationskoeffizienten der Bearbeitungsgeschwindigkeiten<br />

C.4: Korrelationskoeffizienten der Bearbeitungsgeschwindigkeiten<br />

AZUBI-BK<br />

durchschnittliche<br />

Bearbeitungsgeschwindigkeit<br />

sprachgebundene<br />

Bearbeitungszeit in der AZUBI-BK<br />

Bearbeitungsgeschwindigkeit beim<br />

Bearbeiten von Mehrfachkategorien<br />

in der AZUBI-BK<br />

Bearbeitungsgeschwindigkeit beim<br />

Prüfen und Vergleichen von Details<br />

in der AZUBI-BK<br />

Bearbeitungsgeschwindigkeit im<br />

Umgang mit Tabellen in der<br />

AZUBI-BK<br />

Summe der<br />

bearbeitete<br />

n Items in<br />

der KI.BOX<br />

bearbeitete<br />

Items in den<br />

Analytische<br />

Fähigkeiten<br />

(KI.BOX)<br />

bearbeitete<br />

Items in den<br />

Orga.-<br />

konzept.<br />

Fähigkeiten<br />

(KI.BOX)<br />

Korrelation<br />

nach Pearson .19 .04 .23<br />

Signifikanz<br />

(2-seitig)<br />

.11 .77 .06<br />

N 69 69 69<br />

Korrelation<br />

nach Pearson<br />

.20 .06 .22<br />

Signifikanz<br />

(2-seitig)<br />

.10 .62 .07<br />

N 69 69 69<br />

Korrelation<br />

nach Pearson .18 .09 .19<br />

Signifikanz<br />

(2-seitig)<br />

.13 .45 .13<br />

N 69 69 69<br />

Korrelation<br />

nach Pearson -.05 .00 -.06<br />

Signifikanz<br />

(2-seitig)<br />

.71 .97 .63<br />

N 69 69 69<br />

Korrelation<br />

nach Pearson .24* -.02 .32**<br />

Signifikanz<br />

(2-seitig)<br />

.05 .87 .01<br />

N 69 69 69<br />

** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.<br />

* Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.<br />

2 1 4


D: Selbstständigkeitserklärung<br />

D: Selbstständigkeitserklärung<br />

Ich versichere hiermit, dass ich die vorliegende Arbeit mit dem Titel<br />

„Der computergestützte <strong>Postkorb</strong> KI.BOX - eine Validierungsstudie.“<br />

selbstständig verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel<br />

benutzt habe. Die Stellen, die anderen Werken im Wortlaut oder dem Sinn nach<br />

entnommen sind, wurden durch Quellenangaben im Text kenntlich gemacht.<br />

Köln, den …………………………………<br />

…………………………………………….<br />

<strong>Christian</strong> <strong>Srbeny</strong><br />

2 1 5

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!