13.07.2015 Aufrufe

9. Zusammenfassung der Testtheorie

9. Zusammenfassung der Testtheorie

9. Zusammenfassung der Testtheorie

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>9.</strong> <strong>Zusammenfassung</strong> <strong>der</strong> <strong>Testtheorie</strong> 5Items1 2 3 4 51 1 0 0 0 0Personen 2 1 1 0 0 03 1 1 1 0 04 1 1 1 1 0c) KTT: Items werden zu einer Skala zusammengefasst.Das RASCH-Modell:Modellgleichung:ξv−eP( A = 1)=vi1 + eσviξ −σiDie lokale stochastische Unabhängigkeit:Die Lösungswahrscheinlichkeit einer Person eines Items 2 hängt mit <strong>der</strong>en Fähigkeit zusammen undnicht mit <strong>der</strong> richtigen o<strong>der</strong> falschen Beantwortung eines vorher bearbeiteten Items 1.Spezifische Objektivität und Stichprobenunabhängigkeit:Die Parameterschätzung (Fähigkeit und Schwierigkeit) ist unabhängig von <strong>der</strong> Itemsstichprobe und<strong>der</strong> Personenstichprobe (Wechselseitige Stichprobenunabhängigkeit). Die Genauigkeit <strong>der</strong>Schätzung hängt allerdings von <strong>der</strong> Stichprobengroesse ab.Der Vergleich zweier Personen ist unabhängig von <strong>der</strong> Itemauswahl o<strong>der</strong> <strong>der</strong> Personenauswahl(spezifisch objektiv).Die Parameterschätzung und Modellgeltungstest:Die Parameterschätzung (zwei Unbekannte) erfolgt durch eine bedingte Maximum-Likelihood-Schätzung.Im Modellgeltungstest werden die geschätzten Parameter aus verschiedenen Stichprobensegmentenim Likelihoodquotiententest verglichen. O<strong>der</strong> es erfolgt die graphische Kontrolle:Items, die dies nicht erfüllen werden ausgeson<strong>der</strong>t.


6 <strong>9.</strong> <strong>Zusammenfassung</strong> <strong>der</strong> <strong>Testtheorie</strong>Faktorenanalyse:Verfahren zur Reduktion von Variablen.Faktorenanalyse von Tests:Die Items werden wie Variablen behandelt. Die Reduktion auf Faktoren entspricht <strong>der</strong> Zuordnung<strong>der</strong> Items zu Skalen.Matrizen <strong>der</strong> FA:Aus <strong>der</strong> Datenmatrix (Vpn x Var) wird die Interkorrelation <strong>der</strong> Variablen berechnet (Var x Var). a)Es wird die gemeinsame Varianz <strong>der</strong> Variablen gesucht (Kommunalitätenproblem). b) DieVariablencluster sollen durch Faktoren ersetzt werden (Faktorenproblem). c) Von denmathematischen wird auf die inhaltlichen Faktoren rotiert (Rotationsproblem).


<strong>9.</strong> <strong>Zusammenfassung</strong> <strong>der</strong> <strong>Testtheorie</strong> 7Bsp: PCA mit VARIMAX-Rotation:d) Welchen Wert hat eine Person auf einem Faktor (Faktorenwerteproblem).Die unrotierte Faktorenladungsmatrix Amr und die KTT:


8 <strong>9.</strong> <strong>Zusammenfassung</strong> <strong>der</strong> <strong>Testtheorie</strong>Die Variablenvarianz <strong>der</strong> Ausgangsmatrix setzt sich wie folgt zusammen:Voraussetzungen <strong>der</strong> FA:Vpn > 100; Verhältnis (Vpn : Variablen) wie (3 : 1); keine dichotomen Variablen.Entscheidungstheorie:Klassifikation von Diagnostischen Entscheidungen in ausgesuchten Anwendungsgebieten <strong>der</strong>Psychologie:Kategorisierung von Personalentscheidungsproblemen:


<strong>9.</strong> <strong>Zusammenfassung</strong> <strong>der</strong> <strong>Testtheorie</strong> 91. Selektion:y' = b1 x1 + b2 x2 + ... + bn xny' ... Vorhergesagtes Kriterium(z.B. Belastungsfähigkeit)x1 ... n ... Prädiktoren zur Vorhersage desKriteriums (z.B. Leistungen imSubtest 1 bis n)b1 ... n ... Gewichte für die PrädiktorenCutoff-Modell (Minimalstandards) vs. Kompensatorisches Modell2. multiple Selektion:3. AnnahmeStelle a y'a = a b1 x1 + a b2 x2 + ... + a bn xnStelle b y'b = b b1 x1 + b b2 x2 + ... + b bn xn


10 <strong>9.</strong> <strong>Zusammenfassung</strong> <strong>der</strong> <strong>Testtheorie</strong>4. Klassifikation:Unterschied zwischen den Stellen a und b :(ya - yb )' = (a b1 -b b1 ) x1 + (a b2 -b b2 ) x2 + ... + (a bn -b bn ) xn


<strong>9.</strong> <strong>Zusammenfassung</strong> <strong>der</strong> <strong>Testtheorie</strong> 11Outcomes of Prediction: Ergebnisse <strong>der</strong> VorhersageVergleich <strong>der</strong> Wirklichkeit und <strong>der</strong> Entscheidung:Ergebnisse <strong>der</strong> Entscheidung:Zusammenhang Wirklichkeit und Entscheidung (Validität: Vorhersage <strong>der</strong> Wirklichkeit aufgrunddes Tests):ϕ yy' =P( VP) − BR * SRBR *( 1 − BR) ∗ SR ∗ ( 1−SR)Wahrscheinlichkeit <strong>der</strong> validen Positiven mit Testanwendung:P(VP) = BR * SR + ϕ yy' *BR * (1 - BR) * SR * (1 - SR)Wahrscheinlichkeit <strong>der</strong> validen Positiven bei zufälliger Entscheidung:P(VP) = BR * SR (bei Zufallszuweisung)


12 <strong>9.</strong> <strong>Zusammenfassung</strong> <strong>der</strong> <strong>Testtheorie</strong>Erwarteter Nutzen <strong>der</strong> Ergebnisse <strong>der</strong> Entscheidung (expectet utility):EU = Ut + NVP * UVP + NFN * UFN + NVN * UVN + NFP * UFPEU ... erwarteter Nutzen (expectet utility)Ut ... Nutzen <strong>der</strong> Testanwendung (oft negativ, da Test Geld kostet)NVP ... Anzahl vali<strong>der</strong> PositiverUVP ... Nutzen vali<strong>der</strong> PositiverDer inkrementelle Nutzen:Der Zuwachs an Nutzen durch die Testanwendung ergibt sich aus <strong>der</strong> Differenz zwischen Nutzen <strong>der</strong>Anwendung des Tests und Nutzen <strong>der</strong> zufälligen Entscheidung ohne Test.Ist die Differenz negativ => keine AnwendungIst die Differenz positiv => Anwendung des Tests


<strong>9.</strong> <strong>Zusammenfassung</strong> <strong>der</strong> <strong>Testtheorie</strong> 13


14 10. Antworten zu den Uebungsaufgaben10. Antworten zu den Uebungsaufgaben10.1. Einleitung1. Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines o<strong>der</strong> mehrer empirischabgrenzbarer Persönlichkeitsmerkmale, mit dem Ziel einer möglichst quantitativen Aussage überden relativen Grad <strong>der</strong> individuellen Merkmalsausprägung.2. Bei <strong>der</strong> normorientierten Messung wird ein Messwert im Vergleich zur "Normpopulation"interpretiert. Hat eine Person einen Wert, <strong>der</strong> mehr als eine Standardabweichung über demMittelwert <strong>der</strong> Vergleichspopulation liegt, so hat sie eine überdurchschnittliche Ausprägung desgemessenen Merkmals.Bei <strong>der</strong> kriterienorientierten Messung (Fricke, 1974) wird ein Messwert zur Vorhersage einesKriteriums herangezogen. Hat zum Beispiel ein Schüler in einem Rechtschreibetest einenbestimmten Punktwert erreicht, wird verglichen, ob er die Leistung erreicht hat, die im Lehrplanfestgelegt ist. Es wird ein Schluss von <strong>der</strong> Testleistung auf das Kriterium "Rechtschreibefähigkeitlaut Lehrplan" gemacht.3. Unter operationalisieren versteht man das "Uebersetzen" eines Begriffes o<strong>der</strong> Konstruktes inOperationen zur Messung, also die "Messbarmachung" von Variablen.4. Bei physiologischen Messungen handelt es sich um Verhaltensbeobachtungen, da das Verhaltenim Mittelpunkt steht. Biofeedback ist eine Methode zur Selbstbeobachtung (Rückmeldung)physiologischer Parameter, während in psychophysiologischen Untersuchungen eherFremdbeobachtung vorliegt.Man kann die physiologischen Messungen aber auch als "objektiven Test" im Sinne Cattellssehen, denn die Personen haben keine Verfälschungsmöglichkeit. Für den Fall <strong>der</strong>physiologischen Messung ist die Einordnung in Kerlingers Aufstellung <strong>der</strong> sozialwissenschaftlichenDatenerhebungsmethoden nicht eindeutig.


10. Antworten zu den Uebungsaufgaben 1510.2. Historisches1. Binet und Simon (1904) entwickelten den ersten praktisch angewandten Intelligenztest und führtenspäter den Begriff des "Intelligenzalters" ein. William Stern setzte das Intelligenzalter und dasLebensalter in Beziehung. Dieser Intelligenzquotient kam dann in Termans "Stanford-Binet-Test"zur Anwendung und hatte die Form:IntelligenzalterIQ = ∗100Lebensalter2. Beide benutzten unterschiedliche Varianten <strong>der</strong> Faktorenanalyse.10.3. Grundlagen <strong>der</strong> Messung1.2. Messen ist die homomorphe Abbildung o<strong>der</strong> Repräsentation eines empirischen Relativs in einnumerisches Relativ.3. Skalierung ist die Einrichtung einer Skala zur Durchführung einer Messung (Ahrens, 1974).


16 10. Antworten zu den Uebungsaufgaben10.4. Klassische <strong>Testtheorie</strong>1.σ(A,B) 9a) ρ (A,B) = = = . 45σ(A)∗σ(B)4*5ρ(A,B).45b) ρ (T A ,T B ) = = = . 69r ttAr .50∗.85∗ ttB2. a) Man will ein sehr heterogenes Kriterium messen z.B.: Angst. Dieses Kriterium umfasst vieleFacetten. Ein Test, <strong>der</strong> alle diese Facetten erfassen soll braucht ebenso sehr heterogene Items.Für eine hohe Reliabilität sind aber homogene Items die Voraussetzung. Man könnte sich eineSubskala z.B. Prüfungsangst vorstellen, die sehr reliabel gemessen werden kann.b)ρ (X,Y) =∑∑ij∑iρ(x , Y ) ∗σ(x )σ(x ) ∗σ(xiiji) ∗ ρ(x , x )ijDie Iteminterkorrelation zwischen xi und xj (steht im Nenner) sollte klein sein, um eine hoheValidität zu erzielen. Für die Reliabilität ist aber wichtig, dass die Items zuverlässig dasselbemessen, also hoch interkorrelieren.3.a) Retest-Reliabilität: Vorteil: Einfach durchzuführen, ohne Konstruktion eines neuen Tests.Nachteile: Stabilität und Reliabilität werden vermischt. Zeiteffekte zwischen erster und zweiterMessung. Reaktive Effekte durch das mehrmalige Messen selbst.b) Paralleltest-Reliabilität &c) Odd-Even- o<strong>der</strong> Split-Half-Reliabilität: Vorteil: Einmalige Vorgabe des Tests. Nachteil: HoherKonstruktionsaufwandt. Voraussetzung ist wirkliche Parallelität <strong>der</strong> Testhälften.d) Interne Konsistenz: Vorteile: Keine Konstruktion neuer Tests. Einmalige Vorgabe des Tests.Einfach durchzuführen.4. a) Die Daten müssen Normalverteilt sein. b) Die Korrelationskoeffizienten und damit auch <strong>der</strong>Reliabilitätskoeffizient sind stichprobenabhängig. c) Die Daten müssen intervallskaliert sein.


10. Antworten zu den Uebungsaufgaben 175. Das Quadrat des Korrelationskoeffizienten rTX ist die Reliabilität von Test X6.n * r tt 1/3 ∗.73r ttn == = . 471 + (n - 1) * r tt 1+(1/3 −1)∗.737. Man brächte eigentlich nur den einen Prädiktor, da die an<strong>der</strong>en neun keine inkrementelle(zusätzliche) Validität bringen.8. Formel: rAB = s T 2sA 2sT 2 = .70 * 25 = 17,5sX 2 = sT 2 + sF 2sF 2 = 7,5<strong>9.</strong> Testverlängerung durch hinzufügen paralleler Items.10. Die Reliabilität wird durch Korrelation berechnet. Korrelationen sind aber in hohem Massestichprobenabhängig. Je grösser die Streuung in <strong>der</strong> Population, desto grösser wird dieKorrelation. Die erste Gruppe hat eine grössere Streuung bzgl. des gemessenen Merkmals undsomit eine grössere Reliabilität.11. Uebereinstimmungsvalidität12. Das was die Skala A an dem Kriterium aufklärt wird schon durch an<strong>der</strong>e Teile <strong>der</strong> Testbatterieerfasst, so dass die Skala keine zusätzliche Aufklärung erbringt (sie hat keine inkrementelleValidität).13. a) interne Konsistenz (Cronbach Alpha)b) Stabilitätskoeffizient (Retestreliabilität)c) Paralleltestkoeffizient14. rtt = 0


18 10. Antworten zu den Uebungsaufgaben15.a) ReliabilitätsproblemBestimmungsart: Retestreliabilitätb) ValiditätsproblemBestimmungsart: Inhaltsvalidität (content validity)c) ValiditätsproblemBestimmungsart: Uebereinstimmungsvalidität (concurrent validity)d) ValiditätsproblemBestimmungsart: Konstruktvalidität (construct validity)/ Extremgruppenvalidierung16. Der Korrelationskoeffizient zwischen zwei Halbtests (gemeint ist nicht die Spearman-BrownFormel) ist eineUnterschätzung<strong>der</strong> Reliabilität des Tests.17. Nenne mindestens zwei Faktoren, die die Validität eines Tests beeinflussen:a) Reliabilität des Testsb) Reliabilität <strong>der</strong> Erfassung des Kriteriumsc) Kriterienauswahld) Korrelation zwischen Test und Kriterium


10. Antworten zu den Uebungsaufgaben 1918. Welches wäre von den unten angegebenen Tests T1, T2, T3 die beste Kombination von 2 Testszur Voraussage des Kriteriums C. Erkläre den Sachverhalt.Korrelationsmatrix:C T1 T2T1 .43T2 .41 .72T3 .32 .04 .12a) T1 & T3b) Erklärung: T1 und T3 haben eine geringe Interkorrelation, messen also unterschiedlicheFacetten des Kriteriums, während T1 und T2 weitgehend dasselbe messen.1<strong>9.</strong>a) Formel:n = r ttn * (1 - r tt )r tt * (1 - rtt n ).90 * (1 - .75)= = 3.75 * (1 - .90)Der Test muss 3 mal verlängert werden, d.h. er hätte 45 Items. Es müssen also 30 Itemszugefügt werden.b) Konstruktionsaufwandt/ Oekonomie/ Ermüdung <strong>der</strong> Probanden.20. Formel:s F (Inter) = s * 2 * (1 - r tt ) = 15 * 2 * (1 - .84) = 8.5s F (Inter) = 8.5XA - XB = Zkrit * sF(Inter) = 1.96 * 8.5 = 16.6Hans und Dieter unterscheiden sich um 15 IQ-Punkte. Um mit 95 % Sicherheit(Irrtumswahrscheinlichkeit 5%) von einem Unterschied sprechen zu können, müssten sichbeide aber um mindestens 16.6 IQ-Punkte unterscheiden.


20 10. Antworten zu den Uebungsaufgaben21. Wie gross ist die Reliabilität r tt eines Tests, dessen Standardabweichung s(x) = 15 und dessenStandardmessfehler s(F) = 15.r tt = 010.5. Probabilistische und klassische <strong>Testtheorie</strong>1. Zwischen dem beobachtbaren Verhalten in <strong>der</strong> Testsituation und <strong>der</strong> latenten, nichtbeobachtbaren Eigenschaft besteht ein korrelativer Zusammenhang. Eine Verän<strong>der</strong>ung <strong>der</strong>latenten Eigenschaft hat eine Verän<strong>der</strong>ung im Verhalten zur Folge.2. Die klassische <strong>Testtheorie</strong> nimmt an, dass sich <strong>der</strong> beobachtete Wert aus dem "wahren" Wert undeinem Fehleranteil zusammensetzt. Die probabilistische <strong>Testtheorie</strong> geht davon aus, dass dieWahrscheinlichkeit einer Reaktion einer Vp eine Funktion ist, aus <strong>der</strong> Fähigkeit <strong>der</strong> Person und<strong>der</strong> Schwierigkeit <strong>der</strong> Aufgabe.3.a) auf <strong>der</strong> Fähigkeitsebene: .... beide gleich .................................b) auf <strong>der</strong> Testscoreebene: ...... Hans ...........................................c) auf <strong>der</strong> Fähigkeitsebene: ..... beide gleich ................................d) auf <strong>der</strong> Testscoreebene: ........ Dieter .......................................e) Der Vergleich ist nicht spezifisch objektiv, da er nicht unabhängig von <strong>der</strong> Itemauswahl ist. Diespezifische Objektivität wäre nur bei parallelen Itemkennlinien gegeben.4. Falls man für das Gastarbeiterkind die Normen des Tests für die deutsche Population verwendet,kommt man zu folgendem Resultat:Ueberschätzung <strong>der</strong> Schulleistung(Bei gleicher Intelligenz des deutschen und des ausländischen Kindes würde man auf <strong>der</strong>Grundlage <strong>der</strong> deutschen Normen das ausländische Kind überfor<strong>der</strong>n, und damitbenachteiligen)


10. Antworten zu den Uebungsaufgaben 215. a)b) Bsp.: In diesem Beispiel hat die eingetragene Person V eine Beantwortungswahrscheinlichkeitvon 0 (0%) für das Guttman-Item, eine Wahrscheinlichkeit von .50 (50%) für das Rasch-Itemund eine Wahrscheinlichkeit von .75 (75%) für die Likert-Skala.10.6. Faktorenanalyse1. Formeln: sm 2 = 1 = hm 2 + bm 2 + em 2 ; r tt = hm 2 + bm 2∑2 2a m= h1: hm 2 = .73 bm 2 = .07 em 2 = .202: hm 2 = .45 bm 2 = .05 em 2 = .503: hm 2 = .81 bm 2 = .04 em 2 = .154: hm 2 = .75 bm 2 = .05 em 2 = .20a) Spezifität: bm 2 Fehleranteil: em 2b) Wahre Varianz: Varianz ohne Fehler: hm 2 + bm 22. Die klassische <strong>Testtheorie</strong> und die Faktorenanalyse enthalten folgende Konzepte, die manaufgrund ihres Bedeutungsgehaltes als nahezu identisch zuordnen kann:Faktorenladung und Trennschärfe


22 10. Antworten zu den Uebungsaufgaben3. Die folgende Aussage trifft für die Methode <strong>der</strong> Faktorenanalyse nicht zu:Die Aufgabe besteht in <strong>der</strong> Bestimmung <strong>der</strong> Korrelation vonVariablenpaaren.10.7. Testkonstruktion1. a) Theorieteil mit Itembegründungb) Testdurchführung/ -auswertung/ -interpretationc) Stichprobenbeschreibung (Eichstichprobe)d) Reliabilitäte) Validitätf) Literaturverzeichnisg) Normentabellen2. Items können anhand <strong>der</strong> Trennschärfe, <strong>der</strong> Itemschwierigkeit und <strong>der</strong> Homogenität ausgewähltwerden. Dies sind formale Gesichtspunkte zur Selektion. Die Inhaltsvalidität (wie repräsentativ isteinen Frage für die Fragestellung) ist ein inhaltlicher Aspekte, <strong>der</strong> nicht berechnet aber beurteiltwerden kann.10.8. Entscheidungstheorie1.


10. Antworten zu den Uebungsaufgaben 232. Das Cutoff-Modell ermöglicht eine bequeme Entscheidung, da <strong>der</strong> Bewerber einen Mindestwerterfüllen muss. Beim Kompensatorischen Modell können Schwächen durch Stärken ausgeglichenwerden. Es kommt somit auf die genaue Fragestellung an, welches Modell besser geeignet ist.Bsp.: Zur Eignung als Pilot muss eine Mindestsehschärfe vorhanden sein (Cutoff-Modell). ZurAusbildung als Chemielaborant kann man Schwächen im schulischen Wissen durch Stärken in<strong>der</strong> Konzentrationsleistung ausgleichen.3. Je restriktiver <strong>der</strong> Cutoff-Punkt gewählt wird, umso mehr Personen, die in Wirklichkeit geeignetwären werden abgelehnt. Somit steigt die Anzahl falscher Negativer.4. a) Klassifikationsproblemb) Die Testskalen X1 und X2 haben differentielle Validität, d.h. bringen etwas zurunterschiedlichen Zuweisung zu den Richtungen.c) Die Testskala X3 hat keine differentielle Validität, d.h. bringen nichts zur unterschiedlichenZuweisung zu den Richtungen.


24 10. Antworten zu den Uebungsaufgaben5. Die Anwendung einer Testbatterie bei einer Stichprobe ergab folgende Daten:FN: VP: BR:.20 .60 .80VN:FP:.10 .10SR:.70a) BR = .80; SR = .70.b) Prozent vali<strong>der</strong> Entscheidungen: (VP + VN)*100 = 70%


10. Antworten zu den Uebungsaufgaben 25


26 LiteraturverzeichnisLiteraturverzeichnisAhrens, H. J. (1974). Multidimensionale Skalierung. Weinheim: Belz Verlag.Ajzen, I. & Fishbein, M. (1980). Un<strong>der</strong>standing attitudes and predicting social behavior.Englewood Cliffs: Prentice-Hall.Allport, G. W. (1935). Attitudes. In C. Murchinson (Ed.), A handbook of social psychology.Worchester, Mass.: Clark University Press, 798-844.Amelang, M. & Bartussek, D. (1981). Differentielle Psychologie und Persönlichkeitsforschung.Stuttgart, Berlin, Köln, Mainz: Kohlhammer.American Psychological Association (1954). Technical recommendations for psychological tests anddiagnostic techniques. Suppl. Psych. Bull. 51.Amthauer, R. (1953). Intelligenz-Struktur-Test. Göttingen.Binet, A. & Simon, T. A. (1905). Méthodes nouvelles pour la diagnostic du niveau intellectuel desanormaux. L'Année Psych. 11, 191-336.Brickenkamp, R. (1975). Handbuch psychologischer und pädagogischer Tests. Göttingen:Hogrefe.Buros, O. K. (1938, 1941, 1949, 1953, 1959, 1965). The Mental Measurement Yearbook.Highland Park.Burt, C. & Williams, E. L. (1962). The influence of motivation on the results of intelligence tests.Brit. J. statist. Psych. 15, 129-135.Campbell, D. T. (1963). Social attitudes and other acquired behavioral dispositions. In S. Koch(Ed.), Psychology: A study of a science (Vol. 6). New York: McGraw-Hill, 94-172.Campbell, D. T. & Fiske, D. W. (1959). Convergent and discriminant validation by the multitraitmultimethodmatrix. Psychological Bulletin, 56, 81-105.


Literaturverzeichnis 27Campbell, N. R. (1920). Physics. The elements. Cambridge: Univ. Press.Cattell, J. McKeen (1890). Mental tests and measurements. Mind 15, 373-381. AmericanPsychological Association 1893Conrad, W. (1976). Erstellung von RASCH-Skalen für die Angstfragebogen FS 5-10 und KAT.Diagnostika 22, 110-125.Darwin, C. (1859). On the origin of the species by means of natural selection. London.Diehl, J. M. & Kohr, H. U. (1989). Deskriptive Statistik (8. Aufl.). Eschborn bei Frankfurt amMain: Klotz.Drenth, P. J. S. (1969). Der psychologische Test. Eine Einführung in seine Theorie undAnwendung. München: Barth.Ebbinghaus, H. (1897). Über eine neue Methode zur Prüfung geistiger Fähigkeiten und ihreAnwendung bei Schulkin<strong>der</strong>n. Z. Psych. 13, 401-45<strong>9.</strong>Ellwein, T., Lippert, E. & Zoll, R. (1975). Politische Betätigung in <strong>der</strong> BundesrepublikDeutschland. Göttingen.Esquirol , J. E. D. (1838). Des maladies mentales considérées sous les rapports médical,hygiénique et médico-légal. Paris.Fahrenberg, J. (1964). Objektive Tests. In R. Heiss(Hrsg.), Handbuch <strong>der</strong> Psychologie in 12Bänden, Band 6, Psychologische Diagnostik (S.483-487). Göttingen: Hogrefe.Fahrenberg, J., Ewert, U. & Maier, N. (1987). Reanalyse des FreiburgerPersönlichkeitsinventars FPI. Psychologisches Institut <strong>der</strong> Universität Freiburg i. Br.Fischer, G. H. (1968). Neue Entwicklungen in <strong>der</strong> Psychologischen <strong>Testtheorie</strong>. In: G. H. Fischer(Hrsg.), Psychologische <strong>Testtheorie</strong>. Bern: Huber.


28 LiteraturverzeichnisFischer, G. H. (1974). Einführung in die Theorie psychologischer Tests. Grundlagen undAnwendungen. Bern: Huber.Fricke, R. (1974). Kriteriumsorientierte Leistungsmessung. Stuttgard: Kohlhammer.Guilford, J. P. (1954). Psychometric methods (2nd ed). New York.Gutjahr, W. (1972). Die Messung psychischer Eigenschaften. Berlin: VEB Deutscher Verlag <strong>der</strong>Wissenschaft.Guttman, L. A. (1944). A basis for scaling qualitativ data. American Sociological Review, 9, 139-150.Guttman, L. (1950). The basis of scalogram analysis. In: S. A. Stouffer (ed.), Measurement andprediction. Princeton, N. J.Hathaway, S. R. & McKinley, J. C. (1940, 1943). Minnesota Multiphasic Personality Inventory.Mineapolis.Hilke, R. (1980). Grundlagen normorientierter und kriteriumorientierter Tests. Bern: Huber.Hiltmann, H. (1966). Kompendium <strong>der</strong> psychodiagnostischen Tests. Bern.Jäger, A. O. (1986). Validität von Intelligenztests. Diagnostica, 32, Heft 4, 272-28<strong>9.</strong>Jäger, R. S. (Hrsg.).(1988). Psychologische Diagnostik: ein Lehrbuch. München, Weinheim:Psychologie Verlags Union.Kerlinger, F. N. (1979). Grundlagen <strong>der</strong> Sozialwissenschaften. Weinheim: Belz Verlag. (Orginalerschienen 1964: Foundations of Behavioral Research).Klauer, K. J. (1987). Kriteriumsorientierte Tests. Göttingen, Toronto, Zürich: Hogrefe.Krantz, H. D., Luce, R. D., Suppes, P. & Tversky, A. (1971). Foundations of measurement. VolI. New York, London: Academic Press.


Literaturverzeichnis 29LaPiere, R. T. (1934). Attitudes vs. action. Social Forces, 13, 230-237.Lienert, G. A. (1967). Testaufbau und Testanalyse. Weinheim.Likert, R. (1932). A technique for the measurement of attitudes. Archives of Psychology, No. 140.Lippert, E., Schnei<strong>der</strong>, P. & Wakenhut, R. (1977). Zur Stabilität probabilistischerSkalierungsverfahren. Psychologische Beiträge, 19, 588-59<strong>9.</strong>Murray, H. A. (1935, 1943). Thematic Appercetion Test. Cambridge.Osgood, C. E., Suici, G. J. & Tannenbaum, P. H. (1953). The measurement of meaning. Urbano.Pawlik, K. (Hrsg.). (1976). Diagnose <strong>der</strong> Diagnostik. Stuttgard: Klett.Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests.Kopenhagen: The Danish Institut of Educational Research.Raven, J. C. (1938). Progressive Matrices. London.Reicherts, M. (1985). Kriteriumorientierte Messung in <strong>der</strong> Klinischen Psychologie: Die Entwicklungeines Tests zur Belastungsbewältigung. Zeitschrift für Klinische Psychologie,Psychopathologie und Psychotherapie, 33, Heft 4, 313-336.Rorschach, H. (1921). Psychodiagnostik. Bern.Rosenthal, R. (1976). Experimentor effects in behavioral research. New York: Irvington.Rosenzweig, S. (1957). Der Rosenzweig Picture Frustration-Test. Göttingen: Hogrefe.Rost, J. & Spada, H. (1978). Probabilistische <strong>Testtheorie</strong>. In: K. J. Klauer (Hrsg.), Handbuch <strong>der</strong>pädagogischen Diagnostik, Band 1. S. 59-83.Sarason, S. B., Davidson, K., Lighthall, F. & Waite, R. (1958). A test anxiety scale for children.Child Development 29, 105-113.


30 LiteraturverzeichnisSpada, H. (unveröff.) Einführung in die <strong>Testtheorie</strong> und Testkonstruktion. Ausüge aus einemLehrveranstaltungsskriptum von H. Spada & J. Rost unter Rückgriff auf Unterlagen vonScheiblechner.Spearman, C. (1910). Correlation calculated from faculty data. Brit. J. Psych. 3, 271-295.SPSS-X (1988). User's Guide (3rd ed.). Chicago: SPSS Inc.Stern, W. (1900). Über Psychologie <strong>der</strong> individuellen Differenzen. Berlin.Stevens, S. S. (1951). Mathematics, measurement and psychophysics. In: S. S. Stevens (Ed.),Handbook of experimental psychology. New York.Suppes, P. & Zinnes, J. L. (1963). Basic measurement theorie. In R. D. Luce, R. R. Bush & E.Galanter (Eds.), Handbook of mathematical psychology. Vol 1. New York: Wiley.Terman, L. M. & Merrill, M. A. (1937). Measuring intelligence. Boston.Terman, L. M. (1981). The Stanford-revision and extension of the Binet-Simon scale ofmeasuring intelligence. Baltimore.Thomas, W. I., & Znaniecki, F. (1918). The Polish peasant in Europe and America. Vol. 1.Boston: Badger.Thorndike, R. L. (1910). Personnel Selection. New York.Thurstone, L. L. (1931). The measurement of attitudes. Journal of Abnormal and SocialPsychology, 26, 249-26<strong>9.</strong>Thurston, L. L. (1938). Primary mental abilities. Psychometr. Monogr. 1.Überla, K. (1968). Faktorenanalyse. Eine systematische Einführung für Psychologen.Mediziner, Wirtschafts- und Sozialwissenschaftler. Berlin.Upmeyer, A. (1985). Soziale Urteilsbildung. Stuttgard: Kohlhammer


Literaturverzeichnis 31Wechsler, D. (1939, 1946). Wechsler-Bellevue intelligence-scale I and II. New York.Wiggins, J. S. (1973). Personality and Prediction. Principals of personality assessment.Reading, MA: Addison-Wesley.Wilkinson, L. (1988). SYSTAT. The System of Statistics. Evaston, IL: SYSTAT, Inc.Wittmann, W. W. (1985). Evaluationsforschung. Berlin: Springer.Wottawa, H. (1980). Grundriss <strong>der</strong> <strong>Testtheorie</strong>. München Juventa Verlag.


32 AnhangAnhangVerzeichnis <strong>der</strong> AbbildungenAbbildung 1: Zuordnung von Zahlen zu Objekten................................................................. 25Abbildung 3: Zuordnung von Zahlen nach ihrem Rang (Ordinalskalierung) ............................. 30Abbildung 4: Itemschwierigkeit bei dichotomen und kontinuierlichen Items ............................ 37Abbildung 5: Zusammenhang zwischen Gesamtsummenwert und Beantwortung vondichotomen und kontinuierlichen Items ............................................................ 38Abbildung 6: Regression <strong>der</strong> Messwerte X auf die wahren Werte T...................................... 41Abbildung 7: Praktische Reliabilitätsbestimmung................................................................... 45Abbildung 8: Variabilität bei <strong>der</strong> Messung psychologischer und physikalischerEigenschaften................................................................................................. 47Abbildung 9: Zusammenhang <strong>der</strong> beobachtbaren Messungen und den nicht beobachtbarenlatenten Dimensionen...................................................................................... 56Abbildung 10: Venn-Diagramm zur Erläuterung des "Attenuation Paradoxon"........................ 58Abbildung 11: Itemcharakteristiken für verschiedene Testmodelle ......................................... 67Abbildung 12: Graphischer Modellgeltungstest des Rasch-Modells ....................................... 71Abbildung 13: Variablencluster im Raum (Diehl & Kohr, 1989, Abbildung 54) ..................... 77Abbildung 14: Varimax-Rotation.......................................................................................... 78Abbildung 15: Die Matrizen <strong>der</strong> Faktorenanalyse ................................................................. 79Abbildung 16: Unrotierte Faktorenladungsmatrix und die klassische <strong>Testtheorie</strong> .................... 81Abbildung 17: Die Variablenvarianz in <strong>der</strong> Faktorenanalyse.................................................. 82Abbildung 18: Organisation <strong>der</strong> Daten für Computereingabe................................................. 97Abbildung 18: Diagnostische Entscheidungen in <strong>der</strong> Psychologie ......................................... 102Abbildung 19: Vier Fälle bei <strong>der</strong> Personalentscheidung....................................................... 103Abbildung 20: Cutoff-Modell und Kompensatorisches Modell im Vergleich........................ 104Abbildung 21: Häufigkeitsverteilungen <strong>der</strong> negativen (N) und positiven (P) Personen, mitden möglichen validen (V) und falschen (F) Entscheidungen........................... 106


Anhang 33Verzeichnis <strong>der</strong> TabellenTabelle 1: Sozialwissenschaftliche Datenerhebungsmethoden................................................... 7Tabelle 2: Vier-Fel<strong>der</strong>-Tafel................................................................................................ 29Tabelle 3: Kerlinger (1979, S. 671) ..................................................................................... 32Tabelle 4: Skalen-Transformation nach Kokott (unveröffentlicht) .......................................... 34Tabelle 5: Stichprobenabhängigkeit von Korrelationskoeffizienten......................................... 59Tabelle 6: Modellgeltungstest bei Guttman-Skalierung........................................................... 68Tabelle 7: (Diehl & Kohr, 1989, Tabelle 48)........................................................................ 76Tabelle 8: (Diehl & Kohr, 1989, Tabelle 51)........................................................................ 80Tabelle 9: Beispiel zum Diätverhalten.................................................................................... 89Tabelle 10: Vier-Fel<strong>der</strong>-Tafel <strong>der</strong> möglichen Ergebnisse von Entscheidungen...................... 107Tabelle 11: Vier-Fel<strong>der</strong>-Tafel <strong>der</strong> Wahrscheinlichkeiten für die möglichen Ausgänge vonEntscheidungen............................................................................................... 107


146 Fehler! Formatvorlage nicht definiert.IndexAAbbildungsregel, 27absoluter Nullpunkt, 31Absolutskala, 28;31Absolutwerte, 51Alkoholgefährdung, 14Allgemeine Psychologie, 6Allgemeiner Leistungstest, 11American Psychological Association, 19Annahme, 105Anonymität, 84Antworttendenzen, 84apparatives Testverfahren, 15Army General Classification Test, 22Army-Alpha-Test, 21Army-Beta-Test, 21Assessment, 106attenuation formulae, 56Aufgabengütekriterien, 37Axiom, 40BBasisrate, 107Bedeutsamkeitsproblem, 27bedingte Maximum-Likelihood-Schätzung, 70Behandlungserfolg, 15behavioral category, 88Berufserfolg, 15Beschreibung, 14Bestimmung <strong>der</strong> Reliabilität, 45Bewertung, 15Biofeedback, 126Biographie, 22CCrash-Test, 10criterion of ambiguity, 86Cronbach Alpha, 46Cutoff-Modell, 104DDatenerhebungsmethode, 6Datenkontrolle, 99Definition eines Tests, 10Determinanten, 66Determinationskoeffizient, 42deterministisches Modell, 67deviation, 19Diagnose, 102Diagnostik, 22dichotome Items, 47Differentialdiagnose, 18Differentielle Psychologie, 6diskriminante Validität, 55Disposition, 26EEigenschaft, 26Eignungstest, 11Eindeutigkeitsproblem, 27Einstellung, 85;89Einstellungsmessung, 88Einstellungsobjekt, 88Einstellungstest, 11empirisches Relativ, 27Entscheidung, 14Entscheidungstheorie, 102Entwicklungstest, 11equal-appearing intervall scale, 86Ergebnis von Verhalten, 88erschöpfende Statistik, 69Erwartungswert, 39Ethik, 12expectet utility, 110FFähigkeit <strong>der</strong> Person, 66Fahreignung, 15Faktorenanalyse, 55;76;99Faktorenproblem, 79Faktorenwerteproblem, 79Fehlerkomponente, 40Fehlervarianz, 40Flächentransformation, 33forced choice, 91Fragebogen, 8Fragebogenerhebung, 7Fremdbeobachtung, 8Funktion, 25Funktionstest, 11


Index 147GGesamtvarianz, 40Gewichte, 104Graphologie, 22Grundlagenforschung, 6;15Gruppeneinteilung, 15Gruppentest, 21HHabituation, 26;39Handgeschicklichkeit, 15;54Händigkeit, 11Handlungsbereitschaft, 26Häufigkeitsskala, 31Häufigkeitsverteilung, 106Haupkomponentenmethode, 77HAWIE, 23HAWIK, 23Homogenität, 11;38;67;85Homomorphie, 27Hypothese, 9;77Hypothesentesten, 9Iindividualisiertes Testen, 71individuelles Testen, 21inhaltliche Validität, 36Inhaltsanalyse, 7;8Inhaltsvalidität, 53inkrementeller Nutzen, 111Instruktion, 11;20;84Intelligenz, 11Intelligenzalter, 20;127Intelligenzforschung, 6Intelligenzquotient, 23;127Intelligenzstruktur, 23Intelligenztest, 11Interessentest, 11interindividuelle Differenz, 6;48Interkorrelation, 77Interne Konsistenz, 36;45Intervallskala, 28;30Interview, 7;8;22intraindividuelle Differenz, 48Intransparenz, 8Isomorphie, 27IST, 23Item, 11;13;37Itemanalyse, 85Itempool, 86Itemsammlung, 86Itemschwierigkeit, 37;69;85;101Itemselektion, 85KKlassifikation, 11;102;105Klassische <strong>Testtheorie</strong>, 36;39Klinische Psychologie, 21Klinischer Test, 11Kommunalität, 82Kommunalitätenproblem, 79Kompensatorisches Modell, 104Konfidenzintervall, 48Konstrukt, 15;26Konstrukt-Validität, 36Konstruktvalidierung, 83Konstruktvalidität, 53Kontingenzkoeffizient, 28konvergente Validität, 55Korrelationsmatrix, 76Kovarianz, 41kriterienorientiert, 16kriterienorientierte Messung, 16kriterienorientierten Messung, 126Kriteriumsvalidität, 36Ku<strong>der</strong>-Richardson-20, 47Llatente Eigenschaft, 10;36Lebensalter, 127Leistungstest, 11Likelihoodquotiententest, 70Likert Skala, 91lineare Transformation, 30logistische Funktion, 67lokale stochastische Unabhängigkeit, 69MMatrizen <strong>der</strong> FA, 79Median, 30Messfehler, 40Messinstrument, 13;26Messmodell, 67Messobjekt, 26Messung, 10;24


148 Fehler! Formatvorlage nicht definiert.Messvorgang, 26Minimalstandards, 104Missing Data, 84Mittelwert, 31MMPI, 22;54Modellgeltungstests, 70monotone Transformation, 29multiple Faktorentheorie, 20multiple Regression, 103multiple Selektion, 105Multitrait-Multimethod Matrix, 55;83Nnatürliche Masseinheit, 31Nominalskala, 28Norm, 20Normalverteilung, 33Normiertheit, 36normorientiert, 16normorientierten Messung, 126Normskala, 33Normstichprobe, 60Normwerte, 33numerisches Relativ, 27Nutzen, 102;110Nützlichkeit, 37Oobjektive Tests, 7;8Objektivität, 22;36;89Odd-Even-Reliabilität, 45Oekonomie, 37offenen Fragen, 8operationalisieren, 126Operationalisierung, 15;26Ordinalskala, 28orthogonal, 77Outcomes of Prediction, 106Ppaper-and-pencil test, 21Parallelform, 21Paralleltest, 42Paralleltest-Reliabilität, 36;45Parameter, 66Parameterschätzung, 70Personenfähigkeit, 69Persönlichkeitsforschung, 6Persönlichkeitstest, 11;22Phänomenologie, 21physiologische Messung, 17;126Picture Frustration-Test, 8Polung <strong>der</strong> Items, 84Positivismus, 21Prädiktor, 103predictive validity, 53probabilistische <strong>Testtheorie</strong>, 66Produkt-Moment-Korrelation, 31Progressive Matrices, 21Projektive Verfahren, 7;8;22Prüfungsangstskala, 54Psychologische Diagnostik, 9Psychologische Tests, 9Psychometrie, 23Psychomotorik, 11psychophysiologische Untersuchung, 126punkttetrachorische Korrelation, 28QQ-Methodologie, 7;8RRandsummenwerte, 107Rangkorrelation, 30Rangreihe, 29Reaktivität <strong>der</strong> Messung, 39Regression, 41;42Reliabilität, 36;42;85Reliabilität von Differenzwerten, 51Repräsentationsproblem, 27repräsentative Stichproben, 107Retest-Reliabilität, 36;45Rohwerte, 33;51Rorschachtest, 8;22Rotationsproblem, 79SSchulerfolg, 20Schulfähigkeit, 11Schulleistung, 11Schulreife, 13Schultest, 11Schwierigkeit eines Items, 66Selbstbeobachtung, 8Selbstbeschreibung, 89Selektion, 13;102;103


Index 149Selektionsrate, 107self report, 89Semantisches Differential, 7;8;91single action, 88Skala, 11;24;27Skalen, 7Skalenniveau, 32Skalentyp, 28Skalenwert, 86Skalierung, 28soziale Erwünschtheit, 26Sozialpsychologie, 85Soziogramm, 91Soziometrie, 7;8;91Spearman-Brown Formel, 46Spezifische Objektivität, 70Spezifität, 82Split-Half-Reliabilität, 45Stabilitätskoeffizient, 45Standardmessfehler, 47Stanford-Binet-Test, 20statistische Tests, 9Stichprobenunabhängigkeit, 70TTest, 9;19Testart, 11Testdurchführung, 85Testendform, 85Testentwicklung, 84Testentwurf, 84Testhalbierungsmethode, 45Testkonstruktion, 12Testplanung, 84Testscore, 51<strong>Testtheorie</strong>, 8;12Testverlängerung, 57Testvorform, 85Testwert, 39Thematic Apperception Test, 22Thematischer Apperzeptionstest, 8Theorie of reasoned action, 88Trait, 26Transformation, 27;28;29;30;31Transitivitätspostulat, 29Trennschärfe, 38;85;101UUebereinstimmungsvalidität, 53Uniqueness, 82Urteilsbildung, 14Vvalide Entscheidungen, 110Validität, 36;53Variablencluster, 77Varianz, 31Varianz einer Summe, 41Varianzanalyse, 42VARIMAX-Rotation, 77verän<strong>der</strong>ungssensitive Messinstrumente, 52Verdünnungsformel, 56Vergleichbarkeit, 36Verhalten, 26;85;88Verhaltensbeobachtung, 7;89Verhaltenseigenschaften, 26Verhältnisskala, 28;31Voraussagevalidität, 53Vorurteile, 12Wwahre Varianz, 42wahrer Wert, 39Wechselwirkung, 26wissenschaftliche Gütekriterien, 36Woodworth Personal Data Sheet, 22Worksheet, 97ZZahl, 25Zahlen, 12Ziffer, 25Zufallszuweisung, 108Zuverlässigkeit, 22

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!