Methoden und Datenanalyse interkultureller Forschung - Kognition

Äquivalenz 

Methoden und Datenanalyse interkultureller Forschung 

Man unterscheidet verschiedene Äquivalenzlevels (in aufsteigender Reihenfolge): 

1. strukturelle Inäquivalenz 

Ein Instrument misst unterschiedliche Konstrukte in verschiedenen Kulturen („Äpfel 

mit Birnen vergleichen“). Ein Vergleich der beobachteten Werte ist nicht möglich. Es 

kann durch Messprobleme entstehen, wenn bspw ein Konstrukt wie Mittelklasse in 

den untersuchten Kulturen unterschiedliche Bedeutung hat. 

2. strukturelle Äquivalenz 

Es kennzeichnet, ob das zu messende Konstrukt in den untersuchten Kulturen 

tatsächlich sinnvoll erfasst werden kann. Dasselbe Konstrukt wird also in den Kulturen 

gemessen, wobei es nicht auf gleiche Weise operationalisiert sein muss. Das hat 

wiederum zur Folge, dass interkulturelle Vergleiche nicht möglich sind. 

3. Äquivalenz der Maßeinheit 

Damit wird die Tatsache gekennzeichnet, dass die Messung in zwei Stichproben Daten 

mit der gleichen Skalierung hervorbringen kann, der Skalenursprung jedoch 

unterschiedlich ist. Ein Beispiel dafür ist die Messung von Temperatur in Celsius 

Graden oder in Kelvin Graden (K = C - 273). Meistens ist der Skalenursprung in 

interkulturellen Studien nicht bekannt, weshalb die auf Intervalllevel beobachteten 

Werte in den verschiedenen Kulturen nicht vergleichbar sind. 

4. Skalenäquivalenz (skalare Äquivalenz; „full score comparability“) 

Bias 

Wenn nachgewiesen werden kann, dass Werte nicht nur über die gleiche Maßeinheit 

sondern auch über den gleichen Skalenursprung verfügen, so wird von voller 

Skalenäquivalenz gesprochen. Beispiele für Werte mit voller Skalenäquivalenz sind 

Körpergewicht und Körpergröße. Skalenäquivalenz ermöglicht die direkte 

Vergleichbarkeit von Testwerten zwischen unterschiedlichen Stichproben. 

1. Konstrukt-Bias 

bezeichnet die mangelhafte Abbildung eines psychologischen Konstrukts im 

Instrument. In diesem Fall werden in den untersuchten Kulturen verschiedene 

Konstrukte gemessen, ein Vergleich ist nicht möglich. Ein besonders hohes Risiko für 

Konstruktbias besteht darin, Testverfahren, die in einer Kultur entwickelt wurden, in 

einer anderen Kultur einzusetzen, da das zu messende psychologische Konstrukt

durch die in der Ursprungskultur entwickelte Operationalisierung in der Zielkultur 

möglicherweise nur unvollständig (oder gar nicht) abgebildet werden kann. 

Ursachen: 

- das zugrunde liegende theoretische Konzept eines Konstrukts umfasst in einer der 

untersuchten Kulturen noch weitere zusätzliche Dimensionen, die vom Test nicht 

abgedeckt werden, d.h. die Definitionen eines Konstrukts in unterschiedlichen 

Stichproben stimmen nur teilweise überein. 

- das Verhalten, das mit dem Konstrukt assoziiert wird, stimmt in den 

verschiedenen Kulturen zu wenig überein; es werden nicht alle relevanten 

Verhaltensweisen eines Konstrukts von einer Skala berücksichtigt. 

- „construct underrepresentation“: relevante Verhaltensweisen werden nur 

unzureichend oder gar nicht abgetestet. 

- nicht alle Wertebereiche eines Konstrukts sind abgedeckt. 

Ermittlung über (a) Faktorenanalyse (Faktorenstruktur oder Faktorladungen) oder (b) 

zusätzliche Untersuchungen bezüglich über die Anwendbarkeit des Konstrukts und 

des verwendeten Messinstruments. 

Es gibt drei Möglichkeiten, um eine kulturell balancierte/ausgeglichene Studie zu 

entwerfen: entweder durch einen dezentrierten Ansatz (eine kulturell facettenreiche 

Perspektive wird bei der Konzeptualisierung und Versuchsplanung eingenommen, 

indem Forscher mit unterschiedlichen kulturellen Hintergründen mitarbeiten) oder 

mittels Konvergenzmethode (ein Forscher aus jeder der untersuchten Kulturen 

entwirft ein für die jeweilige Kultur adäquates Messinstrument, welches dann in allen 

Kulturen getestet wird). Als dritte Möglichkeit kann man eine Studie entwerfen, die 

soweit wie möglich kulturabhängig ist im Vergleich zu bereits existierenden Studien, 

wobei untersucht wird, ob sich die beobachteten Ergebnisse mit früheren Ergebnissen 

decken. Wenn ja, kann man davon ausgehen, dass der kulturelle Ursprung der 

früheren Studien die Ergebnisse nicht verfälscht hat. 

2. Methoden-Bias 

Wenn ein Konstrukt durch eine Testskala angemessen abgebildet wird, kann es durch 

die verwendete Methodik zu einer Verzerrung der Ergebnisse kommen. 

Ursachen: 

- (kulturell) unterschiedliches Antwortverhalten wie etwa Zustimmungstendenz 

(vorgegebenen Statements in einem Test wird unabhängig vom Inhalt 

zugestimmt. Die tatsächliche Meinung wird so verzerrt, die Messung fehlerhaft), 

Extrembewertungen sowie soziale Erwünschtheit von Antworten. 

Beispiel: Hui & Triandis (1989) stellten fest, dass die Erhebung auf einer 5-stufigen Likertskala bei 

Mexikanern im Vergleich zu US-Amerikanern zu einer verstärkten Tendenz zu extremen Antworten 

führte. Bei Verwendung einer 10-stufigen Skala verschwand diese Tendenz. Die Antwortstile waren 

also nicht durch die Items an sich bedingt, sondern durch die Form ihrer Darbietung.

- unterschiedliche Vertrautheit mit dem getesteten Stimulusmaterial. 

- unterschiedliche Vertrautheit mit der zu verwendenden Antwortprozedur. 

- mangelhafte Vergleichbarkeit der getesteten Populationen (Unterschiede in der 

schulischen Ausbildung, im Alter, in der Geschlechtszusammensetzung...) 

- Testleiter-/Interviewereffekte 

- Unterschiedliche physikalische Bedingungen während der Testdurchführung (z.B. 

Lärm in der Umgebung, Anwesenheit anderer Personen) 

- Kommunikationsprobleme, wie z.B. zwischen dem Tester und dem Testenden 

(Sprachprobleme, Interviewerfähigkeiten) aber auch Verletzung von Normen 

durch die Versuchsanordnung/den Test) 

Da Methodenbias auf die Gesamtheit der Items wirkt und nicht selektiv, bleibt die 

Vergleichbarkeit innerhalb einer Stichprobe auch bei Vorliegen von Methodenbias 

erhalten. Da aber die Größe des Einflusses des Methodenbias auf die Testwerte nicht 

beziffert werden kann, ist ein Vergleich zwischen unterschiedlichen Stichproben auf 

Skalenebene nicht möglich. 

Abschätzen des Einflusses eines Methodenbias durch (a) wiederholtes Testen mit dem 

gleichen Testinstrument in verschiedenen kulturellen Gruppen und Untersuchung der 

Änderungen (normalerweise Zunahmen) der erzielten Testscores (diese Methode wird 

vor allem bei kognitiven Tests eingesetzt) oder (b) systematische Variation des 

Stimulusmaterials über alle Kulturen hinweg. 

3. Item-Bias 

Diese Art der Verzerrung bezieht sich auf Messartefakte auf Itemlevel. 

Ursachen: 

- schlechte Übersetzung des Items 

- schlechte Formulierung des Items (zu komplex, zu kompliziertes Wording) 

- zufällige Unterschiede in der Eignung eines Iteminhalts (Gegenstand eines Items 

kommt in einer der untersuchten Kulturen gar nicht vor). 

Bei Untersuchungen unterschiedlicher Kulturen ist es wichtig festzustellen, ob die 

eingesetzten Items in jeder Kultur das im Fokus stehende Konzept sinnvoll erfassen! 

Auswirkungen von Bias auf die Äquivalenzstufen 

Bias und Äquivalenz sind miteinander verknüpft („scores are equivalent when they are 

unbiased“). Allgemein gilt, dass ein Bias das Äquivalenzlevel herabsetzt. 

Im Fall von Methoden- und Item-Bias unterscheidet man einen uniformen und einen 

nonuniformen Bias. Uniformer Bias kennzeichnet eine systematische Verzerrung, die auf 

alle Stufen der Messung gleich wirkt (in einer Gruppe wird konstant um 1kg mehr 

gemessen. Ein Vergleich der Gewichte verschiedener Personen ist trotz dieser Verzerrung 

möglich). Nonuniformer Bias wirkt unterschiedlich auf bestimmte Stufen/Wertelevels,

sodass ein Vergleich zwischen den Gruppen nicht mehr möglich (In der ersten Gruppe 

misst die Waage das Gewicht akkurat, in der zweiten Gruppe zeigt die Waage jeweils ein 

10% höheres Gewicht als das tatsächliche an. Je höher das Gewicht einer Person, desto 

stärker also die Verzerrung der Messung). 

Tabelle: Beeinflusst ein Bias das Level der Äquvalenz? 

Bei Auftreten von Konstruktbias können gar keine Aussagen zum betreffenden 

psychologischen Konstrukt getroffen werden, außer, dass es in einer der untersuchten 

Stichproben so nicht nachweisbar ist. Tritt eine Verzerrung auf der Ebene der Methode 

auf, und wirkt diese auf alle Items in gleicher Weise, wie z.B. Antwortstile, so kann zum 

einen Konstruktäquivalenz nachgewiesen werden, zum anderen ist ein Vergleich der 

Testwerte zwischen Teilnehmern innerhalb einer Stichprobe möglich. Ist der Einfluss der 

Verzerrung aber nicht gleichmäßig, so ist dieser Vergleich zwischen Teilnehmern nicht 

möglich. Genauso verhält es sich mit Itembias. Wirkt dieser auf alle Teilnehmer einer 

Stichprobe in gleicher Weise, beantworten also alle Teilnehmer ein unangemessenes 

Item, so werden die Testwerte einer Stichprobe einer uniformen Verzerrung unterworfen. 

Damit bleibt die Vergleichbarkeit der Testwerte zwischen den Teilnehmer einer 

Stichprobe erhalten, Vergleiche mit anderen Stichproben sind jedoch nicht möglich. 

Systematik interkultureller Studien 

Interkulturelle Untersuchungen unterscheiden sich in zwei Dimensionen: zum einen gibt 

es explorative Studien, zum anderen Hypothesen testende Studien. Je nachdem, ob 

kontextabhängige Variablen bei den Untersuchungen mit eine Rolle spielen, ergeben sich 

vier verschiedene Arten vergleichender Studien: Generalisierbarkeitsstudien und Theorie 

geleitete Studien (beide zählen zu Hypothesen testenden Untersuchungsdesign), sowie 

psychologische Unterschiedsstudien und externe Validierungsstudien (explorativer 

Charakter). 

Betrachtung kontextabhängiger Variablen Hypothesen testend explorativ 

Nein Generalisierbarkeit Psychologische Unterschiede 

Ja Theorie geleitet Externe Validierung

Diese vier verschiedenen Ansätze können jeweils entweder Struktur orientiert 

(Beziehungen zwischen Variablen; Identifikation von Ähnlichkeiten und Unterschieden in 

diesen Beziehungen zwischen Kulturen) oder Level orientiert sein (Unterschiede in 

Variablenwerten zwischen Kulturen). Ein Beispiel für eine Struktur orientierte 

Generalisierbarkeitsstudie ist die interkulturelle Erforschung der Gültigkeit der „Big Five“ 

- Persönlichkeitstheorie. 

1. Generalisierbarkeitsstudien 

Versuch, Forschungsergebnissen in einer Population auf andere Populationen zu 

generalisieren. Der Fokus liegt ausschließlich auf der/den Zielvariablen, in der zwei 

Kulturen verglichen werden, andere kulturelle Elemente finden keine Beachtung. 

2. Theorie geleitete Studien 

Spezifische kulturelle Aspekte (bspw. Art der Kindererziehung, ökologische Faktoren) 

oder bestimmte kulturelle Gewohnheiten/Bräuche sind Teil des theoretischen Gerüsts, 

auf dem das Studiendesign basiert. Kulturell bedingte Abweichungen in diesen 

Aspekten werden bewusst gesucht um das zugrunde liegende theoretische Modell zu 

bestätigen. Kontextabhängige Variable spielen hier also eine äußerst wichtige Rolle. 

3. Psychologische Unterschiedsstudien 

Dieser Forschungsansatz ist bei interkulturellen Untersuchungen am weitesten 

verbreitet. Ein Messinstrument wird in zumindest zwei Kulturen angewendet um 

herauszufinden, ob es irgendwelche interkulturellen Unterschiede gibt oder nicht. 

Kontextabhängige Variablen werden in diesem Design nicht berücksichtigt, mittels 

Post-hoc-Erklärungen werden beobachtete Unterschiede interpretiert. 

4. Externe Validierungsstudien 

Untersuchungsgegenstand sind die Bedeutung und Ursachen interkultureller 

Unterschiede mithilfe von kontextabhängigen Variablen, wobei es keine vorher 

aufgestellten Hypothesen gibt. Am häufigsten wird hierbei eine Regressionsanalyse 

durchgeführt, um herauszufinden, inwiefern kontextabhängige Variablen Unterschiede 

in der abhängigen Variablen klären kann. Diese Methode ist normalerweise nicht 

durch strukturelle oder Skalenäquivalenz gekennzeichnet, sondern es sollen so 

Variablen identifiziert werden, die helfen sollen die interkulturellen Unterschiede zu 

erklären.

Methoden und Datenanalyse interkultureller Forschung - Kognition

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?