Weiterentwicklung der amtlichen Haushaltsstatistiken - RatSWD
Weiterentwicklung der amtlichen Haushaltsstatistiken - RatSWD
Weiterentwicklung der amtlichen Haushaltsstatistiken - RatSWD
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Konkret bedeutet dies, dass in Datenfusionssituationen die Conditional Independence<br />
Assumption die MAR-Annahme beinhaltet. An dieser Stelle sei noch darauf<br />
hingewiesen, dass die Annahme <strong>der</strong> bedingten Unabhängigkeit nicht bedeutet,<br />
dass Z (o<strong>der</strong> Y) perfekt durch X erklärt werden muss (obwohl in diesem Falle<br />
die CIA nachweislich erfüllt ist). Sollten beispielsweise Y und Z tatsächlich unabhängig<br />
voneinan<strong>der</strong> sein, wäre die CIA ebenfalls erfüllt, ohne dass ein Bezug zur<br />
Erklärungskraft von X hergestellt werden muss. 2<br />
Umsetzung einer Datenfusion in <strong>der</strong> Praxis<br />
Dieser Abschnitt behandelt Datenfusion als imaginäres Projekt, in dem in chronologischer<br />
Reihenfolge alle Teilschritte beschrieben werden. Hierbei sind zwei<br />
Situationen zu unterscheiden:<br />
a) Die beteiligten Studien existieren bereits<br />
b) Eine <strong>der</strong> beiden Studie ist noch in <strong>der</strong> Konzeptionsphase<br />
In letzterem Falle kann noch Einfluss auf die Abfrage <strong>der</strong> gemeinsamen Variablen<br />
X genommen werden.<br />
Anpassung gemeinsamer Merkmale<br />
Fall a) ist <strong>der</strong> Regelfall und zieht einen sehr arbeitsaufwendigen Arbeitsschritt<br />
nach sich, <strong>der</strong> in Publikationen – zumindest im Kontext „Datenfusion“ – bislang<br />
weitgehend ignoriert worden ist: Je nach Umfang <strong>der</strong> Studien ist <strong>der</strong> Aufwand <strong>der</strong><br />
Identifizierung gemeinsamer Merkmale nicht zu unterschätzen. Und selbst wenn<br />
Variablen identifiziert wurden, <strong>der</strong>en Beschreibung scheinbar dasselbe misst,<br />
besteht dennoch die Möglichkeit sehr unterschiedlicher Kategorisierungen.<br />
Wenn man die Problematik unterschiedlicher Variablennamen außer Acht<br />
lässt, d. h. wenn beispielsweise die Variable „Geschlecht <strong>der</strong> befragten Person“ in<br />
Studie A ‚sex‘ und in Studie B ‚geschl‘ heißt, ist <strong>der</strong> einfachste Fall einer Anpassung<br />
<strong>der</strong>, in <strong>der</strong> nur ein o<strong>der</strong> mehrere Werte umkodiert werden müssen. Für<br />
obiges fiktives Beispiel wäre somit folgende Situation gegeben:<br />
• Studie A: Variablenname ‚Geschl‘ mit 0=‘männlich‘ und 1=‘weiblich‘<br />
• Studie B: Variablenname ‚Sex‘ mit 1=‘männlich‘ und 2=‘weiblich‘<br />
Durch Rekodierung einer <strong>der</strong> beiden Variablen entsteht so aus einem gemeinsamen<br />
Merkmal eine gemeinsame Variable.<br />
2 Auch wenn diese hypothetische Situation die Sinnhaftigkeit einer Datenfusion von Y und Z in Frage<br />
stellt.<br />
87