Weiterentwicklung der amtlichen Haushaltsstatistiken - RatSWD
Weiterentwicklung der amtlichen Haushaltsstatistiken - RatSWD
Weiterentwicklung der amtlichen Haushaltsstatistiken - RatSWD
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Übersicht und Terminologie<br />
Was ist eine Datenfusion? Es existieren unterschiedliche Definitionen dieses<br />
Begriffs, <strong>der</strong> vor allem in <strong>der</strong> Markt- und Medienforschung häufig gleichgesetzt<br />
wird mit dem „Verschmelzen“ zweier (o<strong>der</strong> mehrerer) Datenquellen anhand von<br />
„Statistischen Zwillingen“ (siehe z. B. Koschnick 1988: 189 ff.). Unserer Meinung<br />
nach ist diese Definition einerseits zu eng gefasst, da sie sich auf eine bestimmte<br />
Klasse von Methoden bezieht (Nearest-Neighbor-Matchingverfahren) und gleichzeitig<br />
nichts über die Analyseziele besagt. Wir folgen daher <strong>der</strong> in <strong>der</strong> Statistischen<br />
Literatur üblichen Definition, gemäß <strong>der</strong> Datenfusion ein spezifisches Datenausfallmuster<br />
bezeichnet, das entsteht, wenn (mindestens) zwei unabhängig entstandene<br />
Datenquellen „übereinan<strong>der</strong>gestapelt“ werden, sodass es eine Gruppe an Variablen<br />
(X) gibt, die in beiden Datenquellen vorkommen, sowie eine Gruppe an Variablen<br />
(Y), die nur in <strong>der</strong> ersten Datenquelle, und eine Gruppe an Variablen (Z), die nur<br />
in <strong>der</strong> zweiten Datenquelle existieren (vgl. Rässler 2002). Zudem bezieht sich das<br />
generelle Analyseziel auf die gemeinsame Verteilung von Y und Z – den Variablen,<br />
die nicht gemeinsam beobachtet wurden. Abbildung 1 beschreibt diese Datensituation.<br />
Auf die Verfahren, die eine gemeinsame Analyse von Variablen ermöglichen,<br />
die nicht gemeinsam beobachtet sind, wird nicht spezifisch eingegangen.<br />
Ein konkretes Beispiel aus <strong>der</strong> Medienforschung soll unseren Standpunkt<br />
verdeutlichen: Daten des AGF/GfK Fernsehforschungspanels werden seit vielen<br />
Jahren mit Daten aus dem GfK ConsumerScan fusioniert und unter dem Namen<br />
t.o.m. (target optimizer for markets) vermarktet. Hierbei werden aus gemessenem<br />
Kaufverhalten gebildete Zielgruppen aus dem Consumer Tracking Panel <strong>der</strong><br />
GfK (ConsumerScan) in das AGF/GfK Fernsehforschungspanel, <strong>der</strong> Datengrundlage<br />
für die offiziellen Einschaltquoten in Deutschland, übertragen. Ziel dieser<br />
Übertragung anhand von Variablen, die in beiden Panels vorliegen (X), ist die<br />
Schaffung einer Datengrundlage, in <strong>der</strong> gemessenes Kaufverhalten (Z) gemeinsam<br />
mit gemessener TV-Nutzung (Y) ausgewertet werden kann. Ursprünglich<br />
wurde diese Fusion durch ein Mahalanobis-Distanzmatching, später mittels Predictive<br />
Mean Matching (Rubin 1986; Little 1988) durchgeführt. In beiden Fällen<br />
handelt es sich um Nearest-Neighbor-Verfahren, doch ebenso wäre ein parametrisches<br />
Fusionsverfahren, beispielsweise über Regressionsschätzer, möglich.<br />
Während das Datenausfallmuster designbasiert und somit nicht zufällig ist,<br />
ist <strong>der</strong> zugrundeliegende Datenausfallmechanismus im Idealfall absolut zufällig<br />
– nämlich dann, wenn die beteiligten Studien A und B Zufallsstichproben aus<br />
<strong>der</strong>selben Population sind. Der Datenausfallmechanismus wird in einem solchen<br />
Fall als Missing Completely at Random (MCAR) bezeichnet. Die Kategorisierung<br />
von Datenausfallmechanismen wurde zuerst von Rubin (1976) vorgestellt und<br />
später von Little und Rubin (1987) erweitert.<br />
84