08.06.2014 Aufrufe

Weiterentwicklung der amtlichen Haushaltsstatistiken - RatSWD

Weiterentwicklung der amtlichen Haushaltsstatistiken - RatSWD

Weiterentwicklung der amtlichen Haushaltsstatistiken - RatSWD

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Übersicht und Terminologie<br />

Was ist eine Datenfusion? Es existieren unterschiedliche Definitionen dieses<br />

Begriffs, <strong>der</strong> vor allem in <strong>der</strong> Markt- und Medienforschung häufig gleichgesetzt<br />

wird mit dem „Verschmelzen“ zweier (o<strong>der</strong> mehrerer) Datenquellen anhand von<br />

„Statistischen Zwillingen“ (siehe z. B. Koschnick 1988: 189 ff.). Unserer Meinung<br />

nach ist diese Definition einerseits zu eng gefasst, da sie sich auf eine bestimmte<br />

Klasse von Methoden bezieht (Nearest-Neighbor-Matchingverfahren) und gleichzeitig<br />

nichts über die Analyseziele besagt. Wir folgen daher <strong>der</strong> in <strong>der</strong> Statistischen<br />

Literatur üblichen Definition, gemäß <strong>der</strong> Datenfusion ein spezifisches Datenausfallmuster<br />

bezeichnet, das entsteht, wenn (mindestens) zwei unabhängig entstandene<br />

Datenquellen „übereinan<strong>der</strong>gestapelt“ werden, sodass es eine Gruppe an Variablen<br />

(X) gibt, die in beiden Datenquellen vorkommen, sowie eine Gruppe an Variablen<br />

(Y), die nur in <strong>der</strong> ersten Datenquelle, und eine Gruppe an Variablen (Z), die nur<br />

in <strong>der</strong> zweiten Datenquelle existieren (vgl. Rässler 2002). Zudem bezieht sich das<br />

generelle Analyseziel auf die gemeinsame Verteilung von Y und Z – den Variablen,<br />

die nicht gemeinsam beobachtet wurden. Abbildung 1 beschreibt diese Datensituation.<br />

Auf die Verfahren, die eine gemeinsame Analyse von Variablen ermöglichen,<br />

die nicht gemeinsam beobachtet sind, wird nicht spezifisch eingegangen.<br />

Ein konkretes Beispiel aus <strong>der</strong> Medienforschung soll unseren Standpunkt<br />

verdeutlichen: Daten des AGF/GfK Fernsehforschungspanels werden seit vielen<br />

Jahren mit Daten aus dem GfK ConsumerScan fusioniert und unter dem Namen<br />

t.o.m. (target optimizer for markets) vermarktet. Hierbei werden aus gemessenem<br />

Kaufverhalten gebildete Zielgruppen aus dem Consumer Tracking Panel <strong>der</strong><br />

GfK (ConsumerScan) in das AGF/GfK Fernsehforschungspanel, <strong>der</strong> Datengrundlage<br />

für die offiziellen Einschaltquoten in Deutschland, übertragen. Ziel dieser<br />

Übertragung anhand von Variablen, die in beiden Panels vorliegen (X), ist die<br />

Schaffung einer Datengrundlage, in <strong>der</strong> gemessenes Kaufverhalten (Z) gemeinsam<br />

mit gemessener TV-Nutzung (Y) ausgewertet werden kann. Ursprünglich<br />

wurde diese Fusion durch ein Mahalanobis-Distanzmatching, später mittels Predictive<br />

Mean Matching (Rubin 1986; Little 1988) durchgeführt. In beiden Fällen<br />

handelt es sich um Nearest-Neighbor-Verfahren, doch ebenso wäre ein parametrisches<br />

Fusionsverfahren, beispielsweise über Regressionsschätzer, möglich.<br />

Während das Datenausfallmuster designbasiert und somit nicht zufällig ist,<br />

ist <strong>der</strong> zugrundeliegende Datenausfallmechanismus im Idealfall absolut zufällig<br />

– nämlich dann, wenn die beteiligten Studien A und B Zufallsstichproben aus<br />

<strong>der</strong>selben Population sind. Der Datenausfallmechanismus wird in einem solchen<br />

Fall als Missing Completely at Random (MCAR) bezeichnet. Die Kategorisierung<br />

von Datenausfallmechanismen wurde zuerst von Rubin (1976) vorgestellt und<br />

später von Little und Rubin (1987) erweitert.<br />

84

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!