Weiterentwicklung der amtlichen Haushaltsstatistiken - RatSWD

Übersicht und Terminologie 

Was ist eine Datenfusion? Es existieren unterschiedliche Definitionen dieses 

Begriffs, der vor allem in der Markt- und Medienforschung häufig gleichgesetzt 

wird mit dem „Verschmelzen“ zweier (oder mehrerer) Datenquellen anhand von 

„Statistischen Zwillingen“ (siehe z. B. Koschnick 1988: 189 ff.). Unserer Meinung 

nach ist diese Definition einerseits zu eng gefasst, da sie sich auf eine bestimmte 

Klasse von Methoden bezieht (Nearest-Neighbor-Matchingverfahren) und gleichzeitig 

nichts über die Analyseziele besagt. Wir folgen daher der in der Statistischen 

Literatur üblichen Definition, gemäß der Datenfusion ein spezifisches Datenausfallmuster 

bezeichnet, das entsteht, wenn (mindestens) zwei unabhängig entstandene 

Datenquellen „übereinandergestapelt“ werden, sodass es eine Gruppe an Variablen 

(X) gibt, die in beiden Datenquellen vorkommen, sowie eine Gruppe an Variablen 

(Y), die nur in der ersten Datenquelle, und eine Gruppe an Variablen (Z), die nur 

in der zweiten Datenquelle existieren (vgl. Rässler 2002). Zudem bezieht sich das 

generelle Analyseziel auf die gemeinsame Verteilung von Y und Z – den Variablen, 

die nicht gemeinsam beobachtet wurden. Abbildung 1 beschreibt diese Datensituation. 

Auf die Verfahren, die eine gemeinsame Analyse von Variablen ermöglichen, 

die nicht gemeinsam beobachtet sind, wird nicht spezifisch eingegangen. 

Ein konkretes Beispiel aus der Medienforschung soll unseren Standpunkt 

verdeutlichen: Daten des AGF/GfK Fernsehforschungspanels werden seit vielen 

Jahren mit Daten aus dem GfK ConsumerScan fusioniert und unter dem Namen 

t.o.m. (target optimizer for markets) vermarktet. Hierbei werden aus gemessenem 

Kaufverhalten gebildete Zielgruppen aus dem Consumer Tracking Panel der 

GfK (ConsumerScan) in das AGF/GfK Fernsehforschungspanel, der Datengrundlage 

für die offiziellen Einschaltquoten in Deutschland, übertragen. Ziel dieser 

Übertragung anhand von Variablen, die in beiden Panels vorliegen (X), ist die 

Schaffung einer Datengrundlage, in der gemessenes Kaufverhalten (Z) gemeinsam 

mit gemessener TV-Nutzung (Y) ausgewertet werden kann. Ursprünglich 

wurde diese Fusion durch ein Mahalanobis-Distanzmatching, später mittels Predictive 

Mean Matching (Rubin 1986; Little 1988) durchgeführt. In beiden Fällen 

handelt es sich um Nearest-Neighbor-Verfahren, doch ebenso wäre ein parametrisches 

Fusionsverfahren, beispielsweise über Regressionsschätzer, möglich. 

Während das Datenausfallmuster designbasiert und somit nicht zufällig ist, 

ist der zugrundeliegende Datenausfallmechanismus im Idealfall absolut zufällig 

– nämlich dann, wenn die beteiligten Studien A und B Zufallsstichproben aus 

derselben Population sind. Der Datenausfallmechanismus wird in einem solchen 

Fall als Missing Completely at Random (MCAR) bezeichnet. Die Kategorisierung 

von Datenausfallmechanismen wurde zuerst von Rubin (1976) vorgestellt und 

später von Little und Rubin (1987) erweitert. 

84

Vorherige Seite

Nächste Seite

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

76

77

78

81

82

84

85

86

87

88

89

90

91

92

93

95

96

97

98

99

Weiterentwicklung der amtlichen Haushaltsstatistiken - RatSWD

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?