08.06.2014 Aufrufe

Weiterentwicklung der amtlichen Haushaltsstatistiken - RatSWD

Weiterentwicklung der amtlichen Haushaltsstatistiken - RatSWD

Weiterentwicklung der amtlichen Haushaltsstatistiken - RatSWD

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Segmentierung<br />

Um zudem sicherzustellen, dass die „gespendete“ Information des „Donors“ zu<br />

<strong>der</strong> des „empfangenden“ „Rezipienten“ konsistent ist, kann die Fusion in Segmenten<br />

(Unterstichproben) vollzogen werden. Aus <strong>der</strong> Perspektive eines Matchingverfahrens,<br />

bei dem über die gemeinsamen Merkmale gematcht wird, ist<br />

dies gleichbedeutend mit einem unendlich hohen Gewicht für die in die Segmentierung<br />

einbezogenen X-Variablen, da bei diesen eine perfekte Zuordnung<br />

erzwungen wird. Auch wenn eine Segmentierung aus Konsistenzgründen sinnvoll<br />

sein kann und den Rechenaufwand bei matchingbasierten Fusionsmethoden<br />

verringert, sollte auf ein übermäßiges Segmentieren verzichtet werden, da<br />

es einen Eingriff in die vom Algorithmus auf Gesamtebene optimierte Lösung<br />

bedeutet. Im Beispiel des Mahalanobisdistanz-Matchings ist die Segmentierung<br />

gleichbedeutend mit <strong>der</strong> Vergabe eines unendlich hohen Gewichts für die in die<br />

Segmentierung einbezogenen X-Variablen.<br />

Fusionsdurchführung<br />

Bei <strong>der</strong> Fusionsdurchführung selbst ist im Grunde nur zu unterscheiden, ob Y<br />

(bzw. Z) o<strong>der</strong> beide Gruppen Y und Z <strong>der</strong> spezifischen Merkmale ergänzt werden,<br />

ob die Fusion mit einem MI-Verfahren durchgeführt wurde und ob ein (zeilenweises)<br />

Nearest-Neighbour-Verfahren zum Einsatz kam, da diese Faktoren auf die<br />

Datenhaltung Einfluss haben. Beispielsweise wäre das konkrete Ergebnis einer<br />

Fusion mit Nearest-Neighbour-Verfahren, bei <strong>der</strong> multipel in beide Richtungen<br />

ergänzt wird, m×2 Paarlisten. Über diese Paarlisten können – wie bereits im vorangegangenen<br />

Abschnitt erwähnt – weitere Variablen übertragen werden, die im<br />

Fusionsmodell selbst keine Rolle gespielt haben. Diese mit Nearest-Neighbour-<br />

Verfahren mögliche „passive“ Datenfusion ist insbeson<strong>der</strong>e bei <strong>der</strong> Fusion von<br />

komplexen Datenstrukturen sinnvoll. Beispielsweise lassen sich die sekundengenau<br />

gemessenen Umschaltvorgänge im AGF/GfK Fernsehpanel zu Aggregaten<br />

verdichten (z. B. durchschnittliche Gesamt-TV-Nutzung in Sekunden pro Tag<br />

über einen bestimmten Zeitraum errechnet), die einfacher in die Modellierung<br />

einbezogen werden können als die Rohdaten. Mit einer rein modellbasierten<br />

Fusionsmethode (z. B. Regression) wäre dies nicht möglich. Des Weiteren lassen<br />

sich über diese Paarlisten im Falle einer Fusion von Paneldaten in eine an<strong>der</strong>e<br />

Stichprobe auch aktualisierte Daten ohne Durchführung einer erneuten Fusion<br />

überführen – sofern sich alle Donoren <strong>der</strong> Vorperiode noch im Panel befinden.<br />

Ansonsten besteht die Möglichkeit einer kompletten Neufusion o<strong>der</strong> einer<br />

Fusion für die Rezipienten, <strong>der</strong>en Donor sich nicht mehr in <strong>der</strong> Stichprobe befindet.<br />

Ist die Rezipientenstudie ebenfalls ein Panel, so muss dort umgekehrt <strong>der</strong><br />

Fall berücksichtigt werden, dass Neurekrutrierungen noch keinen Donor haben.<br />

92

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!