20.01.2013 Aufrufe

und Wohnungszählung (GWZ) - Publikationsservice von IT.NRW

und Wohnungszählung (GWZ) - Publikationsservice von IT.NRW

und Wohnungszählung (GWZ) - Publikationsservice von IT.NRW

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

geln gering. Für die statistische Praxis<br />

werden p%-Werte zwischen 4 % <strong>und</strong><br />

8 % empfohlen, wenn man die p%-<br />

Regel anstelle der (1; k)- <strong>und</strong> der (2;<br />

k)-Dominanzregel einsetzen will.<br />

Welcher der genannten Regeln der<br />

Vorzug zu geben ist, scheint Gegenstand<br />

einer immer währenden Diskussion<br />

zu sein <strong>und</strong> hängt wohl auch<br />

<strong>von</strong> der in Betracht kommenden Statistik<br />

ab.<br />

3. Sek<strong>und</strong>äre<br />

Geheimhaltung<br />

Das Problem der sek<strong>und</strong>ären Geheimhaltung<br />

ist durch die Forderung, so<br />

wenig Information wie möglich zu<br />

unterdrücken, als lineares Optimierungsproblem<br />

exakt lösbar. Doch sind<br />

solche Lösungsverfahren auf die in<br />

der „statistischen Praxis“ zu bearbeitenden<br />

umfangreichen Tabellen <strong>von</strong><br />

größenordnungsmäßig einer Million<br />

Tabellenfeldern nicht anwendbar,<br />

weil deren Rechenzeiten mit dem Tabellenumfang<br />

exponentiell zunehmen<br />

<strong>und</strong> entsprechende EDV-Programme<br />

unzumutbar lange Computer-Rechenzeiten<br />

beanspruchen würden;<br />

man ist daher gezwungen, auf<br />

heuristische Verfahren auszuweichen.<br />

Das einfachste heuristische Verfahren,<br />

das bisher am schnellsten arbeitet<br />

<strong>und</strong> das anderen Heuristiken in<br />

Bezug auf die Datensicherung um<br />

nichts nachsteht, ist das in der Landesdatenverarbeitungszentrale<br />

des<br />

LDS <strong>NRW</strong> entwickelte iterative Quaderverfahren.<br />

Im Folgenden wird<br />

eine kurze Einführung in die sek<strong>und</strong>äre<br />

Geheimhaltung mit dem Quaderverfahren<br />

gegeben; eine ausführliche<br />

Darstellung nebst Literaturangaben<br />

findet man in der Schriftenreihe<br />

„Statistische Analysen <strong>und</strong> Studien<br />

<strong>NRW</strong>“ in der Ausgabe 3/2000.<br />

Das Verfahren sichert nach mehreren<br />

Merkmalen gegliederte, auch mehrfach<br />

durch Zwischensummen unterteilte<br />

Statistiktabellen gegen zu genaue<br />

Rückrechnung ihrer primär geheimen,<br />

bereits gesperrten Werte<br />

durch zusätzliche Sperrungen, die Sek<strong>und</strong>ärsperrungen<br />

<strong>von</strong> Tabellenfeldern.<br />

Es bietet Intervallschutz für die<br />

primär geheimen Werte, d. h. es verhindert,<br />

dass ein primär gesperrter<br />

26<br />

Wert genauer schätzbar ist, als es ein<br />

vom Anwender des Geheimhaltungsverfahrens<br />

vorgegebenes Schutzintervall<br />

um den geheimen Wert erlaubt.<br />

Darüber hinaus sichert das Verfahren<br />

einander überlappende Einzeltabellen,<br />

wobei diese in einem iterativen<br />

Prozess so lange aneinander<br />

abgeglichen werden, bis alle in mehreren<br />

Tabellen gemeinsamen Werte<br />

den selben Geheimhaltungsstatus haben.<br />

Als Eingabedaten erwartet das Verfahren<br />

Tabellendaten, die hinsichtlich<br />

der primären Geheimhaltung bereits<br />

Abb. 1<br />

bearbeitet worden sind. Man spricht<br />

<strong>von</strong> n-dimensionalen (Einzel-) Tabellen,<br />

wenn diese nach n verschiedenen<br />

Merkmalen (auch hierarchisch) gegliedert<br />

sind, mit jeweils nur einer<br />

Randsumme für jedes Gliederungskriterium,<br />

<strong>und</strong> <strong>von</strong> überlappenden Tabellen,<br />

wenn diese gewisse Tabellenwerte<br />

gemeinsam haben. Als Beispiel<br />

für ein hierarchisches Gliederungskriterium<br />

kann die regionale Gliederung<br />

in Nordrhein-Westfalen dienen,<br />

wo in der untersten Hierarchiestufe<br />

(niedrigste Aggregation der Werte<br />

bezüglich dieser Gliederung) die Gemeinden<br />

zu ihren Kreisen beitragen,<br />

in der nächsthöheren Stufe die Kreise<br />

<strong>und</strong> kreisfreien Städte zu ihren Regierungsbezirken<br />

<strong>und</strong> wo die Regierungsbezirke<br />

schließlich zum Land<br />

zusammengefasst werden.<br />

3.1 Quaderverfahren im Falle<br />

zwischensummenfreier<br />

Einzeltabellen<br />

Kern des Verfahrens zur sek<strong>und</strong>ären<br />

Geheimhaltung ist das „reine“ Quaderverfahren.<br />

Es sichert n-dimensionale<br />

Statistiktabellen, die nicht durch<br />

Zwischensummen unterteilt sind, hinreichend<br />

gegen zu genaue Rückrechnung<br />

der primär geheimen Werte.<br />

3.1.1 Karree-Sicherung<br />

in zweidimensionalen<br />

Tabellen<br />

Das Quaderverfahren lässt sich am<br />

anschaulichsten anhand kleiner zwischensummenfreierzweidimensionaler<br />

Tabellen erläutern. Die Abbildung<br />

1 zeigt eine Tabelle dieses Typs: Als<br />

Zeilengliederung wurde eine regionale<br />

Gliederung angenommen, die<br />

Spalten kennzeichnen Wirtschaftsgruppen.<br />

In die Tabellenfelder sind<br />

die Werte <strong>und</strong> die Sperrvermerke, p<br />

für primär, s für sek<strong>und</strong>är geheim,<br />

eingetragen.<br />

Kreise \ Wirtschaftsgruppen A B C D Σ<br />

Kreis 1 10,0 100,0<br />

p<br />

Kreis 2<br />

0,8 50,1<br />

s<br />

Kreis 3<br />

0,2 0,9<br />

Reg.-Bez.<br />

11,0 151,0<br />

20,0 100,0<br />

s<br />

0 0,1<br />

p<br />

0<br />

0,9<br />

20,0 101,0<br />

230,0<br />

51,0<br />

2,0<br />

283,0<br />

Als erstes erhebt sich für den die Tabelle<br />

veröffentlichenden Statistiker<br />

die Frage, ob mit diesem Muster <strong>von</strong><br />

Sperrvermerken ein hinreichender<br />

Schutz für die primär geheimen Werte<br />

zu garantieren ist. Zur Beantwortung<br />

stellt er sich folgendes Vorgehen<br />

eines externen Tabellennutzers<br />

vor, nach dem dieser die Eingrenzung<br />

der geheimen Werte betreibt:<br />

Zur Vereinfachung des Problems wird<br />

der Tabellennutzer die gegebene Tabelle<br />

in die auf die geheimen Werte<br />

reduzierte Form der Abbildung 2<br />

bringen, wobei er die ihm unbekannten<br />

geheimen Werte durch die Symbole<br />

X1, X2, X3 <strong>und</strong> X4 ersetzt.<br />

Eine Gesamtheit <strong>von</strong> Werten einer<br />

zweidimensionalen Tabelle, die wie<br />

X1, X2, X3, X4 in den Eckpunkten eines<br />

geometrischen Karrees liegen,<br />

wird im Folgenden als Karree bzw.<br />

auch allgemeiner als zweidimensionaler<br />

Quader bezeichnet.<br />

Um dem unbekannten Wert X1 „näher<br />

zu kommen“, eliminiert der Tabellennutzer<br />

die restlichen drei Unbekannten<br />

X2, X3, X4 mit Hilfe der<br />

Summenbeziehungen der Tabelle<br />

<strong>und</strong> erhält die Abbildung 3:<br />

Statistische Analysen <strong>und</strong> Studien <strong>NRW</strong> 1/2002

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!