und Wohnungszählung (GWZ) - Publikationsservice von IT.NRW
und Wohnungszählung (GWZ) - Publikationsservice von IT.NRW
und Wohnungszählung (GWZ) - Publikationsservice von IT.NRW
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
geln gering. Für die statistische Praxis<br />
werden p%-Werte zwischen 4 % <strong>und</strong><br />
8 % empfohlen, wenn man die p%-<br />
Regel anstelle der (1; k)- <strong>und</strong> der (2;<br />
k)-Dominanzregel einsetzen will.<br />
Welcher der genannten Regeln der<br />
Vorzug zu geben ist, scheint Gegenstand<br />
einer immer währenden Diskussion<br />
zu sein <strong>und</strong> hängt wohl auch<br />
<strong>von</strong> der in Betracht kommenden Statistik<br />
ab.<br />
3. Sek<strong>und</strong>äre<br />
Geheimhaltung<br />
Das Problem der sek<strong>und</strong>ären Geheimhaltung<br />
ist durch die Forderung, so<br />
wenig Information wie möglich zu<br />
unterdrücken, als lineares Optimierungsproblem<br />
exakt lösbar. Doch sind<br />
solche Lösungsverfahren auf die in<br />
der „statistischen Praxis“ zu bearbeitenden<br />
umfangreichen Tabellen <strong>von</strong><br />
größenordnungsmäßig einer Million<br />
Tabellenfeldern nicht anwendbar,<br />
weil deren Rechenzeiten mit dem Tabellenumfang<br />
exponentiell zunehmen<br />
<strong>und</strong> entsprechende EDV-Programme<br />
unzumutbar lange Computer-Rechenzeiten<br />
beanspruchen würden;<br />
man ist daher gezwungen, auf<br />
heuristische Verfahren auszuweichen.<br />
Das einfachste heuristische Verfahren,<br />
das bisher am schnellsten arbeitet<br />
<strong>und</strong> das anderen Heuristiken in<br />
Bezug auf die Datensicherung um<br />
nichts nachsteht, ist das in der Landesdatenverarbeitungszentrale<br />
des<br />
LDS <strong>NRW</strong> entwickelte iterative Quaderverfahren.<br />
Im Folgenden wird<br />
eine kurze Einführung in die sek<strong>und</strong>äre<br />
Geheimhaltung mit dem Quaderverfahren<br />
gegeben; eine ausführliche<br />
Darstellung nebst Literaturangaben<br />
findet man in der Schriftenreihe<br />
„Statistische Analysen <strong>und</strong> Studien<br />
<strong>NRW</strong>“ in der Ausgabe 3/2000.<br />
Das Verfahren sichert nach mehreren<br />
Merkmalen gegliederte, auch mehrfach<br />
durch Zwischensummen unterteilte<br />
Statistiktabellen gegen zu genaue<br />
Rückrechnung ihrer primär geheimen,<br />
bereits gesperrten Werte<br />
durch zusätzliche Sperrungen, die Sek<strong>und</strong>ärsperrungen<br />
<strong>von</strong> Tabellenfeldern.<br />
Es bietet Intervallschutz für die<br />
primär geheimen Werte, d. h. es verhindert,<br />
dass ein primär gesperrter<br />
26<br />
Wert genauer schätzbar ist, als es ein<br />
vom Anwender des Geheimhaltungsverfahrens<br />
vorgegebenes Schutzintervall<br />
um den geheimen Wert erlaubt.<br />
Darüber hinaus sichert das Verfahren<br />
einander überlappende Einzeltabellen,<br />
wobei diese in einem iterativen<br />
Prozess so lange aneinander<br />
abgeglichen werden, bis alle in mehreren<br />
Tabellen gemeinsamen Werte<br />
den selben Geheimhaltungsstatus haben.<br />
Als Eingabedaten erwartet das Verfahren<br />
Tabellendaten, die hinsichtlich<br />
der primären Geheimhaltung bereits<br />
Abb. 1<br />
bearbeitet worden sind. Man spricht<br />
<strong>von</strong> n-dimensionalen (Einzel-) Tabellen,<br />
wenn diese nach n verschiedenen<br />
Merkmalen (auch hierarchisch) gegliedert<br />
sind, mit jeweils nur einer<br />
Randsumme für jedes Gliederungskriterium,<br />
<strong>und</strong> <strong>von</strong> überlappenden Tabellen,<br />
wenn diese gewisse Tabellenwerte<br />
gemeinsam haben. Als Beispiel<br />
für ein hierarchisches Gliederungskriterium<br />
kann die regionale Gliederung<br />
in Nordrhein-Westfalen dienen,<br />
wo in der untersten Hierarchiestufe<br />
(niedrigste Aggregation der Werte<br />
bezüglich dieser Gliederung) die Gemeinden<br />
zu ihren Kreisen beitragen,<br />
in der nächsthöheren Stufe die Kreise<br />
<strong>und</strong> kreisfreien Städte zu ihren Regierungsbezirken<br />
<strong>und</strong> wo die Regierungsbezirke<br />
schließlich zum Land<br />
zusammengefasst werden.<br />
3.1 Quaderverfahren im Falle<br />
zwischensummenfreier<br />
Einzeltabellen<br />
Kern des Verfahrens zur sek<strong>und</strong>ären<br />
Geheimhaltung ist das „reine“ Quaderverfahren.<br />
Es sichert n-dimensionale<br />
Statistiktabellen, die nicht durch<br />
Zwischensummen unterteilt sind, hinreichend<br />
gegen zu genaue Rückrechnung<br />
der primär geheimen Werte.<br />
3.1.1 Karree-Sicherung<br />
in zweidimensionalen<br />
Tabellen<br />
Das Quaderverfahren lässt sich am<br />
anschaulichsten anhand kleiner zwischensummenfreierzweidimensionaler<br />
Tabellen erläutern. Die Abbildung<br />
1 zeigt eine Tabelle dieses Typs: Als<br />
Zeilengliederung wurde eine regionale<br />
Gliederung angenommen, die<br />
Spalten kennzeichnen Wirtschaftsgruppen.<br />
In die Tabellenfelder sind<br />
die Werte <strong>und</strong> die Sperrvermerke, p<br />
für primär, s für sek<strong>und</strong>är geheim,<br />
eingetragen.<br />
Kreise \ Wirtschaftsgruppen A B C D Σ<br />
Kreis 1 10,0 100,0<br />
p<br />
Kreis 2<br />
0,8 50,1<br />
s<br />
Kreis 3<br />
0,2 0,9<br />
Reg.-Bez.<br />
11,0 151,0<br />
20,0 100,0<br />
s<br />
0 0,1<br />
p<br />
0<br />
0,9<br />
20,0 101,0<br />
230,0<br />
51,0<br />
2,0<br />
283,0<br />
Als erstes erhebt sich für den die Tabelle<br />
veröffentlichenden Statistiker<br />
die Frage, ob mit diesem Muster <strong>von</strong><br />
Sperrvermerken ein hinreichender<br />
Schutz für die primär geheimen Werte<br />
zu garantieren ist. Zur Beantwortung<br />
stellt er sich folgendes Vorgehen<br />
eines externen Tabellennutzers<br />
vor, nach dem dieser die Eingrenzung<br />
der geheimen Werte betreibt:<br />
Zur Vereinfachung des Problems wird<br />
der Tabellennutzer die gegebene Tabelle<br />
in die auf die geheimen Werte<br />
reduzierte Form der Abbildung 2<br />
bringen, wobei er die ihm unbekannten<br />
geheimen Werte durch die Symbole<br />
X1, X2, X3 <strong>und</strong> X4 ersetzt.<br />
Eine Gesamtheit <strong>von</strong> Werten einer<br />
zweidimensionalen Tabelle, die wie<br />
X1, X2, X3, X4 in den Eckpunkten eines<br />
geometrischen Karrees liegen,<br />
wird im Folgenden als Karree bzw.<br />
auch allgemeiner als zweidimensionaler<br />
Quader bezeichnet.<br />
Um dem unbekannten Wert X1 „näher<br />
zu kommen“, eliminiert der Tabellennutzer<br />
die restlichen drei Unbekannten<br />
X2, X3, X4 mit Hilfe der<br />
Summenbeziehungen der Tabelle<br />
<strong>und</strong> erhält die Abbildung 3:<br />
Statistische Analysen <strong>und</strong> Studien <strong>NRW</strong> 1/2002