w26M2
w26M2
w26M2
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
verursachen höhere Schäden in der KFZ-Versicherung« ist<br />
sicherlich völlig unkritisch und publizierbar. Aber aus dem<br />
Muster »Porschefahrer unter 20 Jahren mit Wohnsitz in<br />
der PLZ 53727 verursachen häufiger Schäden über 1 Mio.<br />
Euro« lassen sich mit hoher Wahrscheinlichkeit personenbezogene<br />
Informationen zurückschließen – gerade wenn<br />
andere Informationsquellen wie Lokalnachrichten aus<br />
dem Internet zur Verfügung stehen.<br />
Das Privacy-Preserving Data Mining beschäftigt sich mit<br />
der Frage, wie Garantien über den Datenschutz in die<br />
Datenanalyse integriert werden können. Aufgrund der<br />
Komplexität der Fragestellung gibt es dabei kein Patentrezept,<br />
verschiedene Ansätze haben sich aber als sinnvoll<br />
herauskristallisiert.<br />
Ansatz Anonymize-and-Mine<br />
Beim Ansatz Anonymize-and-Mine werden Daten zuerst<br />
anonymisiert (bzw. pseudonymisiert). Dies geschieht,<br />
indem gezielt Informationen weggelassen werden,<br />
bis klar definierte Anonymitätskriterien erfüllt sind.<br />
Die gebräuchlichsten Anonymitätsmaße sind hier die<br />
k-Anonymität, l-Diversität und t-Closeness. Geeignete<br />
Tools dafür sind frei verfügbar. Der Vorteil dieses Ansatzes<br />
ist, dass einmal anonymisierte Daten bedenkenlos<br />
weiterverarbeitet werden können, die kritischen Informationen<br />
sind ein für allemal zerstört. Der Nachteil ist, dass<br />
dies ungerichtet erfolgt und dabei auch Informationen,<br />
die für eine Analyse sehr relevant sein könnten, zerstört<br />
werden können. Gerade bei sehr hochdimensionalen<br />
Daten – typisch für Big Data – ist dies ein sehr schwieriges<br />
Problem. Als Beispiel: wenn das Data Mining auf sehr<br />
hochdimensionalen Versicherungsdaten herausfindet,<br />
dass nur Alter und Wohnort für das Risiko relevant sind,<br />
ist eine Anonymisierung einfach. Wird allerdings vorher<br />
anonymisiert ist es sehr einfach möglich, dass gerade<br />
Alter und Wohnort aus den Daten entfernt werden, da sie<br />
zusammen mit wenigen anderen Daten eine Identifikation<br />
erlauben.<br />
Ansatz Mine-and-Anonymize<br />
Der Ansatz Mine-and-Anonymize geht die entgegengesetzte<br />
Richtung: die Datenanalyse erfolgt auf nichtanonymisierten<br />
Daten, erst für das Ergebnis werden<br />
Datenschutzgarantien gegeben. Dies erfolgt entweder<br />
durch ein geeignetes Post-Processing – Ergebnisse, die<br />
vorgegebenen Privacy-Kriterien widersprechen, werden<br />
herausgefiltert – oder durch den direkten Einbau der<br />
Kriterien in den Data-Mining-Algorithmus. Dadurch ist die<br />
Umsetzung dieses Ansatzes eher kompliziert – für jedes<br />
Data-Mining-Verfahren und jede Datenschutzanforderung<br />
muss eine eigene Implementierung erfolgen – aber<br />
dadurch sind hier auch die besten Ergebnisse zu erwarten.<br />
Secure Distributed Computing<br />
Ein Ansatz, der sich gerade bei verteilten Daten eignet, ist<br />
das Secure Distributed Computing. Typische Einsatzfälle<br />
sind, wenn mehrere Unternehmen bei der Datenanalyse<br />
kooperieren wollen – etwa um Betrugsmuster zu<br />
finden – ohne ihre eigenen Daten herauszugeben oder<br />
die verschiedenen Informationen über dieselben Personen<br />
an mehreren Stellen getrennt gespeichert sind und<br />
aus Sicherheitsgründen keine kombinierte Datenbank<br />
in Betracht kommt. Mittels spezieller kryptographischer<br />
Techniken lassen sich Data-Mining-Algorithmen umsetzen,<br />
die dieselben Ergebnisse erzeugen wie bei einer klassischen<br />
Analyse auf einem kombinierten Datensatz, ohne<br />
dass die einzelnen Daten exportiert werden müssen oder<br />
erschließbar sind. Auch hier sind hochqualitative Ergebnisse<br />
zu erwarten, bei der Umsetzung handelt es sich aber<br />
wiederum um Speziallösungen, die zudem aufgrund der<br />
eingesetzten kryptographischen Verfahren sehr laufzeitintensiv<br />
sind.<br />
Zusammengefasst lässt sich sagen, dass das Privacy-<br />
Preserving Data Mining sehr gute Ansätze liefert, Datenschutzanforderungen<br />
mit mathematischen Garantien zu<br />
erfüllen. Aufgrund der Komplexität der Fragestellungen<br />
sollten diese Fragestellungen aber auf jeden Fall direkt zu<br />
Beginn eines Big-Data-Projektes adressiert werden, um<br />
effektive Lösungen zu finden.<br />
148