22.01.2015 Aufrufe

w26M2

w26M2

w26M2

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

verursachen höhere Schäden in der KFZ-Versicherung« ist<br />

sicherlich völlig unkritisch und publizierbar. Aber aus dem<br />

Muster »Porschefahrer unter 20 Jahren mit Wohnsitz in<br />

der PLZ 53727 verursachen häufiger Schäden über 1 Mio.<br />

Euro« lassen sich mit hoher Wahrscheinlichkeit personenbezogene<br />

Informationen zurückschließen – gerade wenn<br />

andere Informationsquellen wie Lokalnachrichten aus<br />

dem Internet zur Verfügung stehen.<br />

Das Privacy-Preserving Data Mining beschäftigt sich mit<br />

der Frage, wie Garantien über den Datenschutz in die<br />

Datenanalyse integriert werden können. Aufgrund der<br />

Komplexität der Fragestellung gibt es dabei kein Patentrezept,<br />

verschiedene Ansätze haben sich aber als sinnvoll<br />

herauskristallisiert.<br />

Ansatz Anonymize-and-Mine<br />

Beim Ansatz Anonymize-and-Mine werden Daten zuerst<br />

anonymisiert (bzw. pseudonymisiert). Dies geschieht,<br />

indem gezielt Informationen weggelassen werden,<br />

bis klar definierte Anonymitätskriterien erfüllt sind.<br />

Die gebräuchlichsten Anonymitätsmaße sind hier die<br />

k-Anonymität, l-Diversität und t-Closeness. Geeignete<br />

Tools dafür sind frei verfügbar. Der Vorteil dieses Ansatzes<br />

ist, dass einmal anonymisierte Daten bedenkenlos<br />

weiterverarbeitet werden können, die kritischen Informationen<br />

sind ein für allemal zerstört. Der Nachteil ist, dass<br />

dies ungerichtet erfolgt und dabei auch Informationen,<br />

die für eine Analyse sehr relevant sein könnten, zerstört<br />

werden können. Gerade bei sehr hochdimensionalen<br />

Daten – typisch für Big Data – ist dies ein sehr schwieriges<br />

Problem. Als Beispiel: wenn das Data Mining auf sehr<br />

hochdimensionalen Versicherungsdaten herausfindet,<br />

dass nur Alter und Wohnort für das Risiko relevant sind,<br />

ist eine Anonymisierung einfach. Wird allerdings vorher<br />

anonymisiert ist es sehr einfach möglich, dass gerade<br />

Alter und Wohnort aus den Daten entfernt werden, da sie<br />

zusammen mit wenigen anderen Daten eine Identifikation<br />

erlauben.<br />

Ansatz Mine-and-Anonymize<br />

Der Ansatz Mine-and-Anonymize geht die entgegengesetzte<br />

Richtung: die Datenanalyse erfolgt auf nichtanonymisierten<br />

Daten, erst für das Ergebnis werden<br />

Datenschutzgarantien gegeben. Dies erfolgt entweder<br />

durch ein geeignetes Post-Processing – Ergebnisse, die<br />

vorgegebenen Privacy-Kriterien widersprechen, werden<br />

herausgefiltert – oder durch den direkten Einbau der<br />

Kriterien in den Data-Mining-Algorithmus. Dadurch ist die<br />

Umsetzung dieses Ansatzes eher kompliziert – für jedes<br />

Data-Mining-Verfahren und jede Datenschutzanforderung<br />

muss eine eigene Implementierung erfolgen – aber<br />

dadurch sind hier auch die besten Ergebnisse zu erwarten.<br />

Secure Distributed Computing<br />

Ein Ansatz, der sich gerade bei verteilten Daten eignet, ist<br />

das Secure Distributed Computing. Typische Einsatzfälle<br />

sind, wenn mehrere Unternehmen bei der Datenanalyse<br />

kooperieren wollen – etwa um Betrugsmuster zu<br />

finden – ohne ihre eigenen Daten herauszugeben oder<br />

die verschiedenen Informationen über dieselben Personen<br />

an mehreren Stellen getrennt gespeichert sind und<br />

aus Sicherheitsgründen keine kombinierte Datenbank<br />

in Betracht kommt. Mittels spezieller kryptographischer<br />

Techniken lassen sich Data-Mining-Algorithmen umsetzen,<br />

die dieselben Ergebnisse erzeugen wie bei einer klassischen<br />

Analyse auf einem kombinierten Datensatz, ohne<br />

dass die einzelnen Daten exportiert werden müssen oder<br />

erschließbar sind. Auch hier sind hochqualitative Ergebnisse<br />

zu erwarten, bei der Umsetzung handelt es sich aber<br />

wiederum um Speziallösungen, die zudem aufgrund der<br />

eingesetzten kryptographischen Verfahren sehr laufzeitintensiv<br />

sind.<br />

Zusammengefasst lässt sich sagen, dass das Privacy-<br />

Preserving Data Mining sehr gute Ansätze liefert, Datenschutzanforderungen<br />

mit mathematischen Garantien zu<br />

erfüllen. Aufgrund der Komplexität der Fragestellungen<br />

sollten diese Fragestellungen aber auf jeden Fall direkt zu<br />

Beginn eines Big-Data-Projektes adressiert werden, um<br />

effektive Lösungen zu finden.<br />

148

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!