Pseudonymisierung in der medizinischen Forschung
Pseudonymisierung in der medizinischen Forschung
Pseudonymisierung in der medizinischen Forschung
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
<strong>Pseudonymisierung</strong><br />
<strong>in</strong> <strong>der</strong> mediz<strong>in</strong>ischen <strong>Forschung</strong><br />
und Sekundärnutzung von Patientendaten<br />
Klaus Pommeren<strong>in</strong>g, Ma<strong>in</strong>z<br />
Tutorium AG DGI, 17. September 2007<br />
GMDS 2007, Augsburg<br />
TMF = Telematikplattform für die<br />
mediz<strong>in</strong>ischen <strong>Forschung</strong>snetze
Inhalt<br />
1. Grundlagen von Anonymisierung<br />
und <strong>Pseudonymisierung</strong><br />
2. Methoden und Szenarien<br />
3. Die <strong>Pseudonymisierung</strong>swerkzeuge <strong>der</strong><br />
TMF<br />
4. Diskussion und Ausblick<br />
Pommeren<strong>in</strong>g, 17. September 2007 2
Nutzung von Patientendaten<br />
• Primärnutzung: Behandlungskontext.<br />
• Sekundärnutzung:<br />
– Versorgungsforschung, Qualitätssicherung,<br />
Gesundheitsökonomie,<br />
– krankheitsspezifische kl<strong>in</strong>ische o<strong>der</strong> epidemiologische<br />
Studien,<br />
– Aufbau von zentralen Datenpools und Biomaterialbanken.<br />
Typische Aspekte <strong>der</strong> Sekundärnutzung:<br />
• Außerhalb des Behandlungskontexts und <strong>der</strong><br />
Schweigepflicht (des behandelnden Arztes);<br />
• die Identität des Patienten ist ohne Belang.<br />
Pommeren<strong>in</strong>g, 17. September 2007 3
[Primärnutzung]<br />
Behandlungskontext<br />
Barriere: Ärztliche Schweigepflicht<br />
[Sekundärnutzung/<strong>Forschung</strong>skontext]<br />
kl<strong>in</strong>ische <strong>Forschung</strong><br />
Versorgungsforschung<br />
Export erlaubt, wenn<br />
- anonyme Daten,<br />
- E<strong>in</strong>willigung,<br />
- Gesetzesvorschrift<br />
Register/<br />
epidemiologische <strong>Forschung</strong><br />
Pommeren<strong>in</strong>g, 17. September 2007 4<br />
direkte<br />
Erfassung
BDSG §3 (6): Anonymisieren ist das Verän<strong>der</strong>n<br />
personenbezogener Daten <strong>der</strong>art, dass die<br />
E<strong>in</strong>zelangaben über persönliche o<strong>der</strong><br />
sachliche Verhältnisse nicht mehr o<strong>der</strong> nur<br />
mit e<strong>in</strong>em unverhältnismäßig großen<br />
Aufwand an Zeit, Kosten und Arbeitskraft<br />
e<strong>in</strong>er bestimmten o<strong>der</strong> bestimmbaren<br />
natürlichen Person zugeordnet werden<br />
können.<br />
[„faktische Anonymisierung“]<br />
Pommeren<strong>in</strong>g, 17. September 2007 5
Für die Sekundärnutzung von<br />
Patientendaten (und Proben):<br />
• Identität <strong>der</strong> Patienten schützen.<br />
– Informationelle Selbstbestimmung erfor<strong>der</strong>t E<strong>in</strong>willigung<br />
o<strong>der</strong> Anonymisierung<br />
• Anonymisierung, wann immer möglich.<br />
Nachteile <strong>der</strong> Anonymisierung:<br />
– Ke<strong>in</strong>e Zusammenführung von Daten aus verschiedenen<br />
Quellen<br />
– ... o<strong>der</strong> von verschiedenen Zeitpunkten.<br />
– Ke<strong>in</strong> Weg zurück zum Patienten für Rückmeldungen<br />
– ... o<strong>der</strong> zur Rekrutierung für neue Studien<br />
– ... o<strong>der</strong> zum Rückruf von Proben.<br />
Pommeren<strong>in</strong>g, 17. September 2007 6
BDSG §3 (6a): Pseudonymisieren ist das Ersetzen<br />
des Namens und an<strong>der</strong>er Identifikationsmerkmale<br />
durch e<strong>in</strong> Kennzeichen zu dem Zweck, die<br />
Bestimmung des Betroffenen auszuschließen o<strong>der</strong><br />
wesentlich zu erschweren.<br />
Pommeren<strong>in</strong>g, 17. September 2007 7
Pseudonyme<br />
• Goldener Mittelweg zwischen Anonymität und<br />
offener Identität („<strong>in</strong>direkter Personenbezug“).<br />
• <strong>Pseudonymisierung</strong> ist rechtlich nicht äquivalent<br />
zur Anonymisierung,<br />
– son<strong>der</strong>n erfor<strong>der</strong>t Zusatzüberlegungen und<br />
-maßnahmen;<br />
– z. B. nur mit E<strong>in</strong>willigung o<strong>der</strong> gesetzlicher Regelung<br />
erlaubt!<br />
– Denn Pseudonyme vom Typ 2 (s. u.) s<strong>in</strong>d<br />
personenbeziehbar.<br />
Pommeren<strong>in</strong>g, 17. September 2007 8
Inhalt<br />
1. Grundlagen von Anonymisierung und<br />
<strong>Pseudonymisierung</strong><br />
2. Methoden und Szenarien<br />
3. Die <strong>Pseudonymisierung</strong>swerkzeuge<br />
<strong>der</strong> TMF<br />
4. Diskussion und Ausblick<br />
Pommeren<strong>in</strong>g, 17. September 2007 9
Grundtyp 1 von Pseudonymen<br />
Inhaber-erzeugte Pseudonyme (Chaum ca. 1980)<br />
• Erzeugung durch bl<strong>in</strong>de digitale Signatur.<br />
• Kontrolle beim Besitzer.<br />
• Für Sekundärnutzung von Gesundheitsdaten<br />
nicht geeignet.<br />
• Geeignet für E-Commerce.<br />
• Lüftbar im Betrugsfall.<br />
Pommeren<strong>in</strong>g, 17. September 2007 10
Grundtyp 2 von Pseudonymen<br />
TTP-erzeugte Pseudonyme<br />
• Trusted Third Party = »Vertrauensstelle« o<strong>der</strong><br />
»Datentreuhän<strong>der</strong>« (z. B. e<strong>in</strong> Notar).<br />
• Beispiel: Krebsregister (Michaelis/Pomm. 1993).<br />
• Für Sekundärnutzung von Patientendaten besser<br />
geeignet:<br />
– z. B. Rückmeldung über behandelnden Arzt,<br />
– z. B. Rekrutierung für neue Studien.<br />
• Aber: personenbeziehbar (durch TTP).<br />
Pommeren<strong>in</strong>g, 17. September 2007 11
Individuum<br />
Grundtyp 2: Das Basismodell<br />
Schlüssel<br />
o<strong>der</strong><br />
Referenzliste<br />
(»Codebuch«)<br />
[streng geheim]<br />
Nutzdaten<br />
durchreichen<br />
TTP<br />
(PSN-<br />
Erzeugung)<br />
Identität Pseudonym<br />
... ...<br />
Maier, Johannes 6AZCB661<br />
Maier, Josef KY2P96WA<br />
Maier, Jupp L85FD23S<br />
... ...<br />
Datenbank<br />
Datenleck<br />
L85FD23S<br />
Angreifer<br />
Pommeren<strong>in</strong>g, 17. September 2007 12
Besser: Schlüssel statt Referenzliste<br />
• Pseudonym-Erzeugung durch kryptographische<br />
Verschlüsselung;<br />
– garantierte E<strong>in</strong>deutigkeit: Pseudonym = verschlüsselter<br />
Personenidentifikator (PID).<br />
– Voraussetzung: Es gibt e<strong>in</strong>en e<strong>in</strong>deutigen Identifikator<br />
– D. h., e<strong>in</strong> Identitätsmanagement ist nötig.<br />
• Die Zentralstelle speichert nichts außer ihrem<br />
geheimen Schlüssel (z. B. auf SmartCard).<br />
– »Schlanker« TTP-Service.<br />
– Auch irreversible Pseudonyme möglich<br />
(durch E<strong>in</strong>weg-Verschlüsselung).<br />
Pommeren<strong>in</strong>g, 17. September 2007 13
Szenario 1: E<strong>in</strong>zelne Datenquelle,<br />
E<strong>in</strong>mal-Sekundärnutzung<br />
• Typischer Anwendungsfall für<br />
Anonymisierung.<br />
• Beispiel: E<strong>in</strong>fache statistische Auswertung<br />
exportierter Datensätze.<br />
Pommeren<strong>in</strong>g, 17. September 2007 14
Szenario 2: Mehrere Datenquellen<br />
mit Überschneidungen,<br />
E<strong>in</strong>mal-Sekundärnutzung<br />
• Daten aus verschiedenen Quellen müssen<br />
zusammengeführt werden.<br />
• Beispiele:<br />
– multizentrische Studie,<br />
– Follow-up-Daten.<br />
• Typischer Anwendungsfall für E<strong>in</strong>weg-<br />
Pseudonyme.<br />
– Direkter Identitätsbezug wird aufgehoben,<br />
Verknüpfbarkeit bleibt.<br />
Pommeren<strong>in</strong>g, 17. September 2007 15
<strong>Pseudonymisierung</strong> für E<strong>in</strong>mal-<br />
Datenquelle(n)<br />
IDAT<br />
MDAT = Mediz<strong>in</strong>ische Daten<br />
IDAT = Identitätsdaten<br />
Sekundärnutzung<br />
<strong>Pseudonymisierung</strong>sdienst<br />
(TTP)<br />
MDAT MDAT<br />
PID<br />
Nutzdaten<br />
verschlüsselt<br />
durchreichen<br />
PID PSN<br />
Sekundärnutzung<br />
PSN<br />
PID = E<strong>in</strong>deutiger Patientenidentifikator<br />
PSN = Pseudonym<br />
Pommeren<strong>in</strong>g, 17. September 2007 16
Beson<strong>der</strong>heiten von Szenario 2<br />
• Mediz<strong>in</strong>ische Daten (MDAT) mit öffentlichem<br />
Schlüssel des Sekundärnutzers verschlüsselt –<br />
– Die TTP kann die MDAT nicht lesen.<br />
– Nur <strong>der</strong> Sekundärnutzer kann sie entschlüsseln.<br />
• Das Pseudonym (PSN) ist <strong>der</strong> verschlüsselte<br />
PID.<br />
• Szenario 2 <strong>in</strong> Rout<strong>in</strong>ebetrieb seit 2002 <strong>in</strong><br />
e<strong>in</strong>em Projekt <strong>der</strong> Versorgungsforschung <strong>der</strong><br />
TMF.<br />
Pommeren<strong>in</strong>g, 17. September 2007 17
Szenario 3: Sekundär-Nutzung mit<br />
Rückidentifikationsmöglichkeit<br />
• Verwendet wird das Modell von Szenario 2,<br />
– aber PSN-Dienst verschlüsselt umkehrbar,<br />
– Rückverknüpfbarkeit bleibt erhalten.<br />
• Evtl. Identitätsmanagement als TTP-Dienst (je<br />
nach Verhältnismäßigkeit):<br />
– E<strong>in</strong>e Patientenliste speichert die Zuordnung<br />
zwischen IDAT und PID.<br />
• Die Rückidentifikation läuft über PSN-Dienst<br />
und Patientenliste.<br />
→ Informationelle Gewaltenteilung<br />
Pommeren<strong>in</strong>g, 17. September 2007 18
Inhalt<br />
1. Grundlagen von Anonymisierung und<br />
<strong>Pseudonymisierung</strong><br />
2. Methoden und Szenarien<br />
3. Die <strong>Pseudonymisierung</strong>swerkzeuge<br />
<strong>der</strong> TMF<br />
4. Diskussion und Ausblick<br />
Pommeren<strong>in</strong>g, 17. September 2007 19
Typische Datenbanken<br />
Versorgungs-<br />
DB<br />
Langzeit-<br />
DB<br />
Studien-<br />
DB<br />
Qualitätssicherungs-<br />
DB<br />
Bild-<br />
DB<br />
Biobank<br />
Register<br />
<strong>Forschung</strong>s-<br />
DB<br />
Behandlungskontext<br />
[„Primärsysteme <strong>der</strong><br />
Leistungserbr<strong>in</strong>ger“] <strong>Forschung</strong>skontext, z. T. Behandlungskontext<br />
Pommeren<strong>in</strong>g, 17. September 2007 20
Aufbau von Langzeit-Datenpools<br />
für die mediz<strong>in</strong>ische <strong>Forschung</strong><br />
• Patientennaher Bereich, z. B. ePA, kl<strong>in</strong>isches<br />
Register, Begleitung chronischer o<strong>der</strong> seltener<br />
Erkrankungen, kl<strong>in</strong>ische Studie, …<br />
– TMF-Werkzeug A: „Kl<strong>in</strong>ische Datenbank“<br />
– Speicherung pseudonym, Zugriff für Berechtigte<br />
personenbezogen<br />
• Patientenferner Bereich, z. B. epidemiologisches<br />
Register, Referenzbil<strong>der</strong>-Sammlung, …<br />
– TMF-Werkzeug B: „<strong>Forschung</strong>sdatenbank“<br />
– Speicherung und Zugriff nur pseudonym<br />
Pommeren<strong>in</strong>g, 17. September 2007 21
Langzeit-Datenpools<br />
Die Langzeit-Datensammlung erfor<strong>der</strong>t<br />
• <strong>Pseudonymisierung</strong> und TTP-Dienste,<br />
• klar def<strong>in</strong>ierten organisatorischen Rahmen,<br />
• Informationelle gewaltenteilung,<br />
• beson<strong>der</strong>e technische Sicherheitsvorkehrungen,<br />
• entsprechende Patientenaufklärung und<br />
-e<strong>in</strong>willigung.<br />
• Identitätsmanagement (PID-Verwaltung) und<br />
Qualitätssicherung <strong>der</strong> Daten (mit Rückfragen) müssen<br />
vor <strong>Pseudonymisierung</strong> erfolgen.<br />
Pommeren<strong>in</strong>g, 17. September 2007 22
Werkzeug B: <strong>Forschung</strong>sdatenbank<br />
Datenquelle(n)<br />
MDAT MDAT<br />
IDAT<br />
IDAT PID<br />
Identitätsmanagement<br />
(TTP)<br />
Nutzdaten<br />
verschlüsselt<br />
durchreichen<br />
<strong>Pseudonymisierung</strong>sdienst<br />
(TTP)<br />
PID PSN<br />
MDAT = Mediz<strong>in</strong>ische Daten<br />
IDAT = Identitätsdaten<br />
Sekundärnutzung<br />
PSN<br />
PID = Patientenidentifikator<br />
PSN = Pseudonym<br />
Pommeren<strong>in</strong>g, 17. September 2007 23
Werkzeug A: Kl<strong>in</strong>ische Datenbank<br />
• Datenpool = zentrale »kl<strong>in</strong>ische« Datenbank.<br />
– Zentral für <strong>Forschung</strong>sverbund.<br />
– Zugriff für behandelnden Arzt (dezentral, personenbezogen).<br />
– Ke<strong>in</strong>e Identitätsdaten, nur Pseudonyme <strong>in</strong> DB.<br />
– Zugriffsregelung über temporäre Token (tempID).<br />
• Ke<strong>in</strong> Onl<strong>in</strong>e-Zugriff für Sekundärnutzer.<br />
– Für Sekundärnutzung wird jeweils e<strong>in</strong> Auszug <strong>der</strong> Datenbank<br />
exportiert (anonymisiert o<strong>der</strong> ad hoc pseudonymisiert),<br />
– o<strong>der</strong> Export <strong>in</strong> permanente <strong>Forschung</strong>s-DB.<br />
Pommeren<strong>in</strong>g, 17. September 2007 24
Die zentrale kl<strong>in</strong>ische Datenbank<br />
Lokale Datenbank<br />
MDAT<br />
IDAT<br />
MDAT = Mediz<strong>in</strong>ische Daten<br />
IDAT = Identitätsdaten<br />
(TTP)<br />
Zentrale Datenbank<br />
MDAT<br />
PID<br />
IDAT PID<br />
PID-Dienst<br />
(TTP)<br />
PID = Patientenidentifikator (hier als Pseudonym behandelt)<br />
PSN = Pseudonym<br />
Pommeren<strong>in</strong>g, 17. September 2007 25
Beson<strong>der</strong>heiten von Werkzeug A<br />
• Geeignet für multizentrische Studien.<br />
• Bessere Unterstützung für Langzeitbeobachtung<br />
von Patienten mit chronischer Erkrankung.<br />
• Nützlich für den datenproduzierenden Arzt.<br />
• Gut an Patientenakten-Architektur mit zentraler<br />
DB anpassbar.<br />
• Allgeme<strong>in</strong>: für „patientennahe“ <strong>Forschung</strong><br />
Pommeren<strong>in</strong>g, 17. September 2007 26
Ergebnisse I<br />
• TMF-Datenschutzkonzept mit alternativer<br />
Verwendung von Werkzeug A o<strong>der</strong> B von den<br />
Datenschutzbeauftragten positiv bewertet<br />
– (Arbeitskreis Wissenschaft und AK Gesundheit <strong>der</strong><br />
Datenschutzbeauftragten des Bundes und <strong>der</strong> Län<strong>der</strong>)<br />
• Modell A <strong>in</strong> e<strong>in</strong>em <strong>Forschung</strong>snetz<br />
implementiert.<br />
– Weitere <strong>in</strong> Vorbereitung o<strong>der</strong> E<strong>in</strong>führung.<br />
• Modell B von mehreren Netzen adaptiert;<br />
– Implementierungen <strong>in</strong> Arbeit.<br />
Pommeren<strong>in</strong>g, 17. September 2007 27
Ergebnisse II<br />
• Die TMF bietet Software-Tools für die TTP-<br />
Dienste.<br />
• Zugehörige Policies, Musterverträge,<br />
Mustere<strong>in</strong>willigungserklärungen von <strong>der</strong> TMF<br />
erhältlich (frei für Mitglie<strong>der</strong>).<br />
• Buchveröffentlichung <strong>in</strong> TMF-Schriftenreihe:<br />
– Reng/Debold/Specker/Pommeren<strong>in</strong>g:<br />
»Generische Lösungen zum Datenschutz für die<br />
<strong>Forschung</strong>snetze <strong>in</strong> <strong>der</strong> Mediz<strong>in</strong>«.<br />
Pommeren<strong>in</strong>g, 17. September 2007 28
Pommeren<strong>in</strong>g, 17. September 2007 29
Inhalt<br />
1. Grundlagen von Anonymisierung<br />
und <strong>Pseudonymisierung</strong><br />
2. Methoden und Szenarien<br />
3. Die <strong>Pseudonymisierung</strong>swerkzeuge<br />
<strong>der</strong> TMF<br />
4. Diskussion und Ausblick<br />
Pommeren<strong>in</strong>g, 17. September 2007 30
Anwendungserfahrungen<br />
• Workshop Ende 2005 mit 14 Netzen.<br />
• Ergebnisse:<br />
– Begutachtung des Datenschutzkonzepts (meist)<br />
zügig und positiv.<br />
– Anpassung an Modell A o<strong>der</strong> B oft schwierig,<br />
nicht alle Anfor<strong>der</strong>ungen abgedeckt.<br />
– Implementierung oft langwierig und aufwendig.<br />
• Fazit: Überarbeitung des generischen<br />
Datenschutzkonzepts bis 2008.<br />
Pommeren<strong>in</strong>g, 17. September 2007 31
Revision des TMF-Datenschutzkonzepts<br />
Ziele:<br />
• Dichotomie „A o<strong>der</strong> B“ beseitigen, statt dessen:<br />
• Modularer Aufbau mit optionalen Komponenten;<br />
– für jede Komponente das passende DS-Werkzeug.<br />
• Skalierbarkeit, Verhältnismäßigkeitskriterien.<br />
• Verzahnung mit Versorgung und kl<strong>in</strong>ischen<br />
Studien besser berücksichtigen.<br />
• Etablierung zentraler Dienstleistungen.<br />
Internationalisierung als separates Projekt.<br />
Pommeren<strong>in</strong>g, 17. September 2007 32