IT-Nachwuchsforschung in Österreich

Weitere Magazine

Empfehlungen

Info

Abwehrmaßnahmen bei Cyberangriffen von Andrea Siposova Datenexfiltration mit Hilfe von Modellen des maschinellen Lernens Sensible Daten, insbesondere in Bereichen wie dem Gesundheits-, dem Versicherungs- und dem Bankwesen, wo die Datensätze häufig personenbezogene Informationen enthalten, gehören zu den wertvollsten Datenarten. Insbesondere beim maschinellen Lernen werden Daten zu einem entscheidenden Faktor, da die Qualität und Robustheit der Modelle direkt von der Qualität der Trainingsdaten abhängen. Die mit der Datenerhebung oder -weiterverarbeitung verbundenen Kosten erhöhen den Wert der Daten zusätzlich. Wertvolle Daten ziehen natürlich auch die Aufmerksamkeit von Angreifer*innen auf sich und in den letzten Jahren ist die Zahl der Cyberangriffe, wie z. B. Datenlecks durch Phishing und Ransomware, erheblich gestiegen. Dieser Trend hat Schwachstellen in Systemen aufgedeckt, die bisher als sehr sicher gegen solche Bedrohungen galten. Im Mai 2021 wurde beispielsweise die irische Gesundheitsbehörde Health Service Executive (HSE) Opfer eines schweren Ransomware-Angriffs, der zu einem landesweiten Ausfall aller IT-Systeme führte. Dieser Angriff war der größte bekannte Angriff auf ein Computersystem eines Gesundheitssystems. In einem Ransomware-Angriff verschafften sich Angreifer*innen Zugang zu sensiblen Daten und drohten damit, über 700 Gigabyte an Daten zu verkaufen oder zu veröffentlichen, wovon über 100,000 Personen betroffen waren. Sensible Daten von 520 Patient*innen sowie weitere Unternehmensdokumente, wurden tatsächlich ins Netz gestellt. Angreifer*innen werden in der Regel durch die Aussicht auf finanzielle oder strategische Vorteile motiviert, sich unbefugten Zugang zu verschaffen. Laut dem Verizon 2023 Data Breach Investigation Report waren 94,6 % der Datenschutzverletzungen finanziell motiviert. Im oben genannten Fall soll die Angreifergruppe Berichten zufolge ein Lösegeld in Höhe von 16,5 Millionen Euro gefordert haben. ANGRIFFSVEKTOREN UND SCHWACHSTELLEN Wenn es um maschinelles Lernen geht, ist es wichtig zu erkennen, dass es neben dem Einsatz von Malware oder Ransomware auch andere Arten von Cyberangriffen geben kann. So können beispielsweise auch scheinbar harmlose Praktiken wie kollaboratives Lernen oder Outsourcing an Data Science Expert*innen als mögliche Angriffsvektoren für Cyberangriffe dienen. Schwachstellen können entstehen, wenn ein Dateneigentümer die Modellerstellung auslagert, möglicherweise unter Verwendung von Programmbibliotheken von Drittanbietern, oder die Nutzung von Daten durch Dritte erlaubt wird, wie z. B. bei Forschungsprojekten oder Federated Learning Szenarien, bei denen der „Code zu den Daten“ kommt, ohne dass die Daten explizit freigegeben werden. Der gemeinsame Ausgangspunkt für Angriffe auf die Daten ist daher die Anwendung von Algorithmen Dritter auf vertrauliche Daten. Die Angreifer*innen müssen zudem in der Lage sein, auf das trainierte ML-Modell zuzugreifen. Durch die Ausnutzung der Kapazität von ML-Modellen können Angreifer*innen, die Daten exfiltrieren, selbst wenn der bereitgestellte Code in einer isolierten, sicheren Computerumgebung ausgeführt wird. Dazu wird zusätzlich zu dem gutartigen Code, der das maschinelle Lernmodell trainiert, bösartiger Code bereitgestellt, der steganografische Techniken implementiert, um das Modell als versteckten Kanal für die Datenexfiltration zu nutzen. Dieses Szenario ist in Abbildung 1 dargestellt. Die Partei, die das Modell auf ihren Daten trainiert, hat die Möglichkeit, Abwehrtechniken auf das trainierte Modell anzuwenden, bevor es veröffentlicht wird. Der rechte Teil von Abbildung 1 zeigt eine Verteidigung, die darauf abzielt, die im Modell versteckten Informationen zu entfernen, um zu verhindern, dass die Angreifer*innen die versteckten Trainingsdaten rekonstruieren können, sobald sie Zugang erhalten. ANGRIFFE MITTELS MASCHINEL- LEN LERNENS Song et al. 1 haben erstmals Angriffe zur Datenexfiltration mittels maschinellen Lernens vorgestellt und dabei zwei Kategorien unterschieden. Beim White-Box-Zugriff, d. h. dem vollständigen 20 OCG Journal | 01 • 2024
Ausgewählte Forschung Abbildung 1: Überblick über eine Datenexfiltrationspipeline: Der Angreifende stellt einen bösartigen Code bereit, der Trainingsdaten in einem Modell versteckt. Aus diesem werden die Trainingsdaten rekonstruiert, sobald Zugriff auf das trainierte Modell besteht. Eine Abwehrmaßnahme (rechts) wird auf das trainierte Modell angewendet, um die Rekonstruktion zu verhindern. Zugriff auf Modellparameter, nutzen Angreifer*innen die Kapazität der trainierbaren Parameter aus. Sie betten die Trainingsdaten direkt in die Parameter ein, indem sie Techniken wie die Kodierung mit dem least-significant Bit verwenden. Beim Zugriff auf das trainierte Modell können die versteckten Daten direkt aus den Parametern ausgelesen und rekonstruiert werden. In Blackbox-Szenarien, bei denen der Zugriff auf die Vorhersagen des Modells beschränkt ist, trainieren die Angreifer*innen das Modell (zusätzlich und zusammen mit gutartigen Daten) auf einem deterministisch generierten Trigger-Datensatz, so dass das Modell bei der Vorhersage auf diesem Trigger-Datensatz einzelne Bits der Trainingsdaten preisgibt. In diesem Szenario missbrauchen die Angreifer*innen also die Lernfähigkeit des Modells. SCHWIERIGE WAHL DER VER- TEIDIGUNGSMASSNAHMEN Die Verteidigungsmaßnahmen im White-Box-Szenario erfolgen durch eine direkte Änderung der Parameterwerte, während im Black-Box-Szenario die Architektur des Modells geändert werden muss. Dazu werden die Teile des Modells, die den Trigger gelernt haben, entfernt, sodass das Modell die verborgenen Daten „vergisst“. Allgemein gilt es jedoch einen Kompromiss zwischen der Güte des Modells und der Wirksamkeit der Verteidigung zu finden, da die Verteidigung die Qualität der Vorhersagen beeinträchtigt. Außerdem kennt der Verteidigende die Art des Angriffs und seine Parameter nicht, was die Wahl der Verteidigungsstrategien erschwert. Hinzu kommt, dass keine Verteidigungsstrategie gegen alle Angriffsarten wirksam ist. Um die Sicherheit der Trainingsdaten zu verbessern, ist es daher von entscheidender Bedeutung, Dateneigentümer*innen auch mit dem Wissen über potentielle Angriffe auf die Daten zu schulen. Dies ist von entscheidender Bedeutung für die Wahrung der Vertraulichkeit sensibler Daten. 1 C. Song, T. Ristenpart, und V. Shmatikov. Machine Learning Models that Remember Too Much. Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security, 587-601. 2017. Andrea Siposova arbeitet als Researcherin in der Machine Learning and Data Management Gruppe bei SBA Research. Ihre Forschungsinteresse sind Sicherheit von machinellem Lernen und Datenvertraulichkeit. 01 • 2024 | OCG Journal 21
Seite 1 und 2: OCG Journal Ausgabe 01 • 2024 | C
Seite 3 und 4: Inhalt [ 20 Young Researchers‘ Da
Seite 5 und 6: Young Researchers‘ Day AK IT-Sich
Seite 7 und 8: Young Researchers‘ Day Bluetooth
Seite 9 und 10: Young Researchers‘ Day Sicherheit
Seite 11 und 12: Young Researchers‘ Day Daten aus
Seite 13 und 14: Young Researchers‘ Day Grafik Glo
Seite 15 und 16: Young Researchers‘ Day niedrigem
Seite 17 und 18: Young Researchers‘ Day die Anwend
Seite 19: Young Researchers‘ Day Julia Made
Seite 23 und 24: Ausgewählte Forschung der Anwendun
Seite 25 und 26: Ausgewählte Forschung Schutz der P
Seite 27 und 28: Ausgewählte Forschung mous problem
Seite 29 und 30: Ausgewählte Forschung fristigen Un
Seite 31 und 32: Ausgewählte Forschung auch für Cl
Seite 33 und 34: ausfordern und deren algorithmische
Seite 35 und 36: Wettbewerbe Screenshot Java Wiz (c)
Seite 37 und 38: Wettbewerbe OCG Förderpreis-FH 202
Seite 39 und 40: Intern Veranstaltungen und Termine

IT-Nachwuchsforschung in Österreich

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?