Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Erhalt der Privatsphäre beim Data Mining Ulrich Graf Betreuer: Frank Eichinger Seminar im SS 2007 Aktuelle Herausforderungen an Datenschutz und Datensicherheit.

Ähnliche Präsentationen


Präsentation zum Thema: "Erhalt der Privatsphäre beim Data Mining Ulrich Graf Betreuer: Frank Eichinger Seminar im SS 2007 Aktuelle Herausforderungen an Datenschutz und Datensicherheit."—  Präsentation transkript:

1 Erhalt der Privatsphäre beim Data Mining Ulrich Graf Betreuer: Frank Eichinger Seminar im SS 2007 Aktuelle Herausforderungen an Datenschutz und Datensicherheit in modernen Informationssystemen Institut für Programmstrukturen und Datenorganisation (IPD) – Universität Karlsruhe (TH)

2 Ulrich Graf, Seminar DSDS SS 2007 2 Motivation Data Mining gewinnt immer mehr an Bedeutung: Analysen auf Kundendaten (z.B. Payback), Datensammlung im Internet, … Sorge um Gefährdung der Privatsphäre beim Mining naturgemäß besonders hoch Gründe auch für Entwicklerinteresse: Kundenbindung durch Vertrauen Schlechte Miningergebnisse durch falsche Kundenangaben

3 Ulrich Graf, Seminar DSDS SS 2007 3 Agenda Übersicht Data Mining Privatsphäre – Gefährdungsszenarien Klassifizierung von Algorithmen anhand verschiedener Parameter Beispielalgorithmen Ausblick und Zusammenfassung

4 Ulrich Graf, Seminar DSDS SS 2007 4 Data Mining „We´re drowning in information and starving for knowledge.“ Data Mining = „Knowledge“ Mining: Finden von interessanten Mustern in großen Datenbeständen Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

5 Ulrich Graf, Seminar DSDS SS 2007 5 Data Mining – Techniken Clusteranalyse: gruppiere „ähnliche“ Datensätze, z.B. Kunden mit ähnlichem Musikgeschmack Assoziationsregeln, z.B. Warenkorbanalyse: „Wenn Kunde Käse und Wurst kauft, kauft er mit hoher Wahrscheinlichkeit auch Brot.“ Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

6 Ulrich Graf, Seminar DSDS SS 2007 6 Data Mining – Techniken Klassifikation: benutze Merkmale, um Datentupel in Klasse einzuteilen, z.B. Risikoanalyse Entscheidungsbaum, Neuronale Netze A < 0.5 A >= 0.5 … … … … hoch niedrig

7 Ulrich Graf, Seminar DSDS SS 2007 7 Data Mining - Entscheidungsbaum Aufbau des Baums mit Trainingsdaten Binärbaum wird von der Wurzel ausgehend rekursiv aufgebaut: Falls Split notwendig: Ermittle Attribut A, das die Daten optimal nach Klassen trennt Bilde Partitionen P, P´, wiederhole Algorithmus für beide Partitionen Vermeidung von Überanpassung des Modells an Trainingsdaten: Pruning Zusammenfassen von Blättern mit wenigen Datensätzen Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss A < 0.5 A >= 0.5 P P‘

8 Ulrich Graf, Seminar DSDS SS 2007 8 Was ist Privatsphäre? Unterschiedliche Definitionen: „Individual's right to be let alone“ (1890) „Das aktive Recht, darüber zu bestimmen, welche Daten über sich [...] von anderen gebraucht werden und welche Daten auf einen selbst einwirken dürfen." (Kuhlen) „Personal data […]: any information relating to an identified or identifiable natural person […]“ (EG 1995) Schutz vor Missbrauch und Identifi- zierbarkeit muss angestrebt werden Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

9 Ulrich Graf, Seminar DSDS SS 2007 9 Szenario Zentralisiertes Mining Schutz individueller Daten A < 0.5 A >= 0.5 … … … … Data Mining Mining-Ergebnis Modifikation MissbrauchIdentifizierbarkeit Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss hoch niedrig

10 Ulrich Graf, Seminar DSDS SS 2007 10 Szenario Verteiltes Mining Secure Multiparty Computation (SMC): mehrere Parteien möchten Mining gemeinsam durchführen, aber jede Partei will ihre Daten geheim halten A B C Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss A+B+C Mining A < 0.5 A >= 0.5 … … … … hoch niedrig nicht sicher

11 Ulrich Graf, Seminar DSDS SS 2007 11 Szenario Verteiltes Mining Vertrauenswürdiger Server nicht realistisch – sicheres Protokoll für direkte Kommunikation unter den Parteien notwendig A B C Sicheres Protokoll Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

12 Ulrich Graf, Seminar DSDS SS 2007 12 Parameter für Algorithmen Vielzahl von Algorithmen verfügbar Parameter: Verteilung der Daten: zentralisiert, horizontal, vertikal vertikal verteilt horizontal verteilt DM zentralisiert DM Attribute Datentupel Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

13 Ulrich Graf, Seminar DSDS SS 2007 13 Parameter für Algorithmen Parameter: Data-Mining-Ziel: Clusteranalyse, Klassifikation, … Modifikation der Eingangsdaten: Rauschfunktionen Blockieren von Werten Vertauschen von 0- und 1-Werten Swapping Sampling Aggregation Grad verbleibender Funktionalität bzw. Privatsphäre Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

14 Ulrich Graf, Seminar DSDS SS 2007 14 Algorithmen für SMC Jede polynomiell berechenbare Funktion kann sicher berechnet werden (Goldreich et al.) Beweis läuft über logische Gatter: Jede Partei besitzt eine Inputvariable Inputvariablen durch Zufallszahlen modifiziert Jede Partei berechnet ihre Outputvariable Zusammensetzen der Outputvariablen eliminiert die Zufallszahlen Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

15 Ulrich Graf, Seminar DSDS SS 2007 15 SMC – Beispiel Sichere Summe Summation wichtig für Data Mining Voraussetzung: Intervall [0,n) für die Summe bekannt (Addition in F n ). Jede der m Parteien besitzt Summand s i, i = 1, …, m. Algorithmus: 1. Partei generiert Zufallszahl R aus [0,n) und leitet V = (R+s 1 ) mod n weiter an Partei 2. Partei i = 2,…, n-1 berechnet V = (s i +V) mod n und leitet V weiter an Partei i+1. Partei n berechnet den gleichen Schritt und leitet das Ergebnis an Partei 1 weiter. Subtrahieren von R ergibt das Ergebnis. Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

16 Ulrich Graf, Seminar DSDS SS 2007 16 SMC – Sichere Summe n = 20 Im F 20: 12-13 = 19 V = 18 V = 2 V = 10 s 2 = 4 s 1 = 5, R = 13 s 3 = 8 s 4 = 2 1 2 3 4 V = 12 Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

17 Ulrich Graf, Seminar DSDS SS 2007 17 SMC Ähnliche Algorithmen für: Durchschnitt Vereinigung Skalarprodukt Berechnung der Inversen Matrix Annahme: alle Parteien stellen korrekte Inputdaten bereit Bei falschen Inputdaten wird gesamtes Ergebnis verfälscht, kein Vorteil für Datensaboteur Problem: für viele Attribute sehr aufwändig Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

18 Ulrich Graf, Seminar DSDS SS 2007 18 Auf Datenmodifikation beruhende Algorithmen Herausforderungen: Modifikation muss Privatsphäre sicherstellen Mining nicht möglich, ohne dass Information zu großem Teil in den Daten erhalten bleibt => Gegensätzliche Ziele, Kompromisse erforderlich Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss A < 0.5 A >= 0.5 … … … … Data Mining Mining-Ergebnis hoch niedrig Modifikation

19 Ulrich Graf, Seminar DSDS SS 2007 19 Datenmodifikation Beobachtung: einzelne Werte oftmals nicht entscheidend für das Mining, sondern Verteilung der Werte Addition von Rauschfunktion zufällige Werte aus Gleichverteilung bzw. Gauß´scher Verteilung Originaldaten geschützt, wenn Rauschfunktion und Originaldaten nicht unkorreliert Verteilung der Originaldaten iterativ annäherbar Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

20 Ulrich Graf, Seminar DSDS SS 2007 20 Mining mit modifizierten Daten Klassifikation mit Entscheidungsbaum Verschiedene Rekonstruktionsansätze: Global: Einmalige Rekonstruktion für jedes Attribut Nach Klassen: Trenne Daten für jedes Attribut nach den Klassen Rekonstruiere Verteilung Baue Entscheidungsbaum auf Lokal: Vorgehen wie nach Klassen getrennt Zusätzlich Rekonstruktion bei jedem Baumknoten Sehr akkurate Ergebnisse möglich: Abweichung normalerweise < 10% vom Mining-Ergebnis mit nicht modifizierten Daten Global zu ungenau, Lokal sehr aufwändig, Nach Klassen liefert fast so gute Ergebnisse wie Lokal => Nach Klassen guter Kompromiss Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

21 Ulrich Graf, Seminar DSDS SS 2007 21 Bewertung von Algorithmen Generelle Maßstäbe: Performanz Nutzbarkeit der Daten Grad der Privatsphäre Robustheit von Modifikationen gegenüber anderen Algorithmen SMC: Sicher, aber sehr hoher Aufwand – Ansätze weg von der beweisbaren Sicherheit zu mehr Performanz Datenmodifikation: Wenn Originaldaten und Rauschfunktion unkorreliert sind, kann Sicherheitslücke entstehen Bei erhältlichen Algorithmen guter Erhalt von Privatsphäre und Performanz Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

22 Ulrich Graf, Seminar DSDS SS 2007 22 Zusammenfassung / Ausblick Data Mining nicht mehr wegzudenken Ruf nach Mining, das die Privatsphäre respektiert, wird lauter Forschungsgebiet noch sehr jung, aber bereits mit guten Ergebnissen: viele Algorithmen verfügbar, die Privatsphäre und Funktionalität sichern Größte Herausforderungen in Zukunft: weg von vielen Speziallösungen hin zu performanten, generalisierbaren Lösungen Integration in Mining-Tools und DBMS Standardisierung steht noch ganz am Anfang Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

23 Ulrich Graf, Seminar DSDS SS 2007 23 Schluss Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss Vielen Dank für die Aufmerksamkeit!


Herunterladen ppt "Erhalt der Privatsphäre beim Data Mining Ulrich Graf Betreuer: Frank Eichinger Seminar im SS 2007 Aktuelle Herausforderungen an Datenschutz und Datensicherheit."

Ähnliche Präsentationen


Google-Anzeigen