Erhalt der Privatsphäre beim Data Mining Ulrich Graf Betreuer: Frank Eichinger Seminar im SS 2007 Aktuelle Herausforderungen an Datenschutz und Datensicherheit.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Partitionierungstechniken in Datenbanksystemen
Data Mining / Wissensextraktion
Verteidigung Bachelorarbeit
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Genetische Algorithmen für die Variogrammanpassung
8 Behandlung von Begriffen 8.1 Grundlagen aus Logik und Psychologie
Mathematik des Bridge Tanja Schmedes.
Mathematisches Seminar – Thema 2.1
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken X Christian Schindelhauer
Übersicht DIALIGN = DIagonal ALIGNment
Heuristiken und Kontexteinflüsse
Universität Stuttgart Institut für Kernenergetik und Energiesysteme Was ist Refactoring? Bevor man die Integration angeht, mag es angebracht sein, den.
Sortierverfahren Richard Göbel.
Sortierverfahren Richard Göbel.
Was ist die artikulatorische Grundlage von Locus-Gleichungen? Hauptseminar: Modelle der Sprachproduktion & - perzeption Dozent: Prof. Dr. Jonathan Harrington.
WS Algorithmentheorie 01 – Divide and Conquer (Segmentschnitt) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.
Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 4 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.
Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.
Numerische Klassifikation TWINSPAN
Was sind Histogramme? (1)
Minimum Spanning Tree: MST
Classification of Credit Applicants Using Data Mining. Thema.
Universität Karlsruhe (TH) © 2008 Univ,Karlsruhe, IPD, Prof. LockemannDBI 0 Datenbankimplementierung und -tuning Einführung.
Forschungszentrum Informatik, Karlsruhe Objektorientierte Systeme unter der Lupe Markus Bauer Oliver Ciupke.
Machine Learning Decision Trees (2).
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Eignung von Grammatik-basiertem Layout für grafische Programmiersprachen Seminar Layout-Algorithmen für Graphen Institut für Informatik Christian-Albrechts.
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Effiziente Algorithmen
Abschlussvortrag zur Studienarbeit
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Polynome und schnelle Fourier-Transformation
Neuronale Netze.
Geometrie : Rekonstruktion
Knowledge Discovery Erzeugung künstlicher Telekommunikationsdaten
Institut für Wirtschaftsinformatik – Software Engineering, JKU Linz 1 Algorithmen und Datenstrukturen SS 2005 Mag.Th. Hilpold u. Dr. A.Stritzinger Institut.
Allgemeines zu Datenbanken
Prädiktion und Klassifikation mit Random Forest
Algorithmen und Datenstrukturen Übungsmodul 8
Integration oberflächenbestimmender Objekte ins DGM Seminar GIS IV SS
Klassifikation und Regression mittels neuronaler Netze
Parallelisierung für Multiprozessor-Maschinen
Mag. Thomas Hilpold, Universität Linz, Institut für Wirtschaftsinformatik – Software Engineering 1 Algorithmen und Datenstrukturen 1 SS 2002 Mag.Thomas.
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Using Reflexive Behaviors of the Medicinal Leech to Study Information Processing William B. Kristan Jr., Sawn R. Lockery und John E. Lewis.
Institut für Biomedizinische Technik Universität Karlsruhe Institut für Biomedizinische Technik Seminarvortrag Segmentierung medizinischer Bilder anhand.
K. Desch - Statistik und Datenanalyse SS05
Induktion von Entscheidungsbäumen Seminar Data Mining am Fachgebiet Datenbanken und Informationssysteme Sommersemester 2007 Betreuer: Hendrik Warneke.
Algorithmen und Datenstrukturen Prof. Dr. Ralf Möller Universität zu Lübeck Institut für Informationssysteme Stefan Werner (Übungen) sowie viele Tutoren.
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 1 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Comprehensive Information Base (CIB) – ein Prototyp zur semantischen Datenintegration Stefan Arts
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Präsentationsvorlage für politische Entscheidungsträger (Sie können diese PPT verwenden und für Ihre Zwecke verändern) Datum, Autor/in, Thema/Thematik.
Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.
Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.
 Präsentation transkript:

Erhalt der Privatsphäre beim Data Mining Ulrich Graf Betreuer: Frank Eichinger Seminar im SS 2007 Aktuelle Herausforderungen an Datenschutz und Datensicherheit in modernen Informationssystemen Institut für Programmstrukturen und Datenorganisation (IPD) – Universität Karlsruhe (TH)

Ulrich Graf, Seminar DSDS SS Motivation Data Mining gewinnt immer mehr an Bedeutung: Analysen auf Kundendaten (z.B. Payback), Datensammlung im Internet, … Sorge um Gefährdung der Privatsphäre beim Mining naturgemäß besonders hoch Gründe auch für Entwicklerinteresse: Kundenbindung durch Vertrauen Schlechte Miningergebnisse durch falsche Kundenangaben

Ulrich Graf, Seminar DSDS SS Agenda Übersicht Data Mining Privatsphäre – Gefährdungsszenarien Klassifizierung von Algorithmen anhand verschiedener Parameter Beispielalgorithmen Ausblick und Zusammenfassung

Ulrich Graf, Seminar DSDS SS Data Mining „We´re drowning in information and starving for knowledge.“ Data Mining = „Knowledge“ Mining: Finden von interessanten Mustern in großen Datenbeständen Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

Ulrich Graf, Seminar DSDS SS Data Mining – Techniken Clusteranalyse: gruppiere „ähnliche“ Datensätze, z.B. Kunden mit ähnlichem Musikgeschmack Assoziationsregeln, z.B. Warenkorbanalyse: „Wenn Kunde Käse und Wurst kauft, kauft er mit hoher Wahrscheinlichkeit auch Brot.“ Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

Ulrich Graf, Seminar DSDS SS Data Mining – Techniken Klassifikation: benutze Merkmale, um Datentupel in Klasse einzuteilen, z.B. Risikoanalyse Entscheidungsbaum, Neuronale Netze A < 0.5 A >= 0.5 … … … … hoch niedrig

Ulrich Graf, Seminar DSDS SS Data Mining - Entscheidungsbaum Aufbau des Baums mit Trainingsdaten Binärbaum wird von der Wurzel ausgehend rekursiv aufgebaut: Falls Split notwendig: Ermittle Attribut A, das die Daten optimal nach Klassen trennt Bilde Partitionen P, P´, wiederhole Algorithmus für beide Partitionen Vermeidung von Überanpassung des Modells an Trainingsdaten: Pruning Zusammenfassen von Blättern mit wenigen Datensätzen Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss A < 0.5 A >= 0.5 P P‘

Ulrich Graf, Seminar DSDS SS Was ist Privatsphäre? Unterschiedliche Definitionen: „Individual's right to be let alone“ (1890) „Das aktive Recht, darüber zu bestimmen, welche Daten über sich [...] von anderen gebraucht werden und welche Daten auf einen selbst einwirken dürfen." (Kuhlen) „Personal data […]: any information relating to an identified or identifiable natural person […]“ (EG 1995) Schutz vor Missbrauch und Identifi- zierbarkeit muss angestrebt werden Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

Ulrich Graf, Seminar DSDS SS Szenario Zentralisiertes Mining Schutz individueller Daten A < 0.5 A >= 0.5 … … … … Data Mining Mining-Ergebnis Modifikation MissbrauchIdentifizierbarkeit Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss hoch niedrig

Ulrich Graf, Seminar DSDS SS Szenario Verteiltes Mining Secure Multiparty Computation (SMC): mehrere Parteien möchten Mining gemeinsam durchführen, aber jede Partei will ihre Daten geheim halten A B C Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss A+B+C Mining A < 0.5 A >= 0.5 … … … … hoch niedrig nicht sicher

Ulrich Graf, Seminar DSDS SS Szenario Verteiltes Mining Vertrauenswürdiger Server nicht realistisch – sicheres Protokoll für direkte Kommunikation unter den Parteien notwendig A B C Sicheres Protokoll Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

Ulrich Graf, Seminar DSDS SS Parameter für Algorithmen Vielzahl von Algorithmen verfügbar Parameter: Verteilung der Daten: zentralisiert, horizontal, vertikal vertikal verteilt horizontal verteilt DM zentralisiert DM Attribute Datentupel Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

Ulrich Graf, Seminar DSDS SS Parameter für Algorithmen Parameter: Data-Mining-Ziel: Clusteranalyse, Klassifikation, … Modifikation der Eingangsdaten: Rauschfunktionen Blockieren von Werten Vertauschen von 0- und 1-Werten Swapping Sampling Aggregation Grad verbleibender Funktionalität bzw. Privatsphäre Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

Ulrich Graf, Seminar DSDS SS Algorithmen für SMC Jede polynomiell berechenbare Funktion kann sicher berechnet werden (Goldreich et al.) Beweis läuft über logische Gatter: Jede Partei besitzt eine Inputvariable Inputvariablen durch Zufallszahlen modifiziert Jede Partei berechnet ihre Outputvariable Zusammensetzen der Outputvariablen eliminiert die Zufallszahlen Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

Ulrich Graf, Seminar DSDS SS SMC – Beispiel Sichere Summe Summation wichtig für Data Mining Voraussetzung: Intervall [0,n) für die Summe bekannt (Addition in F n ). Jede der m Parteien besitzt Summand s i, i = 1, …, m. Algorithmus: 1. Partei generiert Zufallszahl R aus [0,n) und leitet V = (R+s 1 ) mod n weiter an Partei 2. Partei i = 2,…, n-1 berechnet V = (s i +V) mod n und leitet V weiter an Partei i+1. Partei n berechnet den gleichen Schritt und leitet das Ergebnis an Partei 1 weiter. Subtrahieren von R ergibt das Ergebnis. Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

Ulrich Graf, Seminar DSDS SS SMC – Sichere Summe n = 20 Im F 20: = 19 V = 18 V = 2 V = 10 s 2 = 4 s 1 = 5, R = 13 s 3 = 8 s 4 = V = 12 Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

Ulrich Graf, Seminar DSDS SS SMC Ähnliche Algorithmen für: Durchschnitt Vereinigung Skalarprodukt Berechnung der Inversen Matrix Annahme: alle Parteien stellen korrekte Inputdaten bereit Bei falschen Inputdaten wird gesamtes Ergebnis verfälscht, kein Vorteil für Datensaboteur Problem: für viele Attribute sehr aufwändig Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

Ulrich Graf, Seminar DSDS SS Auf Datenmodifikation beruhende Algorithmen Herausforderungen: Modifikation muss Privatsphäre sicherstellen Mining nicht möglich, ohne dass Information zu großem Teil in den Daten erhalten bleibt => Gegensätzliche Ziele, Kompromisse erforderlich Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss A < 0.5 A >= 0.5 … … … … Data Mining Mining-Ergebnis hoch niedrig Modifikation

Ulrich Graf, Seminar DSDS SS Datenmodifikation Beobachtung: einzelne Werte oftmals nicht entscheidend für das Mining, sondern Verteilung der Werte Addition von Rauschfunktion zufällige Werte aus Gleichverteilung bzw. Gauß´scher Verteilung Originaldaten geschützt, wenn Rauschfunktion und Originaldaten nicht unkorreliert Verteilung der Originaldaten iterativ annäherbar Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

Ulrich Graf, Seminar DSDS SS Mining mit modifizierten Daten Klassifikation mit Entscheidungsbaum Verschiedene Rekonstruktionsansätze: Global: Einmalige Rekonstruktion für jedes Attribut Nach Klassen: Trenne Daten für jedes Attribut nach den Klassen Rekonstruiere Verteilung Baue Entscheidungsbaum auf Lokal: Vorgehen wie nach Klassen getrennt Zusätzlich Rekonstruktion bei jedem Baumknoten Sehr akkurate Ergebnisse möglich: Abweichung normalerweise < 10% vom Mining-Ergebnis mit nicht modifizierten Daten Global zu ungenau, Lokal sehr aufwändig, Nach Klassen liefert fast so gute Ergebnisse wie Lokal => Nach Klassen guter Kompromiss Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

Ulrich Graf, Seminar DSDS SS Bewertung von Algorithmen Generelle Maßstäbe: Performanz Nutzbarkeit der Daten Grad der Privatsphäre Robustheit von Modifikationen gegenüber anderen Algorithmen SMC: Sicher, aber sehr hoher Aufwand – Ansätze weg von der beweisbaren Sicherheit zu mehr Performanz Datenmodifikation: Wenn Originaldaten und Rauschfunktion unkorreliert sind, kann Sicherheitslücke entstehen Bei erhältlichen Algorithmen guter Erhalt von Privatsphäre und Performanz Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

Ulrich Graf, Seminar DSDS SS Zusammenfassung / Ausblick Data Mining nicht mehr wegzudenken Ruf nach Mining, das die Privatsphäre respektiert, wird lauter Forschungsgebiet noch sehr jung, aber bereits mit guten Ergebnissen: viele Algorithmen verfügbar, die Privatsphäre und Funktionalität sichern Größte Herausforderungen in Zukunft: weg von vielen Speziallösungen hin zu performanten, generalisierbaren Lösungen Integration in Mining-Tools und DBMS Standardisierung steht noch ganz am Anfang Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss

Ulrich Graf, Seminar DSDS SS Schluss Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss Vielen Dank für die Aufmerksamkeit!