Kapitel 3: Datenschutz im öffentlichen Bereich Große zentrale Register (> 5 Mio. Einträge) Bundeszentralregister (Führungszeugnis) Personalausweisregister Stammsatzdatei für sämtliche vergebene Sozial- Versicherungsnummern Ausländerzentralregister Wehrersatzwesen - Informationssystem (WEWIS) DDR - zentrales Einwohnerregister + Personenkennzeichen (siehe BfD-Info 2 und Info 3)
Zentrale Register II ZVS Händlerregister (z.B. alle VW - Besitzer) ZeVIS - zentrales Verkehrsinformationssystem (Zugriff der Polizei) Schufa (Schutzvereinigung der Banken, 42 Mio. Einträge) GEZ - zentrale Sammlung in Köln
Große verteilte Register Melderegister Handelsregister Krankenkassen Mitgliederregister Rentenversicherungen der Arbeiter Versorgungsunternehmen Gebührendateien der Telekom
Inhalt des Bundeszentralregisters Einträge: + strafgerichtliche Verurteilung + Entmündigungen + Entscheidungen von Verwaltungsgerichten und Behörden + Vermerke über Schuldunfähigkeit + gerichtliche Feststellungen + nachträgliche Entscheidungen und Tatsachen - Personendaten - entscheidende Stelle - Tag der letzten Tat - Tag der Rechtskraft - rechtl. Bezeichnung der Tat - alle Haupt- und Nebenstrafen
Melderegister 1 Namen, Doktorgrad, Geburtsdatum, -ort; Geschlecht, Familienstand, gegenwärtige Anschrift Erwerbstätigkeit (ja/ nein), steuerrechtliche Daten gesetzliche Vertreter (s. 1 + Sterbetag) Kinder Ehegatte Staatsangehörigkeit, Religion Tag des Ein- und Auszugs, frühere Anschriften, Haupt- und Nebenwohnung Übermittlungssperren Austellung von Paß, Ausweis Ausschluß von Wahlrecht, Paßversagungsgründe Wehr- oder Zivildienstüberwachung ...
Abfragen bei ZeVIS H Daten des Halters (Name, Anschrift,Geburtsort) K Angaben zum Kraftfahrzeug A Auswahl von Kraftfahrzeugen anhand einzelner Merkmale F Negativabfrage zu Fahrerlaubnis anhand von Name und Geb. - Datum P sämtliche personenbezogenen Daten zu einem Namen oder Fahrzeug
Personenkennzeichen Ein zentrales Personenkennzeichen für alle Bundesbürger soll es nicht geben! Aber: Personalausweisnummer (automatisch erschließbar) Name, Geb-Datum , Behördenkennzahl, 5 stellige Nr. Einschränkung der Verwendung für Dateienerschließung UND: Sozialversicherungsnummer 2-stellige Bereichsnr. Geburtsdatum + 1. Buchstabe des Geburtsnamens + 3 Ziffern zur Gewährleistung der Eindeutigkeit
Zugriffsmöglichkeiten mit der Sozialversicherungsnummer Staatl. Stellen Leistungen nach SGB Sozial- Vers.- nummer zugreifen Sozialverwaltung Sozialversicherung KV RV UV Arbeits- verwal- tung Sozial- hilfe
Statistiken Quantitative Darstellung von Grob- und Feinstrukturen, die über die Betrachtung von Einzelfällen hinausgeht Relative oder absolute Angabe des Anteils einzelner Gegebenheiten mit gleichen Eigenschaften unter Bezugnahme auf eine Gesamtheit statistische Auswertungen vermitteln Rangfolgen und quantitative Zusammenhänge
Dateien mit Einzelfällen als Grundlage für Statistiken Um Statistiken erzeugen zu können, führt man eine Erhebung der Gesamtheit der Einzelfälle durch und speichert das Ergebnis anonym ab. z.B. Volkszählung Miet/ Eigentumsverhältnis bzgl. der Wohnung Bezugsdatum Ausstattung der Wohnung Heizart Zahl der Räume (>6 qm) Wohnfläche Miethöhe Art der Wohnung ... Person Geburtshalbjahr Geschlecht Familienstand Religion Staatsangehörigkeit Erwerbstätigkeit Ausbildung Verkehrsmittel ...
Beispiel für eine Statistikdatei Tabelle 1a: SDB mit N = 13 Studenten Name Geschlecht Hauptfach Jahrgang ND SAT Allen Weiblich Chemie 1980 3.4 600 Baker Weiblich Englisch 1980 2.5 520 Cook Männlich Englisch 1978 3.5 630 Davis Weiblich Chemie 1978 4.0 800 Evans Männlich Biologie 1979 2.2 500 Frank Männlich Englisch 1981 3.0 580 Good Männlich Chemie 1978 3.8 700 Hall Weiblich Kunst 1979 2.8 580 Iles Männlich Chemie 1981 3.2 600 Jones Weiblich Biologie 1979 3.8 750 Kline Weiblich Kunst 1981 2.5 500 Lane Männlich Englisch 1978 3.0 600 Moore Männlich Chemie 1979 3.5 650 ND = Notendurchschnitt SAT = Schüler Eignungsprüfung
Beispiel für eine Statistikdatei Notendurchschnitt der Biologie- studenten = 3 (n=2); der weibl. Kunst und Bio- Stud. =3,33 (n=3); der weibl. Kunststud. =2,65 (n=2); Beispiel für eine Statistikdatei Beispiel Tabelle 1a: SDB mit N=13 Studenten Notendurchschnitt der männlichen Biologie- studenten = 2.2 (n=1)
Prinzip der Deanonymisierung Angreifer Deanonymisierungsaktivität einer beliebigen Person eine be- liebige Eigen- schaft xi zuordnen beliebigen Person Pi beliebige Eigenschaften xi zuordnen Einer ausge- wählten Person Pi möglichst viele Eigen- schaften xi zuordnen zu einer Eigenschaft xi möglichst viele Pi finden prüfen, ob für Pi xi gilt Muß SP in YY enthalten sein? Zuordnungsver- suche mittels Ei entspricht ge- fundene SP dem Interesse? Ausreißer aufspüren ja ja Treffer Anonyme Datei XX Identifkationsfile YY Datensatz einer statistischen Person SP Datensatz zu einer Person allgemeines Zusatz- wissen N N Eigenschaft xi Zusatzwissen Zi N N vergleichb. Eigenschaft Ei vergleichb. Eigenschaft Ei
Mögliche Ergebnisse der Zuordnung interessante Person 1 Datensatz aus XX; anonym n Datensatz aus YY a m m b n m c m m > n 1 1 zx zy interessante Eigenschaft xi interessantes Zusatzwissen Zi Annahme: XX ist Teilmenge von YY a) auf m-n Personen trifft die Zuordnung nicht zu. Falls zy für alle m gegeben ist, kann Zi zu XX hinzugefügt werden b) Es liegt ein Fehler vor c) Falls zx für alle m zutrifft, dann trifft xi auf die gefundenen Personen zu YY ist Teilmenge von XX a) Fehler b und c) Falls zx für "m, dann trifft Xi für alle gefundenen Personen zu
Mögliche Ergebnisse der Zuordnung A) 5 Personen aus XX sind >2m (Ei), 10 Personen aus YY sind >2m und alle sind verheiratet (Zi) --> alle 5 Personen aus XX sind verheiratet interessante Person 1 Datensatz aus XX; anonym n Datensatz aus YY a m m b n m c m m > n 1 1 zx zy interessante Eigenschaft xi interessantes Zusatzwissen Zi Annahme: XX ist Teilmenge von YY a) auf m-n Personen trifft die Zuordnung nicht zu. Falls zy für alle m gegeben ist, kann zi zu XX hinzugefügt werden b) Es liegt ein Fehler vor c) Falls zx für alle m zutrifft, dann trifft xi auf die gefundenen Personen zu YY ist Teilmenge von XX a) Fehler b und c) Falls zx für "m, dann trifft xi für alle gefundenen Personen zu
Mögliche Ergebnisse der Zuordnung B) 5 Personen aus XX sind >2m (Ei), 3 Personen aus YY sind >2m --> geht nicht, da alle Personenn aus XX in YY repräsentiert sein müssen interessante Person 1 Datensatz aus XX; anonym n Datensatz aus YY a m m b n m c m m > n 1 1 zx zy interessante Eigenschaft xi interessantes Zusatzwissen Zi Annahme: XX ist Teilmenge von YY a) auf m-n Personen trifft die Zuordnung nicht zu. Falls zy für alle m gegeben ist, kann zi zu XX hinzugefügt werden b) Es liegt ein Fehler vor c) Falls zx für alle m zutrifft, dann trifft xi auf die gefundenen Personen zu YY ist Teilmenge von XX a) Fehler b und c) Falls zx für "m, dann trifft xi für alle gefundenen Personen zu
Mögliche Ergebnisse der Zuordnung C) 5 Personen aus XX sind >2m (Ei) und haben 3 Kinder (Xi), 5 Personen aus YY sind >2m (Ei) --> die gefundenen Personen aus YY haben jeweils drei Kinder interessante Person 1 Datensatz aus XX; anonym n Datensatz aus YY a m m b n m c m m > n 1 1 zx zy interessante Eigenschaft xi interessantes Zusatzwissen Zi Annahme: XX ist Teilmenge von YY a) auf m-n Personen trifft die Zuordnung nicht zu. Falls zy für alle m gegeben ist, kann zi zu XX hinzugefügt werden b) Es liegt ein Fehler vor c) Falls zx für alle m zutrifft, dann trifft xi auf die gefundenen Personen zu YY ist Teilmenge von XX a) Fehler b und c) Falls zx für "m, dann trifft xi für alle gefundenen Personen zu
Mögliche Ergebnisse der Zuordnung A) 5 Personen aus XX sind >2m (Ei) und haben 3 Kinder (Xi), 10 Personen aus YY sind >2m (Ei) --> nicht möglich, da alle Personen aus YY in XX repräsentiert sind interessante Person 1 Datensatz aus XX; anonym n Datensatz aus YY a m m b n m c m m > n 1 1 zx zy interessante Eigenschaft xi interessantes Zusatzwissen Zi Annahme: XX ist Teilmenge von YY a) auf m-n Personen trifft die Zuordnung nicht zu. Falls zy für alle m gegeben ist, kann zi zu XX hinzugefügt werden b) Es liegt ein Fehler vor c) Falls zx für alle m zutrifft, dann trifft xi auf die gefundenen Personen zu YY ist Teilmenge von XX a) Fehler b und c) Falls zx für "m, dann trifft xi für alle gefundenen Personen zu
Mögliche Ergebnisse der Zuordnung B) 5 Personen aus XX sind >2m (Ei) und haben 3 Kinder (Xi), 5 oder 3 Personen aus YY sind >2m (Ei) --> alle Personen aus YY haben drei Kinder interessante Person 1 Datensatz aus XX; anonym n Datensatz aus YY a m m b n m c m m > n 1 1 zx zy interessante Eigenschaft xi interessantes Zusatzwissen Zi Annahme: XX ist Teilmenge von YY a) auf m-n Personen trifft die Zuordnung nicht zu. Falls zy für alle m gegeben ist, kann zi zu XX hinzugefügt werden b) Es liegt ein Fehler vor c) Falls zx für alle m zutrifft, dann trifft xi auf die gefundenen Personen zu YY ist Teilmenge von XX a) Fehler b und c) Falls zx für "m, dann trifft xi für alle gefundenen Personen zu
Begünstigung der Deanonymisierung Ausreißer - z.B. Man weiß, daß es nur 1 Person mit einer bestimmten Merkmalsausprägung gibt ... daß es eine Person mit einer solchen Ausprägung gibt (eine städtische Statistik weist 0 Andoraner aus => der andoranische Nachbar ist nicht gemeldet) Ausgaben zu Anfragen erlauben auch kleine Stichproben Beliebig viele Anfragen Verfügbarkeit großer, nicht-anonymisierter Register
Deanonymisierungsbeispiel anhand einer Unfallstatistik Datei 1) Journalist will beweisen, daß Reidentifikation gelingt (ein Fall genügt). 2) Fährt P vielleicht in betrunkenem Zustand? 3) Bei Unfällen prüfen, ob ein Mitarbeiter betroffen ist. ZEVIS + B Arbeitnehmerdatei eines Autokonzerns Personendaten Name Geschlecht Alter Wohnung Wohnort ... ... gekaufter Werks- Kaufdatum wagen KFZ-Typ Baujahr Farbe Fehlzeiten Art von bis A PKW - Unfälle Statistikdatei KFZ-Daten Typ Farbe Baujahr Unfall-Daten Ursache Tag S-Schaden P-Schaden KFZ-Halter- Alter Daten Geschlecht KFZ Halter= Fahrer Wohnort
Maßnahmen gegen Re-Identifizierung (1) Verschlüsselung oder Pseudonyme Formale Anonymisierung - offensichtlich mehr oder weniger eindeutige Identifikationsmerkmale wie Name, Adresse, Telefonnummer werden weggelassen Vergröberung der Merkmale etwa durch Rundung oder Klassenbildung; statt "Mainz" wird "Großstadt" eingetragen, statt des Geburtsdatums "Alter 40 - 49" Weglassen von einzelnen Datenfeldern mit extremen Merkmalsausprägungen wie "Größe 2.12 m" oder "Beruf: Bundeskanzler".
Maßnahmen gegen Re-Identifizierung (2) Störung der Daten durch absichtliche Fehler, etwa Addition einer zufälligen Größe oder zufällige Rundung. Stichprobenziehung - Statistische Prozeduren werden jeweils nur auf eine Stichprobe aus der Abfragemenge angewendet. Konstruktion synthetischer Datensätze, so daß die multivariate Verteilung möglichst wenig verändert wird: Austausch von Daten zwischen Datensätzen, Aggregation - Mittelbildung über jeweils 3 bis 5 Datensätze.
Schützendes Verändern reduzieren entschärfen filtern vergröbern aggregieren entpersonalisieren anonymisieren verschlüsseln der Identifikations- merkmale pseudonymi- sieren Stichprobe ziehen löschen sperren