Datenverwaltung Agenda für heute, 14. April 2010 Datenmodellierung

Slides:



Advertisements
Ähnliche Präsentationen
ER-Datenmodell und Abfragen in SQL
Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Datenbankdesign mit ACCESS.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Datenbanken Einführung.
spezielle Nutzersichten formale Ebene (deskriptive Regeln)
Datenmodellierung Externe Phase Informationsstruktur
Objekt – Relationales – Modell Tomasz Makowski IN
Telefonnummer.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Kapitel 4 Datenstrukturen
Ein Entity Relationship Diagramm zur ADB/NDB
Das Entity-Relationship-Modell
Kapitel 3: Das Relationenmodell
Java: Objektorientierte Programmierung
Datenbankentwurf mit Hilfe des ER-Modells entwickeln
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
PKJ 2005/1 Stefan Dissmann Zusammenfassung Bisher im Kurs erarbeitete Konzepte(1): Umgang mit einfachen Datentypen Umgang mit Feldern Umgang mit Referenzen.
Access 2000 Datenbanken.
Datenbanken Einführung Merkmale dateiorientierte Datenverwaltung
Normalformen Normalisieren Schlüssel
6 Normalformen Normalisieren Schlüssel
Einführung Dateisystem <-> Datenbanksystem
Dieter Bergmann, Lichtenfels
AWA 2007 Natur und Umwelt Natürlich Leben
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
... und alles was dazugehört
20:00.
Zusatzfolien zu B-Bäumen
Datenbanken?.
Datenbank-entwicklungsprozess
Datenbank.
Where Europe does business Lück, JDZB | Seite © GfW NRW 252 a.
Betrieb von Datenbanken Marco Skulschus & Marcus Wiederstein Datenmanipulation Lehrbuch, Kapitel 4.
Daten verwalten (2)Daten verwalten (2) Logische Verknüpfungen als Grundlage für die Informationsgewinnung Werte von Aussagen: Wahrheitstabellen Grafische.
Datenverwaltung Agenda für heute, 16. April 2008 Datenmodellierung
SS 2010 – IBB4C Datenmanagement Fr 15:15 – 16:45 R Vorlesung #2 Datenbankentwurf.
Analyse von Ablaufdiagrammen
Allgemeines zu Datenbanken
HORIZONT 1 XINFO ® Das IT - Informationssystem PL/1 Scanner HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.
PROCAM Score Alter (Jahre)
(D.h. „Hallo MausFans!“ auf Japanisch).
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Einführung in Datenbankmodellierung und SQL
Freiwillige Feuerwehr der Stadt Perg
Aggregatsfunktion SQL = Structured Query Language.
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
SQL - Structured Query Language AIFB SS (1/9) Join-Operationen in SQL-92(1/9) Syntax einer Join-Operation: join-op := CROSS JOIN | [NATURAL]
Relationale Datenbanken
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Daten verwalten (2) Agenda für heute, 29. April 2009
Daten verwalten (2) Agenda für heute, 30. April 2008
Agenda für heute, 15. Dezember 2006
Agenda für heute, 20. November 2009
Agenda für heute, 7. November 2008 DatenverwaltungDatenverwaltung Datenmodellierung Pause Datenbankentwurf Relationale Operatoren und SQL Datenschutz:
Agenda für heute, 6. November 2009
Agenda für heute, 21. November 2008
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Verdichten von Daten mit Gruppenfunktionen
Technische Frage Technische Frage Bitte löse die folgende Gleichung:
Structured Query Language
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
Einführung Dateisystem <-> Datenbanksystem
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
Vom Konzept zur Datenbank
Von Wietlisbach, Lenzin und Winter
 Präsentation transkript:

Datenverwaltung Agenda für heute, 14. April 2010 Datenmodellierung Pause Datenbankentwurf Relationale Operatoren und SQL Datenschutz: Statistische Datenbanken

Das heutige Thema im Kontext des Informationsarbeitsplatzes 2/44

Elemente der Datenverwaltung Speicherkapazität + Rechenleistung Leute Information Daten Computer Programme Daten-verwaltung Verarbeitung + Speicherung Algorithmen + Datenstrukturen 3/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Datenverwaltung: Form follows Function Verarbeitung stellt Anforderungen an Speicherung für: Unterstützung bei: - Einfügen, - Löschen, - Suchen, - Selektieren von Daten Algorithmen Art der Speicherung grenzt Verarbeitung ein durch: Einschränkung von: - Grösse - Flexibilität - Kompatibilität Datenstrukturen 4/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Datenverwaltung braucht ein universelles Speichermedium Tabellen: die praktischste Datenstruktur um den Speicher zu organisieren. Tabellen erfüllen wichtige Anforderungen an die Speicherung von Daten. Grösse: Tabellen lassen sich leicht aufteilen oder zusammenfügen, das Resultat sind wieder Tabellen Flexibilität: Sowohl die Anzahl Spalten als auch die Anzahl Zeilen sind frei wählbar Kompatibilität: Tabellen lassen sich einfach zwischen Anwendungen austauschen. 5/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Die Tabelle als universelles Speichermedium Nährwerte Schokoladencornet Nährstoff Wert Einheit Energie 1'230 kJ Protein 4.70 g Fett, total 13.40 Fettsäuren, gesättigt 7.00 Cholesterin 27.00 mg Nährwerte Schokoladencornet Nährstoff Wert Einheit Energie 1'230 kJ Protein 4.70 g Fett, total 13.40 Cholesterin 27.00 mg Nährwerte Schokoladencornet Nährstoff Wert Einheit Energie 1'230 kJ Wasser 40.50 g Protein 4.70 Fett, total 13.40 Cholesterin 27.00 mg löschen suchen löschen einfügen selektieren ([Spalte_x, Zeile_y]) 6/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Die Tabelle als flexibles Speichermedium Die Tabelle kann man so organisieren, dass sie mit zusätzlichen Spalten erweitert werden kann: Nährwerte Schokoladenprodukte Nährstoff Cornet Pudding Schokolade … Einheit Energie 1'230 498 2'258 kJ Wasser 40.50 71.20 1.30 g Protein 4.70 3.00 7.50 Fett, total 13.40 2.60 32.90 Fettsäuren, gesättigt 7.00 0.40 19.10 Cholesterin 27.00 20.00 mg 7/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Die Tabelle als flexibles Speichermedium Oder so, dass sie mit zusätzlichen Zeilen grösser wird: Nährwerte Schokoladenprodukte Produkt Energie Wasser Protein Fett, total Fettsäuren, gesättigt Cholesterin Cornet 1'230.0 40.5 4.7 13.4 7.0 27.0 Pudding 498.0 71.2 1.3 2.6 0.4 3.0 Schokolade 2'258.0 7.5 32.9 19.1 20.0 … Einheit kJ g mg Nehmen wir an, wir möchten nun den Zuckergehalt von Schokoladen-Rahmglace speichern. 8/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Probleme mit der Tabelle als flexibles Speichermedium . . . dann gibt es "Löcher" in der Tabelle: Nährwerte Schokoladenprodukte Produkt Energie Wasser Protein Zucker Fett, total Fettsäuren, gesättigt Cholesterin Cornet 1'230.0 40.5 4.7 13.4 7.0 27.0 Pudding 498.0 71.2 1.3 2.6 0.4 3.0 Rahmglace 24.6 Schokolade 2'258.0 7.5 32.9 19.1 20.0 Einheit kJ g mg . . . und diese Verursachen Probleme bei der Verarbeitung und bei der Darstellung der Daten. Dies lässt sich mit "Listen" vermeiden. 9/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Vereinfachung der Struktur durch linearisieren der Einträge Nährwerte Schokoladenprodukte Produkt Nährstoff Wert Einheit Cornet Energie 1'230 kJ Wasser 40.50 g Protein 4.70 Fett, total 13.40 Fettsäuren, gesättigt 7.00 Cholesterin 27.00 mg Pudding 498 71.20 3.00 2.60 0.40 Rahmglace Zucker 24.6 Redundanz Vorteil Einfache Speicherung Einfache Verarbeitung Nachteil Gross Unübersichtlich 10/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Die Nachteile einfacher Listen lassen sich beheben Übersichtlichkeit wieder gewinnen Listeneinträge selektieren Zusammenfassungen berechnen Daten reformatieren: Pivot-Tabellen Voraussetzung: Die Daten sind als Liste organisiert. Redundanz eliminieren Tabelle entlang Spaltengrenzen aufteilen Wiederholungen in Teiltabellen entfernen Einträge in Teiltabellen indizieren Über Indizes Verbindung zu abgetrennten Teilen herstellen 11/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Daten thematisch in verschiedene Tabellen aufteilen eliminieren Die Einträge der neuen Tabellen über Querverweise verbinden 12/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Konsequenzen für die Datenverwaltung Damit Daten für ihre Verarbeitung zweckmässig gespeichert werden können, müssen deren Eigenschaften erkannt, und vereinfacht dargestellt werden. So wie die Naturwissenschaften komplexe Zusammenhänge mit Modellen vereinfacht und sichtbar macht, verwendet die Informatik Datenmodelle um Merkmale von Daten und deren Beziehungen zueinander zu erfassen. 13/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Datenmodellierung Datenverwaltung Pause Datenbankentwurf Relationale Operatoren und SQL Datenschutz: Statistische Datenbanken

Hilfsmittel für die Modellierung von Daten Eine Beschreibung der Verarbeitung und Speicherung der Daten muss für Leute verständlich sein, sich aber auch für die Programmierung eignen! Methode Unterstützt Mind mapping Gedanken assoziativ spontan darstellen Concept Maps Wissen kontextabhängig organisieren und darstellen Entity-Relationship Modell Datenbankgerechte Darstellung von Objekten, deren Merkmale und Beziehungen zueinander 14/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Merkmale um den Begriff "Lebensmittel" zu beschreiben Mind mapping Merkmale um den Begriff "Lebensmittel" zu beschreiben 15/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Concept maps 16/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Entity-Relationship-Diagramm (Chen Notation) Beziehungstyp (Kardinalität) Name Nährstoff Name Typ 1 m m 1 Nahrungsmittel Analyse Nährstoffe Nährstoffe Wert Methode Masseinheit Entitätsmenge Entitätsmenge Beziehung (Relationship) Merkmal (Attribut) 17/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Anwendung des E-R-Modells: Tabellen für Entitätsmengen Nährwerte Name Aprikose Kochbutter Paranuss CH-Code 18.1.2.1 12.1.2.Z.2 18.1.6.6 Protein 0.8 0.5 13 Masseinheit g Wasser 86.79 16.6 5.929 Kalium 315 20 680 mg Kohlehydrate 12.1 0.7 11.8 Vitamin E 1.75 7 Attribut Attributname Entität 18/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Vereinfachung: Entflechten von Information Nahrungsmittel Name Aprikose Bürli CH-Code 18.1.2.1 12.1.2.Z.2 Nährstoff_id 180 84 57 Menge 86.79 12.1 0.4 39.632 48.802 2.032 Verbindende Indizes Nährstoffe Nährstoff_id 57 84 180 178 Name_d Eisen Kohlehydrate Wasser Vitamin K Name_f Fer Hydrate de carbon Eau Vitamine K Name_i Ferro Carboidrati Acqua Vitamina K Masseinheit mg g Primärschlüssel Fremdschlüssel 19/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Tabellen für Beziehungen (Relationships) Nahrungsmittel NMittel_id 1000842 1001511 Name_d Aprikose Bürli Name_f Abricot Name_i Albicocca CH-Code 18.1.2.1 12.1.2.Z.2 Analyse Analyse_id 1 2 NMittel_id 1000842 1001511 Nährstoff_id 180 84 Quelle CIQUAL Inst. f. LMW Menge 86.79 48.802 Methode unbekannt Summenwert Person M. Racher S. Jacob 1 m m Nährstoffe Nährstoff_id 180 84 57 178 Name_d Wasser Kohlehydrat Eisen Vitamin K Name_f Eau Hydrate de carbon Fer Vitamine K Name_i Acqua Carboidrati Ferro Vitamina K Masseinheit g mg 1 20/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Zusammenfassung 21/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Datenbankentwurf Datenverwaltung Datenmodellierung Pause Relationale Operatoren und SQL Datenschutz: Statistische Datenbanken

Entity-Relationship-Modell Modelle vs. Schemata Modellierung der Daten aus der realen Welt Entity-Relationship-Modell Konzeptionelles Schema Relationales Datenmodell Modellierung der Daten im Rechner 22/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Grundlagen für den Datenbankentwurf Selektive Abfrage Basisdaten Datenbank Konzeptionelles Schema Logische Gesamtstruktur Eigenschaften der Daten Beziehungen unter den Daten Datenmodell Internes Schema Externes Schema Datenstrukturen Datentypen Zugriffsmechanismen Anwendungsspezifische Sicht auf die Daten 23/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Das Verbreitetste: Das Relationenmodell Tabellen in denen Einträge (Tupel) eingefügt, gelöscht oder geändert werden können (Mutationen) Verteilen von Daten auf mehrere Tabellen (Normalisieren) reduziert Redundanz, d.h. die wiederholte Speicherung gleicher Werte Verknüpfen von Daten aus den individuellen Tabellen mit relationalen Operatoren stellt die ursprüngliche Information wieder her 24/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Elemente einer Relation Relationname Attributname Attribut Nährwerte Name CH-Code Wasser Masseinh. Kohlehyd Eisen Aprikose 18.1.2.1 86.79 g 12.1 0.4 mg Bürli 12.1.2.Z.2 39.632 2.032 Tupel Attributwert 25/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Normalisieren: Verteilen von Daten auf mehrere Tabellen Nährwerte Name CH-Code Wasser Masseinh. Kohlehyd Eisen Aprikose 18.1.2.1 86.79 g 12.1 0.4 mg Bürli 12.1.2.Z.2 39.632 2.032 Nahrungsmittel Name CH-Code Nährstoff_id Menge Aprikose 18.1.2.1 180 86.79 84 12.1 57 0.4 Bürli 12.1.2.Z.2 39.632 48.802 2.032 Nährstoffe Nährstoff_id Name_d Name_f Name_i Masseinh. 57 Eisen Fer Ferro mg 84 Kohlehydrate Hydrate de carbon Carboidrate g 180 Wasser Eau Acqua 26/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Daten zusammenführen: Nährwerte von Bürli Nahrungsmittel Name CH-Code Nährstoff_id Menge Aprikose 18.1.2.1 180 86.79 84 12.1 57 0.4 Bürli 12.1.2.Z.2 39.632 48.802 2.032 Name CH-Code Nährstoff_id Menge Aprikose 18.1.2.1 180 86.79 84 12.1 57 0.4 Bürli 12.1.2.Z.2 39.632 48.802 2.032 Nährwerte Name Name_d Menge Bürli Wasser 39.632 Kohlehydrate 48.802 Nährstoffe Id_Nr Name_d Name_f Name_i Masseinh. 57 Eisen Fer Ferro mg 84 Kohlehydrate Hydrate de carbon Carboidrate g 180 Wasser Eau Acqua 27/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Relationale Operatoren und SQL Datenverwaltung Datenmodellierung Pause Datenbankentwurf Relationale Operatoren und SQL Datenschutz: Statistische Datenbanken

Relationale Operatoren Die drei wichtigsten Operatoren der relationalen Algebra für das Manipulieren von Tabellen sind: a) Selection Wählt diejenigen Tupel einer Relation aus, welche bestimmte Bedingungen erfüllen b) Projection Wählt eine oder mehrere Spalten einer Relation aus c) Join Paart selektiv Spalten aus verschiedenen Relationen 28/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Datenbanken abfragen: SQL "Wieviele Nahrungsmittel enthalten weniger als 50 g Kohlehydrate ?" Natürlichsprachlich formulierte Frage Abfragesprache für Datenbanken z.B. SQL (Structured Query Language) SELECT Menge FROM Nährstoffe WHERE Nährstoff_id = 84 AND Menge < 50 Nährstoffe Tabellarische Ausgabe (Relation) 29/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Projection mit dem SQL-Befehl SELECT Attribut Relation SELECT CH-Code FROM Nahrungsmittel Nahrungsmittel Name CH-Code Nährstoff_id Menge Aprikose 18.1.2.1 180 86.79 84 12.1 Paranuss 18.1.6.6 5.929 Bürli 12.1.2.Z.2 39.632 48.802 57 2.032 Resultat: CH-Code 18.1.2.1 18.1.6.6 12.1.2.Z.2 30/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Selection mit dem SQL-Befehl SELECT Attributwert SELECT * FROM Nahrungsmittel WHERE Menge < 15 Nahrungsmittel Name CH-Code Nährstoff_id Menge Aprikose 18.1.2.1 180 86.79 84 12.1 Paranuss 18.1.6.6 5.929 Bürli 12.1.2.Z.2 39.632 48.802 57 2.032 Resultat: Name CH-Code Nährstoff_id Menge Aprikose 18.1.2.1 84 12.1 Paranuss 18.1.6.6 180 5.929 Bürli 12.1.2.Z.2 57 2.032 31/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Selection + Projection mit dem SQL-Befehl SELECT SELECT Nährstoff_id, Menge FROM Nahrungsmittel WHERE Nährstoff_id = 84 Nahrungsmittel Name CH-Code Nährstoff_id Menge Aprikose 18.1.2.1 180 86.79 84 12.1 Paranuss 18.1.6.6 5.929 Bürli 12.1.2.Z.2 39.632 48.802 57 2.032 Resultat: Nährstoff_id Menge 84 12.1 48.802 32/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Wie SELECT-Abfragen am besten gelesen werden SELECT Nährstoff_id, Menge FROM Nahrungsmittel WHERE Nährstoff_id = 84    Die FROM-Klausel sagt, welche Relationen involviert sind. Die WHERE-Klausel zeigt, welche Attribute wichtig sind. Die SELECT-Klausel gibt an, was ausgegeben wird. 33/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Selection + Projection + Join mit dem SQL-Befehl SELECT SELECT Name, Name_d, Menge FROM NM, NS WHERE Name = Bürli AND Menge > 30 NM Resultat: Name CH-Code Nährstoff_id Menge Aprikose 18.1.2.1 180 86.79 84 12.1 57 0.4 Bürli 12.1.2.Z.2 39.632 48.802 2.032 NM.Name NS.Name_d NM.Menge Bürli Wasser 39.632 Kohlehydrate 48.802 NS Id_Nr Name_d Name_f Name_i Masseinh. Hauptkomp. 57 Eisen Fer Ferro mg ja 84 Kohlehydrate Hydrate de carbon Carboidrate g 180 Wasser Eau Acqua 34/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Datenschutz: Statistische Datenbanken Datenverwaltung Datenmodellierung Pause Datenbankentwurf Relationale Operatoren und SQL Datenschutz: Statistische Datenbanken

Statistische Datenbanken Vertrauliche Daten Abfragen beschränkt auf statistische Operationen (Aggregationen), die SQL zur Verfügung stellt: COUNT SUM MEAN MIN MAX 35/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Statistische Datenbanken Abfragen an Datenbanken werden als logischer Ausdruck formuliert Beispiel Suche: "Direktor OR weiblich AND (Gehalt ≥ 180000)" Bei statistischen Datenbanken sind Antworten Resultate von Aggregations-Operatoren Somit stehen nur statistische Daten zur Verfügung Es werden empfindliche Daten nicht preisgegeben Trotzdem kann es leicht sein, bestimmte vertrauliche Daten durch geeignete statistische Abfragen, die Rückschlüsse zulassen, herzuleiten! 36/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Gewisses Vorwissen erlaubt Rückschlüsse: Beispiel 1 Die Daten sind erfunden, Ähnlichkeiten mit lebenden Personen sind rein zufällig! Von Urs Schmied (im Bild rechts) wissen wir, dass er zwischen 34 und 36 Jahre alt ist Jus studierte bei der UBS eine Position als Vizepräsident inne hat 37/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Gewisses Vorwissen erlaubt Rückschlüsse: Beispiel 1 Wir wissen auch, dass er im Spital ist, aber nicht wieso. Weil wir Zugang zur statistischen Datenbank des Spitals haben, formulieren wir eine COUNT-Abfrage: Wie viele Patienten haben folgende Eigenschaften? Männlich Alter 34 – 36 Verheiratet Zwei Kinder Lic.jur. Bank-Vizepräsident Antwort: 1 Wir gehen davon aus, dass es sich um Urs handelt und erhalten somit vertrauliche Informationen über ihn durch erweitern der Abfrage: 38/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Gewisses Vorwissen erlaubt Rückschlüsse: Beispiel 1 Wie viele Patienten haben folgende Eigenschaften? Männlich Alter 34 – 36 Verheiratet Zwei Kinder Lic.jur. Bank-Vizepräsident Nehmen Antidepressiva Das System wird mit "1" antworten, falls Schmied Antidepressiva erhält, sonst mit "0" 39/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Lassen sich solche Rückschlüsse verhindern? Ursache: Einfaches Prinzip der "Blossstellung" um X zu bestätigen Eine Abfrage deren Antwortgrösse 1 ist Die Antwortgrösse der Abfrage AND X Schutz: minimale Antwortgrösse, k, verlangen, d.h. Antworte auf keine Abfrage, die weniger als k oder mehr als n-k Datensätze in der Antwort hat. n = totale Anzahl Datensätze in der Datenbank Diese Kontrolle ist leider nicht sehr wirksam. 40/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Gewisses Vorwissen erlaubt Rückschlüsse: Beispiel 2 Geheime Wahlspenden Name Geschlecht Beruf Spende (CHF) Schamanski M Journalist 3000 Staub 500 Bertolli Unternehmer 1 Ott W 5000 Zwahlen Wissenschaftler 1000 Koller 20000 Waser Arzt 2000 Schmid Anwalt 10000 n = 8; bei k =2: min. Antwortgrösse = 2, max. Antwortgrösse = 6 41/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Rückschlüsse mittels "Tracker" Die Frage: (Beruf = Journalist AND Geschlecht = W) identifiziert Ott eindeutig (Antwort = 1). Schutz Die minimale Anwortgrösse (2) verhindert, dass geantwortet wird. Umgehung Kleine Antwortmengen "füttern", damit sie die minimale Antwortgrösse erreichen. Danach wird der Effekt der zusätzlichen Datensätze subtrahiert. Die Formel, welche die zusätzlichen Datensätze identifiziert, wird "Tracker" genannt (To "track down" additional characteristics of an individual) 42/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Tracker anwenden Frage: Wie viele Personen sind Journalist? Antwort: 3 Frage: Wie viele Personen sind Journalist AND M? Antwort: 2 Rückschluss: (Journalist AND W) identifiziert 1 Individuum (Ott) Frage: Summe der Spenden der Journalisten? Antwort: CHF 8500 Frage: Summe der Spenden Journalist AND M? Antwort: CHF 3500 Rückschluss: Spende der einzigen Journalistin = CHF 5000! 43/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Kontrolle ist schwierig Abfragen tragen unweigerlich Information aus einer Datenbank Man kann deshalb nicht annehmen, dass sich ein System nie Blossstellen lässt Deshalb Zugriffe aufzeichnen (threat monitoring) Notwendiger Aufwand für Blossstellungen hoch halten 44/44 Informatik für Biol. & Pharm. Wissenschaften © Departement Informatik, ETH Zürich

Danke für Ihre Aufmerksamkeit