Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Lukas Kerecz - Edits1 Edits Lukas Kerecz. Lukas Kerecz - Edits2 Gliederung  Einführung  Edits – warum und wofür?  Edits – Definiton  einleitende Beispiele.

Ähnliche Präsentationen


Präsentation zum Thema: "Lukas Kerecz - Edits1 Edits Lukas Kerecz. Lukas Kerecz - Edits2 Gliederung  Einführung  Edits – warum und wofür?  Edits – Definiton  einleitende Beispiele."—  Präsentation transkript:

1 Lukas Kerecz - Edits1 Edits Lukas Kerecz

2 Lukas Kerecz - Edits2 Gliederung  Einführung  Edits – warum und wofür?  Edits – Definiton  einleitende Beispiele  Geo-Daten  relationale Daten  Edit-Typen  Einfache Edits  Logische Edits  Numerische Edits  Statistische Edits  Fuzzy Edits

3 Lukas Kerecz - Edits3 Einführung: Edits – warum und wofür? Terminologie  Semantische Datenintegrität  Datenkonsistenz  Kohärenz Funktionalitäten  Validierungsregeln  Integrity Constraints (IC's) ‏  Edits

4 Lukas Kerecz - Edits4 Edits – warum und wofür? Aufgaben von Edits sind:  aufspüren semantischer Inkosistenzen  korrigieren inkohärenter Daten  imputieren von Daten im Falle von Null-Werten (fehlende Daten) ‏ Datenquelle/Dateneingabe Datenbank Edit aufspüren korrigieren imputieren

5 Lukas Kerecz - Edits5 Edits – Definition Definition: Ein Edit ist eine Sammlung von Regeln,  die auf jedes Element des Datenbestandes anwendbar sind,  und die abhängig von den Beziehungen zwischen den entsprechenden Attributen sind. Regelsammlung Halb-Strukturierte Datenrelationale Daten

6 Lukas Kerecz - Edits6 Zitat Bernd Streitberg „We can get no intelligent software, but we need less stupid programms“

7 Lukas Kerecz - Edits7 Objekte bei der Dateneingabe 1.Fest formatierte Daten  Relationen  Sets  Listen  Dateien  Records  Fields 1.Halb-strukturierte Daten  HTML  XML

8 Lukas Kerecz - Edits8 einleitende Beispiele

9 Lukas Kerecz - Edits9 Beispiel 1: Geo-Daten Rahmenbedingungen: x = (a, b, c) beinhaltet die Strecken eines Dreiecks zwischen den Punkten A,B und C. Das Dreieck hat einen rechten Winkel bei B. A CB Regel: a² + b² = c² + c a b Pythagoras ? Passt das Tupel z = (2, 4, 3) in die Regelsammlung, bzw. ist das Tupel kosistent?

10 Lukas Kerecz - Edits10 Beispiel 2: Relationale Daten Rahmenbedingungen: Datenbankschema: Fragebogen ( ID, Alter, Schultyp, Familienstatus, Familienstand) ‏ ? Passt das Tupel z = (0010, 015, Grundschule, Kind, Single) in die Regelsammlung, bzw. ist das Tupel kosistent?

11 Lukas Kerecz - Edits11 Edit-Typen einfach Edits logische Edits numerische Edits wahrscheinlichkeitstheoretische Edits statistische Edits Fuzzy-Edits

12 Lukas Kerecz - Edits12 einfache Edits

13 Lukas Kerecz - Edits13 einfache Edits einfache Edits beziehen sich auf nur ein einzelnes Feld oder Attribut. Berücksichtigt werden hier:  der Datentyp  die Länge  Subset Constraints  Scale  Dimension

14 Lukas Kerecz - Edits14 Einfache Edits – Beispiel Syntax (in der Infix-Notation) ‏  Alter type integer  code length 4  date between (01.01.2006 – 13.08.2007) ‏  size scale cardinal  cost dimension €/Jahr

15 Lukas Kerecz - Edits15 Logische Edits

16 Lukas Kerecz - Edits16 Logische Edits – Idee for all u U if kleinergleich(Alter, 15) ‏ or Schultyp(Grundschule) ‏ then not Familienstatus(Oberhaupt) ‏ and Familienstand(Single) ‏ Verallgemeinerung: if x 1 is A 1 and x 2 is A 2 and... and x n is A n then y is B Fellegi und Holt (1973, 1976), Mamdani and Assilian (1975)‏ Wenn jemand jünger als 16 Jahre ist, oder er noch in die Grundschule geht, dann kann er nicht das Familienoberhaupt sein und er muss “nicht verheiratet” (Single) sein.

17 Lukas Kerecz - Edits17 Logische Edits in Normalform  kleinergleich (Alter, 15) Familienstatus (Oberhaupt) =.false.  kleinergleich (Alter, 15) not Familienstand (Single) =.false.  Schultyp (Grundschule) Familienstatus (Oberhaupt) =.false.  Schultyp (Grundschule) not Familienstand(Single) =.false.

18 Lukas Kerecz - Edits18 Logische Edits - Algorithmen Es gibt Algorithmen um:  Edits in Normalform zu überführen  zu entscheiden, ob ein Edit neu ist  eine Sammlung essentiell unterschiedlicher Edits zu erstellen

19 Lukas Kerecz - Edits19 Numerische Edits

20 Lukas Kerecz - Edits20 Numerische Edits  „unscharfe/ungenaue“ Werte einzelner Attribute sind nicht erlaubt  nur anwendbar auf die Datentypen „integer, real, decimal“  „Constraint Programming“ A x ≥ b (numerical constraints)‏ x ≥ 0 (nicht-Negativität)‏ x ∈ X (für alle Attribute x)‏ Fuzzy-Edits

21 Lukas Kerecz - Edits21 Numerische Edits - Beispiel Fakten: Der ehemalige Student s ist jetzt 29 Jahre alt (x 1 ), hat 6 Jahre die Grundschule besucht (x 2 ), hat 7Jahre die Oberschule besucht (x 3 ), hat 5 Jahre an der Universität studiert (x 4 ) ‏ und ist angestellt seit 2 Jahren (x 5 ) ‏ x löst die Gleichung a'x ≥ b mit folgenden Werten: a' = (1, -1, -1, -1, -1)‏ x' = (x 1, x 2, x 3, x 4, x 5 ) = (29, 6, 7, 5, 2)‏ b = 6 X = ∏ range (x i )‏

22 Lukas Kerecz - Edits22 Numerische Edits – Beispiel Gleichung: a'x ≥ b einsetzen: 29 6 7 5 2 a'x = 1 * 29 + (-1) * 6 + (-1) * 7 + (-1) * 5 + (-1) * 2 a'x = (1, -1, -1, -1, -1) * a'x = 9 => a'x ≥ b = 6

23 Lukas Kerecz - Edits23 Statistische Edits

24 Lukas Kerecz - Edits24 statistische Edits Syntax: = ± Beispiel: Umsatz = 10 ± 2 Konfidenzintervall mit Wahrscheinlichkeit 1-α (vergl. Schmid (1979))‏

25 Lukas Kerecz - Edits25 statistische Edits - Schritte Modell-Spezifikationen  Variablen  Ranges (co-domains) ‏  Konfidenzintervall unter Normalverteilung Parameter-Schätzungen / „Lernen“ es wird nur ein Wert pro Variable gemessen Interferenzen – Aufspüren, Korrigieren, Imputieren


Herunterladen ppt "Lukas Kerecz - Edits1 Edits Lukas Kerecz. Lukas Kerecz - Edits2 Gliederung  Einführung  Edits – warum und wofür?  Edits – Definiton  einleitende Beispiele."

Ähnliche Präsentationen


Google-Anzeigen