Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Birgit Kirchner Geändert vor über 8 Jahren
1
Lukas Kerecz - Edits1 Edits Lukas Kerecz
2
Lukas Kerecz - Edits2 Gliederung Einführung Edits – warum und wofür? Edits – Definiton einleitende Beispiele Geo-Daten relationale Daten Edit-Typen Einfache Edits Logische Edits Numerische Edits Statistische Edits Fuzzy Edits
3
Lukas Kerecz - Edits3 Einführung: Edits – warum und wofür? Terminologie Semantische Datenintegrität Datenkonsistenz Kohärenz Funktionalitäten Validierungsregeln Integrity Constraints (IC's) Edits
4
Lukas Kerecz - Edits4 Edits – warum und wofür? Aufgaben von Edits sind: aufspüren semantischer Inkosistenzen korrigieren inkohärenter Daten imputieren von Daten im Falle von Null-Werten (fehlende Daten) Datenquelle/Dateneingabe Datenbank Edit aufspüren korrigieren imputieren
5
Lukas Kerecz - Edits5 Edits – Definition Definition: Ein Edit ist eine Sammlung von Regeln, die auf jedes Element des Datenbestandes anwendbar sind, und die abhängig von den Beziehungen zwischen den entsprechenden Attributen sind. Regelsammlung Halb-Strukturierte Datenrelationale Daten
6
Lukas Kerecz - Edits6 Zitat Bernd Streitberg „We can get no intelligent software, but we need less stupid programms“
7
Lukas Kerecz - Edits7 Objekte bei der Dateneingabe 1.Fest formatierte Daten Relationen Sets Listen Dateien Records Fields 1.Halb-strukturierte Daten HTML XML
8
Lukas Kerecz - Edits8 einleitende Beispiele
9
Lukas Kerecz - Edits9 Beispiel 1: Geo-Daten Rahmenbedingungen: x = (a, b, c) beinhaltet die Strecken eines Dreiecks zwischen den Punkten A,B und C. Das Dreieck hat einen rechten Winkel bei B. A CB Regel: a² + b² = c² + c a b Pythagoras ? Passt das Tupel z = (2, 4, 3) in die Regelsammlung, bzw. ist das Tupel kosistent?
10
Lukas Kerecz - Edits10 Beispiel 2: Relationale Daten Rahmenbedingungen: Datenbankschema: Fragebogen ( ID, Alter, Schultyp, Familienstatus, Familienstand) ? Passt das Tupel z = (0010, 015, Grundschule, Kind, Single) in die Regelsammlung, bzw. ist das Tupel kosistent?
11
Lukas Kerecz - Edits11 Edit-Typen einfach Edits logische Edits numerische Edits wahrscheinlichkeitstheoretische Edits statistische Edits Fuzzy-Edits
12
Lukas Kerecz - Edits12 einfache Edits
13
Lukas Kerecz - Edits13 einfache Edits einfache Edits beziehen sich auf nur ein einzelnes Feld oder Attribut. Berücksichtigt werden hier: der Datentyp die Länge Subset Constraints Scale Dimension
14
Lukas Kerecz - Edits14 Einfache Edits – Beispiel Syntax (in der Infix-Notation) Alter type integer code length 4 date between (01.01.2006 – 13.08.2007) size scale cardinal cost dimension €/Jahr
15
Lukas Kerecz - Edits15 Logische Edits
16
Lukas Kerecz - Edits16 Logische Edits – Idee for all u U if kleinergleich(Alter, 15) or Schultyp(Grundschule) then not Familienstatus(Oberhaupt) and Familienstand(Single) Verallgemeinerung: if x 1 is A 1 and x 2 is A 2 and... and x n is A n then y is B Fellegi und Holt (1973, 1976), Mamdani and Assilian (1975) Wenn jemand jünger als 16 Jahre ist, oder er noch in die Grundschule geht, dann kann er nicht das Familienoberhaupt sein und er muss “nicht verheiratet” (Single) sein.
17
Lukas Kerecz - Edits17 Logische Edits in Normalform kleinergleich (Alter, 15) Familienstatus (Oberhaupt) =.false. kleinergleich (Alter, 15) not Familienstand (Single) =.false. Schultyp (Grundschule) Familienstatus (Oberhaupt) =.false. Schultyp (Grundschule) not Familienstand(Single) =.false.
18
Lukas Kerecz - Edits18 Logische Edits - Algorithmen Es gibt Algorithmen um: Edits in Normalform zu überführen zu entscheiden, ob ein Edit neu ist eine Sammlung essentiell unterschiedlicher Edits zu erstellen
19
Lukas Kerecz - Edits19 Numerische Edits
20
Lukas Kerecz - Edits20 Numerische Edits „unscharfe/ungenaue“ Werte einzelner Attribute sind nicht erlaubt nur anwendbar auf die Datentypen „integer, real, decimal“ „Constraint Programming“ A x ≥ b (numerical constraints) x ≥ 0 (nicht-Negativität) x ∈ X (für alle Attribute x) Fuzzy-Edits
21
Lukas Kerecz - Edits21 Numerische Edits - Beispiel Fakten: Der ehemalige Student s ist jetzt 29 Jahre alt (x 1 ), hat 6 Jahre die Grundschule besucht (x 2 ), hat 7Jahre die Oberschule besucht (x 3 ), hat 5 Jahre an der Universität studiert (x 4 ) und ist angestellt seit 2 Jahren (x 5 ) x löst die Gleichung a'x ≥ b mit folgenden Werten: a' = (1, -1, -1, -1, -1) x' = (x 1, x 2, x 3, x 4, x 5 ) = (29, 6, 7, 5, 2) b = 6 X = ∏ range (x i )
22
Lukas Kerecz - Edits22 Numerische Edits – Beispiel Gleichung: a'x ≥ b einsetzen: 29 6 7 5 2 a'x = 1 * 29 + (-1) * 6 + (-1) * 7 + (-1) * 5 + (-1) * 2 a'x = (1, -1, -1, -1, -1) * a'x = 9 => a'x ≥ b = 6
23
Lukas Kerecz - Edits23 Statistische Edits
24
Lukas Kerecz - Edits24 statistische Edits Syntax: = ± Beispiel: Umsatz = 10 ± 2 Konfidenzintervall mit Wahrscheinlichkeit 1-α (vergl. Schmid (1979))
25
Lukas Kerecz - Edits25 statistische Edits - Schritte Modell-Spezifikationen Variablen Ranges (co-domains) Konfidenzintervall unter Normalverteilung Parameter-Schätzungen / „Lernen“ es wird nur ein Wert pro Variable gemessen Interferenzen – Aufspüren, Korrigieren, Imputieren
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.