Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme.

Ähnliche Präsentationen


Präsentation zum Thema: "Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme."—  Präsentation transkript:

1 Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme - Humboldt-Universität zu Berlin1 Modellierung von Data Cleansing Workflows Dipl.-Inf. Heiko Müller Lehrstuhl für Datenbanken und Informationssysteme Humboldt-Universität zu Berlin Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig

2 Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme - Humboldt-Universität zu Berlin2 Einführung Zwei wesentliche Voraussetzungen sind zu erfüllen Fähigkeit zum Erkennen von Fehlern/Inkonsistenzen Ausreichend Informationen/Wissen zur Korrektur Ziel ist eine formale Beschreibung des Data Cleansing Prozeß für... relationale Daten eine Datenquelle Data Cleansing bezeichnet den (semi-)automatischen Prozeß des Auffindens und Beseitigens von Fehlern und Inkonsistenzen mit dem Ziel, die Qualität einer Daten- menge zu verbessern

3 Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme - Humboldt-Universität zu Berlin3 Fehler erkennen & beseitigen Fehler sind Abweichungen vom realen Wert Unter Inkonsistenzen versteht man u.a.... Widersprüche in den Daten Abweichungen von einem vorgegebenen Format Kodierte Information in den Attributwerten Beispiel: Mitgliederliste eines Sportvereins Pass#NameE.datumG.datumAlterGeschl FRIEDEL, Brad M HEJDUK, Frankie M AGOOS, Jeff Männl JONES, Cobi W p WOLFF, Josh04/10/ M passivMC BRIDE, Sue F passivMATHIS, Clint M LEWIS, Jennifer M MITGLIEDER

4 Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme - Humboldt-Universität zu Berlin4 Fehler erkennen & beseitigen (cont.) Zum Erkennen und Beseitigen von Fehlern und Inkonsistenzen benötigt man Wissen über... die korrekten Werte der Attribute eines Objekts das erwartete Format der Daten Dieses Wissen ist gegeben durch... externe Daten- bzw. Wissensquellen Bedingungen, die an die Werte gestellt werden Data Cleansing Verfahren sind begrenzt durch... die Verfügbarkeit des Wissen, bzw. die Möglichkeiten zu dessen Herleitung die Fähigkeiten zur Formulierung der Bedingungen Oftmals ist keine 100%ig exakte Erkennung und Korrektur von Fehlern möglich

5 Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme - Humboldt-Universität zu Berlin5 Fehler erkennen & beseitigen (cont.) Sue25172 NameAgeHeight Sue2753 NameAgeWeight Alf13 NameAge Bart45 Ed27 Gil33 Joe71 Sue25 Zoe30 Sue ist 25 Jahre alt Verwenden externer Referenz- quellen Betrachte Werte zwischen 18 und 65 als korrekt, alle anderen als falsch Analyse der Daten mit Hilfe statistischer Methoden

6 Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme - Humboldt-Universität zu Berlin6 Data Cleansing Der Data Cleansing Prozeß umfaßt... Vereinheitlichung ( vs. 2/21/02, KG vs. Pfund) Extraktion von Werten ( p Passiv=TRUE) Validierung von Werten und ggf Korrektur durch Berechnung korrekter Werte R s (X) t s1 t s2 t s3... t sm R T (X) t T1 t T2 t T3... t T n c1c1... ckck Cleansing workflow Data Cleansing Function R Temp 1 (X) t Temp 1 1 t Temp 1 2 t Temp t Temp 1 m c1c1 Beispiele: Name NOT NULL Format(G.datum, DD.MM.JJJJ) Alter 18 Jahr(Jetzt() - G.datum) = Alter t S k : a i = t.a

7 Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme - Humboldt-Universität zu Berlin7 Data Cleansing (cont.) Data Cleansing als spiezielle Form von integrity constraint enforcement SueOffice F C1C1 C2C2 C3C3 C4C4 C1C1 C2C2 C3C3 C4C4 C1C1 C2C2 C3C3 C4C4 Repositories Integrity Constraints Integrity Constraint Enforcem. BobSale F EdOffice M JohnOffice M SueOffice F BobSale F EdOffice M JohnOffice M Satisfying tuples Dissatisfying tuples SueOffice M

8 Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme - Humboldt-Universität zu Berlin8 Data Cleansing (cont.) Unterschiede zum integrity constraint enforcement CiCi ? JaNein

9 Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme - Humboldt-Universität zu Berlin9 Data Cleansing Function Repräsentiert Bedingung an die Tupel einer Relation R(X) Validiert und ändert den Wert eines Attributes oder erzeugt eine Menge von Attributwerten besitzt Eingabe- und Ausgabeschema Erhält als Eingabe... ein Tupel der Relation R(X) die Relation R(X) zusätzliche Relationen {S 1,..., S n } als Referenz Zugriff auf eine oder mehrere Attribute A i X Menge an Vorbedingungen für die Attribute

10 Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme - Humboldt-Universität zu Berlin10 Data Cleansing Function (cont.) CiCi Data Cleansing Function (DCF) R(X), X = {A 1 :D 1,..., A n :D n } {S 1 (X 1 ),..., S m (X m )} {C 1,..., C k } X c = {A c1,..., A cu } {S r1,..., S rv } {C p1,..., C pw } R(X) {A i X} {C 1,..., C k } C i

11 Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme - Humboldt-Universität zu Berlin11 Data Cleansing Function (cont.) CiCi Data Cleansing Function (DCF) MITGLIEDER( Pass#, Name, E.datum,... ) X c = {A 1 :Date} {Valid( E.datum )} R(X) = R(X) {E.datum} {Valid( E.datum )} E.datum Jetzt() C 1 =Valid( E.datum ) C i : A 1 Jetzt()

12 Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme - Humboldt-Universität zu Berlin12 Data Cleansing Function (cont.) CiCi Data Cleansing Function (DCF) C i : A 1 Jetzt() K JaNein Zusätzlich besitzt die Data Cleansing Function eine Korrekturfunktion Korrigiert Werte, welche die Bedingung initial nicht erfüllen Beispiel: Bestimme minimale edit distance, um Bedingung zu erfüllen Bewertung der Korrektur notwendig

13 Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme - Humboldt-Universität zu Berlin13 Data Cleansing Function (cont.) Graphische Repräsentation C K Exception Spezifikation der Bedingungen (constraints) durch den Domänenexperten Gleiches für die Korrekturfunktion Zusätzlich versuchen anhand von Beispielen zu lernen

14 Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme - Humboldt-Universität zu Berlin14 Data Cleansing Workflow Data Cleansing Workflow ist ein Ausführungsplan (schedule) für die spezifizierten DCFs Repräsentiert eine Konjunktion der Bedingungen DCFs (DCF 1, DCF 2,..., DCF n ) R R t R: C 1 C 2 C 3 C 4... C n

15 Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme - Humboldt-Universität zu Berlin15 Data Cleansing Workflow (cont.) Alternative Ausführungspläne und parallele Ausführung sind möglich Letzteres stellt ein mögliches Optimierungskriterium dar Wichtig: Die Vorbedingungen müssen erfüllt sein Zyklen sind nicht zulässig D D

16 Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme - Humboldt-Universität zu Berlin16 Data Cleansing Workflow (cont.) Weitere logische Operatoren sind für die Verknüpfung der Bedingungen denkbar Data Cleansing Workflow wird ausgehend vom logischen Ausdruck bestimmt C1C1 C2C2 C3C3 (C 1 C 2 ) C 3 C1C1 C2C2 C 1 C 2

17 Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme - Humboldt-Universität zu Berlin17 Zusammenfassung Data Cleansing ist beschränkt durch die Fähigkeit Fehler erkennen und beheben zu können Darstellbar als abstrakte Form des integrity constraint enforcement Beschreibung mit Hilfe von Data Cleansing Functions Führen ggf. Korrekturen aus Ausführung der Data Cleansing Functions in Form eines Workflows

18 Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme - Humboldt-Universität zu Berlin18 Fragen? Data Cleansing?


Herunterladen ppt "Gründungsveranstaltung des German Chapters von DAMA International, 07. Juni 2002, Leipzig Dipl.-Inf. Heiko Müller - Lehrstuhl für Datenbanken und Informationssysteme."

Ähnliche Präsentationen


Google-Anzeigen