Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.

Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning

Datacleaning ein Überblick Institut für Informatik Abteilung Datenbanken Gliederung Definition Datacleaning Workflow Data Analyse Data Profiling Datamining Distanzmetriken Verfahren zur Duplikatenerkennung Literaturquellen

Datacleaning ein Überblick Institut für Informatik Abteilung Datenbanken Definition Datacleaning:Data cleaning, also called data cleansing or scrubbing, deals with detecting and removing errors and inconsistencies from data in order to improve the quality of data. [Eduard Rahm and Hong Do. Data cleaning: Problems and current approaches. 2000]

Datacleaning ein Überblick Institut für Informatik Abteilung Datenbanken Datacleaning Workflow 1.Data Analysis: Analyse des Datenbestandes Gewinnung von zusätzlichen Metadaten (Data Profiling) °Beispiele: –Min/Max Werte für bestimmte Attribute –Verteilungen für Attributwerte –Erkennung von Stringmustern z.B. bei Adressen, Telefonnummern… –Erkennung nicht explizit als unique gekennzeichneter Attribute Erkennen von Funktionalen Abhängigkeiten (Data Mining) °Beispiele: –Preis = Menge * Stückpreis –Bestelldatum Lieferdatum Rechnungsdatum 2.Bereinigung der Daten (Data Cleaning) 3.Wiederholung der Schritte 1 und 2 bis ein akzeptables Ergebnis erreicht wurde. 4.Im ETL Prozess folgt dann die Daten Integration in das Datawarehouse

Datacleaning ein Überblick Institut für Informatik Abteilung Datenbanken Nutzung der Metadaten des Data Profiling Min/Maxwerte können zum Erkennen von Ausreißern verwendet werden Zusätzliche Unique Attribute können zur Erkennung von Duplikaten genutzt werden |Ausprägungen des Attributes| < Datensätze Duplikate vorhanden Erkannte Stringmuster werden zum Schemamatching und Instancematching benötigt Beispiel: °Muster 1(Adresse): PLZ, Straße, Hausnummer °Muster 2(Adresse): Straße, Hausnummer, PLZ °Matching: (Pseudocode)

Datacleaning ein Überblick Institut für Informatik Abteilung Datenbanken Distanzmetriken Werden genutzt um die Ähnlichkeit von Datensätzen zu bestimmen Grund : in den meisten Fällen handelt es sich nicht um vollständige Duplikate sondern um fuzzy duplicates Beispiele: Editierdistanz Jaro Winkler Distanzmetrik Tokenbasierte Distanzmetriken Bei Überführung der Attribute eines Datensatzes in einen Zahlenvektor: Euklidische Distanz Manhattan Distanz Beliebige andere Distanzmaße

Datacleaning ein Überblick Institut für Informatik Abteilung Datenbanken Compact Set und Sparse Neighborhood Compact Set: eine Menge S von Tupeln einer Relation R ist ein Compact Set, wenn gilt. (Compact Set) Zusätzlich muss das Sparse Neighborhood Kriterium: erfüllt sein.

Datacleaning ein Überblick Institut für Informatik Abteilung Datenbanken Context Attraction Principle Eine weitere Möglichkeit Duplikate zu charakterisieren Context Attraction Principle °1. wenn zwei Representationen das selbe Objekt beschreiben, existiert eine hohe Wahrscheinlichkeit, dass sie über verschiedene Relationen, implizit oder explizit, innerhalb der Datenbank stark verbunden sind. °2. wenn zwei Representationen dagegen verschiedene Objekte beschreiben wird ihre Verbindung über diese Relationen im Gegensatzt dazu nur schwach sein. Verwendung eines Attributed Relational Graphs (ARG) ARG wird erstellt und über Graphpartitionsalgorithmen geteilt Problem : Domainwissen unbedingt von Nöten °Vor allem zur Gewichtung der Kanten des ARG

Datacleaning ein Überblick Institut für Informatik Abteilung Datenbanken Datentransformation Grund: Heterogene Quellen mit heterogenen Schemata für ähnliche Daten Um die Daten effektiv bereinigen zu können, müssen sie vereinheitlicht werden Im ETL-Prozess kommt noch die dadurch ermöglichte gemeinsame Speicherung hinzu zum größten Teil über User Defined Functions oder Views in den Quelldatenbanken realisiert Vorteil: °hohe Performanz °Wiederverwendbarkeit °Verringert Redundanz im ETL-Prozess

Datacleaning ein Überblick Institut für Informatik Abteilung Datenbanken Einordnung in den ETL - Prozess [Eduard Rahm and Hong Do. Data cleaning: Problems and current approaches. 2000] Der ETL Prozess: Data Analyse gehört zur Extractionphase Duplikatenerkennung und Bereinigung sind Teil der Integration Phase

Datacleaning ein Überblick Institut für Informatik Abteilung Datenbanken Literatur Surajit Chaudhuri, Venkatesh Ganti, and Rajeev Motwani. Robust identication of fuzzy duplicates. Proceedings of the 21st International Conference on Data Engineering (ICDE 2005), 2005. Eduard Rahm and Hong Do. Data cleaning: Problems and current approaches.2000. Zhaoqi Chen, Dmitri V. Kalashnikov, and Sharad Mehrotra. Exploiting relationships for object consolidation. IQIS, 2005.

Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.

Ähnliche Präsentationen

Präsentation zum Thema: "Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.

Ähnliche Präsentationen

Präsentation zum Thema: "Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback