Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmentheorie 08 – Dynamische Programmierung (1)
Advertisements

Datenbankdesign mit ACCESS.
Heterogene Informationssysteme
Daten- und Informationsqualität. © Prof. T. Kudraß, HTWK Leipzig Management der Informationsqualität Keine verbindlichen Standards oder Vorgaben für Informationsqualität.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (26-Graphenalgorithmen: Wiederholung und Übung) Prof. Th. Ottmann.
Abschluss Gegeben Menge F von funktionalen Abhängigkeiten.
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Wasserfall-Ansätze zur Bildsegmentierung
Kapitel 4 Datenstrukturen
Microsoft Access – Einführung – Allgemeine Technologien I
Anwendungsverteilung und räumliche Ausdehnung
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken IX Christian Schindelhauer
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken X Christian Schindelhauer
Ruby on Rails im Überblick
On a Buzzword: Hierachical Structure David Parnas.
Übersicht DIALIGN = DIagonal ALIGNment
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Datenbanken werden als Anhäufung von Werten eines Wertebereiches aufgefasst und Datenbankabfragen.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (21 – Kürzeste Wege) T. Lauer.
SQL als Abfragesprache
Datenbankentwurf mit Hilfe des ER-Modells entwickeln
Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.
IS: Datenbanken, © Till Hänisch 2000 CREATE TABLE Syntax: CREATE TABLE name ( coldef [, coldef] [, tableconstraints] ) coldef := name type [länge], [[NOT]NULL],
Access 2000 Datenbanken.
Normalformen Normalisieren Schlüssel
Seminar: Verteilte Datenbanken
6 Normalformen Normalisieren Schlüssel
Was sind Histogramme? (1)
Abfragen – Tipps und Tricks Buch S102ff (Informatik I, Oldenbourg-Verlag) Nach einer Vorlage von Dieter Bergmann.
Manpower Associates is a $14
Vortragender Messung des Erfolgs einer Website Subjektive Attraktivität Besuchsintensität Produktivität Finanzielle Maße
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
Relationale Datenbankmodelle
Herzlich Willkommen… welcome… soyez la bienvenue….
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Effiziente Algorithmen
Die Grundterminologie
Flüsse, Schnitte, bipartite Graphen
Datenbank.
Access 2000 Willkommen im Access-Kurs Oliver Mochmann.
GIS - Seminar Wintersemester 2000/2001
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation I Vorlesung 12 WS 2000/2001 Gerhard Gröger Modellierung mit Geodatabases.
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Christian Scheideler Institut für Informatik Universität Paderborn
Einführung in die Programmierung Wintersemester 2013/14 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.
Definitionen der SWT (1)
Einführung in Datenbankmodellierung und SQL
Relationales Datenmodell ist beherrschend: –Riesige Datenbestände und damit hohe Investitionen. –Die große Mehrzahl der Anwendungen arbeitet mit weitgehend.
00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung.
verstehen planen bearbeiten
Normalisierungsprozess
Torque in Turbine Team 4 Josef Bohninger Thomas Lindenhofer
Peer-to-Peer-Netzwerke
Eike Schallehn, Martin Endig
Eike Schallehn, Martin Endig
2. Kommunikation und Synchronisation von Prozessen 2
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken VIII Christian Schindelhauer
Sichtenverbindung (1) Einschränkungen: Zwischen den verschiedenen Abhängigkeiten kann es zu komplizierten Wechselwirkungen kommen, so dass ein allgemeingültiges.
Vom Konzept zur Datenbank
Übungsblatt 4 Erläuterungen Wintersemester 15/16 DBIS.
Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
Lukas Kerecz - Edits1 Edits Lukas Kerecz. Lukas Kerecz - Edits2 Gliederung  Einführung  Edits – warum und wofür?  Edits – Definiton  einleitende Beispiele.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Veranstaltung: Datenbanken I Dozent: Ioannis Papakostas Belegarbeit 6 Online-Bestellung von Büchern Stefan Rüschenberg (Matrikel-Nr.: ) Sebastian.
Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010.
Sprachumfang von SQL Vier Kategorien DDL (Data Definition Language)
 Präsentation transkript:

Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning

Datacleaning ein Überblick Institut für Informatik Abteilung Datenbanken Gliederung Definition Datacleaning Workflow Data Analyse Data Profiling Datamining Distanzmetriken Verfahren zur Duplikatenerkennung Literaturquellen

Datacleaning ein Überblick Institut für Informatik Abteilung Datenbanken Definition Datacleaning:Data cleaning, also called data cleansing or scrubbing, deals with detecting and removing errors and inconsistencies from data in order to improve the quality of data. [Eduard Rahm and Hong Do. Data cleaning: Problems and current approaches. 2000]

Datacleaning ein Überblick Institut für Informatik Abteilung Datenbanken Datacleaning Workflow 1.Data Analysis: Analyse des Datenbestandes Gewinnung von zusätzlichen Metadaten (Data Profiling) °Beispiele: –Min/Max Werte für bestimmte Attribute –Verteilungen für Attributwerte –Erkennung von Stringmustern z.B. bei Adressen, Telefonnummern… –Erkennung nicht explizit als unique gekennzeichneter Attribute Erkennen von Funktionalen Abhängigkeiten (Data Mining) °Beispiele: –Preis = Menge * Stückpreis –Bestelldatum Lieferdatum Rechnungsdatum 2.Bereinigung der Daten (Data Cleaning) 3.Wiederholung der Schritte 1 und 2 bis ein akzeptables Ergebnis erreicht wurde. 4.Im ETL Prozess folgt dann die Daten Integration in das Datawarehouse

Datacleaning ein Überblick Institut für Informatik Abteilung Datenbanken Nutzung der Metadaten des Data Profiling Min/Maxwerte können zum Erkennen von Ausreißern verwendet werden Zusätzliche Unique Attribute können zur Erkennung von Duplikaten genutzt werden |Ausprägungen des Attributes| < Datensätze Duplikate vorhanden Erkannte Stringmuster werden zum Schemamatching und Instancematching benötigt Beispiel: °Muster 1(Adresse): PLZ, Straße, Hausnummer °Muster 2(Adresse): Straße, Hausnummer, PLZ °Matching: (Pseudocode)

Datacleaning ein Überblick Institut für Informatik Abteilung Datenbanken Distanzmetriken Werden genutzt um die Ähnlichkeit von Datensätzen zu bestimmen Grund : in den meisten Fällen handelt es sich nicht um vollständige Duplikate sondern um fuzzy duplicates Beispiele: Editierdistanz Jaro Winkler Distanzmetrik Tokenbasierte Distanzmetriken Bei Überführung der Attribute eines Datensatzes in einen Zahlenvektor: Euklidische Distanz Manhattan Distanz Beliebige andere Distanzmaße

Datacleaning ein Überblick Institut für Informatik Abteilung Datenbanken Compact Set und Sparse Neighborhood Compact Set: eine Menge S von Tupeln einer Relation R ist ein Compact Set, wenn gilt. (Compact Set) Zusätzlich muss das Sparse Neighborhood Kriterium: erfüllt sein.

Datacleaning ein Überblick Institut für Informatik Abteilung Datenbanken Context Attraction Principle Eine weitere Möglichkeit Duplikate zu charakterisieren Context Attraction Principle °1. wenn zwei Representationen das selbe Objekt beschreiben, existiert eine hohe Wahrscheinlichkeit, dass sie über verschiedene Relationen, implizit oder explizit, innerhalb der Datenbank stark verbunden sind. °2. wenn zwei Representationen dagegen verschiedene Objekte beschreiben wird ihre Verbindung über diese Relationen im Gegensatzt dazu nur schwach sein. Verwendung eines Attributed Relational Graphs (ARG) ARG wird erstellt und über Graphpartitionsalgorithmen geteilt Problem : Domainwissen unbedingt von Nöten °Vor allem zur Gewichtung der Kanten des ARG

Datacleaning ein Überblick Institut für Informatik Abteilung Datenbanken Datentransformation Grund: Heterogene Quellen mit heterogenen Schemata für ähnliche Daten Um die Daten effektiv bereinigen zu können, müssen sie vereinheitlicht werden Im ETL-Prozess kommt noch die dadurch ermöglichte gemeinsame Speicherung hinzu zum größten Teil über User Defined Functions oder Views in den Quelldatenbanken realisiert Vorteil: °hohe Performanz °Wiederverwendbarkeit °Verringert Redundanz im ETL-Prozess

Datacleaning ein Überblick Institut für Informatik Abteilung Datenbanken Einordnung in den ETL - Prozess [Eduard Rahm and Hong Do. Data cleaning: Problems and current approaches. 2000] Der ETL Prozess: Data Analyse gehört zur Extractionphase Duplikatenerkennung und Bereinigung sind Teil der Integration Phase

Datacleaning ein Überblick Institut für Informatik Abteilung Datenbanken Literatur Surajit Chaudhuri, Venkatesh Ganti, and Rajeev Motwani. Robust identication of fuzzy duplicates. Proceedings of the 21st International Conference on Data Engineering (ICDE 2005), Eduard Rahm and Hong Do. Data cleaning: Problems and current approaches Zhaoqi Chen, Dmitri V. Kalashnikov, and Sharad Mehrotra. Exploiting relationships for object consolidation. IQIS, 2005.