Daten- und Informationsqualität. © Prof. T. Kudraß, HTWK Leipzig Management der Informationsqualität Keine verbindlichen Standards oder Vorgaben für Informationsqualität.

Slides:



Advertisements
Ähnliche Präsentationen
Eine Frage der Sichtweise
Advertisements

Einfluss von Web Services Technologien auf organisatorische Strukturen Referent: Sergej Groß
Daten im Data-Warehouse
Heterogene Informationssysteme
Datenbanken Einführung.
Relationaler Datenbankentwurf (II)
spezielle Nutzersichten formale Ebene (deskriptive Regeln)
Objekt – Relationales – Modell Tomasz Makowski IN
Verwendungszweck: Diese Folien dienen zur Unterstützung von Microsoft Dynamics NAV-Vertriebsmitarbeitern und -Partnern für Produktpräsentationen beim Kunden.
Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.
8 Behandlung von Begriffen 8.1 Grundlagen aus Logik und Psychologie
Erschließen von semantischen Referenzen mit Ontology-Reasoning-Werkzeugen Das Ziel dieser Masterarbeit war die Erweiterung des ORBI Systems um ein Inferenz-System.
Total Quality Management
Universität Stuttgart Institut für Kernenergetik und Energiesysteme LE 3.2- LM 8 - LO 9 Definitionen zu LM 8.
FH-Hof Grundlagen mehrdimensionaler Suchstrukturen Richard Göbel.
DOM (Document Object Model)
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Prof. Dr. Th. Ottmann.
Erweiterte Datenmodelle Referentin: Lena Becker HS: Datenbanken vs. Markup Datum:
Datenbankdesign und Normalisierung
Deklaratives Debugging (Seminar Software Engineering) Tim Sender Deklaratives Debugging Seminar Software Engineering.
IS: Datenbanken, © Till Hänisch 2000 CREATE TABLE Syntax: CREATE TABLE name ( coldef [, coldef] [, tableconstraints] ) coldef := name type [länge], [[NOT]NULL],
Informationssysteme Grundbegriffe. © Prof. T. Kudraß, HTWK Leipzig Informationsmanagement (IM) Gegenstand – Planung, Steuerung und Kontrolle von Informationssystemen.
Oracle WebServer - Einführung. © Prof. T. Kudraß, HTWK Leipzig Oracle Web Application Server HTML WebServer ® File system Static HTML PL/SQL Packages.
SQL/XML. © Prof. T. Kudraß, HTWK Leipzig 2 2 Motivation Speicherung von XML in allen großen kommerziellen DBMS vorhanden proprietäre Lösungen für die.
Anwendungen. © Prof. T. Kudraß, HTWK Leipzig Historie des WWW Grundlage Internet – Entwickelt Ende der 60er Jahre vom US-Militär (ARPA-Net) – Technische.
Datenmanagement und Architektur. © Prof. T. Kudraß, HTWK Leipzig Integrierte Informationsverarbeitung Beispiel Hochschul-Informationssysteme (IT-Rahmenkonzept.
Übung Datenbanksysteme SQL-Anfragen (2)
Semantische Fehler Seminar im Grundstudium WS2002/2003:
Access 2000 Datenbanken.
Datenbanken Einführung Merkmale dateiorientierte Datenverwaltung
Einführung Dateisystem <-> Datenbanksystem
Was sind Histogramme? (1)
Erhard Künzel für Info 9. Klasse: digitale-schule-bayern.de © Erhard Künzel.
Manpower Associates is a $14
Softwareprojekt Shopverwaltung
Kontrollfragen zu Kapitel 1
... und alles was dazugehört
Das Wasserfallmodell - Überblick
Software Engineering SS 2009
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.
EXCEL PROFESSIONAL KURS
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE.
„Buy and Make“ anstelle von „Make or Buy“
Datenbank.
Problemstellung Heterogene DV-Strukturen Mangelnde Kapazität in der EDV-Abteilung Historische Daten nicht verfügbar Analysen belasten die vorhandene Infrastruktur.
GIS - Seminar Wintersemester 2000/2001
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Telecooperation/RBG Technische Universität Darmstadt Copyrighted material; for TUD student use only Grundlagen der Informatik I Thema 16: Ausnahmebehandlung.
Vorlesung #4 Überführung des ER-Modells in das relationale Modell
Vorlesung #4 Überführung des ER-Modells in das relationale Modell
Allgemeines zu Datenbanken
Paradigmenwechsel in der Unternehmensmodellierung Prof. Dr. Wolfgang Voigt Dipl.-Ing. Päd. Alexander Huwaldt UML Extrakt UML Seminar, Chemnitz
Einführung in Datenbankmodellierung und SQL
Normalisierungsprozess
Eike Schallehn, Martin Endig
1 Polymorphe Konsistenzbedingungen (1) Polymorphe Konsistenzbedingungen legen fest, welche Arten von Zustandsbeschränkungen nach einer Konkretisierung.
SQL - Structured Query Language  AIFB SS (1|3) 2.1 Allgemeines zu SQL (1|3) Benennung: SQL: „structured query language" ursprünglich: SEQUEL –
Einführung Dateisystem <-> Datenbanksystem
Semantische Integritätsbedingungen  AIFB SS Überwachung von Integritätsbedingungen (1/3) Dem DBMS muß mitgeteilt werden, wann eine Integritätsbedingung.
Datenbanken im Web 1.
1 Syntaktische Grundform selectA 1, A 2, …, A n fromR 1, R 2, …, R m wherebedingung w ;
Qualitätsmanagement nach ISO 9001:2000 in der Zahnarztpraxis
Qualitätsmanagement der Volksschulen
Komponenten und Phasen des Data Warehousing
SS 2015 – IBB4C Datenmanagement Fr 17:00 – 18:30 R Vorlesung #4 Überführung des ER-Modells in das relationale Modell.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 2 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
© 2012 TravelTainment Einführung in NoSQL-Datenbanken und deren Klassifizierung Von Patrick Becker.
Präsentation von Darleen und Michèle
 Präsentation transkript:

Daten- und Informationsqualität

© Prof. T. Kudraß, HTWK Leipzig Management der Informationsqualität Keine verbindlichen Standards oder Vorgaben für Informationsqualität Allgemeine Definition von Qualität gemäß der ISO-Norm zu Qualitätsmanagement – aus der Sicht des Kunden eines Produkts – durch gesetzliche Vorgaben Qualität intuitiv charakterisiert durch Fitness for use (Wang 1998), d.h. Eignung der Information für jeweiligen Einsatzzweck bestimmt deren Qualität Zahlreiche Ansätze und Modelle zur Beschreibung der Info-Qualität in verschiedenen Dimensionen Grundlage: Datenqualität

© Prof. T. Kudraß, HTWK Leipzig Datenqualität in der Praxis totale Kosten von schlechter Datenqualität liegen in Größenordnung zwischen 8% und 12% des Gesamtumsatzes Ca % der Datenwerte einer typischen Kunden- Datenbank sind falsch schlechte Auswirkungen auf Geschäftsprozesse eines Unternehmens vorprogrammiert Kundenbeschwerden aufgrund z.B. falscher Rechnungen führt zu Vertrauensverlust erwarteter Nutzen eines DWH wird nicht erreicht falsche Zielgruppen bei WerbemaßnahmenKundenpotenzial wird nicht genutzt Cross-Selling-Möglichkeiten werden falsch erkannt oder nicht erkannt Großer Imageverlust

© Prof. T. Kudraß, HTWK Leipzig Aspekte der Datenqualität Datenqualität ist ein mehrdimensionales Maß Verschiedene Aspekte, die miteinander konkurrieren (erfordert Kompromisse) – Genauigkeit – Vollständigkeit – Zeitbezogene Aspekte – Konsistenz Beispiel

© Prof. T. Kudraß, HTWK Leipzig Datenqualität: Genauigkeit Abstand zwischen dem tatsächlichen Wert w und dem als exakt geltenden Wert w Unterteilung in zwei Arten: – syntaktische Genauigkeit: Kosten der Konvertierung eines Strings s in einen String s – semantische Genauigkeit: w ist syntaktisch korrekt aber dennoch von w verschieden syntaktische Fehler sind leichter zu finden als semantische semantische Fehler korrigieren durch Vergleich mit einem äquivalentem Datensatz einer anderen Quelle führt aber zu neuem Problem (record matching): Wann sind zwei Datensätze gleich? J.E. Miller vs. John Edward Miller – Identifizierung: Verschiedene Bezeichner in verschiedenen Quellen – Entscheidung: Repräsentieren beide Datensätze das Gleiche?

© Prof. T. Kudraß, HTWK Leipzig Datenqualität: Genauigkeit (Forts.) Genauigkeit nicht nur für Werte interessant, auch für Attribute (column accuracy), die Relation oder die gesamte DB dazu muss man auch die Redundanz betrachten Redundanz wird vor allem in nicht relationaler Datenspeicherung zu großem Problem Doppelt verschickte Briefe schaden nicht nur der Portokasse eines Unternehmens ! Bestimmen der Genauigkeit einer DB Meist durch ein Verhältnis: # korrekter Spalten # Spalten

© Prof. T. Kudraß, HTWK Leipzig Datenqualität: Vollständigkeit Definition Vollständigkeit – abgeleitet vom Ausdruck vollen Bestand haben – Wenn sämtliche zu etwas gehörenden Teile vorhanden sind Behandlung im Relationenmodell: NULL-Werte – in Modell mit NULL-Werten muss deren Bedeutung interpretiert werden – 4 Arten: Wert-, Tupel-, Attribut-, Relations- vollständigkeit

© Prof. T. Kudraß, HTWK Leipzig Datenqualität: Zeitbezogen Daten können im Laufe der Zeit variieren (temporale Daten) drei Kriterien zeitbezogener Daten: – Aktualität (Currency) – Änderungsfrequenz (Volatility) – Rechtzeitigkeit (Timeliness) korrekt heißt also sicherlich aktuell aber der Zeitpunkt des Gebrauchs der Daten muss berücksichtigt werden!

© Prof. T. Kudraß, HTWK Leipzig Datenqualität: Konsistenz aufdecken von Verletzungen semantischer Regeln semantische Regeln sind z.B. Integritätsbedingungen es gibt Intra- und Inter-Relations-Integritäts- Bedingungen schon geraume Zeit Gegenstand der Forschung Tools verfügbar Konsistenzregeln auch definierbar auf nicht-relationalen Daten dort gibt es auch entsprechende Möglichkeiten, Konsistenzüberprüfungen zu machen (edit-imputation Ansatz)

© Prof. T. Kudraß, HTWK Leipzig Datenqualitäts-Tools Vielzahl von kommerziellen und nichtkommerziellen Tools verfügbar die allgemeinen Anforderungen lassen erkennen : Es gibt kein All- in-One-Tool Tools lassen sich in Kategorien einordnen Eliminierung von Datenfehlern wird als data cleaning oder auch data cleansing bezeichnet Ziel : Erhöhung der Datenqualität (schwerer Weg) aktuelle Technologien lösen dieses Problem auf verschiedene Arten: – ad-hoc Programme in C / Java oder PL/SQL (in Oracle) – RDBMS Mechanismen die Integritätsbedingungen garantieren – Datentransformationsskripte, die Datenqualitätstools nutzen proprietäre RDBMS-Tools machen es Datenqualitätsprogrammen schwer großer Markt für Tools, die es ermöglichen Daten zu transformieren um DWHs zu bilden (ETL-Tools)

© Prof. T. Kudraß, HTWK Leipzig Funktionen von DQ-Tools Heterogene Datenquellen Steuerung der Extraktion Möglichkeiten des Ladens von Daten ins Zielsystem Schrittweise Updates (nicht immer wieder from scratch) GUI Metadatenverzeichnis Performance Funktion Versionierung Funktionsbibliothek integrierte Programmiersprache Debugging und Tracing Ausnahmebehandlung der Datensätze bei Fehlschlagen der Transformation

© Prof. T. Kudraß, HTWK Leipzig DQ-Tools: Kategorien 1.Analyse – zur Regelfestlegung und Sicherstellung, dass die Daten nicht die Anwendungsdomänen- Constraints verletzen 2.Data Profiling – anwendungsspezifische Datenqualitätsaspekte bestimmen 3.Transformation – Operationen die Quelldaten in Zielsystem integrieren 4.Säuberung – Entdecken, Löschen oder Korrigieren von schmutzigen Daten (inkorrekt, veraltet, redundant,inkonsistent, falsch formatiert) 5.Duplikate löschen – Erkennen und Löschen von Duplikaten 6.Erweiterung – Zusatzinformationen aus internen oder externen Quellen um Qualität der Eingangsdaten zu erhöhen

© Prof. T. Kudraß, HTWK Leipzig Datenqualität - Fazit Messen von Datenqualität ist sehr komplex Zahlreiche Tools vorhanden, die sich darauf spezialisiert haben Qualitätsdimensionen müssen in anwendungs- spezifischem Kontext evtl. erweitert werden Bis jetzt kein Standard verfügbar, aber auf gutem Weg Quellen: – Reviews von DQ-Tools – Datenbank-Spektrum 14/2005 Themenheft Daten- und Informationsqualität, speziell [Scannapieco], [Barateiro]