Informationsintegration Anwendungsszenarien

Slides:

Advertisements

Ähnliche Präsentationen

Einfluss von Web Services Technologien auf organisatorische Strukturen Referent: Sergej Groß

Advertisements

ER-Datenmodell und Abfragen in SQL

Heterogene Informationssysteme

Wieso gibt es diese Unterrichtseinheit?

Informationsintegration Heterogenität Felix Naumann.

Informationsintegration Local-as-View: LaV

Informationsintegration Der Bucket-Algorithmus Felix Naumann.

VL Informationsintegration Verteilung, Autonomie und Heterogenität

Informationsintegration Dynamische Programmierung

Informationsintegration Einführung

Informationsintegration ETL & Datenherkunft (Lineage)

Informationsintegration Global-as-View: GaV

Informationsintegration Containment und Local-as-View Anfragebearbeitung Felix Naumann.

Informationsintegration Schema Matching Felix Naumann.

Informationsintegration SchemaSQL Felix Naumann.

Einjährige Berufsfachschule Technik der Fachrichtung Elektrotechnik

Julika Mimkes ISN Oldenburg LiLi Links zu Lerninhalten der Physik Eine Datenbank zu verteilten Quellen Julika Mimkes Institute.

Inhaltlich orientierter Zugriff auf unstrukturierte Daten

DEPARTMENT FÜR INFORMATIK

Systemüberblick Beispiele: Microsoft Access Oracle Ingres Informix

Eine Fallstudie zur Wirtschaftsinformatik

FH-Hof Effizienz - Grundlagen Richard Göbel. FH-Hof Inhalt Einführung Aufwand für Anfragen ohne Indexierung Indexstrukturen für Anfragen an eine Tabelle.

SQL als Abfragesprache

IS: Datenbanken, © Till Hänisch 2000 CREATE TABLE Syntax: CREATE TABLE name ( coldef [, coldef] [, tableconstraints] ) coldef := name type [länge], [[NOT]NULL],

Informationsintegration. © Prof. T. Kudraß, HTWK Leipzig 2 Einführung Traditionelle Datenbankverarbeitung zentralisiert Administrationsvorteile Leistungs-

SQL/XML. © Prof. T. Kudraß, HTWK Leipzig 2 2 Motivation Speicherung von XML in allen großen kommerziellen DBMS vorhanden proprietäre Lösungen für die.

Replikation in Datenbanksystemen.

Übung Datenbanksysteme SQL-Anfragen (2)

Übung Datenbanksysteme WS 2003/ Übung Datenbanksysteme Hierarchische DBMS

Übung Datenbanksysteme UML

Seminar: Verteilte Datenbanken

Einführung Dateisystem <-> Datenbanksystem

Informationsintegration Architekturen

Informationsintegration Mediator/Wrapper-Architektur & Peer-Data-Management Felix Naumann.

Informationsintegration Materialisierte vs. Virtuelle Integration

Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.

Abfragen – Tipps und Tricks Buch S102ff (Informatik I, Oldenbourg-Verlag) Nach einer Vorlage von Dieter Bergmann.

2.2 Definition eines Datenbankschemas (SQL-DDL)

RDF-S3 und eRQL: RDF-Technologien für Informationsportale Karsten Tolle und Fabian Wleklinski.

Biologische Datenbanken

Übung 1: SQL Übungen finden bei Bedarf anstelle der Vorlesungen statt

IGH – 05/061 Die drei Netze der. 2 Götz Gantner (1) Verwaltungsnetz R-232 Hausmeister 4 PC / 2 Drucker LZ 1PC / 1 Laser.

Netzwerke Peer-to-Peer-Netz Client-Server Alleinstehende Server

... und alles was dazugehört

Entwicklung verteilter Anwendungen I, WS 13/14 Prof. Dr. Herrad Schmidt WS 13/14 Kapitel 5 Folie 2 ADO.NET s.a:

Windows Presentation Foundation, Vorlesung Wintersemester 2013/14 Prof. Dr. Herrad Schmidt WS 13/14 Kapitel 9 Folie 2 ADO.NET (1) Klassen für Zugriffe.

XML-Query. Übersicht Was ist XML-Query? Vergleich RDB XML-Dokument Syntaktisches und Use-Cases Kritik und Diskussion.

WS 2013/14 Datenbanksysteme Do 17:00 – 18:30 R Vorlesung #6 SQL (Teil 3)

SS 2004 Datenbanken 4W Mi 13:30 – 15:00 G 2.30 Vorlesung #7 SQL (Teil 2)

WS 2011/12 Datenbanksysteme Mi 15:15 – 16:45 R Vorlesung #9 Physische Datenorganisation.

WS 2007/08 Datenbanksysteme Mi 17:00 – 18:30 R Vorlesung #5 SQL (Teil 2)

Data Warehouse: ETL-Praktikum

Datenbanksysteme für hörer anderer Fachrichtungen

DI (FH) DI Roland J. Graf MSc (GIS) U N I V E R S I T Ä T S L E H R G A N G Geographical Information Science & Systems UNIGIS.

Einführung in Datenbankmodellierung und SQL

Aggregatsfunktion SQL = Structured Query Language.

Vorlesung #10 Physische Datenorganisation

Trust and context using the RDF- Source related Storage System (RDF‑S3) and easy RQL (eRQL) Karsten Tolle und Fabian Wleklinski.

Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing.

Structured Query Language

Eike Schallehn, Martin Endig

Eike Schallehn, Martin Endig

WS 2014/15 Datenbanksysteme D0 15:15 – 16:45 R Vorlesung #6 SQL (Teil 3)

11 Zugriffskontrolle (Access Control) Ziele Privilegien Rollen GRANT und REVOKE Befehl Privilegien Rollen GRANT und REVOKE Befehl.

Dreamteam: Web 2.0 und der Katalog Anne Christensen und Thomas Hapke GBV-Verbundkonferenz

Datenbanken abfragen mit SQL

Abfragen Wiederholung Manuel Friedrich Schiller-Gymnasium Hof.

Wirtschaftsinformatik

(Structured Query Language)

Präsentation transkript:

Informationsintegration Anwendungsszenarien 20.10.2004 Felix Naumann

Felix Naumann, VL Informationsintegration, WS 05/06 Überblick Beispiele der Informationsintegration Data Warehouse Föderierte Datenbanken Potential und Probleme der Informations-integration Redundanz Komplementierung 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Real-life Informationsintegration Überblick: Zwei wesentliche Modelle Data Warehouses Materialisierte Integration Am Beispiel Buchhändler (Folien von Prof. Leser) Föderierte Datenbanken Virtuelle Integration Am Beispiel einer Life Sciences DB (DiscoveryLink) Weitere Beispiele 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Data Warehouse Eine oder mehrere (ähnliche) Datenbanken mit Bücherverkaufsinformationen Daten werden oft aktualisiert Jede Bestellung einzeln Katalog Updates täglich Management benötigt Entscheidungshilfen (decision support) Komplexe Anfragen Quelle: Ulf Leser, VL Data Warehouses 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Bücher im Internet bestellen Backup Durchsatz Load- balancing Portfolio Umsatz Werbung Zielkonflikt Daten bank Quelle: Ulf Leser, VL Data Warehouses 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Die Datenbank dazu Bookgroup id name Year id year Order Order_id Book_id amount single_price Book id Book_group_id Month Id Month year_id Orders Id Day_id Customer_id Total_amt Customer id name Day Id day month_id Quelle: Ulf Leser, VL Data Warehouses 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Fragen eines Marketingleiters Wie viele Bestellungen haben wir jeweils im Monat vor Weihnachten, aufgeschlüsselt nach Produktgruppen? Order Order_id book_id amount single_price Orders Id Day_id Customer_id Total_amt Day Id day month_id Month Id Month year_id Year id year Customer id name Book id Book_group_id Bookgroup Quelle: Ulf Leser, VL Data Warehouses 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Technisch SELECT Y.year, PG.name, count(B.id) FROM year Y, month M, day D, order O, orders OS, book B, bookgroup BG WHERE M.year = Y.id and M.id = D.month and O.day_id = D.id and OS.order_id = O.id and B.id = O.book_id and B.book_group_id = BG.id and day < 24 and month = 12 GROUP BY Y.year, PG.product_name ORDER BY Y.year Order Order_id Book_id amount single_price Orders Id Day_id Customer_id Total_amt Day Id day month_id Month Id Month year_id Year id year Customer id name Book id Book_group_id Bookgroup Quelle: Ulf Leser, VL Data Warehouses 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Technisch SELECT Y.year, PG.name, count(B.id) FROM year Y, month M, day D, order O, orders OS, book B, bookgroup BG WHERE M.year = Y.id and M.id = D.month and O.day_id = D.id and OS.order_id = O.id and B.id = O.book_id and B.book_group_id = BG.id and day < 24 and month = 12 GROUP BY Y.year, PG.product_name ORDER BY Y.year 6 Joins Year: 10 Records Month: 120 Records Day: 3650 Records Orders: 36.000.000 Order: 72.000.000 Books: 200.000 Bookgroups: 100 Problem! Schwierig zu optimieren (Join-Reihenfolge) Je nach Ausführungsplan riesige Zwischenergebnisse Ähnliche Anfragen – ähnlich riesige Zwischenergebnisse Quelle: Ulf Leser, VL Data Warehouses 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

In Wahrheit ... noch schlimmer Es gibt noch: Amazon.de Amazon.fr Amazon.it ... Verteilte Ausführung Count über Union mehrerer gleicher Anfragen in unterschiedlichen Datenbanken HILFE! Quelle: Ulf Leser, VL Data Warehouses 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 In Wahrheit ... Quelle: Ulf Leser, VL Data Warehouses 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Technisch: Eine VIEW CREATE VIEW christmas AS SELECT Y.year, PG.name, count(B.id) FROM DE.year Y, DE.month M, DE.day D, DE.order O, ... WHERE M.year = Y.id and ... GROUP BY Y.year, PG.product_name ORDER BY Y.year UNION SELECT Y.year, PG.name, count(B.id) FROM EN.year Y, EN.month M, EN.day D, DE.order O, ... WHERE M.year = Y.id and ... SELECT year, name, count(B.id) FROM christmas GROUP BY year, name ORDER BY year Quelle: Ulf Leser, VL Data Warehouses 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Probleme Count über Union über verteilte Datenbanken? Integrationsproblem Berechnung riesiger Zwischenergebnisse bei jeder Anfrage? Datenmengenproblem Quelle: Ulf Leser, VL Data Warehouses 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Lösung des Integrationsproblems? Zentrale Datenbank Aber Probleme: Zweigstellen schreiben übers Netz Schlechter Durchsatz Lange Antwortzeiten im operativen Betrieb Quelle: Ulf Leser, VL Data Warehouses 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Lösung Datenmengenproblem? Denormalisierte Schema Aber Probleme: Jeder lesende / schreibende Zugriff erfolgt auf eine Tabelle mit 72 Mill. Records Lange Antwortzeiten im operativen Betrieb Quelle: Ulf Leser, VL Data Warehouses 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Zielkonflikt 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Aufbau eines Data Warehouse Tatsächliche Lösung Aufbau eines Data Warehouse Redundante, transformierte Datenhaltung Asynchrone Aktualisierung Quelle: Ulf Leser, VL Data Warehouses 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Weitere Anwendungsgebiete: Data Warehouses „Customer Relationship Management“ (CRM) Identifikation von Premiumkunden Personalisierung / Automatische Kundenberatung Gezielte Massen-Mailings (Direktvertrieb) Controlling / Rechnungswesen Kostenstellen Organisationseinheiten Personalmanagement Logistik Flottenmanagement, Tracking Gesundheitswesen Studienüberwachung, Patiententracking Quelle: Ulf Leser, VL Data Warehouses 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Überblick Beispiele der Informationsintegration Data Warehouse Föderierte Datenbanken Probleme und Potential der Informationsintegration Redundanz Komplementierung 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Föderierte Datenbanken Mehrere autonome Informationsquellen Mit unterschiedlichsten Inhalten Gene, Proteine, BLAST, etc. Und unterschiedlichsten Schnittstellen HTML-Form, flat file, SQL, etc. Wissenschaftler (Biologe) benötigt z.B. möglichst viele Informationen über ein bestimmtes Protein Funktion, Veröffentlichungen, verwandte Proteine usw. Sehr komplexe Anfragen Üblicher Ansatz: Browsing, Note-Taking, Copy & Paste Föderierte Datenbanken (wie DiscoveryLink) helfen. 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Frage eines Biologen Finde alle menschlichen EST Sequenzen, die nach BLAST zu mindestens 60% über mindestens 50 Aminosäuren identisch sind mit mouse-channel Genen im Gewebe des zentralen Nervensystems. Quelle für das komplette Beispiel: A Practitioner’s Guide to Data Management and Data Integration in Bioinformatics, Barbara A. Eckman in Bioinformatics by Zoe Lacroix and Terence Critchlow, 2003, Morgan Kaufmann. 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Verschiedene Informationsquellen Beteiligte Informationsquellen Mouse Genome Database (MGD) @ Jackson Labs SwissProt @ EBI BLAST tool @ NCBI GenBank nucleotide sequence database @ NCBI Alle Quellen sind frei verfügbar 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Herkömmlicher Ansatz: Browsing 1. Suche „channel“ Sequenzen im Gewebe des ZNS durch MGD HTML Formular 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Herkömmlicher Ansatz: Browsing MGD Resultat 14 Gene aus 17 Experimenten 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Herkömmlicher Ansatz: Browsing Details zu jedem der 14 Gene ansehen Durchschnittlich fünf SwissProt Links pro Gen 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Herkömmlicher Ansatz: Browsing Betrachten jedes SwissProt Eintrages Durch Klick BLAST Algorithmus anwerfen 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Herkömmlicher Ansatz: Browsing Betrachten jedes BLAST Resultats um nicht-menschliche Treffer zu eliminieren, andere Bedingungen zu prüfen (>60% Identität, etc.) 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Herkömmlicher Ansatz: Browsing Für jeden verbleibenden Eintrag Komplette EST Sequenz bei GenBank holen Alles sehr mühselig! 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Idee der Integration Bildung eines globalen Schemas (Schemaintegration) Gespeichert als Datenbankschema in DiscoveryLink Generierung von Wrappern für jede Datenquelle Softwarekomponente Mapping von lokalen Schemata auf globales Schema Kennt Anfragefähigkeiten der Quellen 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

DiscoveryLink Architektur 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Eigenschaften föderierter IS (und DiscoveryLink) Daten bleiben vor Ort. Informationsquellen sind autonom (und wissen oft nicht von ihrer Integration). Anfragen werden deklarativ an das globale Schema gestellt. Anfrage wird so verteilt wie möglich ausgeführt. Je nach Mächtigkeit der Quellen DiscoveryLink gleicht etwaige mangelnder Fähigkeiten aus. 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Föderierter DBMS Ansatz „Finde alle menschlichen EST Sequenzen, die nach BLAST zu mindestens 60% über mindestens 50 Aminosäuren identisch sind mit mouse-channel Genen im Gewebe des zentralen Nervensystems.“ „Einfache“ SQL-Anfrage um alle vorigen Schritte zu vereinen: SELECT g.accnum,g.sequence FROM genbank g, blast b, swissprot s, mgd m WHERE m.exp = “CNS” AND m.defn LIKE “%channel%” AND m.spid = s.id AND s.seq = b.query AND b.hit = g.accnum AND b.percentid > 60 AND b.alignlen > 50 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Föderierter DBMS Ansatz Effiziente Ausführung durch Optimierer Herkömmliche Optimierung Wrapper helfen mit Kostenmodell domänenspezifischen Funktionen Sichere Ausführung Wiederholbar Transaktional 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Weitere Anwendungsgebiete: Föderierte Datenbanken Meta-Suchmaschinen Unternehmensfusionen Kundendatenbanken Personaldatenbanken Grid Krankenhausinformationssysteme Röntgenbilder Krankheitsverlauf (Akte) Verwaltung Krankenkasse... Verteiltes Arbeiten („groupware“) Peer Data Management und P2P 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Überblick Beispiele der Informationsintegration Data Warehouse Föderierte Datenbanken Probleme und Potential der Informationsintegration Redundanz Komplementierung 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Integrationspotential Wann ist Informationsintegration möglich? Intensionale Redundanz Wann ist Informationsintegration schwierig? Extensionale Redundanz Wann ist Informationsintegration nützlich? Extensionale Komplementierung Intensionale Komplementierung 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Intension & Extension Definition: Intension Die Intension eines Informationssystems ist die Menge der Schemainformationen und deren Semantik (Bedeutung). Definition: Extension Die Extension eines Informationssystems ist die Menge aller zur Intension gehörigen, zugreifbaren Daten. 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Intension & Extension Die Intension einer Datenbank Schema für eine Menge von Entitäten/Dingen Semantik Die Extension einer Datenbank Zustand Menge von Entitäten Buch ISBN Titel Autor 3442727316 Moby Dick Herman Melville 3491960827 Robinson Crusoe Daniel Defoe 3462032283 Zwölf Nick McDonell 3883891606 Timbuktu Paul Auster 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Redundanz und Komplementierung Redundanz hilft zur Verifikation Nur bei gewisser Redundanz kann Komplementierung genutzt werden Komplementierung ist gut Hier liegt der eigentliche „Sinn“ der Informationsintegration. Informationen mehrerer (sich komplementierender) Quellen werden zu einem größeren Ganzen integriert. 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Intensionale Redundanz ISBN Titel Autor 3442727316 Moby Dick Herman Melville 3491960827 Robinson Crusoe Daniel Defoe 3462032283 Zwölf Nick McDonell 3883891606 Timbuktu Paul Auster Intensionale Redundanz liegt vor, wenn das Entfernen von Teilen der Intension die Gesamtintension nicht verändert. 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Intensionale Redundanz ISBN ID Titel Autor 3442727316 Moby Dick Herman Melville 3491960827 Robinson Crusoe Daniel Defoe 3462032283 Zwölf Nick McDonell 3883891606 Timbuktu Paul Auster Intensionale Redundanz trotz unterschiedlicher Label? Ja, denn Semantik zählt! 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Intensionale Redundanz Quelle 1 Quelle 2 ISBN Autor 3442727316 Herman Melville 3491960827 Daniel Defoe 3462032283 Nick McDonell 3883891606 Paul Auster ISBN Autor 3491960827 Daniel Defoe 3442727316 H Melville 3462032283 Nick MacDonell 3883891606 Paul Auster Intensionale Redundanz auch über mehrere Relationen und Quellen. 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Potential Intensionaler Redundanz Quelle 1 Quelle 2 ISBN Autor 3442727316 Herman Melville 3491960827 Daniel Defoe 3462032283 Nick McDonell 3883891606 Paul Auster ISBN Autor 3491960827 Daniel Defoe 3442727316 H Melville 3462032283 Nick MacDonell 3883891606 Paul Auster Verifikation 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Potential Intensionaler Redundanz Quelle 1 Quelle 2 ISBN Autor 3442727316 Herman Melville 3491960827 Daniel Defoe 3462032283 Nick McDonell 3883891606 Paul Auster ISBN Titel 3491960827 Moby Dick 3442727316 Robinson Crusoe 3462032283 Zwölf 3883891606 Timbuktu Integration 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Potential Intensionaler Redundanz Quelle 1 + 2 ISBN Autor 3442727316 Herman Melville 3491960827 Daniel Defoe 3462032283 Nick McDonell 3883891606 Paul Auster Titel Moby Dick Robinson Crusoe Zwölf Timbuktu Integration 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Intensionale Komplementierung Quelle 1 Quelle 2 ISBN Autor 3442727316 Herman Melville 3491960827 Daniel Defoe 3462032283 Nick McDonell 3883891606 Paul Auster ISBN Titel 3442727316 Moby Dick 3491960827 Robinson Crusoe 3462032283 Zwölf 3883891606 Timbuktu Intensionale Komplementierung liegt vor, wenn von zwei Intensionen mindestens eine Differenz ist nicht leer ist, und deren Schnittmenge nicht leer ist. 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Potential Intensionaler Komplementierung Quelle 1 Quelle 2 ISBN Autor 3442727316 Herman Melville 3491960827 Daniel Defoe 3462032283 Nick McDonell 3883891606 Paul Auster ISBN Titel 3462032283 Zwölf 3499139278 Leviathan 3442727316 Moby Dick ??? Verdichtung: Mehr Informationen über einzelne Objekte ??? 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Potential Intensionaler Komplementierung Quelle 1 Quelle 2 ISBN Autor 3442727316 Herman Melville 3491960827 Daniel Defoe 3462032283 Nick McDonell 3883891606 Paul Auster Autor Titel MacDonell Zwölf Auster Leviathan H Melville Moby Dick ??? Verdichtung nicht immer leicht. ??? 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Extensionale Redundanz Quelle 1 Quelle 2 ISBN Autor 3442727316 Herman Melville 3491960827 Daniel Defoe ID Author 3442727316 Herman Melville 3491960827 Daniel Defoe Extensionale Redundanz liegt vor, wenn die Menge der von zwei Quellen gemeinsam repräsentierten Objekte nicht leer ist. 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Extensionale Redundanz Quelle 1 Quelle 2 ISBN Autor 3442727316 Herman Melville 3491960827 Daniel Defoe ID Author 3491960827 Daniel Defoe 3883891606 Paul Auster Extensionale Redundanz nur über Teile der Quellen. 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Probleme Extensionaler Redundanz Quelle 1 Quelle 2 ISBN Autor 3442727316 Herman Melville 3491960827 Daniel Defoe ID Author 3491960827 Daniel Düsentrieb 3883891606 Paul Auster Extensionale Redundanz Daten-Konflikt Extensionale Redundanz ist nur auf „real-world“ Objekten definiert, nicht auf den Daten über sie. 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Extensionale Komplementierung Quelle 1 Quelle 2 ISBN Autor 3442727316 Herman Melville 3491960827 Daniel Defoe ISBN Autor 3462032283 Nick MacDonell 3883891606 Paul Auster Extensionale Komplementierung liegt vor, wenn die Differenz der repräsentierten Objekte zweier Quellen nicht leer ist. 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Potential Extensionaler Komplementierung Quelle 1 + Quelle 2 ISBN Autor 3442727316 Herman Melville 3491960827 Daniel Defoe 3462032283 Nick MacDonell 3883891606 Paul Auster Höhere Überdeckung 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Extensionaler Komplementierung mit Extensionaler Redundanz Quelle 1 Quelle 2 ISBN Autor 3442727316 Herman Melville 3491960827 Daniel Defoe ID Author 3491960827 Daniel Düsentrieb 3883891606 Paul Auster 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Probleme Extensionaler Komplementierung und Redundanz Quelle 1 + Quelle 2 ISBN Autor 3442727316 Herman Melville 3491960827 Daniel Defoe Datenkonflikt 3491960827 Daniel Düsentrieb 3883891606 Paul Auster 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Der Allgemeine Fall Quelle 1 A(V) B(W) C(X) D(Y) a1 b1 c1 d1 a2 b2 - d2 Intensionale Redundanz Extensionale Redundanz Extensionale Komplementierung Quelle 2 A(V) D(W) E(X) F(Z) a2 d2 c2 - a3 d3 e3 f3 Intensionale Komplementierung Quelle 1 & 2 A(V) B/D(W) C/E(X) D(Y) F(Z) a1 b1 c1 d1 - a2 f(b2,d2) c2 d2 - a3 d3 e3 - f3 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Zusammenfassung Redundanz Intensionale Redundanz ermöglicht extensionale Komplementierung Zwei Quellen mit gleichem Schema können zu einer überdeckenderen Quelle integriert werden Coverage Extensionale Redundanz ermöglicht intensionale Komplementierung Zwei Quellen, die über gleiche Dinge sprechen können zu einer dichteren Quelle integriert werden. Density Insgesamt ist das Ziel der Integration eine vollständigere Quelle (completeness) 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Zusammenfassung: Data Warehouse Aufbau eines Data Warehouse Quelle: Ulf Leser, VL Data Warehouses 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Zusammenfassung: Föderierte DBMS/IS 20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06