Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Informationsintegration Anwendungsszenarien

Ähnliche Präsentationen


Präsentation zum Thema: "Informationsintegration Anwendungsszenarien"—  Präsentation transkript:

1 Informationsintegration Anwendungsszenarien
Felix Naumann

2 Felix Naumann, VL Informationsintegration, WS 05/06
Überblick Beispiele der Informationsintegration Data Warehouse Föderierte Datenbanken Potential und Probleme der Informations-integration Redundanz Komplementierung Felix Naumann, VL Informationsintegration, WS 05/06

3 Real-life Informationsintegration
Überblick: Zwei wesentliche Modelle Data Warehouses Materialisierte Integration Am Beispiel Buchhändler (Folien von Prof. Leser) Föderierte Datenbanken Virtuelle Integration Am Beispiel einer Life Sciences DB (DiscoveryLink) Weitere Beispiele Felix Naumann, VL Informationsintegration, WS 05/06

4 Felix Naumann, VL Informationsintegration, WS 05/06
Data Warehouse Eine oder mehrere (ähnliche) Datenbanken mit Bücherverkaufsinformationen Daten werden oft aktualisiert Jede Bestellung einzeln Katalog Updates täglich Management benötigt Entscheidungshilfen (decision support) Komplexe Anfragen Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

5 Bücher im Internet bestellen
Backup Durchsatz Load- balancing Portfolio Umsatz Werbung Zielkonflikt Daten bank Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

6 Felix Naumann, VL Informationsintegration, WS 05/06
Die Datenbank dazu Bookgroup id name Year id year Order Order_id Book_id amount single_price Book id Book_group_id Month Id Month year_id Orders Id Day_id Customer_id Total_amt Customer id name Day Id day month_id Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

7 Fragen eines Marketingleiters
Wie viele Bestellungen haben wir jeweils im Monat vor Weihnachten, aufgeschlüsselt nach Produktgruppen? Order Order_id book_id amount single_price Orders Id Day_id Customer_id Total_amt Day Id day month_id Month Id Month year_id Year id year Customer id name Book id Book_group_id Bookgroup Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

8 Felix Naumann, VL Informationsintegration, WS 05/06
Technisch SELECT Y.year, PG.name, count(B.id) FROM year Y, month M, day D, order O, orders OS, book B, bookgroup BG WHERE M.year = Y.id and M.id = D.month and O.day_id = D.id and OS.order_id = O.id and B.id = O.book_id and B.book_group_id = BG.id and day < 24 and month = 12 GROUP BY Y.year, PG.product_name ORDER BY Y.year Order Order_id Book_id amount single_price Orders Id Day_id Customer_id Total_amt Day Id day month_id Month Id Month year_id Year id year Customer id name Book id Book_group_id Bookgroup Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

9 Felix Naumann, VL Informationsintegration, WS 05/06
Technisch SELECT Y.year, PG.name, count(B.id) FROM year Y, month M, day D, order O, orders OS, book B, bookgroup BG WHERE M.year = Y.id and M.id = D.month and O.day_id = D.id and OS.order_id = O.id and B.id = O.book_id and B.book_group_id = BG.id and day < 24 and month = 12 GROUP BY Y.year, PG.product_name ORDER BY Y.year 6 Joins Year: 10 Records Month: 120 Records Day: Records Orders: Order: Books: Bookgroups: 100 Problem! Schwierig zu optimieren (Join-Reihenfolge) Je nach Ausführungsplan riesige Zwischenergebnisse Ähnliche Anfragen – ähnlich riesige Zwischenergebnisse Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

10 In Wahrheit ... noch schlimmer
Es gibt noch: Amazon.de Amazon.fr Amazon.it ... Verteilte Ausführung Count über Union mehrerer gleicher Anfragen in unterschiedlichen Datenbanken HILFE! Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

11 Felix Naumann, VL Informationsintegration, WS 05/06
In Wahrheit ... Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

12 Felix Naumann, VL Informationsintegration, WS 05/06
Technisch: Eine VIEW CREATE VIEW christmas AS SELECT Y.year, PG.name, count(B.id) FROM DE.year Y, DE.month M, DE.day D, DE.order O, ... WHERE M.year = Y.id and ... GROUP BY Y.year, PG.product_name ORDER BY Y.year UNION SELECT Y.year, PG.name, count(B.id) FROM EN.year Y, EN.month M, EN.day D, DE.order O, ... WHERE M.year = Y.id and ... SELECT year, name, count(B.id) FROM christmas GROUP BY year, name ORDER BY year Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

13 Felix Naumann, VL Informationsintegration, WS 05/06
Probleme Count über Union über verteilte Datenbanken? Integrationsproblem Berechnung riesiger Zwischenergebnisse bei jeder Anfrage? Datenmengenproblem Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

14 Lösung des Integrationsproblems?
Zentrale Datenbank Aber Probleme: Zweigstellen schreiben übers Netz Schlechter Durchsatz Lange Antwortzeiten im operativen Betrieb Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

15 Lösung Datenmengenproblem?
Denormalisierte Schema Aber Probleme: Jeder lesende / schreibende Zugriff erfolgt auf eine Tabelle mit 72 Mill. Records Lange Antwortzeiten im operativen Betrieb Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

16 Felix Naumann, VL Informationsintegration, WS 05/06
Zielkonflikt Felix Naumann, VL Informationsintegration, WS 05/06

17 Aufbau eines Data Warehouse
Tatsächliche Lösung Aufbau eines Data Warehouse Redundante, transformierte Datenhaltung Asynchrone Aktualisierung Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

18 Weitere Anwendungsgebiete: Data Warehouses
„Customer Relationship Management“ (CRM) Identifikation von Premiumkunden Personalisierung / Automatische Kundenberatung Gezielte Massen-Mailings (Direktvertrieb) Controlling / Rechnungswesen Kostenstellen Organisationseinheiten Personalmanagement Logistik Flottenmanagement, Tracking Gesundheitswesen Studienüberwachung, Patiententracking Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

19 Felix Naumann, VL Informationsintegration, WS 05/06
Überblick Beispiele der Informationsintegration Data Warehouse Föderierte Datenbanken Probleme und Potential der Informationsintegration Redundanz Komplementierung Felix Naumann, VL Informationsintegration, WS 05/06

20 Föderierte Datenbanken
Mehrere autonome Informationsquellen Mit unterschiedlichsten Inhalten Gene, Proteine, BLAST, etc. Und unterschiedlichsten Schnittstellen HTML-Form, flat file, SQL, etc. Wissenschaftler (Biologe) benötigt z.B. möglichst viele Informationen über ein bestimmtes Protein Funktion, Veröffentlichungen, verwandte Proteine usw. Sehr komplexe Anfragen Üblicher Ansatz: Browsing, Note-Taking, Copy & Paste Föderierte Datenbanken (wie DiscoveryLink) helfen. Felix Naumann, VL Informationsintegration, WS 05/06

21 Felix Naumann, VL Informationsintegration, WS 05/06
Frage eines Biologen Finde alle menschlichen EST Sequenzen, die nach BLAST zu mindestens 60% über mindestens 50 Aminosäuren identisch sind mit mouse-channel Genen im Gewebe des zentralen Nervensystems. Quelle für das komplette Beispiel: A Practitioner’s Guide to Data Management and Data Integration in Bioinformatics, Barbara A. Eckman in Bioinformatics by Zoe Lacroix and Terence Critchlow, 2003, Morgan Kaufmann. Felix Naumann, VL Informationsintegration, WS 05/06

22 Verschiedene Informationsquellen
Beteiligte Informationsquellen Mouse Genome Database Jackson Labs EBI BLAST NCBI GenBank nucleotide sequence NCBI Alle Quellen sind frei verfügbar Felix Naumann, VL Informationsintegration, WS 05/06

23 Herkömmlicher Ansatz: Browsing
1. Suche „channel“ Sequenzen im Gewebe des ZNS durch MGD HTML Formular Felix Naumann, VL Informationsintegration, WS 05/06

24 Herkömmlicher Ansatz: Browsing
MGD Resultat 14 Gene aus 17 Experimenten Felix Naumann, VL Informationsintegration, WS 05/06

25 Herkömmlicher Ansatz: Browsing
Details zu jedem der 14 Gene ansehen Durchschnittlich fünf SwissProt Links pro Gen Felix Naumann, VL Informationsintegration, WS 05/06

26 Herkömmlicher Ansatz: Browsing
Betrachten jedes SwissProt Eintrages Durch Klick BLAST Algorithmus anwerfen Felix Naumann, VL Informationsintegration, WS 05/06

27 Herkömmlicher Ansatz: Browsing
Betrachten jedes BLAST Resultats um nicht-menschliche Treffer zu eliminieren, andere Bedingungen zu prüfen (>60% Identität, etc.) Felix Naumann, VL Informationsintegration, WS 05/06

28 Herkömmlicher Ansatz: Browsing
Für jeden verbleibenden Eintrag Komplette EST Sequenz bei GenBank holen Alles sehr mühselig! Felix Naumann, VL Informationsintegration, WS 05/06

29 Felix Naumann, VL Informationsintegration, WS 05/06
Idee der Integration Bildung eines globalen Schemas (Schemaintegration) Gespeichert als Datenbankschema in DiscoveryLink Generierung von Wrappern für jede Datenquelle Softwarekomponente Mapping von lokalen Schemata auf globales Schema Kennt Anfragefähigkeiten der Quellen Felix Naumann, VL Informationsintegration, WS 05/06

30 DiscoveryLink Architektur
Felix Naumann, VL Informationsintegration, WS 05/06

31 Eigenschaften föderierter IS (und DiscoveryLink)
Daten bleiben vor Ort. Informationsquellen sind autonom (und wissen oft nicht von ihrer Integration). Anfragen werden deklarativ an das globale Schema gestellt. Anfrage wird so verteilt wie möglich ausgeführt. Je nach Mächtigkeit der Quellen DiscoveryLink gleicht etwaige mangelnder Fähigkeiten aus. Felix Naumann, VL Informationsintegration, WS 05/06

32 Föderierter DBMS Ansatz
„Finde alle menschlichen EST Sequenzen, die nach BLAST zu mindestens 60% über mindestens 50 Aminosäuren identisch sind mit mouse-channel Genen im Gewebe des zentralen Nervensystems.“ „Einfache“ SQL-Anfrage um alle vorigen Schritte zu vereinen: SELECT g.accnum,g.sequence FROM genbank g, blast b, swissprot s, mgd m WHERE m.exp = “CNS” AND m.defn LIKE “%channel%” AND m.spid = s.id AND s.seq = b.query AND b.hit = g.accnum AND b.percentid > 60 AND b.alignlen > 50 Felix Naumann, VL Informationsintegration, WS 05/06

33 Föderierter DBMS Ansatz
Effiziente Ausführung durch Optimierer Herkömmliche Optimierung Wrapper helfen mit Kostenmodell domänenspezifischen Funktionen Sichere Ausführung Wiederholbar Transaktional Felix Naumann, VL Informationsintegration, WS 05/06

34 Weitere Anwendungsgebiete: Föderierte Datenbanken
Meta-Suchmaschinen Unternehmensfusionen Kundendatenbanken Personaldatenbanken Grid Krankenhausinformationssysteme Röntgenbilder Krankheitsverlauf (Akte) Verwaltung Krankenkasse... Verteiltes Arbeiten („groupware“) Peer Data Management und P2P Felix Naumann, VL Informationsintegration, WS 05/06

35 Felix Naumann, VL Informationsintegration, WS 05/06
Überblick Beispiele der Informationsintegration Data Warehouse Föderierte Datenbanken Probleme und Potential der Informationsintegration Redundanz Komplementierung Felix Naumann, VL Informationsintegration, WS 05/06

36 Integrationspotential
Wann ist Informationsintegration möglich? Intensionale Redundanz Wann ist Informationsintegration schwierig? Extensionale Redundanz Wann ist Informationsintegration nützlich? Extensionale Komplementierung Intensionale Komplementierung Felix Naumann, VL Informationsintegration, WS 05/06

37 Felix Naumann, VL Informationsintegration, WS 05/06
Intension & Extension Definition: Intension Die Intension eines Informationssystems ist die Menge der Schemainformationen und deren Semantik (Bedeutung). Definition: Extension Die Extension eines Informationssystems ist die Menge aller zur Intension gehörigen, zugreifbaren Daten. Felix Naumann, VL Informationsintegration, WS 05/06

38 Felix Naumann, VL Informationsintegration, WS 05/06
Intension & Extension Die Intension einer Datenbank Schema für eine Menge von Entitäten/Dingen Semantik Die Extension einer Datenbank Zustand Menge von Entitäten Buch ISBN Titel Autor Moby Dick Herman Melville Robinson Crusoe Daniel Defoe Zwölf Nick McDonell Timbuktu Paul Auster Felix Naumann, VL Informationsintegration, WS 05/06

39 Redundanz und Komplementierung
Redundanz hilft zur Verifikation Nur bei gewisser Redundanz kann Komplementierung genutzt werden Komplementierung ist gut Hier liegt der eigentliche „Sinn“ der Informationsintegration. Informationen mehrerer (sich komplementierender) Quellen werden zu einem größeren Ganzen integriert. Felix Naumann, VL Informationsintegration, WS 05/06

40 Intensionale Redundanz
ISBN Titel Autor Moby Dick Herman Melville Robinson Crusoe Daniel Defoe Zwölf Nick McDonell Timbuktu Paul Auster Intensionale Redundanz liegt vor, wenn das Entfernen von Teilen der Intension die Gesamtintension nicht verändert. Felix Naumann, VL Informationsintegration, WS 05/06

41 Intensionale Redundanz
ISBN ID Titel Autor Moby Dick Herman Melville Robinson Crusoe Daniel Defoe Zwölf Nick McDonell Timbuktu Paul Auster Intensionale Redundanz trotz unterschiedlicher Label? Ja, denn Semantik zählt! Felix Naumann, VL Informationsintegration, WS 05/06

42 Intensionale Redundanz
Quelle 1 Quelle 2 ISBN Autor Herman Melville Daniel Defoe Nick McDonell Paul Auster ISBN Autor Daniel Defoe H Melville Nick MacDonell Paul Auster Intensionale Redundanz auch über mehrere Relationen und Quellen. Felix Naumann, VL Informationsintegration, WS 05/06

43 Potential Intensionaler Redundanz
Quelle 1 Quelle 2 ISBN Autor Herman Melville Daniel Defoe Nick McDonell Paul Auster ISBN Autor Daniel Defoe H Melville Nick MacDonell Paul Auster Verifikation Felix Naumann, VL Informationsintegration, WS 05/06

44 Potential Intensionaler Redundanz
Quelle 1 Quelle 2 ISBN Autor Herman Melville Daniel Defoe Nick McDonell Paul Auster ISBN Titel Moby Dick Robinson Crusoe Zwölf Timbuktu Integration Felix Naumann, VL Informationsintegration, WS 05/06

45 Potential Intensionaler Redundanz
Quelle 1 + 2 ISBN Autor Herman Melville Daniel Defoe Nick McDonell Paul Auster Titel Moby Dick Robinson Crusoe Zwölf Timbuktu Integration Felix Naumann, VL Informationsintegration, WS 05/06

46 Intensionale Komplementierung
Quelle 1 Quelle 2 ISBN Autor Herman Melville Daniel Defoe Nick McDonell Paul Auster ISBN Titel Moby Dick Robinson Crusoe Zwölf Timbuktu Intensionale Komplementierung liegt vor, wenn von zwei Intensionen mindestens eine Differenz ist nicht leer ist, und deren Schnittmenge nicht leer ist. Felix Naumann, VL Informationsintegration, WS 05/06

47 Potential Intensionaler Komplementierung
Quelle 1 Quelle 2 ISBN Autor Herman Melville Daniel Defoe Nick McDonell Paul Auster ISBN Titel Zwölf Leviathan Moby Dick ??? Verdichtung: Mehr Informationen über einzelne Objekte ??? Felix Naumann, VL Informationsintegration, WS 05/06

48 Potential Intensionaler Komplementierung
Quelle 1 Quelle 2 ISBN Autor Herman Melville Daniel Defoe Nick McDonell Paul Auster Autor Titel MacDonell Zwölf Auster Leviathan H Melville Moby Dick ??? Verdichtung nicht immer leicht. ??? Felix Naumann, VL Informationsintegration, WS 05/06

49 Extensionale Redundanz
Quelle 1 Quelle 2 ISBN Autor Herman Melville Daniel Defoe ID Author Herman Melville Daniel Defoe Extensionale Redundanz liegt vor, wenn die Menge der von zwei Quellen gemeinsam repräsentierten Objekte nicht leer ist. Felix Naumann, VL Informationsintegration, WS 05/06

50 Extensionale Redundanz
Quelle 1 Quelle 2 ISBN Autor Herman Melville Daniel Defoe ID Author Daniel Defoe Paul Auster Extensionale Redundanz nur über Teile der Quellen. Felix Naumann, VL Informationsintegration, WS 05/06

51 Probleme Extensionaler Redundanz
Quelle 1 Quelle 2 ISBN Autor Herman Melville Daniel Defoe ID Author Daniel Düsentrieb Paul Auster Extensionale Redundanz Daten-Konflikt Extensionale Redundanz ist nur auf „real-world“ Objekten definiert, nicht auf den Daten über sie. Felix Naumann, VL Informationsintegration, WS 05/06

52 Extensionale Komplementierung
Quelle 1 Quelle 2 ISBN Autor Herman Melville Daniel Defoe ISBN Autor Nick MacDonell Paul Auster Extensionale Komplementierung liegt vor, wenn die Differenz der repräsentierten Objekte zweier Quellen nicht leer ist. Felix Naumann, VL Informationsintegration, WS 05/06

53 Potential Extensionaler Komplementierung
Quelle 1 + Quelle 2 ISBN Autor Herman Melville Daniel Defoe Nick MacDonell Paul Auster Höhere Überdeckung Felix Naumann, VL Informationsintegration, WS 05/06

54 Extensionaler Komplementierung mit Extensionaler Redundanz
Quelle 1 Quelle 2 ISBN Autor Herman Melville Daniel Defoe ID Author Daniel Düsentrieb Paul Auster Felix Naumann, VL Informationsintegration, WS 05/06

55 Probleme Extensionaler Komplementierung und Redundanz
Quelle 1 + Quelle 2 ISBN Autor Herman Melville Daniel Defoe Datenkonflikt Daniel Düsentrieb Paul Auster Felix Naumann, VL Informationsintegration, WS 05/06

56 Der Allgemeine Fall Quelle 1 A(V) B(W) C(X) D(Y) a1 b1 c1 d1
a2 b2 - d2 Intensionale Redundanz Extensionale Redundanz Extensionale Komplementierung Quelle 2 A(V) D(W) E(X) F(Z) a2 d2 c2 - a3 d3 e3 f3 Intensionale Komplementierung Quelle 1 & 2 A(V) B/D(W) C/E(X) D(Y) F(Z) a1 b1 c1 d a2 f(b2,d2) c2 d2 - a3 d3 e f3 Felix Naumann, VL Informationsintegration, WS 05/06

57 Zusammenfassung Redundanz
Intensionale Redundanz ermöglicht extensionale Komplementierung Zwei Quellen mit gleichem Schema können zu einer überdeckenderen Quelle integriert werden Coverage Extensionale Redundanz ermöglicht intensionale Komplementierung Zwei Quellen, die über gleiche Dinge sprechen können zu einer dichteren Quelle integriert werden. Density Insgesamt ist das Ziel der Integration eine vollständigere Quelle (completeness) Felix Naumann, VL Informationsintegration, WS 05/06

58 Zusammenfassung: Data Warehouse
Aufbau eines Data Warehouse Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

59 Zusammenfassung: Föderierte DBMS/IS
Felix Naumann, VL Informationsintegration, WS 05/06


Herunterladen ppt "Informationsintegration Anwendungsszenarien"

Ähnliche Präsentationen


Google-Anzeigen