Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Informationsintegration Anwendungsszenarien 20.10.2004 Felix Naumann.

Ähnliche Präsentationen


Präsentation zum Thema: "Informationsintegration Anwendungsszenarien 20.10.2004 Felix Naumann."—  Präsentation transkript:

1 Informationsintegration Anwendungsszenarien 20.10.2004 Felix Naumann

2 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/062 Überblick Beispiele der Informationsintegration Data Warehouse Föderierte Datenbanken Potential und Probleme der Informations- integration Redundanz Komplementierung

3 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/063 Real-life Informationsintegration Überblick: Zwei wesentliche Modelle Data Warehouses Materialisierte Integration Am Beispiel Buchhändler (Folien von Prof. Leser) Föderierte Datenbanken Virtuelle Integration Am Beispiel einer Life Sciences DB (DiscoveryLink) Weitere Beispiele

4 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/064 Data Warehouse Eine oder mehrere (ähnliche) Datenbanken mit Bücherverkaufsinformationen Daten werden oft aktualisiert Jede Bestellung einzeln Katalog Updates täglich Management benötigt Entscheidungshilfen (decision support) Komplexe Anfragen Quelle: Ulf Leser, VL Data Warehouses

5 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/065 Bücher im Internet bestellen Backup Durchsat z Load- balancing Portfolio Umsatz Werbung Daten bank Quelle: Ulf Leser, VL Data Warehouses Zielkonflikt

6 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/066 Die Datenbank dazu Order Order_id Book_id amount single_price Orders Id Day_id Customer_id Total_amt Day Id day month_id Month Id Month year_id Year id year Customer id name Book id Book_group_id Bookgroup id name Quelle: Ulf Leser, VL Data Warehouses

7 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/067 Fragen eines Marketingleiters Order Order_id book_id amount single_price Orders Id Day_id Customer_id Total_amt Day Id day month_id Month Id Month year_id Year id year Customer id name Book id Book_group_id Bookgroup id name Wie viele Bestellungen haben wir jeweils im Monat vor Weihnachten, aufgeschlüsselt nach Produktgruppen? Quelle: Ulf Leser, VL Data Warehouses

8 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/068 Technisch Order Order_id Book_id amount single_price Orders Id Day_id Customer_id Total_amt Day Id day month_id Month Id Month year_id Year id year Customer id name Book id Book_group_id Bookgroup id name Quelle: Ulf Leser, VL Data Warehouses SELECTY.year, PG.name, count(B.id) FROMyear Y, month M, day D, order O, orders OS, book B, bookgroup BG WHEREM.year = Y.id and M.id = D.month and O.day_id = D.id and OS.order_id = O.id and B.id = O.book_id and B.book_group_id = BG.id and day < 24 and month = 12 GROUP BY Y.year, PG.product_name ORDER BY Y.year

9 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/069 Technisch SELECTY.year, PG.name, count(B.id) FROMyear Y, month M, day D, order O, orders OS, book B, bookgroup BG WHEREM.year = Y.id and M.id = D.month and O.day_id = D.id and OS.order_id = O.id and B.id = O.book_id and B.book_group_id = BG.id and day < 24 and month = 12 GROUP BY Y.year, PG.product_name ORDER BY Y.year 6 Joins Year: 10 Records Month: 120 Records Day: 3650 Records Orders:36.000.000 Order:72.000.000 Books: 200.000 Bookgroups:100 Problem! Schwierig zu optimieren (Join- Reihenfolge) Je nach Ausführungsplan riesige Zwischenergebnisse Ähnliche Anfragen – ähnlich riesige Zwischenergebnisse Quelle: Ulf Leser, VL Data Warehouses

10 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0610 In Wahrheit... noch schlimmer Es gibt noch: Amazon.de Amazon.fr Amazon.it... Verteilte Ausführung Count über Union mehrerer gleicher Anfragen in unterschiedlichen Datenbanken Quelle: Ulf Leser, VL Data Warehouses HILFE!

11 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0611 In Wahrheit... Quelle: Ulf Leser, VL Data Warehouses

12 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0612 Technisch: Eine VIEW CREATE VIEW christmas AS SELECT Y.year, PG.name, count(B.id) FROM DE.year Y, DE.month M, DE.day D, DE.order O,... WHERE M.year = Y.id and... GROUP BYY.year, PG.product_name ORDER BY Y.year UNION SELECT Y.year, PG.name, count(B.id) FROMEN.year Y, EN.month M, EN.day D, DE.order O,... WHEREM.year = Y.id and... SELECT year, name, count(B.id) FROM christmas GROUP BYyear, name ORDER BYyear Quelle: Ulf Leser, VL Data Warehouses

13 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0613 Probleme Count über Union über verteilte Datenbanken? Integrationsproblem Berechnung riesiger Zwischenergebnisse bei jeder Anfrage? Datenmengenproblem Quelle: Ulf Leser, VL Data Warehouses

14 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0614 Lösung des Integrationsproblems? Zentrale Datenbank Aber Probleme: –Zweigstellen schreiben übers Netz –Schlechter Durchsatz –Lange Antwortzeiten im operativen Betrieb Quelle: Ulf Leser, VL Data Warehouses

15 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0615 Lösung Datenmengenproblem? Denormalisierte Schema Aber Probleme: –Jeder lesende / schreibende Zugriff erfolgt auf eine Tabelle mit 72 Mill. Records –Lange Antwortzeiten im operativen Betrieb Quelle: Ulf Leser, VL Data Warehouses

16 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0616 Zielkonflikt

17 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0617 Tatsächliche Lösung Redundante, transformierte Datenhaltung Asynchrone Aktualisierung Aufbau eines Data Warehouse Quelle: Ulf Leser, VL Data Warehouses

18 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0618 Weitere Anwendungsgebiete: Data Warehouses Customer Relationship Management (CRM) Identifikation von Premiumkunden Personalisierung / Automatische Kundenberatung Gezielte Massen-Mailings (Direktvertrieb) Controlling / Rechnungswesen Kostenstellen Organisationseinheiten Personalmanagement Logistik Flottenmanagement, Tracking Gesundheitswesen Studienüberwachung, Patiententracking Quelle: Ulf Leser, VL Data Warehouses

19 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0619 Überblick Beispiele der Informationsintegration Data Warehouse Föderierte Datenbanken Probleme und Potential der Informationsintegration Redundanz Komplementierung

20 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0620 Föderierte Datenbanken Mehrere autonome Informationsquellen Mit unterschiedlichsten Inhalten Gene, Proteine, BLAST, etc. Und unterschiedlichsten Schnittstellen HTML-Form, flat file, SQL, etc. Wissenschaftler (Biologe) benötigt z.B. möglichst viele Informationen über ein bestimmtes Protein Funktion, Veröffentlichungen, verwandte Proteine usw. Sehr komplexe Anfragen Üblicher Ansatz: Browsing, Note-Taking, Copy & Paste Föderierte Datenbanken (wie DiscoveryLink) helfen.

21 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0621 Frage eines Biologen Finde alle menschlichen EST Sequenzen, die nach BLAST zu mindestens 60% über mindestens 50 Aminosäuren identisch sind mit mouse-channel Genen im Gewebe des zentralen Nervensystems. Quelle für das komplette Beispiel: A Practitioners Guide to Data Management and Data Integration in Bioinformatics, Barbara A. Eckman in Bioinformatics by Zoe Lacroix and Terence Critchlow, 2003, Morgan Kaufmann.

22 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0622 Verschiedene Informationsquellen Beteiligte Informationsquellen Mouse Genome Database (MGD) @ Jackson Labs SwissProt @ EBI BLAST tool @ NCBI GenBank nucleotide sequence database @ NCBI Alle Quellen sind frei verfügbar

23 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0623 Herkömmlicher Ansatz: Browsing 1. Suche channel Sequenzen im Gewebe des ZNS durch MGD HTML Formular

24 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0624 Herkömmlicher Ansatz: Browsing MGD Resultat 14 Gene aus 17 Experimenten

25 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0625 Herkömmlicher Ansatz: Browsing Details zu jedem der 14 Gene ansehen Durchschnittlich fünf SwissProt Links pro Gen

26 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0626 Herkömmlicher Ansatz: Browsing Betrachten jedes SwissProt Eintrages Durch Klick BLAST Algorithmus anwerfen

27 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0627 Herkömmlicher Ansatz: Browsing Betrachten jedes BLAST Resultats um nicht-menschliche Treffer zu eliminieren, andere Bedingungen zu prüfen (>60% Identität, etc.)

28 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0628 Herkömmlicher Ansatz: Browsing Für jeden verbleibenden Eintrag Komplette EST Sequenz bei GenBank holen

29 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0629 Idee der Integration Bildung eines globalen Schemas (Schemaintegration) Gespeichert als Datenbankschema in DiscoveryLink Generierung von Wrappern für jede Datenquelle Softwarekomponente Mapping von lokalen Schemata auf globales Schema Kennt Anfragefähigkeiten der Quellen

30 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0630 DiscoveryLink Architektur

31 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0631 Eigenschaften föderierter IS (und DiscoveryLink) Daten bleiben vor Ort. Informationsquellen sind autonom (und wissen oft nicht von ihrer Integration). Anfragen werden deklarativ an das globale Schema gestellt. Anfrage wird so verteilt wie möglich ausgeführt. Je nach Mächtigkeit der Quellen DiscoveryLink gleicht etwaige mangelnder Fähigkeiten aus.

32 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0632 Föderierter DBMS Ansatz Einfache SQL-Anfrage um alle vorigen Schritte zu vereinen: SELECTg.accnum,g.sequence FROMgenbank g, blast b, swissprot s, mgd m WHERE m.exp = CNS ANDm.defn LIKE %channel% ANDm.spid = s.id AND s.seq = b.query AND b.hit = g.accnum AND b.percentid > 60 AND b.alignlen > 50 Finde alle menschlichen EST Sequenzen, die nach BLAST zu mindestens 60% über mindestens 50 Aminosäuren identisch sind mit mouse-channel Genen im Gewebe des zentralen Nervensystems.

33 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0633 Föderierter DBMS Ansatz Effiziente Ausführung durch Optimierer Herkömmliche Optimierung Wrapper helfen mit Kostenmodell domänenspezifischen Funktionen Sichere Ausführung Wiederholbar Transaktional

34 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0634 Weitere Anwendungsgebiete: Föderierte Datenbanken Meta-Suchmaschinen Unternehmensfusionen Kundendatenbanken Personaldatenbanken Grid Krankenhausinformationssysteme Röntgenbilder Krankheitsverlauf (Akte) Verwaltung Krankenkasse... Verteiltes Arbeiten (groupware) Peer Data Management und P2P

35 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0635 Überblick Beispiele der Informationsintegration Data Warehouse Föderierte Datenbanken Probleme und Potential der Informationsintegration Redundanz Komplementierung

36 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0636 Integrationspotential Wann ist Informationsintegration möglich? Intensionale Redundanz Wann ist Informationsintegration schwierig? Extensionale Redundanz Wann ist Informationsintegration nützlich? Extensionale Komplementierung Intensionale Komplementierung

37 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0637 Intension & Extension Definition: Intension Die Intension eines Informationssystems ist die Menge der Schemainformationen und deren Semantik (Bedeutung). Definition: Extension Die Extension eines Informationssystems ist die Menge aller zur Intension gehörigen, zugreifbaren Daten.

38 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0638 Intension & Extension Die Intension einer Datenbank Schema für eine Menge von Entitäten/Dingen Semantik Die Extension einer Datenbank Zustand Menge von Entitäten ISBNTitelAutor 3442727316 Moby Dick Herman Melville 3491960827 Robinson Crusoe Daniel Defoe 3462032283 ZwölfNick McDonell 3883891606 TimbuktuPaul Auster Buch

39 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0639 Redundanz und Komplementierung Redundanz hilft zur Verifikation Nur bei gewisser Redundanz kann Komplementierung genutzt werden Komplementierung ist gut Hier liegt der eigentliche Sinn der Informationsintegration. Informationen mehrerer (sich komplementierender) Quellen werden zu einem größeren Ganzen integriert.

40 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0640 Intensionale Redundanz ISBN TitelAutor 3442727316 Moby Dick Herman Melville 3491960827 Robinson Crusoe Daniel Defoe 3462032283 ZwölfNick McDonell 3883891606 TimbuktuPaul Auster Intensionale Redundanz liegt vor, wenn das Entfernen von Teilen der Intension die Gesamtintension nicht verändert.

41 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0641 Intensionale Redundanz ISBNIDTitelAutor 3442727316 Moby Dick Herman Melville 3491960827 Robinson Crusoe Daniel Defoe 3462032283 ZwölfNick McDonell 3883891606 TimbuktuPaul Auster Intensionale Redundanz trotz unterschiedlicher Label? Ja, denn Semantik zählt!

42 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0642 Intensionale Redundanz ISBNAutor 3491960827 Daniel Defoe 3442727316 H Melville 3462032283 Nick MacDonell 3883891606 Paul Auster ISBNAutor 3442727316 Herman Melville 3491960827 Daniel Defoe 3462032283 Nick McDonell 3883891606 Paul Auster Quelle 2Quelle 1 Intensionale Redundanz auch über mehrere Relationen und Quellen.

43 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0643 Potential Intensionaler Redundanz Verifikation ISBNAutor 3491960827 Daniel Defoe 3442727316 H Melville 3462032283 Nick MacDonell 3883891606 Paul Auster ISBNAutor 3442727316 Herman Melville 3491960827 Daniel Defoe 3462032283 Nick McDonell 3883891606 Paul Auster Quelle 2 Quelle 1

44 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0644 Potential Intensionaler Redundanz Integration ISBNTitel 3491960827 Moby Dick 3442727316 Robinson Crusoe 3462032283 Zwölf 3883891606 Timbuktu ISBNAutor 3442727316 Herman Melville 3491960827 Daniel Defoe 3462032283 Nick McDonell 3883891606 Paul Auster Quelle 2Quelle 1

45 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0645 Potential Intensionaler Redundanz Integration Titel Moby Dick Robinson Crusoe Zwölf Timbuktu ISBNAutor 3442727316 Herman Melville 3491960827 Daniel Defoe 3462032283 Nick McDonell 3883891606 Paul Auster Quelle 1 + 2

46 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0646 Intensionale Komplementierung ISBNTitel 3442727316 Moby Dick 3491960827 Robinson Crusoe 3462032283 Zwölf 3883891606 Timbuktu ISBNAutor 3442727316 Herman Melville 3491960827 Daniel Defoe 3462032283 Nick McDonell 3883891606 Paul Auster Quelle 2Quelle 1 Intensionale Komplementierung liegt vor, wenn von zwei Intensionen - mindestens eine Differenz ist nicht leer ist, - und deren Schnittmenge nicht leer ist.

47 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0647 Potential Intensionaler Komplementierung ISBNTitel 3462032283 Zwölf 3499139278 Leviathan 3442727316 Moby Dick ISBNAutor 3442727316 Herman Melville 3491960827 Daniel Defoe 3462032283 Nick McDonell 3883891606 Paul Auster Quelle 2 Quelle 1 ??? Verdichtung: Mehr Informationen über einzelne Objekte

48 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0648 Potential Intensionaler Komplementierung AutorTitel MacDonell Zwölf Auster Leviathan H Melville Moby Dick ISBNAutor 3442727316 Herman Melville 3491960827 Daniel Defoe 3462032283 Nick McDonell 3883891606 Paul Auster Quelle 2Quelle 1 ??? Verdichtung nicht immer leicht.

49 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0649 Extensionale Redundanz Extensionale Redundanz liegt vor, wenn die Menge der von zwei Quellen gemeinsam repräsentierten Objekte nicht leer ist. ISBNAutor 3442727316 Herman Melville 3491960827 Daniel Defoe Quelle 2Quelle 1 IDAuthor 3442727316 Herman Melville 3491960827 Daniel Defoe

50 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0650 Extensionale Redundanz IDAuthor 3491960827 Daniel Defoe 3883891606 Paul Auster ISBNAutor 3442727316 Herman Melville 3491960827 Daniel Defoe Quelle 2Quelle 1 Extensionale Redundanz nur über Teile der Quellen.

51 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0651 Probleme Extensionaler Redundanz Extensionale Redundanz ist nur auf real-world Objekten definiert, nicht auf den Daten über sie. IDAuthor 3491960827 Daniel Düsentrieb 3883891606 Paul Auster ISBNAutor 3442727316 Herman Melville 3491960827 Daniel Defoe Quelle 2 Quelle 1 Extensionale Redundanz Daten- Konflikt

52 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0652 Extensionale Komplementierung Extensionale Komplementierung liegt vor, wenn die Differenz der repräsentierten Objekte zweier Quellen nicht leer ist. ISBNAutor 3462032283 Nick MacDonell 3883891606 Paul Auster ISBNAutor 3442727316 Herman Melville 3491960827 Daniel Defoe Quelle 2Quelle 1

53 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0653 Potential Extensionaler Komplementierung Höhere Überdeckung 3462032283 Nick MacDonell 3883891606 Paul Auster ISBNAutor 3442727316 Herman Melville 3491960827 Daniel Defoe Quelle 1 + Quelle 2

54 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0654 Extensionaler Komplementierung mit Extensionaler Redundanz ISBNAutor 3442727316 Herman Melville 3491960827 Daniel Defoe Quelle 2Quelle 1 IDAuthor 3491960827 Daniel Düsentrieb 3883891606 Paul Auster

55 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0655 Probleme Extensionaler Komplementierung und Redundanz 3491960827 Daniel Düsentrieb 3883891606 Paul Auster ISBNAutor 3442727316 Herman Melville 3491960827 Daniel Defoe Quelle 1 + Quelle 2 Datenkonflikt

56 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0656 Der Allgemeine Fall Quelle 1A(V)B(W)C(X)D(Y) a 1 b 1 c 1 d 1 a 2 b 2 - d 2 Quelle 2A(V)D(W)E(X)F(Z) a 2 d 2 c 2 - a 3 d 3 e 3 f 3 Extensionale Komplementierung Intensionale Komplementierung Intensionale Redundanz Extensionale Redundanz Quelle 1 & 2A(V)B/D(W) C/E(X) D(Y)F(Z) a 1 b 1 c 1 d 1 - a 2 f(b 2,d 2 ) c 2 d 2 - a 3 d 3 e 3 - f 3

57 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0657 Zusammenfassung Redundanz Intensionale Redundanz ermöglicht extensionale Komplementierung Zwei Quellen mit gleichem Schema können zu einer überdeckenderen Quelle integriert werden Coverage Extensionale Redundanz ermöglicht intensionale Komplementierung Zwei Quellen, die über gleiche Dinge sprechen können zu einer dichteren Quelle integriert werden. Density Insgesamt ist das Ziel der Integration eine vollständigere Quelle (completeness)

58 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0658 Zusammenfassung: Data Warehouse Aufbau eines Data Warehouse Quelle: Ulf Leser, VL Data Warehouses

59 20.10.2004Felix Naumann, VL Informationsintegration, WS 05/0659 Zusammenfassung: Föderierte DBMS/IS


Herunterladen ppt "Informationsintegration Anwendungsszenarien 20.10.2004 Felix Naumann."

Ähnliche Präsentationen


Google-Anzeigen