Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Informationsintegration Anwendungsszenarien 20.10.2004 Felix Naumann.

Ähnliche Präsentationen


Präsentation zum Thema: "Informationsintegration Anwendungsszenarien 20.10.2004 Felix Naumann."—  Präsentation transkript:

1 Informationsintegration Anwendungsszenarien Felix Naumann

2 Felix Naumann, VL Informationsintegration, WS 05/062 Überblick Beispiele der Informationsintegration Data Warehouse Föderierte Datenbanken Potential und Probleme der Informations- integration Redundanz Komplementierung

3 Felix Naumann, VL Informationsintegration, WS 05/063 Real-life Informationsintegration Überblick: Zwei wesentliche Modelle Data Warehouses Materialisierte Integration Am Beispiel Buchhändler (Folien von Prof. Leser) Föderierte Datenbanken Virtuelle Integration Am Beispiel einer Life Sciences DB (DiscoveryLink) Weitere Beispiele

4 Felix Naumann, VL Informationsintegration, WS 05/064 Data Warehouse Eine oder mehrere (ähnliche) Datenbanken mit Bücherverkaufsinformationen Daten werden oft aktualisiert Jede Bestellung einzeln Katalog Updates täglich Management benötigt Entscheidungshilfen (decision support) Komplexe Anfragen Quelle: Ulf Leser, VL Data Warehouses

5 Felix Naumann, VL Informationsintegration, WS 05/065 Bücher im Internet bestellen Backup Durchsat z Load- balancing Portfolio Umsatz Werbung Daten bank Quelle: Ulf Leser, VL Data Warehouses Zielkonflikt

6 Felix Naumann, VL Informationsintegration, WS 05/066 Die Datenbank dazu Order Order_id Book_id amount single_price Orders Id Day_id Customer_id Total_amt Day Id day month_id Month Id Month year_id Year id year Customer id name Book id Book_group_id Bookgroup id name Quelle: Ulf Leser, VL Data Warehouses

7 Felix Naumann, VL Informationsintegration, WS 05/067 Fragen eines Marketingleiters Order Order_id book_id amount single_price Orders Id Day_id Customer_id Total_amt Day Id day month_id Month Id Month year_id Year id year Customer id name Book id Book_group_id Bookgroup id name Wie viele Bestellungen haben wir jeweils im Monat vor Weihnachten, aufgeschlüsselt nach Produktgruppen? Quelle: Ulf Leser, VL Data Warehouses

8 Felix Naumann, VL Informationsintegration, WS 05/068 Technisch Order Order_id Book_id amount single_price Orders Id Day_id Customer_id Total_amt Day Id day month_id Month Id Month year_id Year id year Customer id name Book id Book_group_id Bookgroup id name Quelle: Ulf Leser, VL Data Warehouses SELECTY.year, PG.name, count(B.id) FROMyear Y, month M, day D, order O, orders OS, book B, bookgroup BG WHEREM.year = Y.id and M.id = D.month and O.day_id = D.id and OS.order_id = O.id and B.id = O.book_id and B.book_group_id = BG.id and day < 24 and month = 12 GROUP BY Y.year, PG.product_name ORDER BY Y.year

9 Felix Naumann, VL Informationsintegration, WS 05/069 Technisch SELECTY.year, PG.name, count(B.id) FROMyear Y, month M, day D, order O, orders OS, book B, bookgroup BG WHEREM.year = Y.id and M.id = D.month and O.day_id = D.id and OS.order_id = O.id and B.id = O.book_id and B.book_group_id = BG.id and day < 24 and month = 12 GROUP BY Y.year, PG.product_name ORDER BY Y.year 6 Joins Year: 10 Records Month: 120 Records Day: 3650 Records Orders: Order: Books: Bookgroups:100 Problem! Schwierig zu optimieren (Join- Reihenfolge) Je nach Ausführungsplan riesige Zwischenergebnisse Ähnliche Anfragen – ähnlich riesige Zwischenergebnisse Quelle: Ulf Leser, VL Data Warehouses

10 Felix Naumann, VL Informationsintegration, WS 05/0610 In Wahrheit... noch schlimmer Es gibt noch: Amazon.de Amazon.fr Amazon.it... Verteilte Ausführung Count über Union mehrerer gleicher Anfragen in unterschiedlichen Datenbanken Quelle: Ulf Leser, VL Data Warehouses HILFE!

11 Felix Naumann, VL Informationsintegration, WS 05/0611 In Wahrheit... Quelle: Ulf Leser, VL Data Warehouses

12 Felix Naumann, VL Informationsintegration, WS 05/0612 Technisch: Eine VIEW CREATE VIEW christmas AS SELECT Y.year, PG.name, count(B.id) FROM DE.year Y, DE.month M, DE.day D, DE.order O,... WHERE M.year = Y.id and... GROUP BYY.year, PG.product_name ORDER BY Y.year UNION SELECT Y.year, PG.name, count(B.id) FROMEN.year Y, EN.month M, EN.day D, DE.order O,... WHEREM.year = Y.id and... SELECT year, name, count(B.id) FROM christmas GROUP BYyear, name ORDER BYyear Quelle: Ulf Leser, VL Data Warehouses

13 Felix Naumann, VL Informationsintegration, WS 05/0613 Probleme Count über Union über verteilte Datenbanken? Integrationsproblem Berechnung riesiger Zwischenergebnisse bei jeder Anfrage? Datenmengenproblem Quelle: Ulf Leser, VL Data Warehouses

14 Felix Naumann, VL Informationsintegration, WS 05/0614 Lösung des Integrationsproblems? Zentrale Datenbank Aber Probleme: –Zweigstellen schreiben übers Netz –Schlechter Durchsatz –Lange Antwortzeiten im operativen Betrieb Quelle: Ulf Leser, VL Data Warehouses

15 Felix Naumann, VL Informationsintegration, WS 05/0615 Lösung Datenmengenproblem? Denormalisierte Schema Aber Probleme: –Jeder lesende / schreibende Zugriff erfolgt auf eine Tabelle mit 72 Mill. Records –Lange Antwortzeiten im operativen Betrieb Quelle: Ulf Leser, VL Data Warehouses

16 Felix Naumann, VL Informationsintegration, WS 05/0616 Zielkonflikt

17 Felix Naumann, VL Informationsintegration, WS 05/0617 Tatsächliche Lösung Redundante, transformierte Datenhaltung Asynchrone Aktualisierung Aufbau eines Data Warehouse Quelle: Ulf Leser, VL Data Warehouses

18 Felix Naumann, VL Informationsintegration, WS 05/0618 Weitere Anwendungsgebiete: Data Warehouses Customer Relationship Management (CRM) Identifikation von Premiumkunden Personalisierung / Automatische Kundenberatung Gezielte Massen-Mailings (Direktvertrieb) Controlling / Rechnungswesen Kostenstellen Organisationseinheiten Personalmanagement Logistik Flottenmanagement, Tracking Gesundheitswesen Studienüberwachung, Patiententracking Quelle: Ulf Leser, VL Data Warehouses

19 Felix Naumann, VL Informationsintegration, WS 05/0619 Überblick Beispiele der Informationsintegration Data Warehouse Föderierte Datenbanken Probleme und Potential der Informationsintegration Redundanz Komplementierung

20 Felix Naumann, VL Informationsintegration, WS 05/0620 Föderierte Datenbanken Mehrere autonome Informationsquellen Mit unterschiedlichsten Inhalten Gene, Proteine, BLAST, etc. Und unterschiedlichsten Schnittstellen HTML-Form, flat file, SQL, etc. Wissenschaftler (Biologe) benötigt z.B. möglichst viele Informationen über ein bestimmtes Protein Funktion, Veröffentlichungen, verwandte Proteine usw. Sehr komplexe Anfragen Üblicher Ansatz: Browsing, Note-Taking, Copy & Paste Föderierte Datenbanken (wie DiscoveryLink) helfen.

21 Felix Naumann, VL Informationsintegration, WS 05/0621 Frage eines Biologen Finde alle menschlichen EST Sequenzen, die nach BLAST zu mindestens 60% über mindestens 50 Aminosäuren identisch sind mit mouse-channel Genen im Gewebe des zentralen Nervensystems. Quelle für das komplette Beispiel: A Practitioners Guide to Data Management and Data Integration in Bioinformatics, Barbara A. Eckman in Bioinformatics by Zoe Lacroix and Terence Critchlow, 2003, Morgan Kaufmann.

22 Felix Naumann, VL Informationsintegration, WS 05/0622 Verschiedene Informationsquellen Beteiligte Informationsquellen Mouse Genome Database Jackson Labs EBI BLAST NCBI GenBank nucleotide sequence NCBI Alle Quellen sind frei verfügbar

23 Felix Naumann, VL Informationsintegration, WS 05/0623 Herkömmlicher Ansatz: Browsing 1. Suche channel Sequenzen im Gewebe des ZNS durch MGD HTML Formular

24 Felix Naumann, VL Informationsintegration, WS 05/0624 Herkömmlicher Ansatz: Browsing MGD Resultat 14 Gene aus 17 Experimenten

25 Felix Naumann, VL Informationsintegration, WS 05/0625 Herkömmlicher Ansatz: Browsing Details zu jedem der 14 Gene ansehen Durchschnittlich fünf SwissProt Links pro Gen

26 Felix Naumann, VL Informationsintegration, WS 05/0626 Herkömmlicher Ansatz: Browsing Betrachten jedes SwissProt Eintrages Durch Klick BLAST Algorithmus anwerfen

27 Felix Naumann, VL Informationsintegration, WS 05/0627 Herkömmlicher Ansatz: Browsing Betrachten jedes BLAST Resultats um nicht-menschliche Treffer zu eliminieren, andere Bedingungen zu prüfen (>60% Identität, etc.)

28 Felix Naumann, VL Informationsintegration, WS 05/0628 Herkömmlicher Ansatz: Browsing Für jeden verbleibenden Eintrag Komplette EST Sequenz bei GenBank holen

29 Felix Naumann, VL Informationsintegration, WS 05/0629 Idee der Integration Bildung eines globalen Schemas (Schemaintegration) Gespeichert als Datenbankschema in DiscoveryLink Generierung von Wrappern für jede Datenquelle Softwarekomponente Mapping von lokalen Schemata auf globales Schema Kennt Anfragefähigkeiten der Quellen

30 Felix Naumann, VL Informationsintegration, WS 05/0630 DiscoveryLink Architektur

31 Felix Naumann, VL Informationsintegration, WS 05/0631 Eigenschaften föderierter IS (und DiscoveryLink) Daten bleiben vor Ort. Informationsquellen sind autonom (und wissen oft nicht von ihrer Integration). Anfragen werden deklarativ an das globale Schema gestellt. Anfrage wird so verteilt wie möglich ausgeführt. Je nach Mächtigkeit der Quellen DiscoveryLink gleicht etwaige mangelnder Fähigkeiten aus.

32 Felix Naumann, VL Informationsintegration, WS 05/0632 Föderierter DBMS Ansatz Einfache SQL-Anfrage um alle vorigen Schritte zu vereinen: SELECTg.accnum,g.sequence FROMgenbank g, blast b, swissprot s, mgd m WHERE m.exp = CNS ANDm.defn LIKE %channel% ANDm.spid = s.id AND s.seq = b.query AND b.hit = g.accnum AND b.percentid > 60 AND b.alignlen > 50 Finde alle menschlichen EST Sequenzen, die nach BLAST zu mindestens 60% über mindestens 50 Aminosäuren identisch sind mit mouse-channel Genen im Gewebe des zentralen Nervensystems.

33 Felix Naumann, VL Informationsintegration, WS 05/0633 Föderierter DBMS Ansatz Effiziente Ausführung durch Optimierer Herkömmliche Optimierung Wrapper helfen mit Kostenmodell domänenspezifischen Funktionen Sichere Ausführung Wiederholbar Transaktional

34 Felix Naumann, VL Informationsintegration, WS 05/0634 Weitere Anwendungsgebiete: Föderierte Datenbanken Meta-Suchmaschinen Unternehmensfusionen Kundendatenbanken Personaldatenbanken Grid Krankenhausinformationssysteme Röntgenbilder Krankheitsverlauf (Akte) Verwaltung Krankenkasse... Verteiltes Arbeiten (groupware) Peer Data Management und P2P

35 Felix Naumann, VL Informationsintegration, WS 05/0635 Überblick Beispiele der Informationsintegration Data Warehouse Föderierte Datenbanken Probleme und Potential der Informationsintegration Redundanz Komplementierung

36 Felix Naumann, VL Informationsintegration, WS 05/0636 Integrationspotential Wann ist Informationsintegration möglich? Intensionale Redundanz Wann ist Informationsintegration schwierig? Extensionale Redundanz Wann ist Informationsintegration nützlich? Extensionale Komplementierung Intensionale Komplementierung

37 Felix Naumann, VL Informationsintegration, WS 05/0637 Intension & Extension Definition: Intension Die Intension eines Informationssystems ist die Menge der Schemainformationen und deren Semantik (Bedeutung). Definition: Extension Die Extension eines Informationssystems ist die Menge aller zur Intension gehörigen, zugreifbaren Daten.

38 Felix Naumann, VL Informationsintegration, WS 05/0638 Intension & Extension Die Intension einer Datenbank Schema für eine Menge von Entitäten/Dingen Semantik Die Extension einer Datenbank Zustand Menge von Entitäten ISBNTitelAutor Moby Dick Herman Melville Robinson Crusoe Daniel Defoe ZwölfNick McDonell TimbuktuPaul Auster Buch

39 Felix Naumann, VL Informationsintegration, WS 05/0639 Redundanz und Komplementierung Redundanz hilft zur Verifikation Nur bei gewisser Redundanz kann Komplementierung genutzt werden Komplementierung ist gut Hier liegt der eigentliche Sinn der Informationsintegration. Informationen mehrerer (sich komplementierender) Quellen werden zu einem größeren Ganzen integriert.

40 Felix Naumann, VL Informationsintegration, WS 05/0640 Intensionale Redundanz ISBN TitelAutor Moby Dick Herman Melville Robinson Crusoe Daniel Defoe ZwölfNick McDonell TimbuktuPaul Auster Intensionale Redundanz liegt vor, wenn das Entfernen von Teilen der Intension die Gesamtintension nicht verändert.

41 Felix Naumann, VL Informationsintegration, WS 05/0641 Intensionale Redundanz ISBNIDTitelAutor Moby Dick Herman Melville Robinson Crusoe Daniel Defoe ZwölfNick McDonell TimbuktuPaul Auster Intensionale Redundanz trotz unterschiedlicher Label? Ja, denn Semantik zählt!

42 Felix Naumann, VL Informationsintegration, WS 05/0642 Intensionale Redundanz ISBNAutor Daniel Defoe H Melville Nick MacDonell Paul Auster ISBNAutor Herman Melville Daniel Defoe Nick McDonell Paul Auster Quelle 2Quelle 1 Intensionale Redundanz auch über mehrere Relationen und Quellen.

43 Felix Naumann, VL Informationsintegration, WS 05/0643 Potential Intensionaler Redundanz Verifikation ISBNAutor Daniel Defoe H Melville Nick MacDonell Paul Auster ISBNAutor Herman Melville Daniel Defoe Nick McDonell Paul Auster Quelle 2 Quelle 1

44 Felix Naumann, VL Informationsintegration, WS 05/0644 Potential Intensionaler Redundanz Integration ISBNTitel Moby Dick Robinson Crusoe Zwölf Timbuktu ISBNAutor Herman Melville Daniel Defoe Nick McDonell Paul Auster Quelle 2Quelle 1

45 Felix Naumann, VL Informationsintegration, WS 05/0645 Potential Intensionaler Redundanz Integration Titel Moby Dick Robinson Crusoe Zwölf Timbuktu ISBNAutor Herman Melville Daniel Defoe Nick McDonell Paul Auster Quelle 1 + 2

46 Felix Naumann, VL Informationsintegration, WS 05/0646 Intensionale Komplementierung ISBNTitel Moby Dick Robinson Crusoe Zwölf Timbuktu ISBNAutor Herman Melville Daniel Defoe Nick McDonell Paul Auster Quelle 2Quelle 1 Intensionale Komplementierung liegt vor, wenn von zwei Intensionen - mindestens eine Differenz ist nicht leer ist, - und deren Schnittmenge nicht leer ist.

47 Felix Naumann, VL Informationsintegration, WS 05/0647 Potential Intensionaler Komplementierung ISBNTitel Zwölf Leviathan Moby Dick ISBNAutor Herman Melville Daniel Defoe Nick McDonell Paul Auster Quelle 2 Quelle 1 ??? Verdichtung: Mehr Informationen über einzelne Objekte

48 Felix Naumann, VL Informationsintegration, WS 05/0648 Potential Intensionaler Komplementierung AutorTitel MacDonell Zwölf Auster Leviathan H Melville Moby Dick ISBNAutor Herman Melville Daniel Defoe Nick McDonell Paul Auster Quelle 2Quelle 1 ??? Verdichtung nicht immer leicht.

49 Felix Naumann, VL Informationsintegration, WS 05/0649 Extensionale Redundanz Extensionale Redundanz liegt vor, wenn die Menge der von zwei Quellen gemeinsam repräsentierten Objekte nicht leer ist. ISBNAutor Herman Melville Daniel Defoe Quelle 2Quelle 1 IDAuthor Herman Melville Daniel Defoe

50 Felix Naumann, VL Informationsintegration, WS 05/0650 Extensionale Redundanz IDAuthor Daniel Defoe Paul Auster ISBNAutor Herman Melville Daniel Defoe Quelle 2Quelle 1 Extensionale Redundanz nur über Teile der Quellen.

51 Felix Naumann, VL Informationsintegration, WS 05/0651 Probleme Extensionaler Redundanz Extensionale Redundanz ist nur auf real-world Objekten definiert, nicht auf den Daten über sie. IDAuthor Daniel Düsentrieb Paul Auster ISBNAutor Herman Melville Daniel Defoe Quelle 2 Quelle 1 Extensionale Redundanz Daten- Konflikt

52 Felix Naumann, VL Informationsintegration, WS 05/0652 Extensionale Komplementierung Extensionale Komplementierung liegt vor, wenn die Differenz der repräsentierten Objekte zweier Quellen nicht leer ist. ISBNAutor Nick MacDonell Paul Auster ISBNAutor Herman Melville Daniel Defoe Quelle 2Quelle 1

53 Felix Naumann, VL Informationsintegration, WS 05/0653 Potential Extensionaler Komplementierung Höhere Überdeckung Nick MacDonell Paul Auster ISBNAutor Herman Melville Daniel Defoe Quelle 1 + Quelle 2

54 Felix Naumann, VL Informationsintegration, WS 05/0654 Extensionaler Komplementierung mit Extensionaler Redundanz ISBNAutor Herman Melville Daniel Defoe Quelle 2Quelle 1 IDAuthor Daniel Düsentrieb Paul Auster

55 Felix Naumann, VL Informationsintegration, WS 05/0655 Probleme Extensionaler Komplementierung und Redundanz Daniel Düsentrieb Paul Auster ISBNAutor Herman Melville Daniel Defoe Quelle 1 + Quelle 2 Datenkonflikt

56 Felix Naumann, VL Informationsintegration, WS 05/0656 Der Allgemeine Fall Quelle 1A(V)B(W)C(X)D(Y) a 1 b 1 c 1 d 1 a 2 b 2 - d 2 Quelle 2A(V)D(W)E(X)F(Z) a 2 d 2 c 2 - a 3 d 3 e 3 f 3 Extensionale Komplementierung Intensionale Komplementierung Intensionale Redundanz Extensionale Redundanz Quelle 1 & 2A(V)B/D(W) C/E(X) D(Y)F(Z) a 1 b 1 c 1 d 1 - a 2 f(b 2,d 2 ) c 2 d 2 - a 3 d 3 e 3 - f 3

57 Felix Naumann, VL Informationsintegration, WS 05/0657 Zusammenfassung Redundanz Intensionale Redundanz ermöglicht extensionale Komplementierung Zwei Quellen mit gleichem Schema können zu einer überdeckenderen Quelle integriert werden Coverage Extensionale Redundanz ermöglicht intensionale Komplementierung Zwei Quellen, die über gleiche Dinge sprechen können zu einer dichteren Quelle integriert werden. Density Insgesamt ist das Ziel der Integration eine vollständigere Quelle (completeness)

58 Felix Naumann, VL Informationsintegration, WS 05/0658 Zusammenfassung: Data Warehouse Aufbau eines Data Warehouse Quelle: Ulf Leser, VL Data Warehouses

59 Felix Naumann, VL Informationsintegration, WS 05/0659 Zusammenfassung: Föderierte DBMS/IS


Herunterladen ppt "Informationsintegration Anwendungsszenarien 20.10.2004 Felix Naumann."

Ähnliche Präsentationen


Google-Anzeigen