Informationsintegration Materialisierte vs. Virtuelle Integration

Slides:



Advertisements
Ähnliche Präsentationen
Transregio 33 The Dark Universe Heidelberg-Bonn-Munich
Advertisements

Stefan Lohrum Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
Einfluss von Web Services Technologien auf organisatorische Strukturen Referent: Sergej Groß
Routing – Routing Protokolle
Heterogene Informationssysteme
Wissensanalyse von Aufgaben mit TKS Eine Methode zur Problemlösung
Dr. Brigitte Mathiak Kapitel 10 Physische Datenorganisation.
Die Trennung von Geist und Körper
Informationsintegration Local-as-View: LaV
Informationsintegration Der Bucket-Algorithmus Felix Naumann.
Informationsintegration Dynamische Programmierung
Informationsintegration Einführung
Informationsintegration ETL & Datenherkunft (Lineage)
On the Criteria to Be Used in Decomposing Systems into Modules
Informationsintegration Global-as-View: GaV
Informationsintegration Containment und Local-as-View Anfragebearbeitung Felix Naumann.
Informationsintegration Schema Matching Felix Naumann.
Einjährige Berufsfachschule Technik der Fachrichtung Elektrotechnik
Technischer Systemüberblick
Zeitliche Verwaltung XML-basierter Metadaten in digitalen Bibliotheken M. Kalb, G. SpechtUniversität Ulm, Abteilung DBIS.
Anfrage-Optimierung und -Bearbeitung in Verteilten DBMS
Aufbau von Substanzbibliotheken für das High thoughput screening (I)
Traumazentrierte Psychotherapie der chronifizierten, komplexen PTBS vom Phänotyp der Borderline-Persönlichkeitsstörung (Luise Reddemann, Ulrich Sachsse)
SciAgents - Eine agentenbasierte Umgebung für verteilte wissenschaftliche Berechnungen Alexander StarkeSeminar Software Agenten
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
1/25 UNIVERSITY OF PADERBORN Projektgruppe KIMAS Projektgruppe KIMAS MultiAgenten-Systeme Andreas Goebels.
Normalformen Normalisieren Schlüssel
Seminar: Verteilte Datenbanken
Projekt Web Engineering
Informationsintegration Architekturen
Informationsintegration Anwendungsszenarien
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
ausdrucksschwächeres
Datenbankentwurfsprozess
Modellierung von Transaktionen Zur Formalisierung der ACID-Garantien muss Verhalten von Transaktionen modelliert werden. Folge aus der Forderung nach lokaler.
Marcus Haller & René Schulze
Diplomarbeit Thema: Untersuchungen zur Spezifikation und Realisierung von Interoperabilitätskonzepten (hauptsächlich) CORBA-basierter Multiagentensysteme.
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
Gottfried Vossen 5. Auflage 2008 Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme Kapitel 14: Datenintegration.
Evaluierung des ITU-T.124 Telekonferenzstandards
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.
03/02/061 Methoden und Erfahrungen beim Zeichnen von genauen OL-Karten Orest Kotylo.
Die Region als Ort der sozioökonomischen Modernisierung - theoretische und empirische Begründungen für die Notwendigkeit interkommunaler Kooperation Seminar.
Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Softwaretechnologie II (Teil I): Simulation und 3D Programmierung Prof.
Datenbanken und Datenmodellierung
WS 2012/13 Datenbanksysteme Mi 15:15 – 16:45 R Vorlesung #11 Transaktionsverwaltung.
Replikation und Synchronisation
Web 1.0 vs. Web 2.0.
Maximale Sicherheit für PC-Systeme. Was ist der PC-Sheriff 2000? Wie funktioniert der PC-Sheriff 2000? Warum PC-Sheriff 2000? Desktop-Probleme Vorteile.
00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung.
XML und Datenbanken © 2006 Markus Röder
Content Management System
Maximale Sicherheit für PC-Systeme.
cubido business solutions gmbh Haidfeldstrasse 33 A-4060 Leonding Rainer Stropek SQL Server.
Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing.
Real World Windows Azure Die Cloud richtig nutzen.
Mehrbenutzerzugriff auf GIS-Daten
Proseminar: Technologien des Internets
Eike Schallehn, Martin Endig
WS 2004/2005 Datenbanken II - 5W Mi 17:00 – 18:30 G 3.18 Vorlesung #3 Anfragebearbeitung (Teil 1)
WS 2004/2005 Datenbanken II - 5W Mi 17:00 – 18:30 G 3.18 Vorlesung #10 RDBMS Erweiterungen.
Nachtrag Abgrenzung OLAP / OLTP
Webserver Apache & Xampp Referenten: Elena, Luziano und Sükran
Multimedia-Didaktik Erich Neuwirth Universität Wien
Web Services als Remote Content Provider in Portalumgebungen Vorstellung und Diskussion des Themas Präsentation des Prototypen Konzeption und prototypische.
Interoperabilität in Digitalen
Effektives Delta Laden DOAG SID Data Warehouse. Ziele Welche CDC Methoden gibt es? Typische Fallen Verschiedene Lösungsansätze praktische Beispiele.
DOAG SID Data Warehouse
Nachtrag Abgrenzung OLAP / OLTP
Datenbanken online sowie offline verfügbar machen
 Präsentation transkript:

Informationsintegration Materialisierte vs. Virtuelle Integration 1.11.2005 Felix Naumann

Felix Naumann, VL Informationsintegration, WS 05/06 Überblick Überblick Materialisiert Data Warehouse Virtuell Mediator-Wrapper System Vergleich Flexibilität Antwortzeiten Aktualität etc. 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Materialisiert A priori Integration Zentrale Datenbasis Zentrale Anfragebearbeitung Typisches Beispiel: Data Warehouse Virtuell On demand Integration Dezentrale Daten Dezentrale Anfragebearbeitung Typisches Beispiel: Mediator-basiertes Informationssystem 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Data Warehouse vs. Mediator-basiertes Informationssystem Anwendung 1 Anwendung 2 Quelle 1 Quelle 2 Quelle 3 Mediator Anwendung 1 Anwendung 2 Data Warehouse Quelle 1 Quelle 2 Quelle 3 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Data Warehouse vs. Mediator Anwendung 1 Anwendung 2 Anwendung 1 Anwendung 2 Data Warehouse Mediator Wrapper 1 Wrapper 3 ETL 1 ETL 3 ETL 2 Wrapper 2 Quelle 1 Quelle 2 Quelle 3 Quelle 1 Quelle 2 Quelle 3 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Taxonomie nach [DD99] 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Data Warehouse vs. Mediator Jetzt jeweils kurzer Überblick Datenfluss Anfragebearbeitung Entwurf und Entwicklung (Schema) Details in den folgenden Wochen 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Materialisierte Integration - Datenfluss Push Erstmalige „Bevölkerung“ (population) des DW Data Cleansing Periodischer Datenimport Stündlich / Täglich / Wöchentlich Materialisierte Sichten / Sicht-Updates Redundante Datenhaltung Aggregation und Löschung alter Daten Je älter, desto „aggregierter“ Anwendung 1 Anwendung 2 Data Warehouse ETL 1 ETL 2 ETL 3 Quelle 1 Quelle 2 Quelle 3 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Materialisierte Integration - Anfragebearbeitung Anwendung 1 Anwendung 2 Wie „normale“ DBMS Besonderheiten Star Schema Aggregation Decision Support Siehe auch VL DWH (Ulf Leser) Data Warehouse ETL 1 ETL 2 ETL 3 Quelle 1 Quelle 2 Quelle 3 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Materialisierte Integration - Schema Anwendung 1 Anwendung 2 Bottom-Up Entwurf Schemaintegration Star-Schema Fact-Table Dimension Tables Data Warehouse ETL 1 ETL 2 ETL 3 Quelle 1 Quelle 2 Quelle 3 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Materialisierte Integration - Schema Anwendung 1 Anwendung 2 Bottom-Up Entwurf Schemaintegration Star-Schema Fact-Table Dimension Tables Data Warehouse ETL 1 ETL 2 ETL 3 Quelle 1 Quelle 2 Quelle 3 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Virtuelle Integration - Datenfluss Pull Daten sind in Quellen gespeichert. Nur die zur Anfragebeantwortung notwendigen Daten werden übertragen. Data Cleansing nur online möglich. Anwendung 1 Anwendung 2 Mediator Wrapper 1 Wrapper 2 Wrapper 3 Quelle 1 Quelle 2 Quelle 3 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Virtuelle Integration - Anfragebearbeitung Optimierung schwierig Fähigkeiten der Quellen Geschwindigkeit der Quellen Viele mögliche Pläne Redundante Quellen Redundante Pläne Dynamisch, um ausfallende Quellen auszugleichen Anwendung 1 Anwendung 2 Mediator Wrapper 1 Wrapper 2 Wrapper 3 Quelle 1 Quelle 2 Quelle 3 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Virtuelle Integration - Schema Top-Down Entwurf Leicht erweiterbar Global: Neue Quellen suchen Lokal: Nur ein mapping verändern. Schema Mapping statt Schema-integration Anwendung 1 Anwendung 2 Mediator Wrapper 1 Wrapper 2 Wrapper 3 Quelle 1 Quelle 2 Quelle 3 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Überblick Überblick Materialisiert Data Warehouse Virtuell Mediator-Wrapper System Vergleich Flexibilität Antwortzeiten Aktualität etc. 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Dimensionen des Vergleichs Aktualität Antwortzeit Flexibilität / Wartbarkeit Komplexität Autonomie Anfragebearbeitung / Mächtigkeit Read / Write Größe / Speicherbedarf Ressourcenbedarf Vollständigkeit Data Cleansing Informationsqualität 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Aktualität (up-to-date-ness) Materialisierte Integration Je nach Update-Frequenz In Unternehmen meist täglich (über Nacht) Beispiel SwissProt Updates in SwissProt täglich Aber: Release nur monatlich Virtuelle Integration Sehr gut Abhängig von Aktualität der autonomern Quellen Manchmal: Caching 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Antwortzeit (response time) Materialisierte Integration Sehr gut Lokale Bearbeitung Wie DBMS Optimierung Materialisierte Sichten Indices ... Allerdings: Typische Anfragen sind komplex Virtuelle Integration Nicht gut Daten sind entfernt Übertragung durch das Netz Abhängig von Antwortzeit der Quellen Optimierung schwierig Komplexe Operatoren müssen naïv ausgeführt werden. Data Cleansing Operationen müssen nachgeholt werden. 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Flexibilität / Wartbarkeit (flexibility / maintenance) Materialisierte Integration Schwierig Entfernen / Ändern / Hinzufügen einer Quelle kann gesamte Integration verändern (bei GaV) Lokale Wartung eines großen und wachsenden Datenbestandes Mit Indices etc. Tägliche Integration nötig Virtuelle Integration Einfacher Entfernen / Ändern / Hinzufügen einer Quelle wirkt sich nur auf das mapping dieser Quelle aus (bei LaV) Quellen müssen Daten selbst warten. Backups, DBMS Wartug etc. 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Komplexität (complexity) Materialisierte Integration Wie DBMS Komplexe Anfragen Anfrageplanung im GaV leicht Quellen sind oft untereinander ähnlich. Oft sind es selbst DBMS Virtuelle Integration Modellierung der Quellen wichtig Fähigkeiten der Quellen Anfrageplanung in LaV schwierig Oft verschiedenste Quellen Web Services HTML Formulare Flat Files ... 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Autonomie (autonomy) Materialisierte Integration Quellen wenig autonom Keine Kommunikations-autonomie Geringe Ausführungs-autonomie Geringe Design-autonomie Müssen bulk-read o.ä. zulassen Update notifications Virtuelle Integration Quellen können autonom sein. Volle Design-Autonomie Fast volle Kommunikations-Autonomie Gewisse Kommunikation ist nötig, sonst nicht Teilnehmer der Integration Fast volle Ausführungs-Autonomie Nur: Anfragen müssen irgendwann beantwortet werden. 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Anfragebearbeitung / Mächtigkeit (query planning / expressivenes) Materialisierte Integration Anfragebearbeitung wie DBMS bzw. anderes globales System Anfragemächtigkeit wie globales System z.B. volle SQL Mächtigkeit Virtuelle Integration Anfragebearbeitung komplex Verteilung Autonomie Heterogenität Mangelnde Fähigkeiten der Quellen können global eventuell ausgeglichen werden. Aber auch: Spezialfähigkeiten der Quellen können genutzt werden: Image retrieval Text Index 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Lesen / Schreiben (Read / Write) Materialisierte Integration Read immer möglich DW: Write oft nicht gewünscht, aber möglich Kann zu Inkonsistenz mit Quellen führen Virtuelle Integration Read meist möglich Verfügbarkeit! Write meist nicht möglich Bei Redundanz: Wohin schreiben? Transaktionen schwierig Autonomie 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Größe / Speicherbedarf (size / memory consumption) Materialisierte Integration Hoch Redundante Datenhaltung DW: Historische Daten Wachstum Stetig wachsend Oder konstant durch zunehmende Aggregation im Laufe der Zeit Footprint: wie DBMS Virtuelle Integration Gering Metadaten Cache Zwischenergebnisse Footprint: wie DBMS 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Ressourcenbedarf (resource consumption) Materialisierte Integration Planbare Netzwerklast Daten werden eventl. unnötig übertragen Abhängig von Anfrage Aggregation Pre-Aggregation Virtuelle Integration Potentiell hohe Netzwerklast Daten werden mehrfach übertragen. Cache kann helfen. Nur jeweils nötige Daten werden übertragen. Je nach Workload. Spannendes Optimierungsproblem! 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Vollständigkeit (completeness) Materialisierte Integration Gut Annahme: Materialisation ist vollständig Virtuelle Integration Nur bei Verfügbarkeit aller nötigen Quellen Gegebenenfalls Anfrage unbeantwortbar oder nur unvollständig beantwortbar Fuzzy Anfragesemantik: Alle Tupel? Alle Attribute? Definition der Vollständigkeit Open World Assumption Closed World Assumption 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Datenreinigung (Data Cleansing) Materialisierte Integration Viele Methoden Aufwändig Offline (über Nacht) Virtuelle Integration Online cleansing schwierig Aufwand Keine Interaktion mit Experten möglich 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Informationsqualität (information quality) Materialisierte Integration Hoch Kontrolliert Kann bei Bedarf verbessert werden. Virtuelle Integration Abhängig von Quellen Oft zweifelhaft Autonomie 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Zusammenfassung Vor- und Nachteile Materialisiert Virtuell Aktualität - (Cache) + Antwortzeit - Flexibilität - (GaV) + (LaV) Komplexität -- Autonomie Anfragemächtigkeit Read/Write +/+ +/- Größe Ressourcenbedarf ? (workload) Vollständigkeit ? (OWA, CWA) Datenreinigung Informationsqualität 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Hybrider Ansatz Teile der Daten werden materialisiert Oft benötigte Daten (Cache) Als bulk verfügbare Daten Dump Files SQL Zugang ... Teile der Daten bleiben bei den Quellen Oft aktualisierte Daten Daten mit beschränktem Zugang mind. eine gebundene Variable Beschränkte Lizenzen Optimierung bevorzugt lokale Daten Prüfung, ob Aktualisierung vorliegt Anwendung 1 Anwendung 2 Mediator ETL 1 Wrapper 3 Wrapper 2 Quelle 1 Quelle 2 Quelle 3 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Rückblick Überblick Materialisiert Data Warehouse Virtuell Mediator-Wrapper System Vergleich Flexibilität Antwortzeiten Aktualität etc. 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Literatur [BKLW99] Busse, Kutsche, Leser, Weber, Federated Information Systems: Concepts, Terminology and Architectures. Forschungsbericht 99-9 des FB Informatik der TU Berlin, 1999. Online: http://www.informatik.hu-berlin.de/~leser/publications/tr_terminology.ps [DD99] Ruxandra Domenig, Klaus R. Dittrich: An Overview and Classification of Mediated Query Systems. SIGMOD Record 28(3): 63-72 (1999) 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06