Institute for Software Science – University of ViennaP.Brezany Datenintegration Peter Brezany Institut für Softwarewissenschaften Universität Wien.

Slides:



Advertisements
Ähnliche Präsentationen
Einführung "Datenbanksysteme"
Advertisements

Projektmeeting Stufe I Kick-Off Stufe II
E-Commerce Shop System
Integrations- und Funktionstests im Rahmen des V-Modelles
Prüfungspläne Bachelor-Thesis
Heterogene Informationssysteme
Datenbanken Einführung.
Objekt – Relationales – Modell Tomasz Makowski IN
Dynamische Seiten mit Dreamweaver Zugriff auf (mysql) Datenbank mit PHP.
Bauinformatik II Softwareanwendungen 1
Datenbankzugriff im WWW (Kommerzielle Systeme)
Universität Paderborn
On a Buzzword: Hierachical Structure David Parnas.
Java: Objektorientierte Programmierung
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Datenbanken werden als Anhäufung von Werten eines Wertebereiches aufgefasst und Datenbankabfragen.
DOM (Document Object Model)
SciAgents - Eine agentenbasierte Umgebung für verteilte wissenschaftliche Berechnungen Alexander StarkeSeminar Software Agenten
AGXIS – Ein Konzept für eine generische Schnittstellenbeschreibung Dr.-Ing. Ulrich Hussels, RISA GmbH 07. Juni 2005 Workshop Umweltdatenbanken 2005.
XINDICE The Apache XML Project Name: Jacqueline Langhorst
DNS – Domain Name System
MySQL Der Einstieg.
SQL/XML. © Prof. T. Kudraß, HTWK Leipzig 2 2 Motivation Speicherung von XML in allen großen kommerziellen DBMS vorhanden proprietäre Lösungen für die.
XML Standardisierungen und Abfragesprachen
Sebastian Grahn Sebastian Kühn
XDoclet ETIS SS05.
Übung Datenbanksysteme SQL-Anfragen (2)
Access 2000 Datenbanken.
Datenbanken Einführung Merkmale dateiorientierte Datenverwaltung
Seminar: Verteilte Datenbanken
Datenbankentwurfsprozess
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
Netzwerke Peer-to-Peer-Netz Client-Server Alleinstehende Server
... und alles was dazugehört
Evaluierung des ITU-T.124 Telekonferenzstandards
Prof. Dr. Gerhard Schmidt pres. by H.-J. Steffens Software Engineering SS 2009Folie 1 Objektmodellierung Objekte und Klassen Ein Objekt ist ein Exemplar.
Duo- und Quad Prozessor-Architektur
Copyright 2011 Bernd Brügge, Christian Herzog Grundlagen der Programmierung TUM Wintersemester 2011/12 Kapitel 11, Folie 1 2 Dr. Christian Herzog Technische.
Marko Dragicevic Thomas Bergauer 27.Mai 2008
WS 2011/12 Datenbanksysteme Mi 15:15 – 16:45 R Vorlesung #9 Physische Datenorganisation.
Vorlesung #4 Überführung des ER-Modells in das relationale Modell
SS 2004 Datenbanken 4W Mi 13:30 – 15:00 G 2.30 Vorlesung #3 ER Modellierung.
WS 2013/14 Datenbanksysteme D0 15:15 – 16:45 R Vorlesung #5 SQL (Teil 2)
Allgemeines zu Datenbanken
(D.h. „Hallo MausFans!“ auf Japanisch).
Datenbanksysteme für hörer anderer Fachrichtungen
DI (FH) DI Roland J. Graf MSc (GIS) U N I V E R S I T Ä T S L E H R G A N G Geographical Information Science & Systems UNIGIS.
Vorlesung #10 Physische Datenorganisation
00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung.
Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing.
Eike Schallehn, Martin Endig
Eike Schallehn, Martin Endig
© 2001 Sven Dammann1 Aufbau Integrierter Informationssysteme XML Bearbeitung und relationale Abbildung Sven Dammann Martin-Luther-Universität Halle-Wittenberg.
Technische Universität München Zentralübung Automotive Software Engineering – Übungsblatt 6.
->Prinzip ->Systeme ->Peer – to – Peer
WS 2014/15 Datenbanksysteme D0 15:15 – 16:45 R Vorlesung #6 SQL (Teil 3)
Peter Brezany Institut für Softwarewissenschaften Universität Wien
SS 2014 – IBB4B Datenmanagement Do 17:00 – 18:30 R Vorlesung #4 Überführung des ER-Modells in das relationale Modell.
Datenbank System (DBS) - Warum?
Vorlesung Datenbanksysteme vom Anfragebearbeitung  Logische Optimierung.
Interoperabilität in Digitalen
SS 2015 – IBB4C Datenmanagement Fr 17:00 – 18:30 R Vorlesung #4 Überführung des ER-Modells in das relationale Modell.
XML Technologie für NOKIS Software Wassilios Kazakos, Andreas Schmidt, Alexei Valikov, Alexei Akhounov FZI Forschungszentrum Informatik Karlsruhe
Workflowsysteme und Datenbanksysteme Gliederung Motivation Basis- funktionalitäten Klassifikations- merkmale Referenz-Modell MQ Workflow Zusammenfassung.
Comprehensive Information Base (CIB) – ein Prototyp zur semantischen Datenintegration Stefan Arts
Key-Value Paare (KVP) - Metadaten für Kanäle speichern und nach MDF4 exportieren PM (V1.0)
Von Wietlisbach, Lenzin und Winter
Datenbanksystem Von Anna und Robin.
Präsentation von Darleen und Michèle
Datenbanken Von Amed und Alicia.
Von Wietlisbach, Lenzin und Winter
 Präsentation transkript:

Institute for Software Science – University of ViennaP.Brezany Datenintegration Peter Brezany Institut für Softwarewissenschaften Universität Wien

Institute for Software Science – University of ViennaP.Brezany 2 Inhalt Motivation Anforderung an verteilte Datenhaltung Probleme bei Datenintegration –Heterogenität –Verteilung –Autonomie –Evolution Modelle –Verteilte Datenbanken –Föderierte Datenbanken Integrationsansätze Case Studie: Mediator/Wrapper Ansatz

Institute for Software Science – University of ViennaP.Brezany 3 Motivation 2 widersprüchliche Ziele: –Verteilung/Dezentralisation »Insbesondere bei Neuentwicklungen (Lastverteilung, Erhöhung der Ausfallssicherheit,...) –Integration »Bei bestehenden Systemen will man verteilt gespeicherte und unabhängig verwaltete Daten (die aber inhaltlich zusammengehören) wieder logisch zusammenführen Anwendungsbeispiele: –Geizhals: Produktdatenbanken von verschiedenen Händler ansprechen –Biomedizin: Zu Begriff Bilder, Übersetzungen,... verfügbar machen Für beide Ziele gilt: –Techn. Vorraussetzung (Vernetzung heterogener Rechner) gegeben –Entfernter Zugriff auf Daten in der Regel effizient möglich

Institute for Software Science – University of ViennaP.Brezany 4 Anforderungen I Verteilungstransparenz: –Stellt sich Benutzer wie ein zentrales DBMS dar Lokale Autonomie –Einzelne Knoten sollen ein Max. an Kontrolle über die auf ihnen gespeicherten Daten behalten Hohe Verfügbarkeit Unabhängigkeit von zentralen Systemfunktionen Ortstransparenz Fragmentierungstransparenz Replikationstransparenz Verteilte Anfragenbearbeitung –Durch Optimierer festgelegt Verteilte Transaktionsverwaltung

Institute for Software Science – University of ViennaP.Brezany 5 Anforderungen II Hardwareunabhängigkeit Betriebssystemunabhängigkeit Netzwerkunabhängigkeit –Auch unterschiedliche Netztechnologien möglich Datenbanksystemunabhängigkeit

Institute for Software Science – University of ViennaP.Brezany 6 Probleme I Autonomie –Design: Datenquellen Manager entscheidet was und wie gespeichert –Kommunikation: wie und wann auf Anfrage geantwortet wird –Ausführung: lokale Operationen ohne Einwirkung von externen ausführbar –Verbindung: ob und wieviel von Funktionalität/Resourcen zur Verfügung gestellt wird Verteilung

Institute for Software Science – University of ViennaP.Brezany 7 Probleme II Heterogenität –Syntaktisch »Technisch: OS, Platform,... »Schnittstelle: Abfragesprache,... –Datenmodel »Relational, OO,..... »Oft über Wrapper aufgelöst –Logisch »Semantisch: Gleiche Namen für unterschiedliche Konzepte (Hynonyme) Unterschiedliche Namen für gleiche Konzepte (Synonyme) Attribut kann gleiche Bedeutung haben, aber unterschiedliche Einheit »Schematisch: Kodierung von Concepten mit unterschiedlichen Elementen des Datenmodels »Strukturell: E.g. Attribute in verschiedenen Tabellen Evolution –Änderungen im Laufe der „Lebenszeit“ der Integration erforderlich

Institute for Software Science – University of ViennaP.Brezany 8 Mögliche DBS

Institute for Software Science – University of ViennaP.Brezany 9 Virtuell vs. Materiell

Institute for Software Science – University of ViennaP.Brezany 10 Begriffsdefinitionen Föderiertes Datenbanksystem: –viele Datenbanken tragen Daten und Ressourcen zu einer Multidatenbank-Föderation bei, doch hat jeder Teilnehmer volle lokale Autonomie Verteiltes Datenbanksystem: –ist eine Datenbank, die absichtlich über gewisse Zahl von Orten verteilt wurde. Eine VDB wird als Ganzes entworfen, und ist mit ziemlich zentralisierter Steuerung assoziiert

Institute for Software Science – University of ViennaP.Brezany 11 Föderierte Datenbanken 5 Schichten Referenz-Architecture: Lokales Schema: ausgedrückt in lokaler DDL & Datenmodel Component Schema: in gemeinsames Datenmodel überführtes lokales Schema Export Schema: Teil des Component Schemas welches extern sichtbar ist Global Schema: Integration aller export. Schemas External Schema: Global Schema angepasst an spezielle User/Anwendungen

Institute for Software Science – University of ViennaP.Brezany 12 Verteiltes Datenbanksytem 4 Ebenen Schema Architektur

Institute for Software Science – University of ViennaP.Brezany 13 Kopplung Enge: –Globales Schema: einfach zu verwenden –Von Administrator erstellt –Wichtig bei vielen Datenquellen! lose: –Kein globales Schema –gemeinsame Abfragesprache für die Komponenten –Benutzer selbst für auflösung von Heterogenitäten verantwortlich »müssen sehr erfahren sein

Institute for Software Science – University of ViennaP.Brezany 14 Integrationsstrategien I Top-Down (LAV): –Vorgabe des globalen Schemas –Abbildung der lokalen Schemata auf das globale –Vorteil wenn sie Quellen schnell ändern, hinzukommen/verschwinden Buttom-Up (GAV): –Globales Schema wird als Sicht über lokalen Schemata definiert –Vorteil einer engeren Integration In GAV Query-Reformulation ist sehr einfach (Rule Unfolding) dafür skaliert es nicht so gut im Bezug auf die Anzahl der Datenquellen. In LAV muss das System herausfinden wie Daten zusammengefügt werden müssen um Anfrage zu beantworten (sehr complex) und es können besser Einschränkungen der Datenquellen spezifiziert werden.

Institute for Software Science – University of ViennaP.Brezany 15 Integrationsstrategien II GAVLAV Angeln deuten View Definitionen an! (Source: Busse et al. TU Berlin)

Institute for Software Science – University of ViennaP.Brezany 16 Kriterien für Integrationsmethoden Vollständigkeit –Es darf keine in einem lokalen Schema enthaltene Information verloren gehen Korrektheit –Alle in dem integrierten Schema enthaltenen Informationen müssen in mindestens einem lokalen Schema semantisch äquivalent vorhanden sein »Nur konsistente Ergänzungen der bestehenden Schemata erlaubt Minimalität –Konzepte, die in mehreren lokalen Schemata modelliert sind, dürfen nur einmal im integrierten Schema repräsentiert sein Verständlichkeit –Integriertes Schema sollte leicht verständlich sein!!!

Institute for Software Science – University of ViennaP.Brezany 17 Mediatoren Wiederhold 92 Wrapper: –Komponente die Datenquellen einheitlich zugreifbar macht (Interface) –Versteht Anfragen des Mediators –VT: neue Arten/Strukturen/Quellen einfach hinzufügbar Mediator: –Verwendet Wrapper und andere Mediatoren als Quellen –Hat föderiertes Schema, Aufgaben können aber weit über reine Datenintegration hinausgehen »Abstrahierung von Daten »Enthalten techn. und administratives „Wissen“ um Informationen für Entscheidungsfindung zu liefern –Sollten leichtgewichtig, wiederverwendbar und flexible sein –Verteilung vorgesehen

Institute for Software Science – University of ViennaP.Brezany 18 Case Studie - Gegebenheiten Heterogenitäten: –Name in A ist „Vorname Nachname“ (wie im Ziel Format) –Name in C über 2 „Spalten“ verteilt => zusammenführen Verteilung: –3 Datenquellen (XML, relational, Datei mit bestimmten Format)

Institute for Software Science – University of ViennaP.Brezany 19 Case Studie - Infobedarf Vorgangsweise via Top Down Approach: –Welche Daten sollen in welcher Form verfügbar sein »Tabelle: patient (p_id, p_name, p_adr, p_dob, p_fc) –Quellen beschreiben damit sie gewünschte Daten liefern können »SQL View Definitions, XML Dokumente,... mit eingebauter Funktionalität oder auch der Möglichkeit externe Funktionen zu Verwenden –Zusätzliche Operatoren nötig um Daten zusammenzuführen

Institute for Software Science – University of ViennaP.Brezany 20 Case Studie - Infobedarf Mediator: –Userschnittstelle –Schema für User –Kennt teilnehmende Wrapper und Operationen um Ergebnisse zusammenzuführen »R = (A JOIN B) UNION C –Mägl. Abfragesprache: SQL Wrapper: –Nicht direkt vom User angesprochen –Kennt sein eigenes „Schema“ und Daten die er zur Verfügung stellt –Versteht Anfragen des Mediators »E.g. Anfrage besteht aus array mit gewünschten Spalten und Bedingungen an die Daten »Wie er sie auf tatsächliche Datenquelle anwendet »Für jeden Type von Datenquellen eigenen Wrapper –Gibt Ergebnisse in vordefinierter Form zurück (XML Dokument mit speziellem Schema, e.g. XMLWebRowSet)

Institute for Software Science – University of ViennaP.Brezany 21 Case Studie - Komponenten Mediator: –User Schema: : patient (p_id, p_name, p_adr, p_dob, p_fc) –Zerlegt Anfrage in benötigte Spalten für jeden Wrapper + dazugehörige Bedingungen Wrapper: –Einen für XMLDB: »Schema: patient (p_id, p_name, p_adr, p_dob) »Setzt Anfragen in XPath um »Transformiert XML Ergebnisse in Standardformat –Einen für MySQL: »Schema: patient (p_id, p_fc) »Baut SQL Anfrage aus Mediator Anfrage zusammen »Hat schon richtiges Ergebnissformat, nämlich WebRowSet –Einen für CSV: »Schema: patient (p_id, p_name, p_adr, p_dob, p_fc) »Liest Zeile für Zeile und retuniert nur solche, die Bedingungen erfüllen –Gleicht „Schwächen“ der Quellen aus, e.g. keine Abfragesprache, keine Sortierung,....

Institute for Software Science – University of ViennaP.Brezany 22 Case Studie - Anfrage Query: –SELECT p_name FROM patient WHERE id=10 to Standard optimized

Institute for Software Science – University of ViennaP.Brezany 23 Mögl. Probleme bei Mediatoren Wer programmiert neu benötigte Wrapper? Offene gut dokumentierte Schnittstellen? –semiautomatisiert Wer generiert Beschreibungen für Wrapper bei Schemaänderungen? Welches einheitliche Austauschformat zw. Wrapper – Mediator verwendet? –OO (Amos II), relational, XML,...

Institute for Software Science – University of ViennaP.Brezany 24 Zusammenfassung Datenintegration zur Entscheidungsfindung immer wichtiger Hohe Anforderungen (Autonomie!) Vielzahl von Problemen (Evolution, Semantik) FDBS vs VDBS vs Mediator/Wrapper

Institute for Software Science – University of ViennaP.Brezany 25 Weiterführende Informationen IBM Systems Journal Vol. 41 zum Thema „Information Integration“ Vorlesung der Uni Freiburg zum Thema „Heterogene Datenbanksysteme” ss99/integra.ps