VL Informationsintegration Verteilung, Autonomie und Heterogenität

Slides:



Advertisements
Ähnliche Präsentationen
Einführung "Datenbanksysteme"
Advertisements

Stefan Lohrum Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
Heterogene Informationssysteme
Übung Datenbanksysteme WS 2003/ Übung Datenbanksysteme Entwurf eines Bibliothekssystems
Datenbanken Einführung.
spezielle Nutzersichten formale Ebene (deskriptive Regeln)
Informationsintegration Heterogenität Felix Naumann.
Informationsintegration Local-as-View: LaV
Informationsintegration Der Bucket-Algorithmus Felix Naumann.
Informationsintegration Dynamische Programmierung
Informationsintegration Einführung
Informationsintegration ETL & Datenherkunft (Lineage)
Informationsintegration Global-as-View: GaV
Informationsintegration Containment und Local-as-View Anfragebearbeitung Felix Naumann.
Informationsintegration Schema Matching Felix Naumann.
Informationsintegration SchemaSQL Felix Naumann.
MySQL.
Aufbau des Internets Überblick Prof. Dr. T. Hildebrandt
Basis-Architekturen für Web-Anwendungen
Vorlesung: Prof. Norbert Fuhr
Einführung in Informationssysteme
Datenbankzugriff im WWW (Kommerzielle Systeme)
Universität Paderborn
Kapitel 3: Das Relationenmodell
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Datenbanken werden als Anhäufung von Werten eines Wertebereiches aufgefasst und Datenbankabfragen.
IS: Datenbanken, © Till Hänisch 2000 CREATE TABLE Syntax: CREATE TABLE name ( coldef [, coldef] [, tableconstraints] ) coldef := name type [länge], [[NOT]NULL],
SQL/XML. © Prof. T. Kudraß, HTWK Leipzig 2 2 Motivation Speicherung von XML in allen großen kommerziellen DBMS vorhanden proprietäre Lösungen für die.
Transaction Script Software Component Technology for Distributed Applications.
Access 2000 Datenbanken.
Seminar: Verteilte Datenbanken
Informationsintegration Architekturen
Informationsintegration Anwendungsszenarien
Informationsintegration Schema Mapping
Informationsintegration Materialisierte vs. Virtuelle Integration
JDBC -Java Database Connectivity-. 15./22. April 2004JDBC2 JDBC.... verbindet Java-Programme mit SQL-basierten Datenbanken.. liefert eine generische SQL-API.
Datenmodellierung - Aufbau einer Datenbank -
JDBC EDV JDBC.
Fachbereich Mathematik/Informatik Universität Osnabrück
Prof. K. Gremminger Folie 1 Vorlesung Datenbanksysteme SS 2002 Aufbau einer Verbindung zur Datenbank import java.net.URL; import java.sql.*; class JDBCExample.
JDBC: JAVA Database Connectivity
objekt-relationale Datenbanken
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
... und alles was dazugehört
WS 2011/12 Datenbanksysteme Mi 15:15 – 16:45 R Vorlesung #9 Physische Datenorganisation.
Vorlesung #4 Überführung des ER-Modells in das relationale Modell
WS 2013/14 Datenbanksysteme Do 17:00 – 18:30 R Vorlesung #7 SQL (Teil 4)
Vorlesung #4 Überführung des ER-Modells in das relationale Modell
Allgemeines zu Datenbanken
(D.h. „Hallo MausFans!“ auf Japanisch).
Datenbanksysteme für hörer anderer Fachrichtungen
DI (FH) DI Roland J. Graf MSc (GIS) U N I V E R S I T Ä T S L E H R G A N G Geographical Information Science & Systems UNIGIS.
Vorlesung #10 Physische Datenorganisation
Relationales Datenmodell und DDL
00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung.
ADAT©2004 Dipl. - Ing. Walter SabinSeite: 19 Version 1.0a Programme - Zusatzsoftware Oracle: –Forms –Reports –Designer –Jdeveloper –APEX (Application Express)
Datenbankanbindung mit
Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing.
Eike Schallehn, Martin Endig
Eike Schallehn, Martin Endig
WS 2004/2005 Datenbanken II - 5W Mi 17:00 – 18:30 G 3.18 Vorlesung #10 RDBMS Erweiterungen.
Datenbanken im Web 1.
SS 2014 – IBB4B Datenmanagement Do 17:00 – 18:30 R Vorlesung #4 Überführung des ER-Modells in das relationale Modell.
Datenbank System (DBS) - Warum?
Institute for Software Science – University of ViennaP.Brezany Datenintegration Peter Brezany Institut für Softwarewissenschaften Universität Wien.
XML – Grundlagen und Anwendungen Teil 4: Modellierung von Datenmodellen mit XML-Schema Prof. Dr. Michael Löwe, FHDW Hannover.
Distributed Database Systems Parallele Datenbanksysteme von Stefan Schneider.
Komponenten und Phasen des Data Warehousing
WS 2014/15 Datenbanksysteme Do 17:00 – 18:30 R Vorlesung #9 SQL Zusammenfassung.
SS 2015 – IBB4C Datenmanagement Fr 17:00 – 18:30 R Vorlesung #4 Überführung des ER-Modells in das relationale Modell.
Veranstaltung: Datenbanken I Dozent: Ioannis Papakostas Belegarbeit 6 Online-Bestellung von Büchern Stefan Rüschenberg (Matrikel-Nr.: ) Sebastian.
 Präsentation transkript:

VL Informationsintegration Verteilung, Autonomie und Heterogenität 25.10.2004 Felix Naumann

Wiederholung: Data Warehouse Aufbau eines Data Warehouse Quelle: Ulf Leser, VL Data Warehouses 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Wiederholung: Föderierte DBMS 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Wiederholung: Redundanz Intensionale Redundanz ermöglicht extensionale Komplementierung. Zwei Quellen mit gleichem Schema können zu einer überdeckenderen Quelle integriert werden Extensionale Redundanz ermöglicht intensionale Komplementierung. Zwei Quellen, die über gleiche Dinge sprechen können zu einer dichteren Quelle integriert werden. Insgesamt ist das Ziel der Integration eine vollständigere Quelle. 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Wiederholung: Redundanz Quelle 1 A(V) B(W) C(X) D(Y) a1 b1 c1 d1 a2 b2 - d2 Intensionale Redundanz Extensionale Redundanz Extensionale Komplementierung Quelle 2 A(V) D(W) E(X) F(Z) a2 d2 c2 - a3 d3 e3 f3 Intensionale Komplementierung Quelle 1 & 2 A(V) B/D(W) C/E(X) D(Y) F(Z) a1 b1 c1 d1 - a2 f(b2,d2) c2 d2 - a3 d3 e3 - f3 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Überblick Verteilung Autonomie Syntaktische Heterogenität Strukturelle Heterogenität Später: Semantische Heterogenität 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Klassifikation von Informationssystemen [ÖV99] Drei orthogonale Dimensionen Verteilung Autonomie Heterogenität 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Klassifikation verteilter DBMS [ÖV91] Verteilung Verteilte, homogene DBS Logisch integrierte und homogene DBS Heterogene, integrierte DBS Heterogene, föderierte DBS Homogene, föderierte DBS Verteilte, heterogene föderierte DBS Verteilte, föderierte DBS Verteilte, heterogene DBS Autonomie Hetero- genität 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Klassifikation verteilter DBMS nach [ÖV99] Verteilung/Distribution Peer-to-peer z.B. A2,D1,H0 Client/Server Autonomie Hetero- genität Enge Integration Semi-autonom Isolation 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Zusammenhang mit Föderierten DBMS Verteilung führt zu Autonomie, Intra-Organisation: Historisch Inter-Organisation: Internet & WWW und Autonomie führt zu Heterogenität. Verantwortung liegt bei lokalen Administratoren Systempflege Nutzbarkeit und Nützlichkeit Erweiterungen am Informationssystem Design ... Diskussion Historischer Entwicklung, aber orthogonale Kriterien! 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Verteilung (Distribution) Ein verteiltes Informationssystem ist eine Sammlung mehrerer, logisch verknüpfter Informationssysteme, die über ein gemeinsames Netzwerk verteilt sind. [ÖV91] 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Physikalische Verteilung Motiviert durch Hardwareanforderungen (Hardwarebeschränkungen) Server stehen an unterschiedlichen Orten Gleicher Raum, anderer Raum Anderes Gebäude Andere Stadt, anderes Land Shared Nothing Server haben keine gemeinsamen, abhängigen Hardwarekapazitäten Memory Disk CPU Mit Ausnahme des Netzwerks Im Gegensatz zu shared-disk und shared-memory 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Logische Verteilung Motiviert durch Anwendungsanforderungen Zuverlässigkeit Bei Ausfall eines Servers Verfügbarkeit Bei Ausfall eines Netzwerkteils Effizienz Redundanz Replikation Caching Partitionierung Vertikal Horizontal 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Verteilung – Vor- und Nachteile Vorteile aus Sicht der Quellen und des IIS Autonomie (gleich genauer) Performance: Kapazität dort, wo sie gebraucht wird Verfügbarkeit: Bei Ausfall eines Standorts Erweiterbarkeit Teilbarkeit (Verantwortung bei anderen Organisationseinheiten) Nachteile aus Sicht des IIS Komplexität (Verwaltung, Optimierung) Kosten Sicherheit Autonomie 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Verteilung – Techniken HTTP, CORBA, ... nicht hier. Anwendungsentwicklung ohne Spezifikation der physikalischen Präsenz der Komponenten Annahmen an Transparenz Datenunabhängigkeit (jedes DBMS) auch Speicherorttransparenz Netzwerktransparenz Replikationstransparenz Fragmentationstransparenz auch Partitionierungstransparenz 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Überblick Verteilung Autonomie Syntaktische Heterogenität Strukturelle Heterogenität Später: Semantische Heterogenität 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Autonomie (Autonomy) Der Grad zu dem verschiedene DBMS unabhängig operieren können. Bezieht sich auf Kontrolle, nicht auf Daten. Klassen nach [ÖV99] Design-Autonomie Kommunikations-Autonomie Ausführungs-Autonomie 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Design-Autonomie Auch: Entwurfsautonomie Freiheit des lokalen DBMS bezüglich Datenmodell Relational, hierarchisch, XML Schema Abdeckung der Domäne (universe of discourse, miniworld) Grad der Normalisierung Benennung Transaktionsmanagement Sperrprotokolle Freiheit dies jederzeit zu ändern. Besonders problematisch! 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Design-Autonomie – Beispiel Schema und Datenmodell 1 (Fast) relational Flach Schema und Datenmodell 2 XML hierarchisch 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Kommunikations-Autonomie DBMS frei bezüglich Wahl mit welchen Systemen kommuniziert wird Wahl wann mit anderen Systemen kommuniziert wird Jederzeit Eintritt/Austritt aus integriertem System Wahl was (welcher Teil der Information) kommuniziert wird Wahl wie mit anderen Systemen kommuniziert wird Anfragesprache Wahl welcher Teil der Anfragemöglichkeiten zur Verfügung gestellt werden Prädikate Sortierung Write ... 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Kommunikations-Autonomie – Beispiel Extrem 1: Voller SQL Zugang z.B. via JDBC Transaktionen Optimierung Lesend (und Schreibend?) Schemaveränderungen? Antwort als Ergebnisrelation Extrem 2: HTML Formular Nur ein (oder mehr) Suchfelder Antwort als HTML Text Nur Teile der Daten (public area) 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Ausführungs-Autonomie DBMS frei bezüglich Wahl wann Anfragen ausgeführt werden Wahl wie Anfragen ausgeführt werden Wahl der Scheduling-Strategien Wahl Optimierungs-Strategien Wahl ob globale Transaktionen unterstützt werden 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Ausführungs-Autonomie – Beispiel Optimierung und Scheduling Behandlung externer vs. lokaler Anfragen Golden customers Garantierte Antwortzeiten Transaktionen Dirty-read egal? 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Autonomie  Heterogenität Verteilung als „Ursache“ für Autonomie Autonomie als Ursache für Heterogenität: Autonome Systeme Gestaltungsfreiheit Unterschiedliche Entscheidungen Heterogenität 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Überblick Verteilung Autonomie Syntaktische Heterogenität Strukturelle Heterogenität Später: Semantische Heterogenität 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Heterogenität (Heterogeneity) Heterogenität herrscht, wenn sich zwei miteinander verbundene Informationssysteme syntaktisch, strukturell oder inhaltliche unterscheiden. Syntaktische Heterogenität Auch: „Technische Heterogenität“ Strukturelle Heterogenität Semantische Heterogenität Heterogenitäten zu überbrücken ist die Kernaufgabe der Informationsintegration. 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Heterogenitätsklassen Auch andere Klassifikationen möglich, z.B. [BKLW99] Syntaktische Heterogenität Datenmodell Heterogenität Logische Heterogenität Oder nach [SPD92] Semantische Konflikte Beschreibungskonflikte Heterogenitätskonflikte Strukturelle Konflikte Datenkonflikte 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Syntaktische Heterogenität Hardware-Heterogenität Software-Heterogenität Schnittstellen-Heterogenität 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Hardware Heterogenität Bandbreite Hauptspeicher CPU Art Geschwindigkeit Nicht hier 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Software Heterogenität Betriebssystem Dateisystem Protokolle HTTP, ODBC, Java API, CORBA, etc. Zustandsbehaftet vs. zustandsfrei Sicherheit Security level Log-on Prozedur 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Software Heterogenität – Beispiel String sqlQuery = „SELECT Name, Strasse FROM Hersteller WHERE PLZ = 69115“; ... Connection jdbcCon = DriverManager.getConnection(dbURL, ...); Statement stmt = jdbcCon.createStatement(); ResultSet table = stmt.executeQuery(sqlQuery); String webQuery = „plz=69115“; ... URL url = new URL(„http://www.system2.de/cgi-bin /search.cgi“ + „?“ + webQuery); URLConnection urlCon = new url.openConnection(); InputStreamReader reader = new InputStreamReader( urlCon.openStream()); Nicht hier Quelle: VL: Föderierte Datenbanksysteme Peter Tomczyk, FZI & Uni Karlsruhe 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Schnittstellen Heterogenität Schnittstellen von Informationssystemen sind im wesentlichen deren Anfragensprache: HTML Formular, „Google“-Sprache (+, - , ...), SQL, XQuery, etc. Jetzt hier! 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Schnittstellen Heterogenität Negation vs. keine Negation Oft zu teuer Gleichheit / Ungleichheit „=“ oder auch „>,<, , “ Konjunktion (UND) oder auch Disjunktion (ODER) Prädikate nur mit Konstanten (author = „Melville“) Oder auch mit anderen Variablen (ResidenceCountry = Nationality) Gebundene und freie Variablen [RSU95,LC00,YLGU99] später Andere Einschränkungen Joins über maximal 3 Relationen z.B. Prädikate nur über eine Auswahl von Werten 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Schnittstellen Heterogenität - Beispiel Suche Konjunktion/Disjunktion gleich/ungleich 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Schnittstellen Heterogenität – Beispiel Gebundene Variablen Prädikat nur mit Auswahl von Werten 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Schnittstellen Heterogenität In einzelnen Systemen kein Problem Probleme für integrierte Systeme Globale Anfragesprache ist mächtiger als lokale Anfragesprache Anfragen eventuell nicht ausführbar Oder globales System muss kompensieren Lokale Anfragesprache ist mächtiger als globale Anfragesprache Verpasste Chance, lokale (effiziente) Ausführung auszunutzen Gebundene und freie Variablen sind inkompatibel 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Mächtige globale Anfragesprache SELECT * FROM Books WHERE Author = „Defoe“ AND PubYear = 1979 SQL HTML Form 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Mächtige globale Anfragesprache SELECT * FROM Books WHERE Author = „Defoe“ AND PubYear = 1979 Daniel Defoe, Robinson Crusoe, 1979 PubYear = 1979 Daniel Defoe, Robinson Crusoe, 1986 Daniel Defoe, Robinson Crusoe, 1979 Daniel Defoe, Moll Flanders, 1933 Defoe 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Mächtige globale Anfragesprache SELECT * FROM Books WHERE Author = „Defoe“ AND PubYear > 1979 Daniel Defoe, Robinson Crusoe, 1979 PubYear = 1979 Daniel Defoe, Robinson Crusoe, 1986 Daniel Defoe, Robinson Crusoe, 1979 Daniel Defoe, Moll Flanders, 1933 Defoe 1979 ? Year: 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Mächtige lokale Anfragesprache HTML Form SELECT * FROM Books WHERE Author = „Defoe“ SQL Verpasste Chancen. 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Gebundene & Freie Variablen Gebundene Variablen müssen bei einer Anfrage gebunden werden. z.B.: „Search“-Feld bei Google Freie Variablen müssen nicht gebunden werden. z.B. „Autor“-Feld bei Amazon.de, falls Titel gebunden ist. 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Gebundene & Freie Variablen – Beispiel & Ausblick SONGS Song CD Friends Life Love CDs CD Künstler Preis Love Lucy 15 Story Snoopy 14 Künstler CD Preis Story Lucy 13 Love Snoopy 10 Life Charlie 8 Bastelaufgabe 1: Wie teuer ist die billigste CD mit einem Song namens “Friends”? Quelle: [LC00] 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Gebundene & Freie Variablen – Beispiel & Ausblick SONGS Song CD Friends Life Love CDs CD Künstler Preis Love Lucy 15 Story Snoopy 14 Künstler CD Preis Story Lucy 13 Love Snoopy 10 Life Charlie 8 Unterstrichen = gebundene Variable Bastelaufgabe 2: Welches ist die billigste CD mit einem Song namens “Friends”, die Sie anfragen können? Mehr nächste Woche! 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Syntaktische Heterogenität - Zusammenfassung Hardware Heterogenität Bandbreite, CPU, ... Software Heterogenität Protokolle, Sicherheit, ... Schnittstellen Heterogenität Mächtigkeit der Anfragesprachen Gebundene & freie Variablen 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Überblick Verteilung Autonomie Syntaktische Heterogenität Strukturelle Heterogenität Später: Semantische Heterogenität 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Strukturelle Heterogenität Datenmodell-Heterogenität Unterschiedliche Semantik Unterschiedliche Struktur Schematische Heterogenität Integritätsbedingungen, Schlüssel, Fremdschlüssel, etc. Schema (Attribut vs. Relation etc.) Struktur (Gruppierung in Tabellen) 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Datenmodell-Heterogenität Datenmodelle Relationales Modell XML Modell OO Modell Hierarchisches Modell Adresse Strasse Hausnr. PLZ Stadt n 1 Person Name Alter Adresse(PersonId, Strasse, Hausnr., PLZ, Stadt) Person( Id, Name, Alter) 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Schematische Heterogenität Sprachregelung hier: Alt-Griechisch wird ignoriert... Schemas statt Schemata 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Schematische Heterogenität Struktur Modellierung Relation vs. Attribut Attribut vs. Wert Relation vs. Wert Benennung Relationen Attribute Jeweils Homonyme und Synonyme Normalisiert vs. Denormalisiert Geschachtelt vs. Fremdschlüssel Diese Probleme sogar bei gleichem Datenmodell! 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Schematische Heterogenität Männer( Id, Vorname, Nachname) Frauen( Id, Vorname, Nachname) Relation vs. Attribut Person( Id, Vorname, Nachname,männlich, weiblich) Relation vs. Wert Attribut vs. Wert Person( Id, Vorname, Nachname, Geschlecht) 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Schematische Heterogenität Tabellen-Tabellen Konflikte Namenskonflikte Semantisch gleiche Tabellen mit verschiedenen Namen (Synonym) Verschiedene Tabellen mit gleichem Namen (Homonym) Strukturkonflikte fehlende Attribute fehlende, aber ableitbare Attribute IC-Konflikte (Integrity-Constraint = Integritätsbedingungen) 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Schematische Heterogenität – Beispiel mitarbeiter p_id vorname nachname funktion 1 Peter Müller Sachbearb. 5 Petra Weger Sekr. ... Homonym mitarbeiter (leitend) Fehlendes (ableitbares) Attribut p_id vorname name 2 Stefanie Meier Petra Weger Andreas Zwickel ... IC Konflikt (Eindeutigkeit) 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Schematische Heterogenität Attribut-Attribut Konflikte Namenskonflikte Verschiedene Namen für gleiche Attribute (Synonyme) Gleiche Namen für verschiedene Attribute (Homonyme) Default-Wert-Konflikte IC-Konflikte Datentypkonflikte Bedingungskonflikte 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Schematische Heterogenität – Beispiel mitarbeiter IC: alter > 18 p_id Vorname VARCHAR(35) nachname alter 1 Wolfgang Meyer 33 5 Klaus Schmidt NULL ... Synonym mitarbeiter p_id Vorname VARCHAR(20) name alter 1 Peter Müller 5 Petra Weger 17 ... Default Werte Datentypkonflikt 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Schematische Heterogenität - Beispiel Normalisiert vs. Denormalisiert 1:1 Assoziationen zwischen Werten wird unterschiedlich dargestellt Durch Vorkommen im gleichen Tupel Durch Schlüssel-Fremdschlüssel Beziehung ARTICLE artPK title AUTHOR artFK name PUBLICATION pubID title author 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Schematische Heterogenität - Beispiel Geschachtelt vs. Flach 1:n Assoziationen werden unterschiedlich dargestellt Als geschachtelte Elemente Als Schlüssel-Fremdschlüssel Beziehung ARTICLE artPK title pages AUTHOR name PUBLICATION pubID title author ID? 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Schematische Heterogenität - Lösungen Problem Einheitlich auf beide Schemas zugreifen Auf Schemaebene: Schema Mapping und Schema-Sprachen Auf Datenebene: Virtuelle Integration Beide Schemas in eine gemeinsames neues Schema integrieren Auf Schemaebene: Schemaintegration Auf Datenebene: Materialisierte Integration Für die materialisierte Integration Schemaintegration ETL Für die virtuelle Integration Schema-Sprachen Z.B. SchemaSQL, MSQL, CPL Schema Mapping Z.B. Clio, RONDO, u.a. 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Schematische Heterogenität – Lösungen (Ausblick) SchemaSQL [LSS96] Erweiterung von SQL Daten und Metadaten werden gleich behandelt Umstrukturierungen innerhalb der Anfrage Dynamische Sicht-Definition Horizontale Aggregation SELECT RelA FROM uniA->RelA, uniA::RelA A, uniB::grundgehalt B WHERE RelA = B.institut AND A.Kategorie = „Student“ AND A.grundgehalt > B.Student High-order Join 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Schematische Heterogenität – Lösungen (Ausblick) Schema Mapping ARTICLE artPK title pages AUTHOR artFK name PUBLICATION pubID title date author SELECT artPK AS pubID title AS title null AS date name AS author FROM ARTICLE, AUTHOR WHERE ARTICLE.artPK = AUTHOR.artFK 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Zusammenfassung Verteilung Autonomie Design-Autonomie Kommunikations-Autonomie Ausführungs-Autonomie Heterogenität Syntaktische Heterogenität Hardware Heterogenität Software Heterogenität Schnittstellen Heterogenität Strukturelle Heterogenität Datenmodell-Heterogenität Schematische Heterogenität Physikalisch „Verursacht durch Autonomie“ Hardwarekauf Protokolle Anfragesprachen Schema geschachtelt, flach, objektorientiert Attribute, Wert; Relation SchemaSQL und Schema Mapping 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06

Felix Naumann, VL Informationsintegration, WS 05/06 Literatur Wichtigste Literatur für heute [BKLW99] Busse, Kutsche, Leser, Weber, Federated Information Systems: Concepts, Terminology and Architectures. Forschungsbericht 99-9 des FB Informatik der TU Berlin, 1999. Online: http://www.informatik.hu-berlin.de/~leser/publications/tr_terminology.ps [ÖV99] Principles of Distributed Database Systems M. Tamer Özsu, Patrick Valduriez, Prentice Hall, (1991/)1999. Kapitel 1 und 4 Weitere Literatur [Con97] Föderierte Datenbanksysteme. Konzepte der Datenintegration Stefan Conrad, Springer Verlag, 1997 25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06