Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

VL Informationsintegration Verteilung, Autonomie und Heterogenität 25.10.2004 Felix Naumann.

Ähnliche Präsentationen


Präsentation zum Thema: "VL Informationsintegration Verteilung, Autonomie und Heterogenität 25.10.2004 Felix Naumann."—  Präsentation transkript:

1 VL Informationsintegration Verteilung, Autonomie und Heterogenität Felix Naumann

2 Felix Naumann, VL Informationsintegration, WS 05/062 Wiederholung: Data Warehouse Aufbau eines Data Warehouse Quelle: Ulf Leser, VL Data Warehouses

3 Felix Naumann, VL Informationsintegration, WS 05/063 Wiederholung: Föderierte DBMS

4 Felix Naumann, VL Informationsintegration, WS 05/064 Wiederholung: Redundanz Intensionale Redundanz ermöglicht extensionale Komplementierung. Zwei Quellen mit gleichem Schema können zu einer überdeckenderen Quelle integriert werden Extensionale Redundanz ermöglicht intensionale Komplementierung. Zwei Quellen, die über gleiche Dinge sprechen können zu einer dichteren Quelle integriert werden. Insgesamt ist das Ziel der Integration eine vollständigere Quelle.

5 Felix Naumann, VL Informationsintegration, WS 05/065 Wiederholung: Redundanz Quelle 1A(V)B(W)C(X)D(Y) a 1 b 1 c 1 d 1 a 2 b 2 - d 2 Quelle 2A(V)D(W)E(X)F(Z) a 2 d 2 c 2 - a 3 d 3 e 3 f 3 Extensionale Komplementierung Intensionale Komplementierung Intensionale Redundanz Extensionale Redundanz Quelle 1 & 2A(V)B/D(W) C/E(X) D(Y)F(Z) a 1 b 1 c 1 d 1 - a 2 f(b 2,d 2 ) c 2 d 2 - a 3 d 3 e 3 - f 3

6 Felix Naumann, VL Informationsintegration, WS 05/066 Überblick Verteilung Autonomie Syntaktische Heterogenität Strukturelle Heterogenität Später: Semantische Heterogenität

7 Felix Naumann, VL Informationsintegration, WS 05/067 Klassifikation von Informationssystemen [ÖV99] Drei orthogonale Dimensionen Verteilung Autonomie Heterogenität

8 Felix Naumann, VL Informationsintegration, WS 05/068 Klassifikation verteilter DBMS [ÖV91] Verteilung Autonomie Hetero- genität Verteilte, homogene DBS Logisch integrierte und homogene DBS Heterogene, integrierte DBS Heterogene, föderierte DBS Homogene, föderierte DBS Verteilte, heterogene föderierte DBS Verteilte, föderierte DBS Verteilte, heterogene DBS

9 Felix Naumann, VL Informationsintegration, WS 05/069 Klassifikation verteilter DBMS nach [ÖV99] Verteilung/Distribution Autonomie Hetero- genität Peer-to-peer Enge Integration Client/Server Semi- autonom Isolation z.B. A2,D1,H0

10 Felix Naumann, VL Informationsintegration, WS 05/0610 Zusammenhang mit Föderierten DBMS Verteilung führt zu Autonomie, Intra-Organisation: Historisch Inter-Organisation: Internet & WWW und Autonomie führt zu Heterogenität. Verantwortung liegt bei lokalen Administratoren Systempflege Nutzbarkeit und Nützlichkeit Erweiterungen am Informationssystem Design... Diskussion Historischer Entwicklung, aber orthogonale Kriterien!

11 Felix Naumann, VL Informationsintegration, WS 05/0611 Verteilung (Distribution) Ein verteiltes Informationssystem ist eine Sammlung mehrerer, logisch verknüpfter Informationssysteme, die über ein gemeinsames Netzwerk verteilt sind. [ÖV91]

12 Felix Naumann, VL Informationsintegration, WS 05/0612 Physikalische Verteilung Motiviert durch Hardwareanforderungen (Hardwarebeschränkungen) Server stehen an unterschiedlichen Orten Gleicher Raum, anderer Raum Anderes Gebäude Andere Stadt, anderes Land Shared Nothing Server haben keine gemeinsamen, abhängigen Hardwarekapazitäten Memory Disk CPU Mit Ausnahme des Netzwerks Im Gegensatz zu shared-disk und shared-memory

13 Felix Naumann, VL Informationsintegration, WS 05/0613 Logische Verteilung Motiviert durch Anwendungsanforderungen Zuverlässigkeit Bei Ausfall eines Servers Verfügbarkeit Bei Ausfall eines Netzwerkteils Effizienz Redundanz Replikation Caching Partitionierung Vertikal Horizontal

14 Felix Naumann, VL Informationsintegration, WS 05/0614 Verteilung – Vor- und Nachteile Vorteile aus Sicht der Quellen und des IIS Autonomie (gleich genauer) Performance: Kapazität dort, wo sie gebraucht wird Verfügbarkeit: Bei Ausfall eines Standorts Erweiterbarkeit Teilbarkeit (Verantwortung bei anderen Organisationseinheiten) Nachteile aus Sicht des IIS Komplexität (Verwaltung, Optimierung) Kosten Sicherheit Autonomie

15 Felix Naumann, VL Informationsintegration, WS 05/0615 Verteilung – Techniken HTTP, CORBA,... nicht hier. Anwendungsentwicklung ohne Spezifikation der physikalischen Präsenz der Komponenten Annahmen an Transparenz Datenunabhängigkeit (jedes DBMS) auch Speicherorttransparenz Netzwerktransparenz Replikationstransparenz Fragmentationstransparenz auch Partitionierungstransparenz

16 Felix Naumann, VL Informationsintegration, WS 05/0616 Überblick Verteilung Autonomie Syntaktische Heterogenität Strukturelle Heterogenität Später: Semantische Heterogenität

17 Felix Naumann, VL Informationsintegration, WS 05/0617 Autonomie (Autonomy) Der Grad zu dem verschiedene DBMS unabhängig operieren können. Bezieht sich auf Kontrolle, nicht auf Daten. Klassen nach [ÖV99] Design-Autonomie Kommunikations-Autonomie Ausführungs-Autonomie

18 Felix Naumann, VL Informationsintegration, WS 05/0618 Design-Autonomie Auch: Entwurfsautonomie Freiheit des lokalen DBMS bezüglich Datenmodell Relational, hierarchisch, XML Schema Abdeckung der Domäne (universe of discourse, miniworld) Grad der Normalisierung Benennung Transaktionsmanagement Sperrprotokolle Freiheit dies jederzeit zu ändern. Besonders problematisch!

19 Felix Naumann, VL Informationsintegration, WS 05/0619 Design-Autonomie – Beispiel Schema und Datenmodell 1 (Fast) relational Flach Schema und Datenmodell 2 XML hierarchisch

20 Felix Naumann, VL Informationsintegration, WS 05/0620 Kommunikations-Autonomie DBMS frei bezüglich Wahl mit welchen Systemen kommuniziert wird Wahl wann mit anderen Systemen kommuniziert wird Jederzeit Eintritt/Austritt aus integriertem System Wahl was (welcher Teil der Information) kommuniziert wird Wahl wie mit anderen Systemen kommuniziert wird Anfragesprache Wahl welcher Teil der Anfragemöglichkeiten zur Verfügung gestellt werden Prädikate Sortierung Write...

21 Felix Naumann, VL Informationsintegration, WS 05/0621 Kommunikations-Autonomie – Beispiel Extrem 1: Voller SQL Zugang z.B. via JDBC Transaktionen Optimierung Lesend (und Schreibend?) Schemaveränderungen? Antwort als Ergebnisrelation Extrem 2: HTML Formular Nur ein (oder mehr) Suchfelder Antwort als HTML Text Nur Teile der Daten (public area)

22 Felix Naumann, VL Informationsintegration, WS 05/0622 Ausführungs-Autonomie DBMS frei bezüglich Wahl wann Anfragen ausgeführt werden Wahl wie Anfragen ausgeführt werden Wahl der Scheduling-Strategien Wahl Optimierungs-Strategien Wahl ob globale Transaktionen unterstützt werden

23 Felix Naumann, VL Informationsintegration, WS 05/0623 Ausführungs-Autonomie – Beispiel Optimierung und Scheduling Behandlung externer vs. lokaler Anfragen Golden customers Garantierte Antwortzeiten Transaktionen Dirty-read egal?

24 Felix Naumann, VL Informationsintegration, WS 05/0624 Autonomie Heterogenität Verteilung als Ursache für Autonomie Autonomie als Ursache für Heterogenität: Autonome Systeme Gestaltungsfreiheit Unterschiedliche Entscheidungen Heterogenität

25 Felix Naumann, VL Informationsintegration, WS 05/0625 Überblick Verteilung Autonomie Syntaktische Heterogenität Strukturelle Heterogenität Später: Semantische Heterogenität

26 Felix Naumann, VL Informationsintegration, WS 05/0626 Heterogenität (Heterogeneity) Heterogenität herrscht, wenn sich zwei miteinander verbundene Informationssysteme syntaktisch, strukturell oder inhaltliche unterscheiden. Syntaktische Heterogenität Auch: Technische Heterogenität Strukturelle Heterogenität Semantische Heterogenität Heterogenitäten zu überbrücken ist die Kernaufgabe der Informationsintegration.

27 Felix Naumann, VL Informationsintegration, WS 05/0627 Heterogenitätsklassen Auch andere Klassifikationen möglich, z.B. [BKLW99] Syntaktische Heterogenität Datenmodell Heterogenität Logische Heterogenität Oder nach [SPD92] Semantische Konflikte Beschreibungskonflikte Heterogenitätskonflikte Strukturelle Konflikte Datenkonflikte

28 Felix Naumann, VL Informationsintegration, WS 05/0628 Syntaktische Heterogenität Hardware-Heterogenität Software-Heterogenität Schnittstellen-Heterogenität

29 Felix Naumann, VL Informationsintegration, WS 05/0629 Hardware Heterogenität Bandbreite Hauptspeicher CPU Art Geschwindigkeit Nicht hier

30 Felix Naumann, VL Informationsintegration, WS 05/0630 Software Heterogenität Betriebssystem Dateisystem Protokolle HTTP, ODBC, Java API, CORBA, etc. Zustandsbehaftet vs. zustandsfrei Sicherheit Security level Log-on Prozedur

31 Felix Naumann, VL Informationsintegration, WS 05/0631 Software Heterogenität – Beispiel String sqlQuery = SELECT Name, Strasse FROM Hersteller WHERE PLZ = 69115;... Connection jdbcCon = DriverManager.getConnection(dbURL,...); Statement stmt = jdbcCon.createStatement(); ResultSet table = stmt.executeQuery(sqlQuery);... String webQuery = plz=69115;... URL url = new URL(http://www.system2.de/cgi-bin /search.cgi + ? + webQuery); URLConnection urlCon = new url.openConnection(); InputStreamReader reader = new InputStreamReader( urlCon.openStream());... Quelle: VL: Föderierte Datenbanksysteme Peter Tomczyk, FZI & Uni Karlsruhe Nicht hier

32 Felix Naumann, VL Informationsintegration, WS 05/0632 Schnittstellen Heterogenität Schnittstellen von Informationssystemen sind im wesentlichen deren Anfragensprache: HTML Formular, Google-Sprache (+, -,...), SQL, XQuery, etc. Jetzt hier!

33 Felix Naumann, VL Informationsintegration, WS 05/0633 Schnittstellen Heterogenität Negation vs. keine Negation Oft zu teuer Gleichheit / Ungleichheit = oder auch >,<,, Konjunktion (UND) oder auch Disjunktion (ODER) Prädikate nur mit Konstanten (author = Melville) Oder auch mit anderen Variablen (ResidenceCountry = Nationality) Gebundene und freie Variablen [RSU95,LC00,YLGU99] später Andere Einschränkungen Joins über maximal 3 Relationen z.B. Prädikate nur über eine Auswahl von Werten

34 Felix Naumann, VL Informationsintegration, WS 05/0634 Schnittstellen Heterogenität - Beispiel Konjunktion/Disjunktion Suche gleich/ungleich

35 Felix Naumann, VL Informationsintegration, WS 05/0635 Schnittstellen Heterogenität – Beispiel Gebundene Variablen Prädikat nur mit Auswahl von Werten

36 Felix Naumann, VL Informationsintegration, WS 05/0636 Schnittstellen Heterogenität In einzelnen Systemen kein Problem Probleme für integrierte Systeme 1. Globale Anfragesprache ist mächtiger als lokale Anfragesprache Anfragen eventuell nicht ausführbar Oder globales System muss kompensieren 2. Lokale Anfragesprache ist mächtiger als globale Anfragesprache Verpasste Chance, lokale (effiziente) Ausführung auszunutzen 3. Gebundene und freie Variablen sind inkompatibel Anfragen eventuell nicht ausführbar

37 Felix Naumann, VL Informationsintegration, WS 05/0637 Mächtige globale Anfragesprache SQL HTML Form SELECT * FROM Books WHERE Author = Defoe ANDPubYear = 1979

38 Felix Naumann, VL Informationsintegration, WS 05/0638 Mächtige globale Anfragesprache SELECT * FROM Books WHERE Author = Defoe AND PubYear = 1979 Defoe Daniel Defoe, Robinson Crusoe, 1986 Daniel Defoe, Robinson Crusoe, 1979 Daniel Defoe, Moll Flanders, 1933 PubYear = 1979 Daniel Defoe, Robinson Crusoe, 1979

39 Felix Naumann, VL Informationsintegration, WS 05/0639 Mächtige globale Anfragesprache SELECT * FROM Books WHERE Author = Defoe AND PubYear > 1979 Defoe Daniel Defoe, Robinson Crusoe, 1986 Daniel Defoe, Robinson Crusoe, 1979 Daniel Defoe, Moll Flanders, 1933 PubYear = 1979 Daniel Defoe, Robinson Crusoe, 1979 Year: 1979 ?

40 Felix Naumann, VL Informationsintegration, WS 05/0640 Mächtige lokale Anfragesprache SQL HTML Form SELECT * FROM Books WHERE Author = Defoe Verpasste Chancen.

41 Felix Naumann, VL Informationsintegration, WS 05/0641 Gebundene & Freie Variablen Gebundene Variablen müssen bei einer Anfrage gebunden werden. z.B.: Search-Feld bei Google Freie Variablen müssen nicht gebunden werden. z.B. Autor-Feld bei Amazon.de, falls Titel gebunden ist.

42 Felix Naumann, VL Informationsintegration, WS 05/0642 Gebundene & Freie Variablen – Beispiel & Ausblick SONGSSongCD FriendsLife FriendsLove CDsCDKünstlerPreis LoveLucy15 StorySnoopy14 Bastelaufgabe 1: Wie teuer ist die billigste CD mit einem Song namens Friends? Quelle: [LC00] KünstlerCDKünstlerPreis StoryLucy13 LoveSnoopy10 LifeCharlie8

43 Felix Naumann, VL Informationsintegration, WS 05/0643 Gebundene & Freie Variablen – Beispiel & Ausblick Bastelaufgabe 2: Welches ist die billigste CD mit einem Song namens Friends, die Sie anfragen können? SONGSSongCD FriendsLife FriendsLove CDsCDKünstlerPreis LoveLucy15 StorySnoopy14 KünstlerCDKünstlerPreis StoryLucy13 LoveSnoopy10 LifeCharlie8 Unterstrichen = gebundene Variable Mehr nächste Woche!

44 Felix Naumann, VL Informationsintegration, WS 05/0644 Syntaktische Heterogenität - Zusammenfassung Hardware Heterogenität Bandbreite, CPU,... Software Heterogenität Protokolle, Sicherheit,... Schnittstellen Heterogenität Mächtigkeit der Anfragesprachen Gebundene & freie Variablen

45 Felix Naumann, VL Informationsintegration, WS 05/0645 Überblick Verteilung Autonomie Syntaktische Heterogenität Strukturelle Heterogenität Später: Semantische Heterogenität

46 Felix Naumann, VL Informationsintegration, WS 05/0646 Strukturelle Heterogenität Datenmodell-Heterogenität Unterschiedliche Semantik Unterschiedliche Struktur Schematische Heterogenität Integritätsbedingungen, Schlüssel, Fremdschlüssel, etc. Schema (Attribut vs. Relation etc.) Struktur (Gruppierung in Tabellen)

47 Felix Naumann, VL Informationsintegration, WS 05/0647 Datenmodell-Heterogenität Datenmodelle Relationales Modell XML Modell OO Modell Hierarchisches Modell Person Name Alter Adresse Strasse Hausnr. PLZ Stadt Person( Id, Name, Alter) Adresse(PersonId, Strasse, Hausnr., PLZ, Stadt) 1 n

48 Felix Naumann, VL Informationsintegration, WS 05/0648 Schematische Heterogenität Sprachregelung hier: Alt-Griechisch wird ignoriert... Schemas statt Schemata

49 Felix Naumann, VL Informationsintegration, WS 05/0649 Schematische Heterogenität Struktur Modellierung Relation vs. Attribut Attribut vs. Wert Relation vs. Wert Benennung Relationen Attribute Jeweils Homonyme und Synonyme Normalisiert vs. Denormalisiert Geschachtelt vs. Fremdschlüssel Diese Probleme sogar bei gleichem Datenmodell!

50 Felix Naumann, VL Informationsintegration, WS 05/0650 Schematische Heterogenität Person( Id, Vorname, Nachname,männlich, weiblich) Männer( Id, Vorname, Nachname) Frauen( Id, Vorname, Nachname) Person( Id, Vorname, Nachname, Geschlecht) Attribut vs. Wert Relation vs. Wert Relation vs. Attribut

51 Felix Naumann, VL Informationsintegration, WS 05/0651 Schematische Heterogenität Tabellen-Tabellen Konflikte Namenskonflikte Semantisch gleiche Tabellen mit verschiedenen Namen (Synonym) Verschiedene Tabellen mit gleichem Namen (Homonym) Strukturkonflikte fehlende Attribute fehlende, aber ableitbare Attribute IC-Konflikte (Integrity-Constraint = Integritätsbedingungen)

52 Felix Naumann, VL Informationsintegration, WS 05/0652 Schematische Heterogenität – Beispiel p_idvornamenachnamefunktion 1PeterMüllerSachbearb. 5PetraWegerSekr.... mitarbeiter p_idvornamename 2StefanieMeier 2PetraWeger 2AndreasZwickel... mitarbeiter (leitend) IC Konflikt (Eindeutigkeit) Fehlendes (ableitbares) Attribut Homonym

53 Felix Naumann, VL Informationsintegration, WS 05/0653 Schematische Heterogenität Attribut-Attribut Konflikte Namenskonflikte Verschiedene Namen für gleiche Attribute (Synonyme) Gleiche Namen für verschiedene Attribute (Homonyme) Default-Wert-Konflikte IC-Konflikte Datentypkonflikte Bedingungskonflikte

54 Felix Naumann, VL Informationsintegration, WS 05/0654 Schematische Heterogenität – Beispiel p_idVorname VARCHAR(35)nachnamealter 1WolfgangMeyer33 5KlausSchmidtNULL... mitarbeiter p_idVorname VARCHAR(20)namealter 1PeterMüller0 5PetraWeger17... mitarbeiter Datentypkonflikt IC: alter > 18 Synonym Default Werte

55 Felix Naumann, VL Informationsintegration, WS 05/0655 Schematische Heterogenität - Beispiel Normalisiert vs. Denormalisiert 1:1 Assoziationen zwischen Werten wird unterschiedlich dargestellt Durch Vorkommen im gleichen Tupel Durch Schlüssel-Fremdschlüssel Beziehung ARTICLE artPK title AUTHOR artFK name PUBLICATION pubID title author

56 Felix Naumann, VL Informationsintegration, WS 05/0656 Schematische Heterogenität - Beispiel Geschachtelt vs. Flach 1:n Assoziationen werden unterschiedlich dargestellt Als geschachtelte Elemente Als Schlüssel-Fremdschlüssel Beziehung ARTICLE artPK title pages AUTHOR name PUBLICATION pubID title author ID?

57 Felix Naumann, VL Informationsintegration, WS 05/0657 Schematische Heterogenität - Lösungen Problem Einheitlich auf beide Schemas zugreifen Auf Schemaebene: Schema Mapping und Schema-Sprachen Auf Datenebene: Virtuelle Integration Beide Schemas in eine gemeinsames neues Schema integrieren Auf Schemaebene: Schemaintegration Auf Datenebene: Materialisierte Integration Für die materialisierte Integration Schemaintegration ETL Für die virtuelle Integration Schema-Sprachen Z.B. SchemaSQL, MSQL, CPL Schema Mapping Z.B. Clio, RONDO, u.a.

58 Felix Naumann, VL Informationsintegration, WS 05/0658 Schematische Heterogenität – Lösungen (Ausblick) SchemaSQL [LSS96] Erweiterung von SQL Daten und Metadaten werden gleich behandelt Umstrukturierungen innerhalb der Anfrage Dynamische Sicht-Definition Horizontale Aggregation SELECT RelA FROM uniA->RelA, uniA::RelA A, uniB::grundgehalt B WHERE RelA = B.institut AND A.Kategorie = Student AND A.grundgehalt > B.Student High-order Join

59 Felix Naumann, VL Informationsintegration, WS 05/0659 Schematische Heterogenität – Lösungen (Ausblick) Schema Mapping ARTICLE artPK title pages AUTHOR artFK name PUBLICATION pubID title date author SELECT artPK AS pubID title AS title null AS date name AS author FROMARTICLE, AUTHOR WHEREARTICLE.artPK = AUTHOR.artFK

60 Felix Naumann, VL Informationsintegration, WS 05/0660 Zusammenfassung Verteilung Autonomie Design-Autonomie Kommunikations-Autonomie Ausführungs-Autonomie Heterogenität Syntaktische Heterogenität Hardware Heterogenität Software Heterogenität Schnittstellen Heterogenität Strukturelle Heterogenität Datenmodell-Heterogenität Schematische Heterogenität Physikalisch Verursacht durch Autonomie Hardwarekauf Protokolle Anfragesprachen Schema geschachtelt, flach, objektorientiert Attribute, Wert; Relation SchemaSQL und Schema Mapping

61 Felix Naumann, VL Informationsintegration, WS 05/0661 Literatur Wichtigste Literatur für heute [BKLW99] Busse, Kutsche, Leser, Weber, Federated Information Systems: Concepts, Terminology and Architectures. Forschungsbericht 99-9 des FB Informatik der TU Berlin, Online: berlin.de/~leser/publications/tr_terminology.ps [ÖV99] Principles of Distributed Database Systems M. Tamer Özsu, Patrick Valduriez, Prentice Hall, (1991/)1999. Kapitel 1 und 4 Weitere Literatur [Con97] Föderierte Datenbanksysteme. Konzepte der Datenintegration Stefan Conrad, Springer Verlag, 1997


Herunterladen ppt "VL Informationsintegration Verteilung, Autonomie und Heterogenität 25.10.2004 Felix Naumann."

Ähnliche Präsentationen


Google-Anzeigen