Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Peer Data Management Systems (PDMS) Berlin, 19. Januar 2005 Armin Roth Humboldt-Universität zu Berlin.

Ähnliche Präsentationen


Präsentation zum Thema: "Peer Data Management Systems (PDMS) Berlin, 19. Januar 2005 Armin Roth Humboldt-Universität zu Berlin."—  Präsentation transkript:

1 Peer Data Management Systems (PDMS) Berlin, 19. Januar 2005 Armin Roth Humboldt-Universität zu Berlin

2 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin2 Überblick Skalierbare und flexible Informationsintegration Struktur eines PDMS Anfragebearbeitung in PDMS Optimierungsansätze Forschungssysteme Diplomarbeiten

3 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin3 Rückblick: Integrierte Informationssysteme Globales Schema Direkter Zugriff auf jedes Quellsystem Oracle, DB2… Web Service Anwen- dung HTML Form Datei- system Integriertes Informationssystem

4 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin4 Nachteile integrierter Informationssysteme Globales Schema: Komplex Einigungsprozess erforderlich Wartung bedeutet (aufwändige) Schema-Evolution Praxis bevorzugt dynamische Integration mit “ähnlichen” Informationssystemen → Skalierbarkeit, Flexibilität problematisch Mediator: Single point of … Control Failure Maintenance

5 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin5 Beispiel: Standardisiertes Schema ISO (STEP): Standard for Exchange of Product Data Teilschema Grunddaten für Automotive Mechanik-Entwurfsprozess (ISO ) Teilschema Grunddaten für Automotive Mechanik-Entwurfsprozess (ISO ) Entstanden in langem Standardisierungsprozess Datentransformation aufwändig

6 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin6 PDMS als Generalisierung integrierter Informationssysteme Integration bereits existierender integrierter Informationssysteme Beispielsweise bei Firmenzusammenschlüssen Reorganisationen Integriertes Informationssystem 1 Integriertes Informationssystem 2

7 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin7 Überblick Skalierbare und flexible Informationsintegration Struktur eines PDMS Anfragebearbeitung in PDMS Optimierungsansätze Forschungssysteme Diplomarbeiten

8 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin8 Peers: Integrierte Informationssysteme Peer Schema Lokale Datenquellen (lokales Schema) Funktionalität Anfragen initiieren Anfragen auswerten Anfragevermittlung (Mediation) Lokale Mappings Peer Mappings

9 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin9 P1P1 P2P2 P5P5 Prof(name, bereich) Kurs(kurs_id, titel, univ) Lehrt(prof,kurs_id, sem, eval, univ) Eingeschrieben(stud, kurs_id, sem) Vertiefung(stud, fach) Arbeitet(prof, fach) Betreut(prof, stud) P4P4 P6P6

10 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin10 Mappings eines Peers Formalismen GLaV, GaV, LaV Equality und Inclusion Mappings Inclusion Mappings sind gerichtet P R L GLaV-Mapping: Q 1 (P 1 )  Q 2 (P 2 ) ( Q 1, Q 2 : Anfragen über Peer-Mengen) M M: R (x, y)  L (x, y)

11 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin11 Anwendungen für PDMS Wichtige Annahmen: Peers reichen Anfragen weiter und geben auch Daten als Anfrageergebnis zurück, die sie selbst von anderen Peers erhalten haben Denkbare Anwendungen Wissenschaftliche Daten (z.B. Life Sciences) Katastrophen-Management Gesundheitsmanagement Allgemein: Semantic Web

12 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin12 Überblick Skalierbare und flexible Informationsintegration Struktur eines PDMS Anfragebearbeitung in PDMS Optimierungsansätze Forschungssysteme Diplomarbeiten

13 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin13 P1P1 Kurskurs_idtitelfakunivfachdoz P2P2 P5P5 Prof(name, bereich) Kurs(kurs_id, titel, univ) Lehrt(prof,kurs_id, sem, eval, univ) Eingeschrieben(stud, kurs_id, sem) Vertiefung(stud, fach) Arbeitet(prof, fach) Betreut(prof, stud) Kurskurs_idtitelLehrtprofkurs_idsemevalfak DB_Kurskurs_idtitelfakunivdoz Arbeitetproffachort Eventevent_idarttitel Fakfakfach P4P4 P6P6 P6.Event(kurs_id, fach, titel)  P2.Kurs(kurs_id, titel), P2.Lehrt(prof, kurs_id, sem, eval, fak), P2.Fak(fak, fach) P4.Arbeitet(prof, fach, ort)  P2.Lehrt(prof, kurs_id, sem, eval, fak), P2.Fak(fak, fach) P2.Kurs(kurs_id, titel), P2.Lehrt(prof, kurs_id, sem, eval, fak), P2.Fak(fak, fach)  P1.Kurs(kurs_id, titel, fak, univ, fach, doz) P5.DB_Kurs(kurs_id, titel, fak, univ, doz)  P1.Kurs(kurs_id, titel, fak, univ, fach, doz) P1.Kurs(kurs_id, titel, fak, univ, fach, doz)  P6.Event(kurs_id, fach, titel) P5.DB_Kurs(kurs_id, titel, fak, univ, doz)  P6.Event(kurs_id, art, titel)

14 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin14 Anfragebearbeitung: Rule-Goal Tree [HIST03] Goal-Knoten : Prädikate (umformulierter) Anfrage(n) + zugehörige Vergleichsprädikate Rule-Knoten : entsprechen Peer-Mappings P.q(x, y) Q P. L (x, y), x > 0 P R L P. R (x, y), x > 0 Q: q(x, y) :– P. R (x, y), x > 0 M: R (x, y)  L (x, y) M

15 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin15 GaV-Anfrageumformulierung [] Peer001.q(kurs_id, titel, fak, univ, fach, doz) () Q [] Peer001.Kurs(kurs_id, titel, fak, univ, fach, doz) () M 1  2 [] Peer002.Kurs(kurs_id, titel) [] Peer002.Lehrt(prof__1, kurs_id, sem__2, eval__3, fak) [] Peer002.Fak(fak, fach) P1P1 Kurskurs_idtitelfakunivfachdoz 20% P2P2 Kurskurs_idtitelLehrtprofkurs_idsemevalfak Fakfakfach 40% M12M12 Q: P 1.q(kurs_id, titel, fak, univ, fach, doz) :– P 1.Kurs(kurs_id, titel, fak, univ, fach, doz) P2.Kurs(kurs_id, titel), P2.Lehrt(prof, kurs_id, sem, eval, fak), P2.Fak(fak, fach)  P1.Kurs(kurs_id, titel, fak, univ, fach, doz)

16 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin16 LaV-Anfrageumformulierung [] Peer001.q(kurs_id, titel, fak, univ, fach, doz) () Q [] Peer001.Kurs(kurs_id, titel, fak, univ, fach, doz) () M 1  2 [] Peer002.Kurs(kurs_id, titel) [] Peer002.Lehrt(prof__1, kurs_id, sem__2, eval__3, fak) () M 2  4 [] Peer004.Arbeitet(prof__1, fach, ort__6) [unc] Peer002.Fak(fak, fach) [] Peer002.Fak(fak, fach) P2P2 Kurskurs_idtitel Lehrtprofkurs_idsemevalfak Arbeitetproffachort Fakfakfach 40% 10% P4P4 P4.Arbeitet(prof, fach, ort)  P2.Lehrt(prof, kurs_id, sem, eval, fak), P2.Fak(fak, fach)

17 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin17 Behandlung von Zyklen Equality-Mappings bedeuten Zyklen: Q 1 (P 1 ) = Q 2 (P 2 )  Q 1 (P 1 )  Q 2 (P 2 )  Q 1 (P 1 )  Q 2 (P 2 ) First-order Logic-Semantik: Anfragebearbeitung bei Zyklen unentscheidbar [HIST03, CGLR04] Abbruchkriterien (z.B. mehrfache Verwendung eines Mappings): verliert u.U. Antworten [Schw06] Q P2P2 MP1P2MP1P2 P2P2

18 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin18 P1P1 Kurskurs_idtitelfakunivfachdoz P2P2 P5P5 Prof(name, bereich) Kurs(kurs_id, titel, univ) Lehrt(prof,kurs_id, sem, eval, univ) Eingeschrieben(stud, kurs_id, sem) Vertiefung(stud, fach) Arbeitet(prof, fach) Betreut(prof, stud) Kurskurs_idtitelLehrtprofkurs_idsemevalfak DB_Kurskurs_idtitelfakunivdoz Arbeitetproffachort Eventevent_idarttitel Fakfakfach P4P4 P6P6 Mapping- Zyklus

19 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin19 [] Peer001.q(kurs_id, titel, fak, univ, fach, doz) () Q [] Peer001.Kurs(kurs_id, titel, fak, univ, fach, doz) () M L1 [] LS001_1.Kurs(kurs_id, titel, fak, univ, fach, doz) () M 1  2 [] Peer002.Kurs(kurs_id, titel) () M 2  6 [] Peer006.Event(event_id__4, art__5, titel) () M 6  5 [] Peer005.DB_Kurs(kurs_id__8, titel, fak__9, univ__10, doz__11) () M L5 [] LS005_1.DB_Kurs(kurs_id__8, titel, fak__9, univ__10, doz__11) () M 6  1 [] Peer001.Kurs(event_id__4, titel, fak__12, univ__13, art__5, doz__14) () M L1 [] LS001_1.Kurs(event_id__4, titel, fak__12, univ__13, art__5, doz__14) () M 1  5 [] Peer005.DB_Kurs(event_id__4, titel, fak__12, univ__13, doz__14) () M L5 [] LS005_1.DB_Kurs(event_id__4, titel, fak__12, univ__13, doz__14) [unc] Peer002.Lehrt(prof__1, kurs_id, sem__2, eval__3, fak) [unc] Peer002.Fak(fak, fach) () M L2 [] LS002_1.Kurs(kurs_id, titel) [] Peer002.Lehrt(prof__1, kurs_id, sem__2, eval__3, fak) () M L2 [] LS002_1.Lehrt(prof__1, kurs_id, sem__2, eval__3, fak) () M 2  4 [] Peer004.Arbeitet(prof__1, fach, ort__6) () M L4 [] LS004_1.Arbeitet(prof__1, fach, ort__6) [unc] Peer002.Fak(fak, fach) [] Peer002.Fak(fak, fach) () M L2 [] LS002_1.Fak(fak, fach) () M 1  5 [] Peer005.DB_Kurs(kurs_id, titel, fak, univ, doz) () M L5 [] LS005_1.DB_Kurs(kurs_id, titel, fak, univ, doz) M 1  2 wird nicht mehr genutzt: Abbruch des Zyklus

20 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin20 Anfrageumformulierung und Vergleichsprädikate Überlappung Vergleichprädikate von Nutzer-Anfrage und Mappings Entlang von Mapping-Pfaden akkumulieren sich Selektionen und verringern die Kardinalität des Anfrageergebnisses

21 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin21 Ableitung des Anfrageplanes Verzweigender Goal-Knoten: UNION Verzweigender Rule-Knoten: JOIN P1.Kurs P1.q Q P2.Kurs P2.Lehrt P4.Arbeitet Peer002.q UNION JOIN UNION P2.Fak JOIN (deckt P2.Lehrt und P2.Fak ab)

22 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin22 Effizienzprobleme durch Redundanzen Redundante Mapping-Pfade führen zu stark verzweigten Rule-Goal Trees Beispiel [Schw06]: 31 Peers Rang ca. 5 (Anzahl von Peers, zu denen ein Peer Mappings hat) Union- und Join-Operationen

23 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin23 Überblick Skalierbare und flexible Informationsintegration Struktur eines PDMS Anfragebearbeitung in PDMS Optimierungsansätze Forschungssysteme Diplomarbeiten

24 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin24 Containment-based Pruning [TH04] PDMS Piazza (s.u.) Pruning von h, wenn (i) g (alle Antworten von) h enthält ( g und h müssen am selben Peer liegen) (ii) keine Joins zwischen g und f Vorteil: Steigerung der Effizienz um etwa eine Grössenordnung Keine Antworten gehen verloren Nachteil: f bzw. g und h können an unterschiedlichen Peers liegen (hier P* bzw. P )  Kenntnis nicht-lokaler Teile des Rule-Goal Tree erforderlich Eingriff in (Kommunikations-) Autonomie der Peers … … … Q P*.f P.hP.h P.gP.g

25 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin25 Qualitätsgesteuerte Anfragebearbeitung Wichtiges Qualitätskriterium in Informationsintegration: Vollständigkeit Extensionale Vollständigkeit: Tupelanteil Intensionale Vollständigkeit: Dichte von Datenwerten (  NULL) Projektionen und Selektionen in Peer- Mappings führen zu Informationsverlust Konzessionen an Vollständigkeit

26 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin26 P1P1 Kurskurs_idtitelfakunivfachdoz 20% P2P2 P5P5 Prof(name, bereich) Kurs(kurs_id, titel, univ) Lehrt(prof,kurs_id, sem, eval, univ) Eingeschrieben(stud, kurs_id, sem) Vertiefung(stud, fach) Arbeitet(prof, fach) Betreut(prof, stud) Kurskurs_idtitelLehrtprofkurs_idsemevalfak DB_Kurskurs_idtitelfakunivdoz Arbeitetproffachort Eventevent_idarttitel Fakfakfach 80% 10% P4P4 P6P6 20% P6.Event(kurs_id, fach, titel)  P2.Kurs(kurs_id, titel), P2.Lehrt(prof, kurs_id, sem, eval, fak), P2.Fak(fak, fach) P4.Arbeitet(prof, fach, ort)  P2.Kurs(kurs_id, titel), P2.Lehrt(prof, kurs_id, sem, eval, fak), P2.Fak(fak, fach), ort  10000, ort  P2.Kurs(kurs_id, titel), P2.Lehrt(prof, kurs_id, sem, eval, fak), P2.Fak(fak, fach)  P1.Kurs(kurs_id, titel, fak, univ, fach, doz) P5.DB_Kurs(kurs_id, titel, fak, univ, doz)  P1.Kurs(kurs_id, titel, fak, univ, fach, doz), doz = ‚Freytag‘ P1.Kurs(kurs_id, titel, fak, univ, fach, doz)  P6.Event(kurs_id, fach, titel) P5.DB_Kurs(kurs_id, titel, fak, univ, doz)  P6.Event(kurs_id, art, titel) 100 % 10 % 100 % 10 % 100 % Selektivität (Anzahl der Erg.tupel bezogen auf gesamntes PDMS)

27 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin27 Vollständigkeits-gesteuerte Anfragebearbeitung [RN05] Idee: Mappings mit geringem Informationsverlust bevorzugen Beschneiden des Suchraums Strategien Threshold-basiertes Beschneiden (s. Diagramm) Budget-gesteuertes Vorgehen Implementiert in System P : e Cost (# mappings used) Completeness

28 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin28 Überblick Skalierbare und flexible Informationsintegration Struktur eines PDMS Anfragebearbeitung in PDMS Optimierungsansätze Forschungssysteme Diplomarbeiten

29 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin29 Piazza [HIST03, TH04] Semantik: First order Logic (FOL) gesamtes PDMS hat eine Semantik Anfragen: Subset von XQuery Punktanfragen mit Negation Containment-basiertes Pruning von geschachtelten XQuery-Anfragen Minimalisierung umformulierter Anfragen

30 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin30 Hyper [CGLR04] Epistemische Logik: Jeder Peer hat eigene Semantik Peers geben nur weiter, was sie sicher wissen Vorteile Peers sind wirklich modulare Einheiten Ermittlung aller Certain Answers ist in polynomieller Datenkomplexität (FOL-Semantik: unentscheidbar)

31 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin31 System P [RN05] Relationales Datenmodell mit Punkt- und Range-Anfragen GaV- und LaV-Umformulierung Vollständigkeits-gesteuerte Anfragebearbeitung Visualisierung der Anfragebearbeitung Aktuelle Entwicklung: Selektivitätsschätzung mit selbstadaptiven Histogrammen Ausblick: Kostenmodell, Parallele Anfragebearbeitung

32 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin32 Zusammenfassung + Ausblick PDMS: Dezentral organisiert (kein globales Schema) Hohe Flexibilität und Dynamik Ineffizienz durch Redundanzen Informationsverluste entlang Mapping-Pfade Vollständigkeits-basierte Anfragebearbeitung Ausblick: Kostenmodell Management von Schemata und Mapping-Netzen Erweitern von Peer-Schemata (Schema-Discovery)

33 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin33 Studien-/Diplomarbeitsthemen System P Parallele Anfragebearbeitung und Budget-Strategien (Experimente) Ranking von Anfrageergebnissen nach Relevanz u.v.m.

34 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin34 Diplomarbeiten Cross-domain PDM CADE/E… Enterprise-PDM-Backbone P P R WfMS- Funktionalität (z.B. Änderungs-, Konfigurations- und Freigabeprozesse) Datenmanagement Informationsmodelle Constraints Instanzen Anfragebearbeitung Access Limitations (bzgl. Zugriffsmethoden) Authorisierung gegeben Integration Mappings zwischen Informationsmodelle n Mappings zwischen Prozess- Metamodellen Prozess- Synchronisation gesucht Schema Mapping Tool (Data/Schema Interplay) Semantic Description of Data Services in a SOA Enterprise Model Management (in a SOA context)

35 Fragen? Skalierbare und flexible Informationsintegration Struktur eines PDMS Anfragebearbeitung in PDMS Optimierungsansätze Forschungssysteme Diplomarbeiten

36 19. Januar 2005Armin Roth, Humboldt-Universität zu Berlin36 Literatur [CGLR04]Calvanese, D., Giacomo, G.D., Lenzerini, M., Rosati, R.: Logical foundations of peer-to- peer data integration. In: Proc. of the Symposium on Principles of Database Systems (PODS), [HIST03]Halevy, A.Y., Ives, Z., Suciu, D., Tatarinov, I.: Schema mediation in peer data management systems. In: Proc. of the Int. Conf. on Data Engineering (ICDE), [Hübn06] Hübner, T.: Entwicklung einer Testumgebung für ein Peer Data Management System. Humboldt-Universität zu Berlin, Diplomarbeit, [RN05]Roth, A., Naumann, F.: Benefit and cost of query answering in PDMS. In: Proc. of the Int. Workshop on Databases, Information Systems and Peer-to-Peer Computing (DBISP2P), [Schw06]Schweigert, M.: Entwurf eines Peer Data Management Systems mit Steuerungs- und Simulationskomponente. Humboldt-Universität zu Berlin, Diplomarbeit, [TH05]Tatarinov, I., Halevy, A.: Effcient query reformulation in peer data management systems. In: Proc. of the ACM Int. Conf. on Management of Data (SIGMOD), 2004.


Herunterladen ppt "Peer Data Management Systems (PDMS) Berlin, 19. Januar 2005 Armin Roth Humboldt-Universität zu Berlin."

Ähnliche Präsentationen


Google-Anzeigen