Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Ähnliche Präsentationen


Präsentation zum Thema: "Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart."—  Präsentation transkript:

1 Seminar SS Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart SS 2000

2 Seminar SS Data FusionFolie 2 Übersicht Motivation Data Fusion/Informationsfusion –Datenintegration/ -mangement –KDD und Data Mining –Datenfusion Anwendungsfelder der Informationsfusion Anforderungen TSIMMIS - The Stanford IBM Manager of Multiple Information Sources –Das „TSIMMIS Mediation System“ –Zusammenfassung von TSIMMIS –Einschätzung des TSIMMIS Systems –Andere Ansätze zur Informationsintegration Informationsfusion - ein Ausblick Literaturhinweise

3 Seminar SS Data FusionFolie 3 Motivation Inzwischen effiziente Speicherung großer Datenmengen möglich Zugriff auf weltweit verteilte Informationen durch moderne Kommunikationsmedien (Internet) Neue Nutzungspotentiale für unternehmensinterne Informationssysteme durch Integration externer Informationen Probleme: –Auffinden relevanter Daten –heterogene Datenbestände –Redundanzen, Inkonsistenzen –Aktualität, Vertrauenswürdigkeit –kein effizienter Zugriff –unzureichend strukturierte Daten –versteckte Information/implizites Wissens in Daten

4 Seminar SS Data FusionFolie 4 Der Begriff „Data Fusion“ bzw. „Informationsfusion“ InformationsfusionData Fusion Datenfusion Data Mining/ Knowledge Discovery in Databases(KDD) Datenintegration und -management =

5 Seminar SS Data FusionFolie 5 Datenintegration und - management Ziel: Überwindung von Heterogenitäten auf verschiedenen Ebenen –unterschiedliche Datenmodelle –verschiedene Datentypen –andere Einheiten, die den Daten zugrunde liegen –semistrukturierte Daten Allgemeine Vorgehensweise: –Transformation in gemeinsames Datenmodell –Erkennung von Übereinstimmungen in den Schemata

6 Seminar SS Data FusionFolie 6 KDD und Data Mining Ziel von KDD: Identifikation neuer, potentiell nützlicher und verständlicher Muster in Datenbeständen. KDD läuft iterativ und interaktiv in mehreren Schritten ab: 1.Festlegung Problembereiche/Zielen 2.Datensammlung/ -bereinigung 3.Auswahl/Parametrisierung der Analysefunktionen 4.Data Mining 5.Bewertung/Interpretation der Ergebnisse 6.Nutzung des gefundenen Wissens

7 Seminar SS Data FusionFolie 7 Datenfusion Grundsätzlich: Die Kombination von Daten aus verschiedenen (heterogenen) Quellen Anwendungsgebiete der Datenfusion: –Multi-Sensor Fusion –Image Fusion –Multiple Source Interrogation

8 Seminar SS Data FusionFolie 8 Anwendungsfelder der Informationsfusion Überall dort, wo Daten aus unterschiedlichen Quellen kombiniert und daraus neue Informationen abgeleitet werden sollen Anwendungsszenario: Betrieb einer großen Telekommunikationsanlage Kundendaten Verbindungsdaten Produktdaten Daten zum Kommunikationsnetz Integration und Verdichtung dieser Datenbestände für: Dispositive Bereiche Marketing Netzwerkmanagement Systemmanagement

9 Seminar SS Data FusionFolie 9 Übersicht Motivation Data Fusion/Informationsfusion –Datenintegration/ -mangement –KDD und Data Mining –Datenfusion Anwendungsfelder der Informationsfusion Anforderungen TSIMMIS - The Stanford IBM Manager of Multiple Information Sources –Das „TSIMMIS Mediation System“ –Zusammenfassung von TSIMMIS –Einschätzung des TSIMMIS Systems –Andere Ansätze zur Informationsintegration Informationsfusion - ein Ausblick Literaturhinweise

10 Seminar SS Data FusionFolie 10 Anforderungen der Informationsfusion (1) Datenzugriff: –Transparenter Zugriff auf Daten –Verarbeitung von Daten mit vorgegebener Struktur –Verarbeitung und Optimierung von Anfragen Datenintegration –Integrierte Sicht auf Daten durch homogenes Datenmodell –Behebung von Konflikte auf Schema- und Instanzebene –Repräsentation und Verwaltung quellübergreifender Beziehungen

11 Seminar SS Data FusionFolie 11 Anforderungen der Informationsfusion (2) Analyse und Verdichtung –Gewinnung von Daten einer „höheren“ Qualität durch Extrahieren von Zusammenhängen und Abstraktionen, durch Filterung und Verdichtung der Daten Präsentation und Weiterverarbeitung Repräsentation von Metainformationen –Verwaltung von Metainformationen durch das System –Sukzessive Anpassung/Erweiterung der Metainformationen während des Fusionsprozesses

12 Seminar SS Data FusionFolie 12 Anforderungen im Datenbankbereich Intelligente Unterstützung des Integrationsprozesses Realisierung eines effizienten Datenzugriffs Integration semistrukturierter Daten Gewinnung von Metainformationen Realisierung in DBMS durch –„offenen“ Optimierer –Integrationsmöglichkeiten –Unterstützung von „Ranking“ –Repository für Metainformationen –Sampling

13 Seminar SS Data FusionFolie 13 Anforderungen im KDD-Bereich Behandlung verschiedener Datentypen Behandlung unsicherer/vager Daten Effizienz/Skalierbarkeit der Verfahren Verbesserung Aussagefähigkeit/Verständlichkeit der Daten

14 Seminar SS Data FusionFolie 14 Anforderungen an Systemarchitektur Unterstützung iterativer/interaktiver Arbeitsweisen Anpassungsfähigkeit/Erweiterbarkeit des Systems Nutzerunterstützung bei Auswahl/Anwendung von Fusionsmethoden

15 Seminar SS Data FusionFolie 15 Übersicht Motivation Data Fusion/Informationsfusion –Datenintegration/ -mangement –KDD und Data Mining –Datenfusion Anwendungsfelder der Informationsfusion Anforderungen TSIMMIS - The Stanford IBM Manager of Multiple Information Sources –Das „TSIMMIS Mediation System“ –Zusammenfassung von TSIMMIS –Einschätzung des TSIMMIS Systems –Andere Ansätze zur Informationsintegration Informationsfusion - ein Ausblick Literaturhinweise

16 Seminar SS Data FusionFolie 16 Das „TSIMMIS Mediation System“ Komponenten von TSIMMIS: –OEM (Object Exchange Model) –Mediatoren –MSL (Mediator Specification Language) –Wrapper –LOREL (Lightweight Object REpository Language) Mediator Wrapper Information Source Wrapper- Generator Mediator- Generator MSL oder LOREL MSL

17 Seminar SS Data FusionFolie 17 Das Mediator Konzept Ermöglicht integrierte Sicht auf Information aus unterschiedlichen Datenquellen, die sich auf ein und dasselbe Objekt beziehen. Anforderungen an Mediatoren: –Unterstützung breiter Vielfalt von Datenstrukturen –Behandlung unzureichender/vager Daten –Verwaltung von Metainformationen Anforderungen an Anfragesprache: –Erstellung von Mediatoren –Kopplung von Mediatoren an vorhandene –Kopplung von Datenquellen an bereits vorhandene Mediatoren Mediatoren in TSIMMIS: –Berücksichtigung von „Fähigkeiten“ der Datenquellen –Zugriff auf Daten über Wrapper Mediator Wrapper Source Query

18 Seminar SS Data FusionFolie 18 OEM (Object Exchange Model) Konzepte von OEM: –OEM ist selbsterklärend –Flexibilität –Objektorientiertheit –OEM ist logisches Datenmodell labeltypevalue OID: OEM-Objekt: libraryset bookset authorstringAho titlestringCompilers OEM-Objektstruktur:

19 Seminar SS Data FusionFolie 19 OEM als logisches Datenmodell OEM - logisches Datenmodell auf Basis der Prädikatenlogik erster Stufe Betrachtung von Labels als Prädikate, die ObjektIDs mit anderen ObjektIDs oder atomaren Werten verknüpfen. Beispiele: –Prädikat library(B) nimmt als Wert ObjektIDs aus „Value“-Feld an –Prädikat book(B,X) identifiziert Menge von Paaren (b,x) b: ID des Buch-Objekts x: ObjektID aus Wertemenge von Buch

20 Seminar SS Data FusionFolie 20 MSL (Mediator Specification Language) erlaubt deklarative Spezifikation von Mediatoren logische, objektorientierte Anfragesprache für OEM Anfragen haben Form von Regeln: Regelkopf „:-“ Regelkorpus Beispiel: :- Regelkopf Regelkorpus

21 Seminar SS Data FusionFolie 21 Aufbau von Mediatoren in TSIMMIS View Expander Plan Generator Execution Engine Query Source Queries Plan Physical Plan Logical Source Descriptions Matcher Sequencer Optimizer Physical Plan Logical Plan

22 Seminar SS Data FusionFolie 22 Templates zur Beschreibung von „Source Capabilities“ Verwendung von Templates für die Beschreibung der „Fähigkeiten“ zur Anfragebeantwortung von Quellen Templates für s1 und s2 : T 11 : X:-X: T 21 : X:-X: T 22 : X:-X: liefert: A,B T C gegeben: T C T

23 Seminar SS Data FusionFolie 23 Wrapper in TSIMMIS Wrapper bilden Schnittstellen zu den heterogenen Datenquellen: –Umwandlung von Anfragen in Quellanfragen –Rückgabe von OEM Objekten Wrapper sind mit benutzerdefinierten Funktionen für jedes Template ausgestattet. Rest der Definition wie Mediator!

24 Seminar SS Data FusionFolie 24 Generierung von Mediatoren/Wrappern in TSIMMIS In TSIMMIS stehen Tools für automatische Generierung von Mediatoren/Wrappern zur Verfügung –Mediator Generator –Wrapper Generator

25 Seminar SS Data FusionFolie 25 LOREL (Lightweight Object Repository Language) LOREL ist OQL-basierte Anfragesprache für OEM-Modell In TSIMMIS end-user Anfragesprache Anfragesprache für das LORE lightweight Datenbanksystem zur Speicherung von OEM-Objekten Beispiel: Finde Bücher die von Aho verfasst wurden SELECT library.book.title (FROM library) WHERE library.book.author = „Aho“ Wichtiger Unterschied zu OQL und SQL: „partial match“ Semantik

26 Seminar SS Data FusionFolie 26 Zusammenfassung von TSIMMIS Wichtigste Merkmale von TSIMMIS: Nutzung von OEM-Modell Konzept von Mediatoren und Wrappern MSL LOREL

27 Seminar SS Data FusionFolie 27 Einschätzung des TSIMMIS Systems TSIMMIS ist ein System zur Informationsintegration. Vorteile: –transparenter Zugriff auf heterogene verteilte Daten –Verarbeitung semistrukturierter Daten –Anfrageoptimierung –Ausweitung der Anfragemächtigkeit –Speicherung von Metadaten in ObjektIDs –Anpassungfähigkeit/Erweiterbarkeit Nachteile: –keine Möglichkeit eines globalen Zugriffs auf lokale Optimierung –Darstellung von semantischen Zusammenhängen kompliziert

28 Seminar SS Data FusionFolie 28 Andere Ansätze zur Informationsintegration Ansätze bisher: Ansätze zur Integration von strukturierten Datenbanken Abhängig von Datenmodellen mit großer „Semantik“ Alternativen zu TSIMMIS sind z.B: The Information Manifold SIMS Unterschiede zu TSIMMIS: „Beurteilungsphase“ anstatt View Expander Capability Records anstatt Templates (bei IM) Wrapper schlanke Module, die nur direkte Anfragen zulassen (bei IM)

29 Seminar SS Data FusionFolie 29 Übersicht Motivation Data Fusion/Informationsfusion –Datenintegration/ -mangement –KDD und Data Mining –Datenfusion Anwendungsfelder der Informationsfusion Anforderungen TSIMMIS - The Stanford IBM Manager of Multiple Information Sources –Das „TSIMMIS Mediation System“ –Zusammenfassung von TSIMMIS –Einschätzung des TSIMMIS Systems –Andere Ansätze zur Informationsintegration Informationsfusion - ein Ausblick Literaturhinweise

30 Seminar SS Data FusionFolie 30 Informationsfusion - Ausblick –Stetig wachsende Menge an verfügbarer Information –Problematik der effizienten Nutzung –Enormer Bedarf an Lösungen der intelligenten Informationfusion –Rege Forschungstätigkeit, erste Produkte (DataJoiner von IBM, OLECOM von Microsoft) Es steht zu erwarten, dass es viele innovative Lösungsansätze oder Teillösungen auf dem Gebiet der Informationsfusion geben wird und muss!

31 Seminar SS Data FusionFolie 31 Literatur Stefan Conrad, Gunter Saake, Kai-Uwe Sattler (1999). Informationsfusion - Herausforderungen an die Datenbanktechnologie. In: A.P. Buchmann (Hrsg.) Datenbanksysteme in Büro, Technik und Wissenschaft, Freiburg, März 1999, Springer, Seiten Hector Garcia-Molina, Yannis Papakonstantinou, Dallan Quass, Anand Rajaraman, Yehoshua Sagiv, Jeffrey Ullman, Vasilis Vassalos, Jennifer Widom (1997) The TSIMMIS Approach to Mediation: Data Models and Languages. In: Journal of Intelligent Systems, Volume 8, Number 2, March/ April Seiten


Herunterladen ppt "Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart."

Ähnliche Präsentationen


Google-Anzeigen