Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Informationsintegration Einführung

Ähnliche Präsentationen


Präsentation zum Thema: "Informationsintegration Einführung"—  Präsentation transkript:

1 Informationsintegration Einführung
Felix Naumann

2 Integrierte Informationssysteme
Anfrage Integriertes Informations- system Oracle, DB2… Web Service Anwen- dung HTML Form Integriertes Info.-system Datei- system Felix Naumann, VL Informationsintegration, WS 05/06

3 Felix Naumann, VL Informationsintegration, WS 05/06
Einige Untertitel Content Merging Objekt Fusion Datenintegration Data Amalgamation Data Cleansing Intelligent Information Integration: I³ Data Consolidation Felix Naumann, VL Informationsintegration, WS 05/06

4 Felix Naumann, VL Informationsintegration, WS 05/06
Überblick Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester Felix Naumann, VL Informationsintegration, WS 05/06

5 Forschungsgruppe Informationsintegration
Juniorprofessor: Felix Naumann Wissenschaftliche Mitarbeiter / Doktoranden Jens Bleiholder Melanie Weis Armin Roth Alexander Bilke Studentische Hilfskräfte Karsten Draba (HumMer Projekt) Veronique Tietz (Aladin Projekt) Erik Witzmann (DB2 Metasearch Projekt) Felix Naumann, VL Informationsintegration, WS 05/06

6 Felix Naumann, VL Informationsintegration, WS 05/06
Metadata Services Data Visualization Graphical Query Builder Interface User Tables XML SQL XQuery Data Lineage Data Statistics Data Fusion Query Optimization Metadata Repository RDB XML Humboldt Merger HumMer – Query Execution Duplicate Detection SQL XQuery Schema Mapping RDB XML Schema Matching Data transformation RDB2XML XML2RDB Data Import Samples Schema conversion RDB2XML XML2RDB DBMS DBMS ... ... XML XML Felix Naumann, VL Informationsintegration, WS 05/06

7 Felix Naumann, VL Informationsintegration, WS 05/06
Kleine Demo Felix Naumann, VL Informationsintegration, WS 05/06

8 Laufende Studien- und Diplomarbeiten
Entwicklung einer Testumgebung für ein Peer Data Management System Entwurf eines Peer Data Management Systems mit Steuerungs- und Simulationskomponente Datentransformation mittels Schema Mapping Tree-Edit Distance für XML Duplikaterkennung Studienarbeiten Transformation von DB2 Datenbanken in XML Dokumente mittels SQL/XML Similar Pattern Search in History Data Minimum Union als DB2 table function Felix Naumann, VL Informationsintegration, WS 05/06

9 Felix Naumann, VL Informationsintegration, WS 05/06
Freie Stellen Studentische Hilfskraft HumMerDB: Testdaten für den Humboldt Merger 80h / Monat Demnächst ausgeschrieben Studien- und Diplomarbeiten Zurzeit keine frei Themenvorschläge sind aber willkommen Mehr gegen Ende des Semesters Felix Naumann, VL Informationsintegration, WS 05/06

10 Felix Naumann, VL Informationsintegration, WS 05/06
Überblick Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester Felix Naumann, VL Informationsintegration, WS 05/06

11 Felix Naumann, VL Informationsintegration, WS 05/06
Voraussetzungen Vordiplom VL Datenbanken I (DBS I) oder äquivalente Grundkenntnisse in Datenbanken Falls Sie Fragen haben in Bezug auf die äquivalenten Grundkenntnisse, schreiben Sie mir bitte eine . Es genügt nicht, DBS I parallel zu dieser VL zu hören. Einordnung in den Fahrplan zum Datenbankstudium Voraussetzung zur Zulassung zur mündlichen Prüfung ist die erfolgreiche Teilnahme am Praktikum. Anmeldung in GOYA! Felix Naumann, VL Informationsintegration, WS 05/06

12 Felix Naumann, VL Informationsintegration, WS 05/06
Termine Vorlesung Dienstags 13:15 – 14:45 Donnerstags 13:15 – 14:45 Praktikum Dienstags 15:15 – 16:45 Erstes Praktikum: Letzte Vorlesung: Weihnachten: – Insgesamt 32 Veranstaltungen Prüfungstermine i.d.R. 2 Wochen nach Wintersemester i.d.R. 2 Wochen vor Sommersemester Felix Naumann, VL Informationsintegration, WS 05/06

13 Andere Veranstaltungen
Fahrplan durch das DB Studium Forschungsseminar Neue Entwicklungen in der Bioinformatik und Informationsintegration Termin: Mittwochs 11 Uhr in 4.113 Weitere: Blockseminar: Graphmanagement in Datenbanken Dozent: Prof. Ulf Leser Felix Naumann, VL Informationsintegration, WS 05/06

14 Felix Naumann, VL Informationsintegration, WS 05/06
Feedback Schon Evaluation angesehen? Evaluation am Ende des Semesters Fragen bitte jederzeit! In der VL Sprechstunde: Donnerstags, nach der Vorlesung (15 Uhr) Anregungen zur Verbesserung: Z.B. zu Gebrauch der Folien Infos im WWW Jeweils nach der VL oder in der Sprechstunde Oder per Felix Naumann, VL Informationsintegration, WS 05/06

15 Felix Naumann, VL Informationsintegration, WS 05/06
Literatur Leider kein geeignetes Lehrbuch Themen u.a. aus Föderierte Datenbanksysteme. Konzepte der Datenintegration, Stefan Conrad, ISBN: Principles of Distributed Database Systems M. Tamer Özsu, Patrick Valduriez ISBN: Jeweils Hinweise in den Vorlesungen Alle genannten Artikel können von mir per angefragt werden. Oder: Google Scholar: DBLP: CiteSeer: Homepages der Autoren Felix Naumann, VL Informationsintegration, WS 05/06

16 Felix Naumann, VL Informationsintegration, WS 05/06
Fotos Felix Naumann, VL Informationsintegration, WS 05/06

17 Felix Naumann, VL Informationsintegration, WS 05/06
Praktikum Metasuchmaschine Web Services Phase I Wrapper Web Service für eine Suchmaschine Phase II Spezielle Web Services für die Metasuchmaschine, z.B. WrapperService: Automatische Erstellung eines neuen Suchmaschinen Wrappers DirectoryService: Liste aller verfügbaren Suchmaschinen mit Metadaten SamplingService: Metadaten Sammlung OptimierungsService: Auswahl relevanter Suchmaschinen DuplikaterkennungsService: Erkennung doppelter HTML Seiten DatenfusionsService: Konfliktlösung verschiedener Suchergebnisse RankmergingService: Erstellung eines globalen Ergebnisrankings AnfrageerweiterungsService: Automatisches Umschreiben einer Anfrage Felix Naumann, VL Informationsintegration, WS 05/06

18 Praktikum Für besonders mutige Studenten! Scheinvoraussetzungen
Besuch der Vorlesung Informationsintegration Aktive Teilnahme an den Praktikumsterminen Erfolgreiche Erstellung eines Wrapper-Services für eine Suchmaschine in Einzelarbeit Kurze Vorstellung Ihres Wrapper-Services vor dem Plenum Erfolgreiche Erstellung eines weiteren Web Services für die Metasuchmaschine in Gruppenarbeit Vorstellung Ihres Integrations-Services vor dem Plenum Erstellung eines Abschlußberichts in Gruppenarbeit Für besonders mutige Studenten! Felix Naumann, VL Informationsintegration, WS 05/06

19 Felix Naumann, VL Informationsintegration, WS 05/06
Überblick Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester Felix Naumann, VL Informationsintegration, WS 05/06

20 Integrierte Informationssysteme
Anfrage Integriertes Informations- system Oracle, DB2… Anwen- dung Datei- system Web Service HTML Form Integriertes Info.-system Felix Naumann, VL Informationsintegration, WS 05/06

21 Was ist Informationsintegration?
Informationsintegration ist die Zusammenführung von Daten und Inhalt verschiedener Quellen zu einer einheitlichen Informationsmenge. Informationsintegration ist die korrekte, vollständige und effiziente Zusammenführung von Daten und Inhalt verschiedener, heterogener Quellen zu einer einheitlichen und strukturierten Informationsmenge zur effektiven Interpretation durch Nutzer und Anwendungen. Felix Naumann, VL Informationsintegration, WS 05/06

22 Wo herrscht Informationsintegration?
Im weiteren Sinne Business-Integration Application-Integration Prozess-Integration (Workflow-Integration) Im engeren Sinne Datenbanken und Informationssysteme Verteilt Autonom Heterogen Felix Naumann, VL Informationsintegration, WS 05/06

23 Beispiele für Informationssysteme
Dateisystem Informationseinheit: Flat file Anfrage: File search, RegEx Struktur: Flach oder hierarchisch Beispiele NTFS NIS FTP Zugriff Einsatzgebiete WWW (HTML Dateien) Desktop-Anwendungen (Textverarbeitung, etc.) Felix Naumann, VL Informationsintegration, WS 05/06

24 Beispiele für Informationssysteme
Datei Informationseinheit: Zeile /Token Anfrage: Parser Struktur: Flach Beispiele Komma-delimited files Annotated files Einsatzgebiete SwissProt Felix Naumann, VL Informationsintegration, WS 05/06

25 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06

26 Beispiele für Informationssysteme
Markup Datei Informationseinheit: Tagged text Anfrage: Parser, Anfragesprache Struktur: Flach, hierarchisch oder graph-basiert Beispiele XML HTML Einsatzgebiete Web Services Messages Interoperationale Anwendungen Felix Naumann, VL Informationsintegration, WS 05/06

27 Beispiele für Informationssysteme
Datenbank Anfrage: Komplexe Sprache, z.B. SQL Informationseinheit: Tupel / Attribut, Objekt Struktur: Relational, OO, Hierarchisch Beispiele Relationale DBMS OO DBMS Auch: XML DBMS Einsatzgebiete Data Warehouses OLTP Banken/Versicherungen Felix Naumann, VL Informationsintegration, WS 05/06

28 Beispiele für Informationssysteme
HTML Formular Informationseinheit: HTML Seite, Text Anfrage: Suchworte, Formular (inkl. Radiobutton, dropdown-list, etc.) Struktur: wie Markup Datei: Flach, hierarchisch oder graph-basiert I.d.R. flach Beispiele Einfache Suchformulare Komplexe Anfrageformulare Einsatzgebiete Suchmaschinen Reisedienste Kataloge Felix Naumann, VL Informationsintegration, WS 05/06

29 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06

30 Beispiele für Informationssysteme
Web Service Informationseinheit: XML Dokument Anfrage XML Dokument Struktur: Wie XML: Flach, hierarchisch, graph- basiert Beispiele Einfach: Temperaturdienst, etc Komplex: Reservierungen (Schachtelung und Verknüpfung von Web Services) Einsatzgebiete Intra-organisatorische Workflows E-Marketplaces Datenaustausch Felix Naumann, VL Informationsintegration, WS 05/06

31 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06

32 Beispiele für Informationssysteme
Anwendung Informationseinheit: Java Objekt, Text Anfrage: via Anwendungs- schnittstelle oder GUI Struktur: Objekt (Interface) Display (GUI) Beispiele Java, C++, etc Legacy Informationssysteme Einsatzgebiete Komplexe Analysen (Data Mining, Statistik) Felix Naumann, VL Informationsintegration, WS 05/06

33 Beispiele für Informationssysteme
Integriertes Informationssystem Verhält sich in Anfrage, Struktur und Informationseinheit je nach Design: DBMS HTML Formular Web Service ... Beispiele Data Warehouses Föderierte Datenbanken Portale Einsatzgebiete: Meta Search Life Sciences Int. Unternehmen Intranets Felix Naumann, VL Informationsintegration, WS 05/06

34 Integrierte Informationssysteme
Anfrage Integriertes Informations- system Oracle, DB2… Anwen- dung Datei- system Web Service HTML Form Integriertes Info.-system Felix Naumann, VL Informationsintegration, WS 05/06

35 Integrierte Suchmaschinen
Anfrage Meta-Suchmaschine Intranet Index Thesaurus Felix Naumann, VL Informationsintegration, WS 05/06

36 Integration = Abstraktion
Logisches DB-Design abstrahiert von physischem DB-Design Datenunabhängigkeit Anfragen: Prozedural vs. deklarativ Informationsintegration abstrahiert von logischen DB Design Quellenunabhängigkeit (Speicherort) Datenmodell- und Syntaxunabhängigkeit Unabhängigkeit von semantischen Unterschieden (hoffentlich!) Felix Naumann, VL Informationsintegration, WS 05/06

37 Anwendungsgebiet 1: Business [Halevy04]
Felix Naumann, VL Informationsintegration, WS 05/06

38 Anwendungsgebiet 2: Wissenschaft [Halevy04]
Felix Naumann, VL Informationsintegration, WS 05/06

39 Anwendungsgebiet 3: Das Web [Halevy04]
Felix Naumann, VL Informationsintegration, WS 05/06

40 Informationsintegration: Ein altes Problem
Seit 50 Jahren auf der Forschungsagenda Frühe Systeme in den 70ern Integration per Hand natürlich noch früher Neue Probleme Viele, viele Quellen Heterogenität Neue Arten von Daten (XML, GIS, OO,...) Neue Arten von Anfragen (Search, UDFs,...) Neue Arten von Ergebnissen (Ranking, Visualisierung, ...) Neue Arten von Nutzern (Laien, Manager, Admins, ...) Alon Halevy: „It‘s plain hard!“ [Halevy04] Felix Naumann, VL Informationsintegration, WS 05/06

41 Warum ist es so schwer? [Halevy04]
System-bedingte Gründe Verschiedene Plattformen Anfragebearbeitung über mehrere Systeme Soziale Gründe Finden relevanter Daten in Unternehmen Beschaffen relevanter Daten in Unternehmen Menschen zur Zusammenarbeit überreden Logik-bedingte Gründe Schema- und Datenheterogenität Dies ist unabhängig von der jeweiligen Integrationsarchitektur. Felix Naumann, VL Informationsintegration, WS 05/06

42 Felix Naumann, VL Informationsintegration, WS 05/06
Überblick Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester Felix Naumann, VL Informationsintegration, WS 05/06

43 Informationsintegration
<pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> Web Service A <publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year> </publication> Web Service B Integration Identifikation Fusion Optimierung Visualisierung Felix Naumann, VL Informationsintegration, WS 05/06

44 Beispiel – Web Service A
Standort: Trier Operation: getPubByAuthor(firstName, lastName) getPubByTitle(title) Output-Struktur: Felix Naumann, VL Informationsintegration, WS 05/06

45 Beispiel – Web Service A Output
Felix Naumann, VL Informationsintegration, WS 05/06

46 Beispiel – Web Service B
Standort: Humboldt-Universität Operation: myPubs(Autor, Jahr) Struktur: Felix Naumann, VL Informationsintegration, WS 05/06

47 Beispiel – Web Service B Output
Felix Naumann, VL Informationsintegration, WS 05/06

48 Integration von Web Services A & B
Nutzerschnittstelle Schema Integration / Schema Mapping Anfrage-Umwandlung Zeit abschätzen (Optimierung) Requests an beide Services abschicken Antworten einholen Objektidentifikation Integrationsschritte Konfliktlösung etc. Entscheidung kleinster gemeinsamer Nenner? Durchführung (deklarativ, prozedural) Anzeige beim Nutzer Felix Naumann, VL Informationsintegration, WS 05/06

49 Nutzerschnittstellen
Felix Naumann, VL Informationsintegration, WS 05/06

50 Informationsintegration
<pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <pub> <Titel> </Titel> <Autoren> <Autor> </Autor> </Autoren> <year> </year> </pub> Schema Mapping Web Service A <publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year> </publication> Web Service B Schemaintegration Modellierung durch eine Menge von Anfragen (Views) Felix Naumann, VL Informationsintegration, WS 05/06

51 Felix Naumann, VL Informationsintegration, WS 05/06
Anfrage Umwandlung Integration der Anfrage durch Mediator: Integrierte Schnittstelle Z.B. Concat(First Name, Last Name) = Autor Felix Naumann, VL Informationsintegration, WS 05/06

52 Felix Naumann, VL Informationsintegration, WS 05/06
Anfrageoptimierung Was ist besser: Eine schnelle Antwort oder vollständige Antwort? Web Service A in Trier (remote) Web Service B in Adlershof (local) Web Service A hat mehr Attribute und mehr Objekte. Web Service B hat weniger Attribute. Außerdem: Eine Suche nach „year“ kann nur durch Web Service B beantwortet werden. Transformationen können teuer sein. Felix Naumann, VL Informationsintegration, WS 05/06

53 Felix Naumann, VL Informationsintegration, WS 05/06
Zwei Resultate Web Service A Web Service B Felix Naumann, VL Informationsintegration, WS 05/06

54 Felix Naumann, VL Informationsintegration, WS 05/06
Schema Matching ? Felix Naumann, VL Informationsintegration, WS 05/06

55 Objektidentifikation
Felix Naumann, VL Informationsintegration, WS 05/06

56 Objektidentifikation
Edit-distance: 5 Zusammen? Edit-distance: 6 Felix Naumann, VL Informationsintegration, WS 05/06

57 Felix Naumann, VL Informationsintegration, WS 05/06
Stand der Dinge Wir haben die heterogenen Informationen. Wir wissen, was wir integrieren wollen. Aber noch nicht wie: Integriertes Schema Integrierte Daten Felix Naumann, VL Informationsintegration, WS 05/06

58 Angestrebtes Integrationsergebnis
+ = Integriertes Schema: Felix Naumann, VL Informationsintegration, WS 05/06

59 Angestrebtes Integrationsergebnis
Integrierte Daten: Felix Naumann, VL Informationsintegration, WS 05/06

60 Integrierte Daten – was ist passiert?
Konflikt-lösung Vorher: „Naumann“ Neu-Strukturierung Neu Felix Naumann, VL Informationsintegration, WS 05/06

61 Felix Naumann, VL Informationsintegration, WS 05/06
Implementierung Auf Folien ist alles klar, aber wie implementieren? Deklarativ? SQL, XQuery, XSLT Oft nicht alles möglich Langsam Prozedural? Java, C++ Schlecht wartbar Schnell Felix Naumann, VL Informationsintegration, WS 05/06

62 Felix Naumann, VL Informationsintegration, WS 05/06
Anzeige beim Nutzer Visualisierung der Datenherkunft Qualität veränderten Daten Operationen Konflikt-lösung Vorher: „Naumann“ Felix Naumann, VL Informationsintegration, WS 05/06

63 Felix Naumann, VL Informationsintegration, WS 05/06
Überblick Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester Felix Naumann, VL Informationsintegration, WS 05/06

64 Integrierte Informationssysteme
Anfrage Design time Run time Integriertes Informations- system Architekturen Datenfusion / ETL Anfragesprache Anfrageplanung Schemamanagement Optimierung Wrapper Anfrageausführung Oracle, DB2… Anwen- dung Datei- system Web Service HTML Form Integriertes Info.-system Felix Naumann, VL Informationsintegration, WS 05/06

65 Felix Naumann, VL Informationsintegration, WS 05/06
Erste Hälfte Einführung in die Informationsintegration Szenarien der Informationsintegration Verteilung und Autonomie Heterogenität Materialisierte und virtuelle Integration Klassifikation integrierter Informationssysteme und 5-Schichten Architektur Mediator/Wrapper-Architektur Global-as-View und Lokal-as-View Modellierung Global-as-View Anfragebearbeitung SchemaSQL Verteilte Anfragebearbeitung Dynamische Programmierung in verteilten Datenbanken Top-N Anfragen Problemstellung Architekturen Modellierung Optimierung Felix Naumann, VL Informationsintegration, WS 05/06

66 Felix Naumann, VL Informationsintegration, WS 05/06
Zweite Hälfte Informationsqualität Duplikaterkennung ETL & Data Lineage Datenfusion - Union & Co. Containment & Local-as-View Anfragebearbeitung Bucket Algorithmus Peer-Data-Management Systeme (PDMS) Schema Mapping Schema Matching Hidden Web Semantic Web Forschungsprojekte  - TSIMMIS, Garlic, Revere, etc Data Streams Konflikte Anfragen Mapping Systeme Felix Naumann, VL Informationsintegration, WS 05/06

67 Fragen, Wünsche und Vorstellungen
Jetzt, oder... Raum: IV.122 Sprechstunden: Donnerstags 15 Uhr oder n.V. Telefon: (030) The end. Felix Naumann, VL Informationsintegration, WS 05/06


Herunterladen ppt "Informationsintegration Einführung"

Ähnliche Präsentationen


Google-Anzeigen