Informationsintegration Einführung 18.10.2005 Felix Naumann
Integrierte Informationssysteme Anfrage Integriertes Informations- system Oracle, DB2… Web Service Anwen- dung HTML Form Integriertes Info.-system Datei- system 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Einige Untertitel Content Merging Objekt Fusion Datenintegration Data Amalgamation Data Cleansing Intelligent Information Integration: I³ Data Consolidation 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Überblick Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Forschungsgruppe Informationsintegration Juniorprofessor: Felix Naumann Wissenschaftliche Mitarbeiter / Doktoranden Jens Bleiholder Melanie Weis Armin Roth Alexander Bilke Studentische Hilfskräfte Karsten Draba (HumMer Projekt) Veronique Tietz (Aladin Projekt) Erik Witzmann (DB2 Metasearch Projekt) http://www.informatik.hu-berlin.de/mac/ 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Metadata Services Data Visualization Graphical Query Builder Interface User Tables XML SQL XQuery Data Lineage Data Statistics Data Fusion Query Optimization Metadata Repository RDB XML Humboldt Merger HumMer – Query Execution Duplicate Detection SQL XQuery Schema Mapping RDB XML Schema Matching Data transformation RDB2XML XML2RDB Data Import Samples Schema conversion RDB2XML XML2RDB DBMS DBMS ... ... XML XML 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Kleine Demo 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Laufende Studien- und Diplomarbeiten Entwicklung einer Testumgebung für ein Peer Data Management System Entwurf eines Peer Data Management Systems mit Steuerungs- und Simulationskomponente Datentransformation mittels Schema Mapping Tree-Edit Distance für XML Duplikaterkennung Studienarbeiten Transformation von DB2 Datenbanken in XML Dokumente mittels SQL/XML Similar Pattern Search in History Data Minimum Union als DB2 table function 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Freie Stellen Studentische Hilfskraft HumMerDB: Testdaten für den Humboldt Merger 80h / Monat Demnächst ausgeschrieben Studien- und Diplomarbeiten Zurzeit keine frei Themenvorschläge sind aber willkommen Mehr gegen Ende des Semesters 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Überblick Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Voraussetzungen Vordiplom VL Datenbanken I (DBS I) oder äquivalente Grundkenntnisse in Datenbanken Falls Sie Fragen haben in Bezug auf die äquivalenten Grundkenntnisse, schreiben Sie mir bitte eine Email. Es genügt nicht, DBS I parallel zu dieser VL zu hören. Einordnung in den Fahrplan zum Datenbankstudium Voraussetzung zur Zulassung zur mündlichen Prüfung ist die erfolgreiche Teilnahme am Praktikum. Anmeldung in GOYA! 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Termine Vorlesung Dienstags 13:15 – 14:45 Donnerstags 13:15 – 14:45 Praktikum Dienstags 15:15 – 16:45 Erstes Praktikum: 25.10. Letzte Vorlesung: 16.2.2005 Weihnachten: 19.12. – 29.12. Insgesamt 32 Veranstaltungen Prüfungstermine i.d.R. 2 Wochen nach Wintersemester i.d.R. 2 Wochen vor Sommersemester 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Andere Veranstaltungen Fahrplan durch das DB Studium http://www.informatik.hu-berlin.de/mac/fahrplandatenbanken.html Forschungsseminar Neue Entwicklungen in der Bioinformatik und Informationsintegration Termin: Mittwochs 11 Uhr in 4.113 Weitere: Blockseminar: Graphmanagement in Datenbanken Dozent: Prof. Ulf Leser 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Feedback Schon Evaluation angesehen? http://www.informatik.hu-berlin.de/~koessler/evalu/Fragebogen_auswertung.html Evaluation am Ende des Semesters Fragen bitte jederzeit! In der VL Sprechstunde: Donnerstags, nach der Vorlesung (15 Uhr) Email: naumann@informatik.hu-berlin.de Anregungen zur Verbesserung: Z.B. zu Gebrauch der Folien Infos im WWW Jeweils nach der VL oder in der Sprechstunde Oder per Email: naumann@informatik.hu-berlin.de 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Literatur Leider kein geeignetes Lehrbuch Themen u.a. aus Föderierte Datenbanksysteme. Konzepte der Datenintegration, Stefan Conrad, ISBN: 3540631763 Principles of Distributed Database Systems M. Tamer Özsu, Patrick Valduriez ISBN: 0136597076 Jeweils Hinweise in den Vorlesungen Alle genannten Artikel können von mir per Email angefragt werden. Oder: Google Scholar: http://scholar.google.com/ DBLP: http://www.informatik.uni-trier.de/~ley/db/index.html CiteSeer: http://citeseer.ist.psu.edu/ Homepages der Autoren 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Fotos 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Praktikum Metasuchmaschine Web Services Phase I Wrapper Web Service für eine Suchmaschine Phase II Spezielle Web Services für die Metasuchmaschine, z.B. WrapperService: Automatische Erstellung eines neuen Suchmaschinen Wrappers DirectoryService: Liste aller verfügbaren Suchmaschinen mit Metadaten SamplingService: Metadaten Sammlung OptimierungsService: Auswahl relevanter Suchmaschinen DuplikaterkennungsService: Erkennung doppelter HTML Seiten DatenfusionsService: Konfliktlösung verschiedener Suchergebnisse RankmergingService: Erstellung eines globalen Ergebnisrankings AnfrageerweiterungsService: Automatisches Umschreiben einer Anfrage 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Praktikum Für besonders mutige Studenten! Scheinvoraussetzungen Besuch der Vorlesung Informationsintegration Aktive Teilnahme an den Praktikumsterminen Erfolgreiche Erstellung eines Wrapper-Services für eine Suchmaschine in Einzelarbeit Kurze Vorstellung Ihres Wrapper-Services vor dem Plenum Erfolgreiche Erstellung eines weiteren Web Services für die Metasuchmaschine in Gruppenarbeit Vorstellung Ihres Integrations-Services vor dem Plenum Erstellung eines Abschlußberichts in Gruppenarbeit Für besonders mutige Studenten! 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Überblick Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Integrierte Informationssysteme Anfrage Integriertes Informations- system Oracle, DB2… Anwen- dung Datei- system Web Service HTML Form Integriertes Info.-system 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Was ist Informationsintegration? Informationsintegration ist die Zusammenführung von Daten und Inhalt verschiedener Quellen zu einer einheitlichen Informationsmenge. Informationsintegration ist die korrekte, vollständige und effiziente Zusammenführung von Daten und Inhalt verschiedener, heterogener Quellen zu einer einheitlichen und strukturierten Informationsmenge zur effektiven Interpretation durch Nutzer und Anwendungen. 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Wo herrscht Informationsintegration? Im weiteren Sinne Business-Integration Application-Integration Prozess-Integration (Workflow-Integration) Im engeren Sinne Datenbanken und Informationssysteme Verteilt Autonom Heterogen 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Beispiele für Informationssysteme Dateisystem Informationseinheit: Flat file Anfrage: File search, RegEx Struktur: Flach oder hierarchisch Beispiele NTFS NIS FTP Zugriff Einsatzgebiete WWW (HTML Dateien) Desktop-Anwendungen (Textverarbeitung, etc.) 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Beispiele für Informationssysteme Datei Informationseinheit: Zeile /Token Anfrage: Parser Struktur: Flach Beispiele Komma-delimited files Annotated files Einsatzgebiete SwissProt 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Beispiele für Informationssysteme Markup Datei Informationseinheit: Tagged text Anfrage: Parser, Anfragesprache Struktur: Flach, hierarchisch oder graph-basiert Beispiele XML HTML Einsatzgebiete Web Services Messages Interoperationale Anwendungen 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Beispiele für Informationssysteme Datenbank Anfrage: Komplexe Sprache, z.B. SQL Informationseinheit: Tupel / Attribut, Objekt Struktur: Relational, OO, Hierarchisch Beispiele Relationale DBMS OO DBMS Auch: XML DBMS Einsatzgebiete Data Warehouses OLTP Banken/Versicherungen 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Beispiele für Informationssysteme HTML Formular Informationseinheit: HTML Seite, Text Anfrage: Suchworte, Formular (inkl. Radiobutton, dropdown-list, etc.) Struktur: wie Markup Datei: Flach, hierarchisch oder graph-basiert I.d.R. flach Beispiele Einfache Suchformulare Komplexe Anfrageformulare Einsatzgebiete Suchmaschinen Reisedienste Kataloge 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Beispiele für Informationssysteme Web Service Informationseinheit: XML Dokument Anfrage XML Dokument Struktur: Wie XML: Flach, hierarchisch, graph- basiert Beispiele Einfach: Temperaturdienst, etc Komplex: Reservierungen (Schachtelung und Verknüpfung von Web Services) Einsatzgebiete Intra-organisatorische Workflows E-Marketplaces Datenaustausch 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Beispiele für Informationssysteme Anwendung Informationseinheit: Java Objekt, Text Anfrage: via Anwendungs- schnittstelle oder GUI Struktur: Objekt (Interface) Display (GUI) Beispiele Java, C++, etc Legacy Informationssysteme Einsatzgebiete Komplexe Analysen (Data Mining, Statistik) 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Beispiele für Informationssysteme Integriertes Informationssystem Verhält sich in Anfrage, Struktur und Informationseinheit je nach Design: DBMS HTML Formular Web Service ... Beispiele Data Warehouses Föderierte Datenbanken Portale Einsatzgebiete: Meta Search Life Sciences Int. Unternehmen Intranets 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Integrierte Informationssysteme Anfrage Integriertes Informations- system Oracle, DB2… Anwen- dung Datei- system Web Service HTML Form Integriertes Info.-system 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Integrierte Suchmaschinen Anfrage Meta-Suchmaschine Intranet Index Thesaurus 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Integration = Abstraktion Logisches DB-Design abstrahiert von physischem DB-Design Datenunabhängigkeit Anfragen: Prozedural vs. deklarativ Informationsintegration abstrahiert von logischen DB Design Quellenunabhängigkeit (Speicherort) Datenmodell- und Syntaxunabhängigkeit Unabhängigkeit von semantischen Unterschieden (hoffentlich!) 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Anwendungsgebiet 1: Business [Halevy04] 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Anwendungsgebiet 2: Wissenschaft [Halevy04] 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Anwendungsgebiet 3: Das Web [Halevy04] 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Informationsintegration: Ein altes Problem Seit 50 Jahren auf der Forschungsagenda Frühe Systeme in den 70ern Integration per Hand natürlich noch früher Neue Probleme Viele, viele Quellen Heterogenität Neue Arten von Daten (XML, GIS, OO,...) Neue Arten von Anfragen (Search, UDFs,...) Neue Arten von Ergebnissen (Ranking, Visualisierung, ...) Neue Arten von Nutzern (Laien, Manager, Admins, ...) Alon Halevy: „It‘s plain hard!“ [Halevy04] 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Warum ist es so schwer? [Halevy04] System-bedingte Gründe Verschiedene Plattformen Anfragebearbeitung über mehrere Systeme Soziale Gründe Finden relevanter Daten in Unternehmen Beschaffen relevanter Daten in Unternehmen Menschen zur Zusammenarbeit überreden Logik-bedingte Gründe Schema- und Datenheterogenität Dies ist unabhängig von der jeweiligen Integrationsarchitektur. 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Überblick Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Informationsintegration <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> Web Service A <publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year> </publication> Web Service B Integration Identifikation Fusion Optimierung Visualisierung 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Beispiel – Web Service A Standort: Trier Operation: getPubByAuthor(firstName, lastName) getPubByTitle(title) Output-Struktur: 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Beispiel – Web Service A Output 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Beispiel – Web Service B Standort: Humboldt-Universität Operation: myPubs(Autor, Jahr) Struktur: 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Beispiel – Web Service B Output 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Integration von Web Services A & B Nutzerschnittstelle Schema Integration / Schema Mapping Anfrage-Umwandlung Zeit abschätzen (Optimierung) Requests an beide Services abschicken Antworten einholen Objektidentifikation Integrationsschritte Konfliktlösung etc. Entscheidung kleinster gemeinsamer Nenner? Durchführung (deklarativ, prozedural) Anzeige beim Nutzer 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Nutzerschnittstellen 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Informationsintegration <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <pub> <Titel> </Titel> <Autoren> <Autor> </Autor> </Autoren> <year> </year> </pub> Schema Mapping Web Service A <publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year> </publication> Web Service B Schemaintegration Modellierung durch eine Menge von Anfragen (Views) 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Anfrage Umwandlung Integration der Anfrage durch Mediator: Integrierte Schnittstelle Z.B. Concat(First Name, Last Name) = Autor 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Anfrageoptimierung Was ist besser: Eine schnelle Antwort oder vollständige Antwort? Web Service A in Trier (remote) Web Service B in Adlershof (local) Web Service A hat mehr Attribute und mehr Objekte. Web Service B hat weniger Attribute. Außerdem: Eine Suche nach „year“ kann nur durch Web Service B beantwortet werden. Transformationen können teuer sein. 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Zwei Resultate Web Service A Web Service B 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Schema Matching ? 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Objektidentifikation 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Objektidentifikation Edit-distance: 5 Zusammen? Edit-distance: 6 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Stand der Dinge Wir haben die heterogenen Informationen. Wir wissen, was wir integrieren wollen. Aber noch nicht wie: Integriertes Schema Integrierte Daten 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Angestrebtes Integrationsergebnis + = Integriertes Schema: 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Angestrebtes Integrationsergebnis Integrierte Daten: 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Integrierte Daten – was ist passiert? Konflikt-lösung Vorher: „Naumann“ Neu-Strukturierung Neu 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Implementierung Auf Folien ist alles klar, aber wie implementieren? Deklarativ? SQL, XQuery, XSLT Oft nicht alles möglich Langsam Prozedural? Java, C++ Schlecht wartbar Schnell 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Anzeige beim Nutzer Visualisierung der Datenherkunft Qualität veränderten Daten Operationen Konflikt-lösung Vorher: „Naumann“ 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Überblick Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Integrierte Informationssysteme Anfrage Design time Run time Integriertes Informations- system Architekturen Datenfusion / ETL Anfragesprache Anfrageplanung Schemamanagement Optimierung Wrapper Anfrageausführung Oracle, DB2… Anwen- dung Datei- system Web Service HTML Form Integriertes Info.-system 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Erste Hälfte Einführung in die Informationsintegration Szenarien der Informationsintegration Verteilung und Autonomie Heterogenität Materialisierte und virtuelle Integration Klassifikation integrierter Informationssysteme und 5-Schichten Architektur Mediator/Wrapper-Architektur Global-as-View und Lokal-as-View Modellierung Global-as-View Anfragebearbeitung SchemaSQL Verteilte Anfragebearbeitung Dynamische Programmierung in verteilten Datenbanken Top-N Anfragen Problemstellung Architekturen Modellierung Optimierung 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Felix Naumann, VL Informationsintegration, WS 05/06 Zweite Hälfte Informationsqualität Duplikaterkennung ETL & Data Lineage Datenfusion - Union & Co. Containment & Local-as-View Anfragebearbeitung Bucket Algorithmus Peer-Data-Management Systeme (PDMS) Schema Mapping Schema Matching Hidden Web Semantic Web Forschungsprojekte - TSIMMIS, Garlic, Revere, etc Data Streams Konflikte Anfragen Mapping Systeme 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06
Fragen, Wünsche und Vorstellungen Jetzt, oder... Raum: IV.122 Sprechstunden: Donnerstags 15 Uhr oder n.V. Email: naumann@informatik Telefon: (030) 2093 3905 The end. 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06