Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Informationsintegration Einführung 18.10.2005 Felix Naumann.

Ähnliche Präsentationen


Präsentation zum Thema: "Informationsintegration Einführung 18.10.2005 Felix Naumann."—  Präsentation transkript:

1 Informationsintegration Einführung Felix Naumann

2 Felix Naumann, VL Informationsintegration, WS 05/062 Integrierte Informationssysteme Oracle, DB2… Web Service Anwen- dung HTML Form Integriertes Info.-system Datei- system Anfrage Integriertes Informations- system

3 Felix Naumann, VL Informationsintegration, WS 05/063 Einige Untertitel Content Merging Objekt Fusion Datenintegration Data Amalgamation Data Cleansing Intelligent Information Integration: I³ Data Consolidation

4 Felix Naumann, VL Informationsintegration, WS 05/064 Überblick Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester

5 Felix Naumann, VL Informationsintegration, WS 05/065 Forschungsgruppe Informationsintegration Juniorprofessor: Felix Naumann Wissenschaftliche Mitarbeiter / Doktoranden Jens Bleiholder Melanie Weis Armin Roth Alexander Bilke Studentische Hilfskräfte Karsten Draba (HumMer Projekt) Veronique Tietz (Aladin Projekt) Erik Witzmann (DB2 Metasearch Projekt)

6 Felix Naumann, VL Informationsintegration, WS 05/066 DBMS XML... Schema conversion RDB2XML XML2RDB Query Optimization SQL XQuery Data Fusion Query Execution Duplicate Detection Graphical Query Builder SQL XQuery Data Visualization Tables XML Metadata Services Metadata Repository Schema Mapping Schema Matching Data Lineage Data Statistics Samples RDB XML Data transformation HumMer – Humboldt Merger Data Import User Interface

7 Felix Naumann, VL Informationsintegration, WS 05/067

8 Felix Naumann, VL Informationsintegration, WS 05/068 Laufende Studien- und Diplomarbeiten Diplomarbeiten Entwicklung einer Testumgebung für ein Peer Data Management System Entwurf eines Peer Data Management Systems mit Steuerungs- und Simulationskomponente Datentransformation mittels Schema Mapping Tree-Edit Distance für XML Duplikaterkennung Studienarbeiten Transformation von DB2 Datenbanken in XML Dokumente mittels SQL/XML Similar Pattern Search in History Data Minimum Union als DB2 table function

9 Felix Naumann, VL Informationsintegration, WS 05/069 Freie Stellen Studentische Hilfskraft HumMerDB: Testdaten für den Humboldt Merger 80h / Monat Demnächst ausgeschrieben Studien- und Diplomarbeiten Zurzeit keine frei Themenvorschläge sind aber willkommen Mehr gegen Ende des Semesters

10 Felix Naumann, VL Informationsintegration, WS 05/0610 Überblick Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester

11 Felix Naumann, VL Informationsintegration, WS 05/0611 Voraussetzungen Vordiplom VL Datenbanken I (DBS I) oder äquivalente Grundkenntnisse in Datenbanken Falls Sie Fragen haben in Bezug auf die äquivalenten Grundkenntnisse, schreiben Sie mir bitte eine . Es genügt nicht, DBS I parallel zu dieser VL zu hören. Einordnung in den Fahrplan zum DatenbankstudiumFahrplan Voraussetzung zur Zulassung zur mündlichen Prüfung ist die erfolgreiche Teilnahme am Praktikum.

12 Felix Naumann, VL Informationsintegration, WS 05/0612 Termine Vorlesung Dienstags 13:15 – 14:45 Donnerstags 13:15 – 14:45 Praktikum Dienstags 15:15 – 16:45 Erstes Praktikum: Letzte Vorlesung: Weihnachten: – Insgesamt 32 Veranstaltungen Prüfungstermine i.d.R. 2 Wochen nach Wintersemester i.d.R. 2 Wochen vor Sommersemester

13 Felix Naumann, VL Informationsintegration, WS 05/0613 Andere Veranstaltungen Fahrplan durch das DB Studium berlin.de/mac/fahrplandatenbanken.html berlin.de/mac/fahrplandatenbanken.html Forschungsseminar Neue Entwicklungen in der Bioinformatik und Informationsintegration Termin: Mittwochs 11 Uhr in Weitere: Blockseminar: Graphmanagement in Datenbanken Dozent: Prof. Ulf Leser

14 Felix Naumann, VL Informationsintegration, WS 05/0614 Feedback Schon Evaluation angesehen? berlin.de/~koessler/evalu/Fragebogen_auswertung.html Evaluation am Ende des Semesters Fragen bitte jederzeit! In der VL Sprechstunde: Donnerstags, nach der Vorlesung (15 Uhr) Anregungen zur Verbesserung: Z.B. zu Gebrauch der Folien Infos im WWW Jeweils nach der VL oder in der Sprechstunde Oder per

15 Felix Naumann, VL Informationsintegration, WS 05/0615 Literatur Leider kein geeignetes Lehrbuch Themen u.a. aus Föderierte Datenbanksysteme. Konzepte der Datenintegration, Stefan Conrad, ISBN: Principles of Distributed Database Systems M. Tamer Özsu, Patrick Valduriez ISBN: Jeweils Hinweise in den Vorlesungen Alle genannten Artikel können von mir per angefragt werden. Oder: Google Scholar: DBLP: CiteSeer: Homepages der Autoren

16 Felix Naumann, VL Informationsintegration, WS 05/0616 Fotos

17 Felix Naumann, VL Informationsintegration, WS 05/0617 Praktikum Metasuchmaschine Web Services Phase I Wrapper Web Service für eine Suchmaschine Phase II Spezielle Web Services für die Metasuchmaschine, z.B. WrapperService: Automatische Erstellung eines neuen Suchmaschinen Wrappers WrapperService DirectoryService: Liste aller verfügbaren Suchmaschinen mit Metadaten DirectoryService SamplingService: Metadaten Sammlung SamplingService OptimierungsService: Auswahl relevanter Suchmaschinen OptimierungsService DuplikaterkennungsService: Erkennung doppelter HTML Seiten DuplikaterkennungsService DatenfusionsService: Konfliktlösung verschiedener Suchergebnisse DatenfusionsService RankmergingService: Erstellung eines globalen Ergebnisrankings RankmergingService AnfrageerweiterungsService: Automatisches Umschreiben einer Anfrage AnfrageerweiterungsService

18 Felix Naumann, VL Informationsintegration, WS 05/0618 Praktikum Scheinvoraussetzungen Besuch der Vorlesung InformationsintegrationInformationsintegration Aktive Teilnahme an den Praktikumsterminen Erfolgreiche Erstellung eines Wrapper-Services für eine Suchmaschine in Einzelarbeit Kurze Vorstellung Ihres Wrapper-Services vor dem Plenum Erfolgreiche Erstellung eines weiteren Web Services für die Metasuchmaschine in Gruppenarbeit Vorstellung Ihres Integrations-Services vor dem Plenum Erstellung eines Abschlußberichts in Gruppenarbeit

19 Felix Naumann, VL Informationsintegration, WS 05/0619 Überblick Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester

20 Felix Naumann, VL Informationsintegration, WS 05/0620 Integrierte Informationssysteme Integriertes Informations- system Oracle, DB2… Web Service Anwen- dung HTML Form Integriertes Info.-system Datei- system Anfrage

21 Felix Naumann, VL Informationsintegration, WS 05/0621 Was ist Informationsintegration? Informationsintegration ist die Zusammenführung von Daten und Inhalt verschiedener Quellen zu einer einheitlichen Informationsmenge. Informationsintegration ist die korrekte, vollständige und effiziente Zusammenführung von Daten und Inhalt verschiedener, heterogener Quellen zu einer einheitlichen und strukturierten Informationsmenge zur effektiven Interpretation durch Nutzer und Anwendungen.

22 Felix Naumann, VL Informationsintegration, WS 05/0622 Wo herrscht Informationsintegration? Im weiteren Sinne Business-Integration Application-Integration Prozess-Integration (Workflow-Integration) Im engeren Sinne Datenbanken und Informationssysteme Verteilt Autonom Heterogen

23 Felix Naumann, VL Informationsintegration, WS 05/0623 Beispiele für Informationssysteme Dateisystem Informationseinheit: Flat file Anfrage: File search, RegEx Struktur: Flach oder hierarchisch Beispiele NTFS NIS FTP Zugriff Einsatzgebiete WWW (HTML Dateien) Desktop-Anwendungen (Textverarbeitung, etc.)

24 Felix Naumann, VL Informationsintegration, WS 05/0624 Beispiele für Informationssysteme Datei Informationseinheit: Zeile /Token Anfrage: Parser Struktur: Flach Beispiele Komma-delimited files Annotated files Einsatzgebiete SwissProt

25 Felix Naumann, VL Informationsintegration, WS 05/0625

26 Felix Naumann, VL Informationsintegration, WS 05/0626 Beispiele für Informationssysteme Markup Datei Informationseinheit: Tagged text Anfrage: Parser, Anfragesprache Struktur: Flach, hierarchisch oder graph-basiert Beispiele XML HTML Einsatzgebiete Web Services Messages Interoperationale Anwendungen

27 Felix Naumann, VL Informationsintegration, WS 05/0627 Beispiele für Informationssysteme Datenbank Anfrage: Komplexe Sprache, z.B. SQL Informationseinheit: Tupel / Attribut, Objekt Struktur: Relational, OO, Hierarchisch Beispiele Relationale DBMS OO DBMS Auch: XML DBMS Einsatzgebiete Data Warehouses OLTP Banken/Versicherungen

28 Felix Naumann, VL Informationsintegration, WS 05/0628 Beispiele für Informationssysteme HTML Formular Informationseinheit: HTML Seite, Text Anfrage: Suchworte, Formular (inkl. Radiobutton, dropdown-list, etc.) Struktur: wie Markup Datei: Flach, hierarchisch oder graph- basiert I.d.R. flach Beispiele Einfache Suchformulare Komplexe Anfrageformulare Einsatzgebiete Suchmaschinen Reisedienste Kataloge

29 Felix Naumann, VL Informationsintegration, WS 05/0629

30 Felix Naumann, VL Informationsintegration, WS 05/0630 Beispiele für Informationssysteme Web Service Informationseinheit: XML Dokument Anfrage XML Dokument Struktur: Wie XML: Flach, hierarchisch, graph- basiert Beispiele Einfach: Temperaturdienst, etc Komplex: Reservierungen (Schachtelung und Verknüpfung von Web Services) Einsatzgebiete Intra-organisatorische Workflows E-Marketplaces Datenaustausch

31 Felix Naumann, VL Informationsintegration, WS 05/0631

32 Felix Naumann, VL Informationsintegration, WS 05/0632 Beispiele für Informationssysteme Anwendung Informationseinheit: Java Objekt, Text Anfrage: via Anwendungs- schnittstelle oder GUI Struktur: Objekt (Interface) Display (GUI) Beispiele Java, C++, etc Legacy Informationssysteme Einsatzgebiete Komplexe Analysen (Data Mining, Statistik)

33 Felix Naumann, VL Informationsintegration, WS 05/0633 Beispiele für Informationssysteme Integriertes Informationssystem Verhält sich in Anfrage, Struktur und Informationseinheit je nach Design: DBMS HTML Formular Web Service... Beispiele Data Warehouses Föderierte Datenbanken Portale Einsatzgebiete: Meta Search Life Sciences Int. Unternehmen Intranets

34 Felix Naumann, VL Informationsintegration, WS 05/0634 Integrierte Informationssysteme Integriertes Informations- system Oracle, DB2… Web Service Anwen- dung HTML Form Integriertes Info.-system Datei- system Anfrage

35 Felix Naumann, VL Informationsintegration, WS 05/0635 Integrierte Suchmaschinen Meta-Suchmaschine Intranet Index Thesaurus Anfrage

36 Felix Naumann, VL Informationsintegration, WS 05/0636 Integration = Abstraktion 1. Logisches DB-Design abstrahiert von physischem DB-Design Datenunabhängigkeit Anfragen: Prozedural vs. deklarativ 2. Informationsintegration abstrahiert von logischen DB Design Quellenunabhängigkeit (Speicherort) Datenmodell- und Syntaxunabhängigkeit Unabhängigkeit von semantischen Unterschieden (hoffentlich!)

37 Felix Naumann, VL Informationsintegration, WS 05/0637 Anwendungsgebiet 1: Business [Halevy04]

38 Felix Naumann, VL Informationsintegration, WS 05/0638 Anwendungsgebiet 2: Wissenschaft [Halevy04]

39 Felix Naumann, VL Informationsintegration, WS 05/0639 Anwendungsgebiet 3: Das Web [Halevy04]

40 Felix Naumann, VL Informationsintegration, WS 05/0640 Informationsintegration: Ein altes Problem Seit 50 Jahren auf der Forschungsagenda Frühe Systeme in den 70ern Integration per Hand natürlich noch früher Neue Probleme Viele, viele Quellen Heterogenität Neue Arten von Daten (XML, GIS, OO,...) Neue Arten von Anfragen (Search, UDFs,...) Neue Arten von Ergebnissen (Ranking, Visualisierung,...) Neue Arten von Nutzern (Laien, Manager, Admins,...) Alon Halevy: Its plain hard! [Halevy04]

41 Felix Naumann, VL Informationsintegration, WS 05/0641 Warum ist es so schwer? [Halevy04] System-bedingte Gründe Verschiedene Plattformen Anfragebearbeitung über mehrere Systeme Soziale Gründe Finden relevanter Daten in Unternehmen Beschaffen relevanter Daten in Unternehmen Menschen zur Zusammenarbeit überreden Logik-bedingte Gründe Schema- und Datenheterogenität Dies ist unabhängig von der jeweiligen Integrationsarchitektur.

42 Felix Naumann, VL Informationsintegration, WS 05/0642 Überblick Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester

43 Felix Naumann, VL Informationsintegration, WS 05/0643 Informationsintegration FusionOptimierungVisualisierungIdentifikation Integration Web Service B Web Service A Federated Database Systems Amit Sheth James Larson Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases Scheth & Larson 1990

44 Felix Naumann, VL Informationsintegration, WS 05/0644 Beispiel – Web Service A Web Service A Standort: Trier Operation: getPubByAuthor(firstName, lastName) getPubByTitle(title) Output-Struktur:

45 Felix Naumann, VL Informationsintegration, WS 05/0645 Beispiel – Web Service A Output

46 Felix Naumann, VL Informationsintegration, WS 05/0646 Beispiel – Web Service B Web Service B Standort: Humboldt-Universität Operation: myPubs(Autor, Jahr) Struktur:

47 Felix Naumann, VL Informationsintegration, WS 05/0647 Beispiel – Web Service B Output

48 Felix Naumann, VL Informationsintegration, WS 05/0648 Integration von Web Services A & B 1. Nutzerschnittstelle 2. Schema Integration / Schema Mapping 3. Anfrage-Umwandlung 4. Zeit abschätzen (Optimierung) 5. Requests an beide Services abschicken 6. Antworten einholen 7. Objektidentifikation 8. Integrationsschritte 1. Konfliktlösung etc. 2. Entscheidung kleinster gemeinsamer Nenner? 3. Durchführung (deklarativ, prozedural) 9. Anzeige beim Nutzer

49 Felix Naumann, VL Informationsintegration, WS 05/0649 Nutzerschnittstellen

50 Felix Naumann, VL Informationsintegration, WS 05/0650 Informationsintegration Web Service B Web Service A Federated Database Systems Amit Sheth James Larson Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases Scheth & Larson 1990 Schemaintegration Schema Mapping Modellierung durch eine Menge von Anfragen (Views)

51 Felix Naumann, VL Informationsintegration, WS 05/0651 Anfrage Umwandlung Integration der Anfrage durch Mediator: Integrierte Schnittstelle Z.B. Concat(First Name, Last Name) = Autor

52 Felix Naumann, VL Informationsintegration, WS 05/0652 Anfrageoptimierung Was ist besser: Eine schnelle Antwort oder vollständige Antwort? Web Service A in Trier (remote) Web Service B in Adlershof (local) Web Service A hat mehr Attribute und mehr Objekte. Web Service B hat weniger Attribute. Außerdem: Eine Suche nach year kann nur durch Web Service B beantwortet werden. Transformationen können teuer sein.

53 Felix Naumann, VL Informationsintegration, WS 05/0653 Zwei Resultate Web Service A Web Service B

54 Felix Naumann, VL Informationsintegration, WS 05/0654 Schema Matching ?

55 Felix Naumann, VL Informationsintegration, WS 05/0655 Objektidentifikation

56 Felix Naumann, VL Informationsintegration, WS 05/0656 Objektidentifikation Edit-distance: 5 Edit-distance: 6 Zusammen?

57 Felix Naumann, VL Informationsintegration, WS 05/0657 Stand der Dinge Wir haben die heterogenen Informationen. Wir wissen, was wir integrieren wollen. Aber noch nicht wie: Integriertes Schema Integrierte Daten

58 Felix Naumann, VL Informationsintegration, WS 05/0658 Angestrebtes Integrationsergebnis Integriertes Schema: = +

59 Felix Naumann, VL Informationsintegration, WS 05/0659 Angestrebtes Integrationsergebnis Integrierte Daten:

60 Felix Naumann, VL Informationsintegration, WS 05/0660 Integrierte Daten – was ist passiert? Konflikt- lösung Neu- Strukturierung Vorher: Naumann Neu

61 Felix Naumann, VL Informationsintegration, WS 05/0661 Implementierung Auf Folien ist alles klar, aber wie implementieren? Deklarativ? SQL, XQuery, XSLT Oft nicht alles möglich Langsam Prozedural? Java, C++ Schlecht wartbar Schnell

62 Felix Naumann, VL Informationsintegration, WS 05/0662 Anzeige beim Nutzer Visualisierung der Datenherkunft Qualität veränderten Daten Operationen Konflikt- lösung Vorher: Naumann

63 Felix Naumann, VL Informationsintegration, WS 05/0663 Überblick Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester

64 Felix Naumann, VL Informationsintegration, WS 05/0664 Integrierte Informationssysteme Integriertes Informations- system Oracle, DB2… Design time Web Service Anwen- dung HTML Form Integriertes Info.-system Datei- system Anfrage Architekturen Anfragesprache Schemamanagement Wrapper Run time Anfrageausführung Optimierung Anfrageplanung Datenfusion / ETL

65 Felix Naumann, VL Informationsintegration, WS 05/0665 Erste Hälfte 1. Einführung in die Informationsintegration 2. Szenarien der Informationsintegration 3. Verteilung und Autonomie 4. Heterogenität 5. Materialisierte und virtuelle Integration 6. Klassifikation integrierter Informationssysteme und 5-Schichten Architektur 7. Mediator/Wrapper-Architektur 8. Global-as-View und Lokal-as-View Modellierung 9. Global-as-View Anfragebearbeitung 10. SchemaSQL 11. Verteilte Anfragebearbeitung 12. Dynamische Programmierung in verteilten Datenbanken 13. Top-N Anfragen Problemstellung Architekturen Modellierung Optimierung

66 Felix Naumann, VL Informationsintegration, WS 05/0666 Zweite Hälfte 1. Informationsqualität 2. Duplikaterkennung 3. ETL & Data Lineage 4. Datenfusion - Union & Co. 5. Containment & Local-as-View Anfragebearbeitung 6. Bucket Algorithmus 7. Peer-Data-Management Systeme (PDMS) 8. Schema Mapping 9. Schema Matching 10. Hidden Web 11. Semantic Web 12. Forschungsprojekte - TSIMMIS, Garlic, Revere, etc 13. Data Streams Konflikte Anfragen Systeme Mapping

67 Felix Naumann, VL Informationsintegration, WS 05/0667 Fragen, Wünsche und Vorstellungen Jetzt, oder... Raum:IV.122 Sprechstunden:Donnerstags 15 Uhr oder n.V. Telefon:(030)


Herunterladen ppt "Informationsintegration Einführung 18.10.2005 Felix Naumann."

Ähnliche Präsentationen


Google-Anzeigen