Informationsintegration Heterogenität 27.10.2004 Felix Naumann.

Slides:



Advertisements
Ähnliche Präsentationen
Deduktive Datenbanken
Advertisements

Heterogene Informationssysteme
Inhalt Saarbrücken,.
Daten- und Informationsqualität. © Prof. T. Kudraß, HTWK Leipzig Management der Informationsqualität Keine verbindlichen Standards oder Vorgaben für Informationsqualität.
Zur Rolle der Sprache bei der Modellierung von Datenbanken
Übung Datenbanksysteme WS 2003/ Übung Datenbanksysteme Entwurf eines Bibliothekssystems
spezielle Nutzersichten formale Ebene (deskriptive Regeln)
Datenmodellierung Externe Phase Informationsstruktur
Indizierung von Graphen durch häufige Subgraphen (2)
Informationsintegration Local-as-View: LaV
Informationsintegration Der Bucket-Algorithmus Felix Naumann.
VL Informationsintegration Verteilung, Autonomie und Heterogenität
Informationsintegration Dynamische Programmierung
Frame-Logik Eine Einführung Andreas Glausch.
Informationsintegration Einführung
Informationsintegration ETL & Datenherkunft (Lineage)
Informationsintegration Global-as-View: GaV
Informationsintegration Containment und Local-as-View Anfragebearbeitung Felix Naumann.
Informationsintegration Schema Matching Felix Naumann.
Informationsintegration SchemaSQL Felix Naumann.
Objekt – Relationales – Modell Tomasz Makowski IN
MySQL.
Bauinformatik II Softwareanwendungen 1
Kapitel 3: Das Relationenmodell
Java: Objektorientierte Programmierung
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Datenbanken werden als Anhäufung von Werten eines Wertebereiches aufgefasst und Datenbankabfragen.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg 1/7
SQL/XML. © Prof. T. Kudraß, HTWK Leipzig 2 2 Motivation Speicherung von XML in allen großen kommerziellen DBMS vorhanden proprietäre Lösungen für die.
Das Relationenmodell 1.
Prof. Dr. T. Kudraß1 Relationenkalkül. Prof. Dr. T. Kudraß2 Relationenkalkül Zwei Ausprägungen: Tupelrelationenkalkül (TRK) und Domänenrelationenkalkül.
Übung Datenbanksysteme SQL-Anfragen (2)
Einführung Dateisystem <-> Datenbanksystem
Informationsintegration Architekturen
Informationsintegration Mediator/Wrapper-Architektur & Peer-Data-Management Felix Naumann.
Informationsintegration Anwendungsszenarien
Informationsintegration Schema Mapping
Informationsintegration Materialisierte vs. Virtuelle Integration
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
RDF-S3 und eRQL: RDF-Technologien für Informationsportale Karsten Tolle und Fabian Wleklinski.
IGH – 05/061 Die drei Netze der. 2 Götz Gantner (1) Verwaltungsnetz R-232 Hausmeister 4 PC / 2 Drucker LZ 1PC / 1 Laser.
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Maschinelles Lernen und automatische Textklassifikation
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Entitäten Extraktion Einführung
Die Grundterminologie
GIS - Seminar Wintersemester 2000/2001
Typo3 Templates und TypoScript
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Entwicklung verteilter Anwendungen I, WS 13/14 Prof. Dr. Herrad Schmidt WS 13/14 Kapitel 5 Folie 2 ADO.NET s.a:
Sesame Florian Mayrhuber
SS 2004 Datenbanken 4W Mi 13:30 – 15:00 G 2.30 Vorlesung #5 Relationale Anfragesprachen.
WS 2013/14 Datenbanksysteme Fr 17:00 – 18:30 R Vorlesung #3 Das relationale Modell (Teil 2)
WS 2007/08 Datenbanksysteme Mi 17:00 – 18:30 R Vorlesung #9 Anfragebearbeitung (Teil 1)
Datenbanksysteme für hörer anderer Fachrichtungen
Freiwillige Feuerwehr der Stadt Perg
Relationentheorie AIFB SS Relationen in 1NF und relationale Datenbanken(1/5) Attribut a Wertebereichdom(a) (domain) AttributemengeA = {a 1,...,
00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung.
verstehen planen bearbeiten
Trust and context using the RDF- Source related Storage System (RDF‑S3) and easy RQL (eRQL) Karsten Tolle und Fabian Wleklinski.
Programmieren ... in C++ Prof. Dr.-Ing. Franz-Josef Behr, HfT Stuttgart Programmeiren I.
Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing.
Eike Schallehn, Martin Endig
Eike Schallehn, Martin Endig
© 2001 Sven Dammann1 Aufbau Integrierter Informationssysteme XML Bearbeitung und relationale Abbildung Sven Dammann Martin-Luther-Universität Halle-Wittenberg.
„Wenn du den Fluss Halys überschreitest, wirst du
Einführung Dateisystem <-> Datenbanksystem
Abbildung UML-Schema  Rel. Schema (1)
1 Syntaktische Grundform selectA 1, A 2, …, A n fromR 1, R 2, …, R m wherebedingung w ;
Lukas Kerecz - Edits1 Edits Lukas Kerecz. Lukas Kerecz - Edits2 Gliederung  Einführung  Edits – warum und wofür?  Edits – Definiton  einleitende Beispiele.
 Präsentation transkript:

Informationsintegration Heterogenität Felix Naumann

Felix Naumann, VL Informationsintegration, WS 05/062 Überblick Semantische Heterogenität Namenskonflikte Identität Datenkonflikte Gebundene und Freie Variablen (link)link Adornments Anfrageplanung

Felix Naumann, VL Informationsintegration, WS 05/063 Semantik Fremdwörterduden Semantik 1. Teilgebiet der Linguistik, das sich mit den Bedeutungen sprachlicher Zeichen und Zeichenfolgen befasst 2. Bedeutung, Inhalt eines Wortes, Satzes oder Textes Semantische Heterogenität ist ein überladener Begriff ohne klare Definition. Er bezeichnet die Unterschiede in Bedeutung, Interpretation und Art der Nutzung. [ÖV91]

Felix Naumann, VL Informationsintegration, WS 05/064 Semantik vs. Struktur Strukturelle Heterogenität Betrifft Schemas Bedeutung der Labels im Schema egal Annahme bisher: Gleiche Label -> Gleiche Semantik Semantische Heterogenität Betrifft Daten Betrifft Bedeutung Person( Id, Vorname, Nachname, Männlich, weiblich) Männer( Id, Vorname, Nachname) Frauen( Id, Vorname, Nachname) A( Id, X, Y) B( Id, X, Y) P( Id, X, Y, a, b)

Felix Naumann, VL Informationsintegration, WS 05/065 Unterschiedliche Namen Die Probleme Konzept (z.B. Gen) Definition des Konzepts Synonyme (z.B. surname vs. last name) Homonyme (z.B. biweekly) Einheiten (z.B. cm vs. inch) Werte (z.B. manager) Eher auf Schema Ebene

Felix Naumann, VL Informationsintegration, WS 05/066 Konzept Definition eines Konzepts Noch nicht einmal hier sind sich immer alle einig. Gen, Transaktion, Bestellung, Mitarbeiter Semantisch überlappende Weltausschnitte mit einander entsprechenden Klassen Korrespondenzarten zwischen Klassenextensionen: A=B Äquivalenz A B Inklusion A B Überlappung A B Disjunktion

Felix Naumann, VL Informationsintegration, WS 05/067 Konzept Definition Mitarbeiter: temporäre MA Diplomanden Berater Studentische Mitarbeiter Stellen oder Köpfe? Definition IBM Welche Region? Welcher Geschäftsbereich? Informix? PWC? Welcher Zeitpunkt? Definition der Zählung: Doppelte Zählung bei mehreren Anstellungen?

Felix Naumann, VL Informationsintegration, WS 05/068 Synonyme Verschiedene Worte mit gleicher Bedeutung Im Kontext der zu integrierenden Datenbanken DB2: Person( Id, Vorname, Nachname, Geschlecht) DB1: Angestellter( Id, Vorname, Name,männlich,weiblich)

Felix Naumann, VL Informationsintegration, WS 05/069 Homonyme Gleiche Worte verschiedener Bedeutung Andere Domäne Andere Bedeutung DB2: Person( Id, Vorname, Nachname, Titel, Geschlecht) DB1: Angestellter( Id, Vorname, Name, m, w, Titel) Sekr., Sachbearbeiter, Bereichsleiter, etc. Herr, Frau, Dr,. Dipl.Ing., etc.

Felix Naumann, VL Informationsintegration, WS 05/0610 -nym Wörter Synonym Verschiedene Wörter, gleiche Semantik Homonym Gleiche Wörter, verschiedene Semantik Antonym Verschiedene Wörter, gegenteilige Semantik Auto-Antonym: Gleiche Wörter, gegenteilige Semantik Transparenz Overlook Heteronym Gleiche Schreibung, verschiedene Aussprache, verschiedene Semantik Autonym (selbstbeschreibend, Wort = Semantik, Substantiv) Pseudonym u.v.a.m.

Felix Naumann, VL Informationsintegration, WS 05/0611 Einheiten Gleiche Bedeutung aber anderes Maß. Werden auch als Homonym bezeichnet, da anderes Maß eine andere Bedeutung erzeugt. DB2 (Spanien): Person( Id, Vorname, Nachname, gehalt) DB1 (USA): Angestellter( Id, Vorname, Name,gehalt) USD EUR

Felix Naumann, VL Informationsintegration, WS 05/0612 Überblick Semantische Heterogenität Namenskonflikte Identität Datenkonflikte Gebundene und Freie Variablen Adornments Anfrageplanung

Felix Naumann, VL Informationsintegration, WS 05/0613 Identität Drei zentrale Fragen Was ist ein Objekt? XML: Über mehrere Schachtelungsebenen hinweg Relationales Modell: Über mehrere Relationen hinweg Repräsentiert Objekt A die gleiche Entität wie Objekt B? Wie finde ich effizient gleiche Repräsentationen? Namen des Problems Duplikaterkennung Objektidentifikation Record Linkage Data Cleansing... Auf Datenebene

Felix Naumann, VL Informationsintegration, WS 05/0614 Typische Anwendungen Personen- und Adressdaten Volkszählungen Werbeaktionen Kundenpflege Molekularbiologische Daten Bibliographische Daten Zentrale Register Typische Merkmale zur Entstehung: Gleiches Objekt mehrfach beobachtet Manuelle Erfassung der Daten Objekt ändert Eigenschaften von Zeit zu Zeit Keine global konsistente ID ISBN, IBAN, URL, ISO, EAN, SSN, etc.

Felix Naumann, VL Informationsintegration, WS 05/0615 Duplikaterkennung Duplikate in Relationen Zwei Tupel, die das gleiche real-world Objekt repräsentieren Semantik! Attributwerte dürfen sich unterscheiden. Formales Problem Eine Tabelle (der Größe N), potentiell mit Duplikaten Erzeuge für jedes Tupel einen Identifier, so dass Duplikate gleiche Identifier erhalten Problemerweiterungen Zwei Tabellen mit unterschiedlichem Schema Ein XML Dokument mit Duplikaten

Felix Naumann, VL Informationsintegration, WS 05/0616 Duplikaterkennung Praktisches Problem Wie entscheide ich, ob zwei Tupel das gleiche Objekt repräsentieren? Ähnlichkeitsmaße und Klassifikation Edit-Distance N-grams IDs Wahrscheinlichkeitstheoretische Ansätze Maschinelles Lernen Augenschein

Felix Naumann, VL Informationsintegration, WS 05/0617 Duplikaterkennung Praktisches Problem Sehr große Datenmenge Millionen Tupel Kein quadratischer Algorithmus Kein Hauptspeicher-Algorithmus Als SQL Anfrage Sei R die Relation mit Duplikaten SELECT C1.*, genID(C1,C2) FROMR as C1, R as C2 WHEREM(C1,C2) Schwieriger als normaler Join Ähnlichkeitsmaß ist nicht nur Gleichheit Algorithmen zur Objektidentifikation in VL Duplikaterkennung ID Erzeugung Kreuzprodukt Ähnlichkeit

Felix Naumann, VL Informationsintegration, WS 05/0618 Überblick Semantische Heterogenität Namenskonflikte Identität Datenkonflikte Gebundene und Freie Variablen Adornments Anfrageplanung

Felix Naumann, VL Informationsintegration, WS 05/0619 Datenkonflikte Datenkonflikt: Zwei Duplikate haben unterschiedliche Attributwerte für ein semantisch gleiches Attribut. Im Gegensatz zu Konflikten mit Integritätsbedingungen Datenkonflikte entstehen innerhalb eines Informationssystems (intra-source) und bei der Integration mehrerer Informationssysteme (inter- source). Voraussetzung: Duplikat! d.h. Identität schon festgestellt.

Felix Naumann, VL Informationsintegration, WS 05/0620 Datenkonflikte - Beispiel amazon.de bol.de ID $5.99Moby DickHerman Melville $3.98H. Melville Konflikt kann auch mit NULL-Wert herrschen

Felix Naumann, VL Informationsintegration, WS 05/0621 Datenkonflikte – Entstehung Innerhalb eines Informationssystems Mangels Integritätsbedingungen oder Konsistenz-Checks Bei redundanten Schemata Bei Entstehung von Duplikaten Nicht korrekte Einträge Tippfehler, Übertragungsfehler Falsche Rechenergebnisse obsolete Einträge div. Aktualisierungszeitpunkte ausreichende Aktualität einer Quelle verzögerte Aktualisierung vergessene Aktualisierung

Felix Naumann, VL Informationsintegration, WS 05/0622 Datenkonflikte – Entstehung Innerhalb eines Informationssystems bei div. Datentypen (mit/ohne Codierung) 1,2,...,5 bzw. "sehr gut", "gut",..., mangelhaft" bei gleichem Datentyp Schreibvarianten Kantstr.Kantstrasse Kant Str. Kant Strasse Kolmogorov Kolmogoroff Kolmogorow Typische Verwechslungen U V, 0 o, usw. (OCR)

Felix Naumann, VL Informationsintegration, WS 05/0623 Datenkonflikte – Behebung Referenztabellen für exakte Wertabbildung Z.B. Städte, Länder, Produktnamen, Codes... Ähnlichkeitsmaße bei Tippfehlern bei Sprachvarianten (Meier, Mayer,...) Standardisieren und transformieren Nutzung von Hintergrundwissen (Metadaten) bzgl. von Konventionen (landestypische Schreibweisen) Ontologien zur Behandlung von Zusammenhängen Thesauri, Wörterbücher zur Behandlung von Homonymen, Synonymen,...

Felix Naumann, VL Informationsintegration, WS 05/0624 Datenkonflikte – Entstehung Bei der Integration von Informationssystemen Lokal konsistent aber global inkonsistent Duplikate (extensionale Redundanz) Andere Datentypen Lokale Schreibweisen/Konventionen

Felix Naumann, VL Informationsintegration, WS 05/0625 Datenkonflikte – Behebung Präferenzordnung über Datenquellen nach Aktualität, Trust (Vertrauen), Öffnungszeiten usw. Informationsqualität Konfliktlösungsfunktionen Wie implementieren?

Felix Naumann, VL Informationsintegration, WS 05/0626 Relationale Objektintegration Union (Vereinigung) Duplikat-Eliminierung Minimum Union Eliminierung sub- summierter Tupel... Aber keine Duplikatintegration Konfliktlösung Mehr dazu in VL Datenfusion

Felix Naumann, VL Informationsintegration, WS 05/0627 Überblick Semantische Heterogenität Namenskonflikte Identität Datenkonflikte Gebundene und Freie Variablen Adornments Anfrageplanung

Felix Naumann, VL Informationsintegration, WS 05/0628 Gebundene & Freie Variablen Gebundene Variablen müssen bei einer Anfrage spezifiziert werden. z.B.: Search-Feld bei Google Freie Variablen müssen nicht gebunden werden. z.B. Autor-Feld bei Amazon.de, falls Titel gebunden ist. Einordnung: Heterogenität Syntaktische Heterogenität Schnittstellenheterogenität

Felix Naumann, VL Informationsintegration, WS 05/0629 Gebundene und Freie Variablen – Adornments Jede Quelle exportiert eine oder mehrere relationale Sichten. IIS erlaubt Anfragen auf diese Sichten mittels Join, Union, Selektion und Projektion. Quelle: [YLGU99]

Felix Naumann, VL Informationsintegration, WS 05/0630 Gebundene und Freie Variablen – Adornments 5 Quellen (für später): R 1 (X,Y,Z) R 2 (X,Y,Z) R 3 (X,Y,Z) R 4 (Z,U) R 5 (U,V,W) Quelle: [YLGU99] Beispiel Quelle 1: R 1 (X,Y,Z) Daten: (x 1,y 1,z 1 ) (x 1,y 2,z 1 ) (x 2,y 2,z 2 ) Beispiel Anfrage 1: Q 1 (X,Y,z 1 ) Beispiel Ergebnis: (x 1,y 1,z 1 ) (x 1,y 2,z 1 ) Beispiel Anfrage 2: Q 2 (X,y 1,Z) Beispiel Ergebnis: (x 1,y 1,z 1 ) Z gebunden

Felix Naumann, VL Informationsintegration, WS 05/0631 Gebundene und Freie Variablen – Adornments Anfragefähigkeiten der Quellen als templates Wie ein WWW Formular Templates bestehen aus einem adornment für jedes Attribut Anhänge (adornments = Verzierungen) an Attribute schränken ein: f: free Frei: Kann in Anfrage spezifiziert werden, muss aber nicht. u: unspecifiable Unbestimmbar: Kann nicht spezifiziert werden. Ist aber Teil des Ergebnisses. b: bound Gebunden: Muss spezifiziert werden. c[s]: constant Auswahl aus einer Menge s von Konstanten Implizit bound: muss spezifiziert werden o[s]: optional Auswahl aus einer Menge s von Konstanten Implizit free: Muss nicht spezifiziert werden. Quelle: [YLGU99]

Felix Naumann, VL Informationsintegration, WS 05/0632 Adornments - Beispiele Beispiel Quelle 1: R 1 (X,Y,Z) Anfragemöglichkeit 1: X muss spezifiziert werden Y kann nicht spezifiziert werden Z kann spezifiziert werden Anfragemöglichkeit 2: X kann nicht spezifiziert werden Y kann spezifiziert werden Z ist entweder z 1 oder z 2 Template: buf Template: ufc[z 1, z 2 ]

Felix Naumann, VL Informationsintegration, WS 05/0633 Adornments – Anfragebearbeitung Anfragebearbeitung R 1 (X,Y,Z): bff, ffb R 2 (X,Y,Z): fbf Sei M = R 1 R 2 eine integrierte Sicht des IIS, gegen die man Anfragen stellen kann. Annahme über Anfragebearbeitung: Anfragen werden übersetzt in je eine Anfrage pro Quelle (gebundene Variablen werden weitergereicht) Ergebnisse werden entsprechen der Sicht verknüpft (hier ) Frage: Was ist das Template der Sicht M? Quelle: [YLGU99] bff fbf = bbf ffb fbf = fbb

Felix Naumann, VL Informationsintegration, WS 05/0634 Adornments – Verknüpfung durch UNION 3 Sichten und deren Adornments: R 1 (X,Y,Z): bff, ffb R 2 (X,Y,Z): fbf R 3 (X,Y,Z): ffc[s 1 ], c[s 2 ]ff R 1 R 2 : bff fbf = bbf ffb fbf = fbb (R 1 R 2 ) R 3 : bbf ffc[s 1 ] = bbc[s 1 ] usw. Quelle: [YLGU99]

Felix Naumann, VL Informationsintegration, WS 05/0635 Adornments – Verknüpfung durch Join ( ) Unterschied zu UNION Nicht jedes Attribut der integrierten Sicht ist auch Attribut jeder beteiligten Quelle. Beispiel: R1(X,Y,Z) und R4(Z,U) Sicht: M(X,Y,Z,U) = R1(X,Y,Z) R4(Z,U) Berechnung des Templates der Sicht Adornments der nicht-Join-Attribute werden kopiert. Adornments der Join-Attribute werden gemäß der UNION Tabelle vereint.

Felix Naumann, VL Informationsintegration, WS 05/0636 Adornments – Selektion und Projektion Selektion Sicht im IIS selektiert mit Prädikaten. X = `Test´ oder U > 1999 Prädikate werden auf Ergebnisse der Quellen angewandt. Deshalb: Kein Einfluss auf adornments Projektion Einfach projizierte Attribute weglassen. Aber: Falls Attribut mit b oder c adornment durch Projektion wegfallen soll => Sicht des IIS nicht ausführbar Sonst: Adornments bleiben erhalten

Felix Naumann, VL Informationsintegration, WS 05/0637 Adornments – Anfragebearbeitung Problem UNION-Matrix zu restriktiv Idee: Erhöhung der Menge beantwortbarer Anfragen durch Post-Processing durch Passing Bindings

Felix Naumann, VL Informationsintegration, WS 05/0638 Adornments und Postprocessing R 1 (X,Y,Z): bfu R 2 (X,Y,Z): buf R 1 R 2 = buu Anfrage 1: (x 1,Y,Z) beantwortbar? Anfrage 2: (x 1,y 1,z 1 ) beantwortbar? Quelle: [YLGU99] Idee: (x 1,y 1,Z) an R 1 (x 1,Y,z 1 ) an R 2 Dann im Mediator filtern: Z=z 1 bzw. Y=y 1 Was ist neu? u = f : durch nachträgliches Filtern (postprocessing) o[s] = f : falls Bindung nicht in s, weglassen und später Filtern Zusammen: R 1 R 2 = bff

Felix Naumann, VL Informationsintegration, WS 05/0639 Adornments – Verknüpfung durch UNION Quelle: [YLGU99] Vorher: Nachher:

Felix Naumann, VL Informationsintegration, WS 05/0640 Adornments und Passing Bindings JOIN über templates ohne passing bindings R 1 (X,Y,Z) : fbf R 5 (Z,U) : bf R 1 R 2 = fbbf Passing Bindings: Ergebnisse einer Sicht werden vom Mediator in die gebundene Variable der nächsten Sicht eingetragen. Quelle: [YLGU99] JOIN über templates mit passing bindings: R 1 R 5 = fbff Anfrage 1: (X,y 1,z 1,U) beantwortbar? Anfrage 2: (X,y 1,Z, U) beantwortbar? Idee: (X,y 1,Z) an R 1 (z 1,U)…(z n,U) an R 5

Felix Naumann, VL Informationsintegration, WS 05/0641 Adornments und Passing Bindings Quelle: [YLGU99] Vorher: Nachher: Erste Quelle Zweite Quelle

Felix Naumann, VL Informationsintegration, WS 05/0642 Adornments – Selektion mit Postprocessing Variante 1: R 1 (X,Y,Z), X < x 1 : bfu Q(x 2, Y, Z) beantwortbar? Q(x 2, Y, z 1 ) beantwortbar? Q(X, y 1, z 1 ) beantwortbar? Variante 2: R 1 (X,Y,Z), X = x 1 : bfu bfu wird zu bff mit postprocessing Q(X, y 1, z 1 ) beantwortbar? Q(X, y 1, z 1 ) = Q(x 1, y 1, z 1 ) wegen Prädikat bfu wird zu bff wird zu fff Quelle: [YLGU99]

Felix Naumann, VL Informationsintegration, WS 05/0643 Adornments – Selektion mit Postprocessing VorherNachher Quelle: [YLGU99]

Felix Naumann, VL Informationsintegration, WS 05/0644 Viele Templates Problem: Quellen exportieren oft mehrere templates Beispiel: Amazon (Autor Titel, Schlagwort, ISBN, Verlag) bffff, fbfff, ffbff, fffbf, ffffb Beispiel: Verlage(Verlag, Ort) bf, fb Sicht im IIS: Amazon Verlag Verlage Templates der Sicht aus jeder Kombination: bfffff, fbffff, ffbfff, fffbff, ffffbf bffffb, fbfffb, ffbffb, fffbfb, ffffbb + fffffb (ffffb fb mit passing binding) Lösung: Einige templates sind redundant Quelle: [YLGU99]

Felix Naumann, VL Informationsintegration, WS 05/0645 Redundanz in Templates c f o b u Weniger restriktiv falls Auswahllisten Teilmengen sind bfffff, fbffff, ffbfff, fffbff, ffffbf bffffb, fbfffb, ffbffb, fffbfb, ffffbb Quelle: [YLGU99] Algorithmus zur Entfernung redundanter templates.

Felix Naumann, VL Informationsintegration, WS 05/0646 Adornments – Fallbeispiel Amazon Formular 1: Mindestens eine Spezifikation aus author, title, subject, format (format aus Auswahlliste) Formular 2: ISBN spezifizieren Formular 3: Mindestens eine Spezifikation aus keyword, publisher, date Antwortrelation: author, title, ISBN, publisher, date, format, price, shipping info Barnes & Noble Formular 1: Mindestens eine Spezifikation aus author, title, keywords; optionale Spezifikation in format subject, price, age (alles aus Auswahllisten) Formular 2: ISBN spezifizieren Quelle: [YLGU99]

Felix Naumann, VL Informationsintegration, WS 05/0647 Adornments - Fallbeispiel Amazon Barnes & Noble IIS Quelle: [YLGU99]

Felix Naumann, VL Informationsintegration, WS 05/0648 Adornments - Fallbeispiel IIS Ableiten von 4 Formularen im IIS nach [YLGU99] - Spezifikation der ISBN (template 1) - Spezifikation des keyword (template 2) - Mindestens author oder title spezifizieren (templates 3 und 4) - Mindestens author oder title und mindestens publisher oder date spezifizieren (templates 5-8) Quelle: [YLGU99]

Felix Naumann, VL Informationsintegration, WS 05/0649 Überblick Semantische Heterogenität Namenskonflikte Identität Datenkonflikte Gebundene und Freie Variablen Adornments Anfrageplanung

Felix Naumann, VL Informationsintegration, WS 05/0650 Gebundene & Freie Variablen – Beispiel Quelle: [LC00]

Felix Naumann, VL Informationsintegration, WS 05/0651 Gebundene & Freie Variablen – Beispiel Bastelaufgabe 1: Wie teuer ist die billigste CD mit einem Song namens Friends? Quelle: [LC00]

Felix Naumann, VL Informationsintegration, WS 05/0652 Gebundene & Freie Variablen – Beispiel Bastelaufgabe 2: Welches ist die billigste CD mit einem Song namens Friends, die Sie anfragen können?

Felix Naumann, VL Informationsintegration, WS 05/0653 Gebundene & Freie Variablen – Beispiel Quelle: [LC00]

Felix Naumann, VL Informationsintegration, WS 05/0654 Gebundene & Freie Variablen – Beispiel Idee 1: (v 1 CD v 2 ) Artist v 3 Ergibt zusätzlich: ^---PECH 1 2

Felix Naumann, VL Informationsintegration, WS 05/0655 Gebundene & Freie Variablen – Beispiel Idee 2: (((v 1 v 2 ) v 3 ) v 2 ) v 3 ) v 1 Ergibt zusätzlich: ^--- Glück, weil auch in v 1 !

Felix Naumann, VL Informationsintegration, WS 05/0656 Gebundene & Freie Variablen – Beispiel: Semantik Ziel: Maximale Antwort Annahme: Universal Relation mit globalen Attributen. Semantik: Relationale Algebra

Felix Naumann, VL Informationsintegration, WS 05/0657 Gebundene & Freie Variablen – Beispiel: Semantik Schon Schritt 1 macht eine Annahme. Schritte 2-5 überwinden nur Binding-Muster. Direkter Join über v 1 v 3 hätte gleiches Resultat. Wichtig deshalb: Data Lineage und Visualisierung

Felix Naumann, VL Informationsintegration, WS 05/0658 Literatur Wichtige Literatur [YLGU99] Ramana Yerneni, Chen Li, Hector Garcia-Molina, Jeffrey D. Ullman, Computing Capabilities of Mediators, SIGMOD 1999 Weitere Literatur [LC00] Chen Li, Edward Chang Query Planning with Limited Source Capabilities, ICDE 2000