Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Informationsintegration Heterogenität 27.10.2004 Felix Naumann.

Ähnliche Präsentationen


Präsentation zum Thema: "Informationsintegration Heterogenität 27.10.2004 Felix Naumann."—  Präsentation transkript:

1 Informationsintegration Heterogenität Felix Naumann

2 Felix Naumann, VL Informationsintegration, WS 05/062 Überblick Semantische Heterogenität Namenskonflikte Identität Datenkonflikte Gebundene und Freie Variablen (link)link Adornments Anfrageplanung

3 Felix Naumann, VL Informationsintegration, WS 05/063 Semantik Fremdwörterduden Semantik 1. Teilgebiet der Linguistik, das sich mit den Bedeutungen sprachlicher Zeichen und Zeichenfolgen befasst 2. Bedeutung, Inhalt eines Wortes, Satzes oder Textes Semantische Heterogenität ist ein überladener Begriff ohne klare Definition. Er bezeichnet die Unterschiede in Bedeutung, Interpretation und Art der Nutzung. [ÖV91]

4 Felix Naumann, VL Informationsintegration, WS 05/064 Semantik vs. Struktur Strukturelle Heterogenität Betrifft Schemas Bedeutung der Labels im Schema egal Annahme bisher: Gleiche Label -> Gleiche Semantik Semantische Heterogenität Betrifft Daten Betrifft Bedeutung Person( Id, Vorname, Nachname, Männlich, weiblich) Männer( Id, Vorname, Nachname) Frauen( Id, Vorname, Nachname) A( Id, X, Y) B( Id, X, Y) P( Id, X, Y, a, b)

5 Felix Naumann, VL Informationsintegration, WS 05/065 Unterschiedliche Namen Die Probleme Konzept (z.B. Gen) Definition des Konzepts Synonyme (z.B. surname vs. last name) Homonyme (z.B. biweekly) Einheiten (z.B. cm vs. inch) Werte (z.B. manager) Eher auf Schema Ebene

6 Felix Naumann, VL Informationsintegration, WS 05/066 Konzept Definition eines Konzepts Noch nicht einmal hier sind sich immer alle einig. Gen, Transaktion, Bestellung, Mitarbeiter Semantisch überlappende Weltausschnitte mit einander entsprechenden Klassen Korrespondenzarten zwischen Klassenextensionen: A=B Äquivalenz A B Inklusion A B Überlappung A B Disjunktion

7 Felix Naumann, VL Informationsintegration, WS 05/067 Konzept Definition Mitarbeiter: temporäre MA Diplomanden Berater Studentische Mitarbeiter Stellen oder Köpfe? Definition IBM Welche Region? Welcher Geschäftsbereich? Informix? PWC? Welcher Zeitpunkt? Definition der Zählung: Doppelte Zählung bei mehreren Anstellungen?

8 Felix Naumann, VL Informationsintegration, WS 05/068 Synonyme Verschiedene Worte mit gleicher Bedeutung Im Kontext der zu integrierenden Datenbanken DB2: Person( Id, Vorname, Nachname, Geschlecht) DB1: Angestellter( Id, Vorname, Name,männlich,weiblich)

9 Felix Naumann, VL Informationsintegration, WS 05/069 Homonyme Gleiche Worte verschiedener Bedeutung Andere Domäne Andere Bedeutung DB2: Person( Id, Vorname, Nachname, Titel, Geschlecht) DB1: Angestellter( Id, Vorname, Name, m, w, Titel) Sekr., Sachbearbeiter, Bereichsleiter, etc. Herr, Frau, Dr,. Dipl.Ing., etc.

10 Felix Naumann, VL Informationsintegration, WS 05/0610 -nym Wörter Synonym Verschiedene Wörter, gleiche Semantik Homonym Gleiche Wörter, verschiedene Semantik Antonym Verschiedene Wörter, gegenteilige Semantik Auto-Antonym: Gleiche Wörter, gegenteilige Semantik Transparenz Overlook Heteronym Gleiche Schreibung, verschiedene Aussprache, verschiedene Semantik Autonym (selbstbeschreibend, Wort = Semantik, Substantiv) Pseudonym u.v.a.m.

11 Felix Naumann, VL Informationsintegration, WS 05/0611 Einheiten Gleiche Bedeutung aber anderes Maß. Werden auch als Homonym bezeichnet, da anderes Maß eine andere Bedeutung erzeugt. DB2 (Spanien): Person( Id, Vorname, Nachname, gehalt) DB1 (USA): Angestellter( Id, Vorname, Name,gehalt) USD EUR

12 Felix Naumann, VL Informationsintegration, WS 05/0612 Überblick Semantische Heterogenität Namenskonflikte Identität Datenkonflikte Gebundene und Freie Variablen Adornments Anfrageplanung

13 Felix Naumann, VL Informationsintegration, WS 05/0613 Identität Drei zentrale Fragen Was ist ein Objekt? XML: Über mehrere Schachtelungsebenen hinweg Relationales Modell: Über mehrere Relationen hinweg Repräsentiert Objekt A die gleiche Entität wie Objekt B? Wie finde ich effizient gleiche Repräsentationen? Namen des Problems Duplikaterkennung Objektidentifikation Record Linkage Data Cleansing... Auf Datenebene

14 Felix Naumann, VL Informationsintegration, WS 05/0614 Typische Anwendungen Personen- und Adressdaten Volkszählungen Werbeaktionen Kundenpflege Molekularbiologische Daten Bibliographische Daten Zentrale Register Typische Merkmale zur Entstehung: Gleiches Objekt mehrfach beobachtet Manuelle Erfassung der Daten Objekt ändert Eigenschaften von Zeit zu Zeit Keine global konsistente ID ISBN, IBAN, URL, ISO, EAN, SSN, etc.

15 Felix Naumann, VL Informationsintegration, WS 05/0615 Duplikaterkennung Duplikate in Relationen Zwei Tupel, die das gleiche real-world Objekt repräsentieren Semantik! Attributwerte dürfen sich unterscheiden. Formales Problem Eine Tabelle (der Größe N), potentiell mit Duplikaten Erzeuge für jedes Tupel einen Identifier, so dass Duplikate gleiche Identifier erhalten Problemerweiterungen Zwei Tabellen mit unterschiedlichem Schema Ein XML Dokument mit Duplikaten

16 Felix Naumann, VL Informationsintegration, WS 05/0616 Duplikaterkennung Praktisches Problem Wie entscheide ich, ob zwei Tupel das gleiche Objekt repräsentieren? Ähnlichkeitsmaße und Klassifikation Edit-Distance N-grams IDs Wahrscheinlichkeitstheoretische Ansätze Maschinelles Lernen Augenschein

17 Felix Naumann, VL Informationsintegration, WS 05/0617 Duplikaterkennung Praktisches Problem Sehr große Datenmenge Millionen Tupel Kein quadratischer Algorithmus Kein Hauptspeicher-Algorithmus Als SQL Anfrage Sei R die Relation mit Duplikaten SELECT C1.*, genID(C1,C2) FROMR as C1, R as C2 WHEREM(C1,C2) Schwieriger als normaler Join Ähnlichkeitsmaß ist nicht nur Gleichheit Algorithmen zur Objektidentifikation in VL Duplikaterkennung ID Erzeugung Kreuzprodukt Ähnlichkeit

18 Felix Naumann, VL Informationsintegration, WS 05/0618 Überblick Semantische Heterogenität Namenskonflikte Identität Datenkonflikte Gebundene und Freie Variablen Adornments Anfrageplanung

19 Felix Naumann, VL Informationsintegration, WS 05/0619 Datenkonflikte Datenkonflikt: Zwei Duplikate haben unterschiedliche Attributwerte für ein semantisch gleiches Attribut. Im Gegensatz zu Konflikten mit Integritätsbedingungen Datenkonflikte entstehen innerhalb eines Informationssystems (intra-source) und bei der Integration mehrerer Informationssysteme (inter- source). Voraussetzung: Duplikat! d.h. Identität schon festgestellt.

20 Felix Naumann, VL Informationsintegration, WS 05/0620 Datenkonflikte - Beispiel amazon.de bol.de ID $5.99Moby DickHerman Melville $3.98H. Melville Konflikt kann auch mit NULL-Wert herrschen

21 Felix Naumann, VL Informationsintegration, WS 05/0621 Datenkonflikte – Entstehung Innerhalb eines Informationssystems Mangels Integritätsbedingungen oder Konsistenz-Checks Bei redundanten Schemata Bei Entstehung von Duplikaten Nicht korrekte Einträge Tippfehler, Übertragungsfehler Falsche Rechenergebnisse obsolete Einträge div. Aktualisierungszeitpunkte ausreichende Aktualität einer Quelle verzögerte Aktualisierung vergessene Aktualisierung

22 Felix Naumann, VL Informationsintegration, WS 05/0622 Datenkonflikte – Entstehung Innerhalb eines Informationssystems bei div. Datentypen (mit/ohne Codierung) 1,2,...,5 bzw. "sehr gut", "gut",..., mangelhaft" bei gleichem Datentyp Schreibvarianten Kantstr.Kantstrasse Kant Str. Kant Strasse Kolmogorov Kolmogoroff Kolmogorow Typische Verwechslungen U V, 0 o, usw. (OCR)

23 Felix Naumann, VL Informationsintegration, WS 05/0623 Datenkonflikte – Behebung Referenztabellen für exakte Wertabbildung Z.B. Städte, Länder, Produktnamen, Codes... Ähnlichkeitsmaße bei Tippfehlern bei Sprachvarianten (Meier, Mayer,...) Standardisieren und transformieren Nutzung von Hintergrundwissen (Metadaten) bzgl. von Konventionen (landestypische Schreibweisen) Ontologien zur Behandlung von Zusammenhängen Thesauri, Wörterbücher zur Behandlung von Homonymen, Synonymen,...

24 Felix Naumann, VL Informationsintegration, WS 05/0624 Datenkonflikte – Entstehung Bei der Integration von Informationssystemen Lokal konsistent aber global inkonsistent Duplikate (extensionale Redundanz) Andere Datentypen Lokale Schreibweisen/Konventionen

25 Felix Naumann, VL Informationsintegration, WS 05/0625 Datenkonflikte – Behebung Präferenzordnung über Datenquellen nach Aktualität, Trust (Vertrauen), Öffnungszeiten usw. Informationsqualität Konfliktlösungsfunktionen Wie implementieren?

26 Felix Naumann, VL Informationsintegration, WS 05/0626 Relationale Objektintegration Union (Vereinigung) Duplikat-Eliminierung Minimum Union Eliminierung sub- summierter Tupel... Aber keine Duplikatintegration Konfliktlösung Mehr dazu in VL Datenfusion

27 Felix Naumann, VL Informationsintegration, WS 05/0627 Überblick Semantische Heterogenität Namenskonflikte Identität Datenkonflikte Gebundene und Freie Variablen Adornments Anfrageplanung

28 Felix Naumann, VL Informationsintegration, WS 05/0628 Gebundene & Freie Variablen Gebundene Variablen müssen bei einer Anfrage spezifiziert werden. z.B.: Search-Feld bei Google Freie Variablen müssen nicht gebunden werden. z.B. Autor-Feld bei Amazon.de, falls Titel gebunden ist. Einordnung: Heterogenität Syntaktische Heterogenität Schnittstellenheterogenität

29 Felix Naumann, VL Informationsintegration, WS 05/0629 Gebundene und Freie Variablen – Adornments Jede Quelle exportiert eine oder mehrere relationale Sichten. IIS erlaubt Anfragen auf diese Sichten mittels Join, Union, Selektion und Projektion. Quelle: [YLGU99]

30 Felix Naumann, VL Informationsintegration, WS 05/0630 Gebundene und Freie Variablen – Adornments 5 Quellen (für später): R 1 (X,Y,Z) R 2 (X,Y,Z) R 3 (X,Y,Z) R 4 (Z,U) R 5 (U,V,W) Quelle: [YLGU99] Beispiel Quelle 1: R 1 (X,Y,Z) Daten: (x 1,y 1,z 1 ) (x 1,y 2,z 1 ) (x 2,y 2,z 2 ) Beispiel Anfrage 1: Q 1 (X,Y,z 1 ) Beispiel Ergebnis: (x 1,y 1,z 1 ) (x 1,y 2,z 1 ) Beispiel Anfrage 2: Q 2 (X,y 1,Z) Beispiel Ergebnis: (x 1,y 1,z 1 ) Z gebunden

31 Felix Naumann, VL Informationsintegration, WS 05/0631 Gebundene und Freie Variablen – Adornments Anfragefähigkeiten der Quellen als templates Wie ein WWW Formular Templates bestehen aus einem adornment für jedes Attribut Anhänge (adornments = Verzierungen) an Attribute schränken ein: f: free Frei: Kann in Anfrage spezifiziert werden, muss aber nicht. u: unspecifiable Unbestimmbar: Kann nicht spezifiziert werden. Ist aber Teil des Ergebnisses. b: bound Gebunden: Muss spezifiziert werden. c[s]: constant Auswahl aus einer Menge s von Konstanten Implizit bound: muss spezifiziert werden o[s]: optional Auswahl aus einer Menge s von Konstanten Implizit free: Muss nicht spezifiziert werden. Quelle: [YLGU99]

32 Felix Naumann, VL Informationsintegration, WS 05/0632 Adornments - Beispiele Beispiel Quelle 1: R 1 (X,Y,Z) Anfragemöglichkeit 1: X muss spezifiziert werden Y kann nicht spezifiziert werden Z kann spezifiziert werden Anfragemöglichkeit 2: X kann nicht spezifiziert werden Y kann spezifiziert werden Z ist entweder z 1 oder z 2 Template: buf Template: ufc[z 1, z 2 ]

33 Felix Naumann, VL Informationsintegration, WS 05/0633 Adornments – Anfragebearbeitung Anfragebearbeitung R 1 (X,Y,Z): bff, ffb R 2 (X,Y,Z): fbf Sei M = R 1 R 2 eine integrierte Sicht des IIS, gegen die man Anfragen stellen kann. Annahme über Anfragebearbeitung: Anfragen werden übersetzt in je eine Anfrage pro Quelle (gebundene Variablen werden weitergereicht) Ergebnisse werden entsprechen der Sicht verknüpft (hier ) Frage: Was ist das Template der Sicht M? Quelle: [YLGU99] bff fbf = bbf ffb fbf = fbb

34 Felix Naumann, VL Informationsintegration, WS 05/0634 Adornments – Verknüpfung durch UNION 3 Sichten und deren Adornments: R 1 (X,Y,Z): bff, ffb R 2 (X,Y,Z): fbf R 3 (X,Y,Z): ffc[s 1 ], c[s 2 ]ff R 1 R 2 : bff fbf = bbf ffb fbf = fbb (R 1 R 2 ) R 3 : bbf ffc[s 1 ] = bbc[s 1 ] usw. Quelle: [YLGU99]

35 Felix Naumann, VL Informationsintegration, WS 05/0635 Adornments – Verknüpfung durch Join ( ) Unterschied zu UNION Nicht jedes Attribut der integrierten Sicht ist auch Attribut jeder beteiligten Quelle. Beispiel: R1(X,Y,Z) und R4(Z,U) Sicht: M(X,Y,Z,U) = R1(X,Y,Z) R4(Z,U) Berechnung des Templates der Sicht Adornments der nicht-Join-Attribute werden kopiert. Adornments der Join-Attribute werden gemäß der UNION Tabelle vereint.

36 Felix Naumann, VL Informationsintegration, WS 05/0636 Adornments – Selektion und Projektion Selektion Sicht im IIS selektiert mit Prädikaten. X = `Test´ oder U > 1999 Prädikate werden auf Ergebnisse der Quellen angewandt. Deshalb: Kein Einfluss auf adornments Projektion Einfach projizierte Attribute weglassen. Aber: Falls Attribut mit b oder c adornment durch Projektion wegfallen soll => Sicht des IIS nicht ausführbar Sonst: Adornments bleiben erhalten

37 Felix Naumann, VL Informationsintegration, WS 05/0637 Adornments – Anfragebearbeitung Problem UNION-Matrix zu restriktiv Idee: Erhöhung der Menge beantwortbarer Anfragen durch Post-Processing durch Passing Bindings

38 Felix Naumann, VL Informationsintegration, WS 05/0638 Adornments und Postprocessing R 1 (X,Y,Z): bfu R 2 (X,Y,Z): buf R 1 R 2 = buu Anfrage 1: (x 1,Y,Z) beantwortbar? Anfrage 2: (x 1,y 1,z 1 ) beantwortbar? Quelle: [YLGU99] Idee: (x 1,y 1,Z) an R 1 (x 1,Y,z 1 ) an R 2 Dann im Mediator filtern: Z=z 1 bzw. Y=y 1 Was ist neu? u = f : durch nachträgliches Filtern (postprocessing) o[s] = f : falls Bindung nicht in s, weglassen und später Filtern Zusammen: R 1 R 2 = bff

39 Felix Naumann, VL Informationsintegration, WS 05/0639 Adornments – Verknüpfung durch UNION Quelle: [YLGU99] Vorher: Nachher:

40 Felix Naumann, VL Informationsintegration, WS 05/0640 Adornments und Passing Bindings JOIN über templates ohne passing bindings R 1 (X,Y,Z) : fbf R 5 (Z,U) : bf R 1 R 2 = fbbf Passing Bindings: Ergebnisse einer Sicht werden vom Mediator in die gebundene Variable der nächsten Sicht eingetragen. Quelle: [YLGU99] JOIN über templates mit passing bindings: R 1 R 5 = fbff Anfrage 1: (X,y 1,z 1,U) beantwortbar? Anfrage 2: (X,y 1,Z, U) beantwortbar? Idee: (X,y 1,Z) an R 1 (z 1,U)…(z n,U) an R 5

41 Felix Naumann, VL Informationsintegration, WS 05/0641 Adornments und Passing Bindings Quelle: [YLGU99] Vorher: Nachher: Erste Quelle Zweite Quelle

42 Felix Naumann, VL Informationsintegration, WS 05/0642 Adornments – Selektion mit Postprocessing Variante 1: R 1 (X,Y,Z), X < x 1 : bfu Q(x 2, Y, Z) beantwortbar? Q(x 2, Y, z 1 ) beantwortbar? Q(X, y 1, z 1 ) beantwortbar? Variante 2: R 1 (X,Y,Z), X = x 1 : bfu bfu wird zu bff mit postprocessing Q(X, y 1, z 1 ) beantwortbar? Q(X, y 1, z 1 ) = Q(x 1, y 1, z 1 ) wegen Prädikat bfu wird zu bff wird zu fff Quelle: [YLGU99]

43 Felix Naumann, VL Informationsintegration, WS 05/0643 Adornments – Selektion mit Postprocessing VorherNachher Quelle: [YLGU99]

44 Felix Naumann, VL Informationsintegration, WS 05/0644 Viele Templates Problem: Quellen exportieren oft mehrere templates Beispiel: Amazon (Autor Titel, Schlagwort, ISBN, Verlag) bffff, fbfff, ffbff, fffbf, ffffb Beispiel: Verlage(Verlag, Ort) bf, fb Sicht im IIS: Amazon Verlag Verlage Templates der Sicht aus jeder Kombination: bfffff, fbffff, ffbfff, fffbff, ffffbf bffffb, fbfffb, ffbffb, fffbfb, ffffbb + fffffb (ffffb fb mit passing binding) Lösung: Einige templates sind redundant Quelle: [YLGU99]

45 Felix Naumann, VL Informationsintegration, WS 05/0645 Redundanz in Templates c f o b u Weniger restriktiv falls Auswahllisten Teilmengen sind bfffff, fbffff, ffbfff, fffbff, ffffbf bffffb, fbfffb, ffbffb, fffbfb, ffffbb Quelle: [YLGU99] Algorithmus zur Entfernung redundanter templates.

46 Felix Naumann, VL Informationsintegration, WS 05/0646 Adornments – Fallbeispiel Amazon Formular 1: Mindestens eine Spezifikation aus author, title, subject, format (format aus Auswahlliste) Formular 2: ISBN spezifizieren Formular 3: Mindestens eine Spezifikation aus keyword, publisher, date Antwortrelation: author, title, ISBN, publisher, date, format, price, shipping info Barnes & Noble Formular 1: Mindestens eine Spezifikation aus author, title, keywords; optionale Spezifikation in format subject, price, age (alles aus Auswahllisten) Formular 2: ISBN spezifizieren Quelle: [YLGU99]

47 Felix Naumann, VL Informationsintegration, WS 05/0647 Adornments - Fallbeispiel Amazon Barnes & Noble IIS Quelle: [YLGU99]

48 Felix Naumann, VL Informationsintegration, WS 05/0648 Adornments - Fallbeispiel IIS Ableiten von 4 Formularen im IIS nach [YLGU99] - Spezifikation der ISBN (template 1) - Spezifikation des keyword (template 2) - Mindestens author oder title spezifizieren (templates 3 und 4) - Mindestens author oder title und mindestens publisher oder date spezifizieren (templates 5-8) Quelle: [YLGU99]

49 Felix Naumann, VL Informationsintegration, WS 05/0649 Überblick Semantische Heterogenität Namenskonflikte Identität Datenkonflikte Gebundene und Freie Variablen Adornments Anfrageplanung

50 Felix Naumann, VL Informationsintegration, WS 05/0650 Gebundene & Freie Variablen – Beispiel Quelle: [LC00]

51 Felix Naumann, VL Informationsintegration, WS 05/0651 Gebundene & Freie Variablen – Beispiel Bastelaufgabe 1: Wie teuer ist die billigste CD mit einem Song namens Friends? Quelle: [LC00]

52 Felix Naumann, VL Informationsintegration, WS 05/0652 Gebundene & Freie Variablen – Beispiel Bastelaufgabe 2: Welches ist die billigste CD mit einem Song namens Friends, die Sie anfragen können?

53 Felix Naumann, VL Informationsintegration, WS 05/0653 Gebundene & Freie Variablen – Beispiel Quelle: [LC00]

54 Felix Naumann, VL Informationsintegration, WS 05/0654 Gebundene & Freie Variablen – Beispiel Idee 1: (v 1 CD v 2 ) Artist v 3 Ergibt zusätzlich: ^---PECH 1 2

55 Felix Naumann, VL Informationsintegration, WS 05/0655 Gebundene & Freie Variablen – Beispiel Idee 2: (((v 1 v 2 ) v 3 ) v 2 ) v 3 ) v 1 Ergibt zusätzlich: ^--- Glück, weil auch in v 1 !

56 Felix Naumann, VL Informationsintegration, WS 05/0656 Gebundene & Freie Variablen – Beispiel: Semantik Ziel: Maximale Antwort Annahme: Universal Relation mit globalen Attributen. Semantik: Relationale Algebra

57 Felix Naumann, VL Informationsintegration, WS 05/0657 Gebundene & Freie Variablen – Beispiel: Semantik Schon Schritt 1 macht eine Annahme. Schritte 2-5 überwinden nur Binding-Muster. Direkter Join über v 1 v 3 hätte gleiches Resultat. Wichtig deshalb: Data Lineage und Visualisierung

58 Felix Naumann, VL Informationsintegration, WS 05/0658 Literatur Wichtige Literatur [YLGU99] Ramana Yerneni, Chen Li, Hector Garcia-Molina, Jeffrey D. Ullman, Computing Capabilities of Mediators, SIGMOD 1999 Weitere Literatur [LC00] Chen Li, Edward Chang Query Planning with Limited Source Capabilities, ICDE 2000


Herunterladen ppt "Informationsintegration Heterogenität 27.10.2004 Felix Naumann."

Ähnliche Präsentationen


Google-Anzeigen