Informationsintegration Schema Matching 10.1.2006 Felix Naumann.

Slides:



Advertisements
Ähnliche Präsentationen
Transregio 33 The Dark Universe Heidelberg-Bonn-Munich
Advertisements

Algorithmentheorie 08 – Dynamische Programmierung (4) Editierdistanz Approximative Zeichenkettensuche Sequence Alignment Prof. Dr. Th. Ottmann WS
Routing – Routing Protokolle
Inhalt Saarbrücken,.
Informationsintegration Local-as-View: LaV
Informationsintegration Der Bucket-Algorithmus Felix Naumann.
Informationsintegration Dynamische Programmierung
Informationsintegration Global-as-View: GaV
Informationsintegration Containment und Local-as-View Anfragebearbeitung Felix Naumann.
Informationsintegration SchemaSQL Felix Naumann.
Einjährige Berufsfachschule Technik der Fachrichtung Elektrotechnik
Die Schulregeln (the school rules) Kein Graffiti in der Schule!
Herzlich Willkommen zum Informations-Forum: SAP Interoperabilität
Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.
Genetische Algorithmen für die Variogrammanpassung
Art der Arbeit (Projekt-/Studien-/Diplomarbeit/
Write two sentences about each person based on the information given.
On a Buzzword: Hierachical Structure David Parnas.
Übersicht DIALIGN = DIagonal ALIGNment
Hands On – Einführung in XML
Traumazentrierte Psychotherapie der chronifizierten, komplexen PTBS vom Phänotyp der Borderline-Persönlichkeitsstörung (Luise Reddemann, Ulrich Sachsse)
Bäume als Datenmodelle
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (17 – Bäume: Grundlagen und natürliche Suchbäume) Prof. Th. Ottmann.
SQL/XML. © Prof. T. Kudraß, HTWK Leipzig 2 2 Motivation Speicherung von XML in allen großen kommerziellen DBMS vorhanden proprietäre Lösungen für die.
SQL 2 Order by null Aggregatfunktionen group by Join subselect.
Informationsintegration Architekturen
Informationsintegration Anwendungsszenarien
Informationsintegration Schema Mapping
Informationsintegration Materialisierte vs. Virtuelle Integration
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Erhard Künzel für Info 9. Klasse: digitale-schule-bayern.de © Erhard Künzel.
Don`t make me think! A Common Sense Approach to Web Usability
03/02/061 Methoden und Erfahrungen beim Zeichnen von genauen OL-Karten Orest Kotylo.
Institut AIFB, Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Towards Automatic Composition of Processes based on Semantic.
Automatic composition of UI mashups Vortrag zum Seminar Webengineering 2011 Michael Reißner.
You need to use your mouse to see this presentation © Heidi Behrens.
You need to use your mouse to see this presentation © Heidi Behrens.
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation I Vorlesung 12 WS 2000/2001 Gerhard Gröger Modellierung mit Geodatabases.
Social network analysis Maike Streit HKI II; SoSe 2010.
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
You need to use your mouse to see this presentation © Heidi Behrens.
Shape Similarity 27. Februar 2006 Michael Keller.
Datenbanksysteme für hörer anderer Fachrichtungen
Einführung in Datenbankmodellierung und SQL
1 von 7 ViS:AT BMUKK, IT – Systeme für Unterrichtszwecke 05/11 EZ, CR Social Networks – Soziale Netzwerke Virtuelle Science Cafes & Diskussionsforen für.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Universität StuttgartInstitut für Wasserbau, Lehrstuhl für Hydrologie und Geohydrologie Copulas (1) András Bárdossy IWS Universität Stuttgart.
GERMAN 1013 Kapitel 2 2. Die Familie die Großeltern die Eltern die Kinder die Geschwister die Enkel der Großvater der Vater der Sohn der Bruder die Großmutter.
1 XCDL eXtensible Characterisation Description Language Von Maike Wosnitza.
Coordinating Conjunctions Why we need them & how to use them deutschdrang.com.
Vergleich von RNA Strukturen A General Edit Distance between RNA Structures von Sebastian Juenemann.
Synchronization: Multiversion Concurrency Control
How to pronounce the letter
Stephanie Müller, Rechtswissenschaftliches Institut, Universität Zürich, Rämistrasse 74/17, 8001 Zürich, Criminal liability.
Literary Machines, zusammengestellt für ::COLLABOR:: von H. Mittendorfer Literary MACHINES 1980 bis 1987, by Theodor Holm NELSON ISBN
Stabile Hochzeiten, Zuweisungsspiele und beides gleichzeitig
COMMANDS imperative 1. you (formal): Sie 2. you (familiar plural): ihr
Magnetenzephalogramm, MEG
Du lernst: Identify technology and media vocabulary Phrases to compare and contrast Creating sentences to compare and contrast Arbeitsblätter zurück –
Fakultät für Gesundheitswissenschaften Gesundheitsökonomie und Gesundheitsmanagement Universität Bielefeld WP 3.1 and WP 4.1: Macrocost.
Kapitel 7 Grammar INDEX 1.Comparison 2.Adjectives 3.Adjective Endings Following Ein-Words.
Komparativ und Superlativ German 2. zum Beispiel … Ein VW ist schnell. Ein BMW ist schneller. Ein Porsche ist am Schnellsten. There are 2 levels of comparison:
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Indico Meeting Dennis Klein 4. August Übersicht  Korrespondenz CERN  Trouble Ticket Queue  Integration GSI-Accounts  Subversion & Wiki  Todo.
DOAG SID Data Warehouse
Volume 1, Chapter 2.
Aspect-Oriented Programming: Fad or the Future
 Präsentation transkript:

Informationsintegration Schema Matching Felix Naumann

Felix Naumann, VL Informationsintegration, WS 05/062 Überblick Klassifikation von Schema Matching Methoden [RB01] Label-basiert Instanz-basiert Struktur-basiert Mischformen Globales Matching Stable Marriage

Felix Naumann, VL Informationsintegration, WS 05/063 Wdh: Schema Mapping im Kontext 1. Schema Matching & Korrespondenzen 2. Schema Mapping 3. Mapping Interpretation 4. Daten- transformation

Felix Naumann, VL Informationsintegration, WS 05/064 Schema Matching – Motivation Große Schemas > 100 Tabellen, viele Attribute Bildschirm nicht lang genug Unübersichtliche Schemas Tiefe Schachtelungen Fremdschlüssel Bildschirm nicht breit genug XML Schema Fremde Schemas Unbekannte Synonyme Irreführende Schemas Unbekannte Homonyme Fremdsprachliche Schemas Kryptische Schemas |Attributnamen| 8 Zeichen |Tabellennamen| 8 Zeichen

Felix Naumann, VL Informationsintegration, WS 05/065 Man beachte die Scrollbar! Man beachte die Schachtelungstiefe!

Felix Naumann, VL Informationsintegration, WS 05/066 Schema Matching – Motivation Die Folgen Falsche Korrespondenzen (false positives) Fehlende Korrespondenzen (false negatives) Frustration User verlieren sich im Schema User verstehen Semantik der Schemas nicht

Felix Naumann, VL Informationsintegration, WS 05/067 Schema Matching Klassifikation nach [RB01]

Felix Naumann, VL Informationsintegration, WS 05/068 Schema Matching Klassifikation Schema Matching basierend auf Namen der Schemaelemente (label-based) Darunterliegende Daten (instance-based) Struktur des Schemas (structure-based) Mischformen

Felix Naumann, VL Informationsintegration, WS 05/069 Schema Matching – Label- based Gegeben zwei Schemata mit Attributmengen A und B Kernidee: Bilde Kreuzprodukt aller Attribute aus A und B. Für jedes Paar vergleiche Ähnlichkeit bezgl. Attributnamen (Label). Z.B. Edit-distance Ähnlichste Paare sind Matches Probleme: Effizienz Auswahl der besten Matches (globales Matching) Iterativ? Stable Marriage? Synonyme und Homonyme werden nicht erkannt

Felix Naumann, VL Informationsintegration, WS 05/0610 Schema Matching – Label- based Stand der Technik in kommerziellen Produkten Label-based Namensgleichheit Kein globales Matching Keine Ähnlichkeitsmaße Kein Instanz-basiertes Matching

Felix Naumann, VL Informationsintegration, WS 05/0611 Schema Matching – Instance- based Gegeben zwei Schemata mit Attributmengen A und B, jeweils mit darunterliegenden Daten. Kernidee Für jedes Attribute extrahiere interessante Eigenschaften der Daten Buchstabenverteilung, Länge, etc. Bilde Kreuzprodukt aller Attribute aus A und B. Für jedes Paar vergleiche Ähnlichkeit bzgl. der Eigenschaften Probleme Auswahl der Eigenschaften Datenmenge: Sampling Vergleichsmethode, z.B. Naive Bayes Gewichtung (Maschinelles Lernen)

Felix Naumann, VL Informationsintegration, WS 05/0612 Instance-based Schema Matching Instance-based Schema Matching: Correspondences based on similar data values or their properties Conventional solution: Vertical Comparison of columns = Attribute classification [ICDE02] Our solution: Horizontal Comparison of rows = Duplicate detection (despite missing attribute correspondences) [ICDE05]

Felix Naumann, VL Informationsintegration, WS 05/0613 Duplicate-driven Schema Matching ABCDE MaxMichelm BFEG Michelmaxm UNIX... Temporary matching AB BF CE DG E ? ?

Felix Naumann, VL Informationsintegration, WS 05/0614 Duplicate-driven Schema Matching ABCDE MaxMichelm SamAdamsm BFEG Michelmaxm UNIX Adamsbeer WinXP Temporary matching AB BF CE DG E ? ? ? ? Assumptions There is data in both DBs. There are (at least a few) duplicates in both DBs. Equal or similar values reflect same semantics of attributes.

Felix Naumann, VL Informationsintegration, WS 05/0615 Duplicate-driven Schema Matching 1. Duplicate detection Goal: Find the top-k duplicates. Problems Correspondences unknown Possibly small intensional overlap 2. Schema Matching Goal: Derive attribute correspondences from attribute values. Problems Attribute values only similar, not equal Synonyms and homonyms in values

Felix Naumann, VL Informationsintegration, WS 05/0616 Duplicate Detection in Unaligned Tables Cosine measure with TFIDF weights Tuple as vector of term weights Term weights is high if term appears often in tuple (TF) and it appears in only few tuples (IDF). Tuple similarity is the cosine of the angle of both (normalized) vectors Max 601 : : : 123Max Max Michel601-

Felix Naumann, VL Informationsintegration, WS 05/0617 Schema Matching Given the top K duplicates. Find a (global) matching I.e., each attribute has 0 or 1 correspondence. Temporary matching AB BF CE DG E Formalized by similarity matrix ABCDE B F E G Average SoftTFIDF

Felix Naumann, VL Informationsintegration, WS 05/ Schema Matching – Similarity Measure Fieldwise Comparison Compare attribute values of record pairs. Similarity measure: Edit-distance vs. SoftTFIDF Edit distance Minimal number of edit operations (substitute, insert, delete); several variations exist SoftTFIDF Soft variation of TFIDF that also considers similar terms

Felix Naumann, VL Informationsintegration, WS 05/0619 Graph Matching Given: Similarity matrix = weighted bipartite graph Find: Maximal weight matching Alternative: Matching with stable marriage property Outlook Produce mappings and not just correspondences E F G B EDCBA

Felix Naumann, VL Informationsintegration, WS 05/0620 Schema Matching – Structure- based Gegeben zwei Schemata mit Elementmengen A und B. Kernidee Nutze (komplexe) Struktur des Schemas aus. Hierarchieebene Elementtyp (Attribut, Relation,...) Nachbarschaftsbeziehungen

Felix Naumann, VL Informationsintegration, WS 05/0621 Schema Matching – Structure- based Beispiel: Similarity Flooding nach [MGMR02] Gegeben initiale Ähnlichkeit zwischen Schemaelementen (z.B. durch edit- distance oder durch Analyse der darunterliegenden Daten) Lasse Ähnlichkeiten abfärben auf die Nachbarn Nachbarn sind durch Struktur definiert Sind alle Nachbarn von x und y ähnlich zueinander, sind (vielleicht) auch x und y ein match. Analogie: Man flutet das Netzwerk der Ähnlichkeiten bis ein Gleichgewicht erreicht ist.

Felix Naumann, VL Informationsintegration, WS 05/0622 Schema Matching – Mischformen Hybrid Gleichzeitige Anwendung mehrerer Techniken Bsp: Instance-based + Datentypvergleich Composite Repertoire bekannter Techniken (inkl. hybrider Techniken) Kombination dieser unabhängigen Verfahren Bsp: Durch Gewichtung Bsp: Durch automatisches Lernen Des besten Verfahrens Einer guten Gewichtung

Felix Naumann, VL Informationsintegration, WS 05/0623 Schema Matching in Clio

Felix Naumann, VL Informationsintegration, WS 05/0624 Schema Matching – Weitere Anwendungen Herkömmlich: Korrespondenzen finden Schlüssel – Fremdschlüssel finden Ähnliche Attribute innerhalb eines Schemas sind gute Kandidaten Höher-stufige Korrespondenzen finden Ähnlichkeiten von Tabellen durch Aggregation der Matches ihrer Attribute

Felix Naumann, VL Informationsintegration, WS 05/0625 Schema Matching – Erweiterungen 1:n, n:1 matches Vorname, Nachname Name Viele Kombinationsmöglichkeiten Viele Funktionen denkbar: Mathematische Operatoren, Konkatenation, etc. Name Vorname, Nachname Viele Kombinationsmöglichkeiten Parsingregeln finden! Global matching Matche nicht nur einzelne Attribute (oder Attributmengen) Sondern komplette Tabellen oder komplette Schemata Stable Marriage Problem

Felix Naumann, VL Informationsintegration, WS 05/0626 Schema Matching – Erweiterungen n:1 und 1:n Matches Viele Kombinationsmöglichkeiten Viele Funktionen denkbar Parsingregeln Matching in komplexen Schemata Ziel: Finde Mapping, nicht Korrespondenzen Globales Matching Matche Tabellen und Schemata, nicht nur Attribute Stable Marriage bzw. Maximum Weighted Matching Vorname Name Nachname Vorname Name Nachname A C B D

Felix Naumann, VL Informationsintegration, WS 05/0627 Überblick Klassifikation von Schema Matching Methoden [RB01] Label-basiert Instanz-basiert Struktur-basiert Mischformen Globales Matching Stable Marriage

Felix Naumann, VL Informationsintegration, WS 05/0628 Schema Matching – Stable Marriage Gegeben n Frauen (Attribute in Schema A) und m Männer (Attribute in Schema B) Monogamie Je eine Frau kann nur mit je einem Mann verheiratet sein (nur 1:1 matches) Jede Frau hat eine Rangliste der Männer und umgekehrt Bei Schema Matching Attribut-Ähnlichkeit gemäß eines der vorigen Verfahren Rangliste ist (normalerweise) symmetrisch Gesucht: Paarung (globales Matching), so dass niemals gilt f 1 heiratet m 1, f 2 heiratet m 2, aber f 1 bevorzugt m 2 und m 2 bevorzugt f 1 (Instabil!)

Felix Naumann, VL Informationsintegration, WS 05/0629 Stable Marriage – Beispiel Männer (1-4)Frauen (A-D) 1: B, D, A, CA: 2, 1, 4, 3 2: C, A, D, BB: 4, 3, 1, 2 3: B, C, A, DC: 1, 4, 3, 2 4: D, A, C, BD: 2, 1, 4, 3 Beispiel aus: David Toth, "The Stable Marriage Problem: More Marital Happiness than Reality TV" April 25, 2003, Connecticut College, New London, CT, USA,

Felix Naumann, VL Informationsintegration, WS 05/0630 Stable Marriage – Beispiel Männer (1-4)Frauen (A-D) 1: B, D, A, CA: 2, 1, 4, 3 2: C, A, D, BB: 4, 3, 1, 2 3: B, C, A, DC: 1, 4, 3, 2 4: D, A, C, BD: 2, 1, 4, 3 1 stellt Antrag an B, sie willigt ein: (1, B)

Felix Naumann, VL Informationsintegration, WS 05/0631 Stable Marriage – Beispiel Männer (1-4)Frauen (A-D) 1: B, D, A, CA: 2, 1, 4, 3 2: C, A, D, BB: 4, 3, 1, 2 3: B, C, A, DC: 1, 4, 3, 2 4: D, A, C, BD: 2, 1, 4, 3 1 stellt Antrag an B, sie willigt ein: (1, B) 2 stellt Antrag an C, sie willigt ein: (1, B) (2, C)

Felix Naumann, VL Informationsintegration, WS 05/0632 Stable Marriage – Beispiel Männer (1-4)Frauen (A-D) 1: B, D, A, CA: 2, 1, 4, 3 2: C, A, D, BB: 4, 3, 1, 2 3: B, C, A, DC: 1, 4, 3, 2 4: D, A, C, BD: 2, 1, 4, 3 1 stellt Antrag an B, sie willigt ein: (1, B) 2 stellt Antrag an C, sie willigt ein: (1, B) (2, C) 3 stellt Antrag an B, sie willigt ein & verlässt 1: (2, C) (3, B)

Felix Naumann, VL Informationsintegration, WS 05/0633 Stable Marriage – Beispiel Männer (1-4) Frauen (A-D) 1: B, D, A, CA: 2, 1, 4, 3 2: C, A, D, BB: 4, 3, 1, 2 3: B, C, A, DC: 1, 4, 3, 2 4: D, A, C, BD: 2, 1, 4, 3 1 stellt Antrag an B, sie willigt ein : (1, B) 2 stellt Antrag an C, sie willigt ein : (1, B) (2, C) 3 stellt Antrag an B, sie willigt ein & verlässt 1: (2, C) (3, B) 1 stellt Antrag an D, sie willigt ein : (1, D) (2, C) (3, B)

Felix Naumann, VL Informationsintegration, WS 05/0634 Stable Marriage – Beispiel Männer (1-4) Frauen (A-D) 1: B, D, A, CA: 2, 1, 4, 3 2: C, A, D, BB: 4, 3, 1, 2 3: B, C, A, DC: 1, 4, 3, 2 4: D, A, C, BD: 2, 1, 4, 3 1 stellt Antrag an B, sie willigt ein : (1, B) 2 stellt Antrag an C, sie willigt ein : (1, B) (2, C) 3 stellt Antrag an B, sie willigt ein & verlässt 1: (2, C) (3, B) 1 stellt Antrag an D, sie willigt ein : (1, D) (2, C) (3, B) 4 stellt Antrag an D, sie lehnt ab : (1, D) (2, C) (3, B)

Felix Naumann, VL Informationsintegration, WS 05/0635 Stable Marriage – Beispiel Männer (1-4) Frauen (A-D) 1: B, D, A, CA: 2, 1, 4, 3 2: C, A, D, BB: 4, 3, 1, 2 3: B, C, A, DC: 1, 4, 3, 2 4: D, A, C, BD: 2, 1, 4, 3 1 stellt Antrag an B, sie willigt ein : (1, B) 2 stellt Antrag an C, sie willigt ein : (1, B) (2, C) 3 stellt Antrag an B, sie willigt ein & verlässt 1: (2, C) (3, B) 1 stellt Antrag an D, sie willigt ein : (1, D) (2, C) (3, B) 4 stellt Antrag an D, sie lehnt ab: (1, D) (2, C) (3, B) 4 stellt Antrag an A, sie willigt ein : (1, D) (2, C) (3, B) (4, A)

Felix Naumann, VL Informationsintegration, WS 05/0636 Maximum Weighted Matching Alternative zu Stable Marriage Suche matching mit maximalem Gewicht in bipartiten Graphen Bipartit: Knoten in zwei Klassen (Quelle & Ziel) Kanten nur zwischen Knoten verschiedener Klassen (Korrespondenzen) Maximiere Summe der einzelnen Gewichte/Ähnlichkeiten

Felix Naumann, VL Informationsintegration, WS 05/0637 Diskussion: Globales Matching Personal Name Telefon Alter Adresse Gehalt Person Name Street ID Age Phone Kinderzahl

Felix Naumann, VL Informationsintegration, WS 05/0638 Diskussion: Globales Matching Personal Name Telefon Alter Adresse Gehalt Produkt Name Bezeichnung ID Gewicht Volumen Lagermenge

Felix Naumann, VL Informationsintegration, WS 05/0639 Zusammenfassung Schema Matching basierend auf Namen der Schemaelemente (label-based) Darunterliegende Daten (instance-based) Struktur des Schemas (structure-based) Mischformen, Meta-Matcher Globales Matching

Felix Naumann, VL Informationsintegration, WS 05/0640 Literatur Artikel mit der Klassifikation: [RB01] Erhard Rahm and Philip Bernstein, A survey of approaches to automatic schema matching, VLDB Journal 10(4), Spezielle Algorithmen [MGMR02] Sergey Melnik, Hector Garcia-Molina, Erhard Rahm: Similarity Flooding: A Versatile Graph Matching Algorithm and Its Application to Schema Matching. ICDE 2002: Hector Garcia-MolinaErhard RahmICDE 2002 [MH03] Jayant Madhavan, Alon Y. Halevy: Composing Mappings Among Data Sources. VLDB 2003: Alon Y. HalevyVLDB 2003 uvm.