Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Christian Gebhardt Berlin,

Ähnliche Präsentationen


Präsentation zum Thema: "Christian Gebhardt Berlin,"—  Präsentation transkript:

1 Christian Gebhardt Berlin, 13.07.07
Semantic Gossiping

2 Übersicht Einführung Qualitätsmaße Gossiping Algorithmus Beispiel
Diskussion

3 Übersicht Einführung Qualitätsmaße Gossiping Algorithmus Beispiel
Diskussion

4 Overlay Netzwerke Einführung 13.07.2007
Overlay Netzwerk werden oberhalb der Transportschicht (Osi) aufgesetzt Knoten werden manuell oder selbst organisierend vernetzt physische Interface werden durch Virtuelle Schnittstellen ersetzt Abstraktion von tatsächlichen physischen Struktur zu logischer Struktur Einführung

5 Peer Data Management System
allgemein sind PDMS Netzwerk von Informationssystemen Bestandteile Mappings Peers P2 Mappings P1 P4 P3 Einführung

6 Peer Data Management System
Lokales Mapping Peer Schema Peers Lokale Datenquelle P2 S2 P1 S1 Aufgaben der Peers Anfragen stellen Anfragen planen Anfragen weiterleiten Anfrageergebnisse empfangen, transformieren und zurückreichen Peer Mapping P3 S3 Kommunikation findet nur entlang der Mapping Pfade statt für ein neues Peer muss mindesten ein Schemamapping hinzugefügt werden Einführung

7 Peer Data Management System
Mappings VORGESETZTER CHEF persID chefID anrede anrede telNr raumNr MITARBEITER mitarbeiter persFID name Schema Mappings auf heterogenen Schemata Man kann zum Beispiel 1:N Assoziation entweder mit Fremdschlüsseln ausdrücken oder das Attribut ins gleiche Tupel aufnehmen Wertkorrespondenzen -> Mappings -> Datentransformation persID Primary Key -> persFID Foreign KEy SELECT persID as chefID anrede as anrede null as raumNr null as mitarbeiter FROM VORGESETZTER UNION SELECT null as chefID null as anrede null as raumNr name as mitarbeiter FROM MITARBEITER Einführung

8 Peer Data Management System
Mappings VORGESETZTER CHEF persID chefID anrede anrede telNr raumNr MITARBEITER mitarbeiter persFID name SELECT persID as chefID anrede as anrede null as raumNr name as mitarbeiter FROM VORGESETZTER,MITARBEITER WHERE VORGESETZTER.persID = MITARBEITER.persFID Schema Mappings auf heterogenen Schemata Man kann zum Beispiel 1:N Assoziation entweder mit Fremdschlüsseln ausdrücken oder das Attribut ins gleiche Tupel aufnehmen Wertkorrespondenzen -> Mappings -> Datentransformation persID Primary Key -> persFID Foreign Key Mappings lassen sich manuell oder mit Hilfe von Tools erstellen (XQuery) Einführung

9 Peer Data Management System
PDMS vs. Sensornetzwerke Peers/Knoten können Daten auf Anfrage bereitstellen Peers beinhalten Daten- quellen oder integrieren diese Einzelne Knoten bekommen ihre Daten aus Sensoreinheit Peers können genannte Aufgaben bearbeiten Knoten können nur teilweise dieser Aufgaben bearbeiten es gibt nur paarweise Verknüpfung zwischen Peer Schemata Peer kann Anfragen plan Knoten nicht / Beide können Anfragen weiterleiten Stabile Netzwerk Struktur Einzelne Knoten können aus- fallen Es ist kein globales Wissen vorhanden Einführung

10 Semantic Gossiping Allgemein: Anfrage vom Benutzer an verteilte Daten
Peers propagieren Anfrage an die Peers zu denen es Schema-Mappings gibt ist es auch möglich sie an Peers zu schicken zu denen es keine Schema-Mappings gibt (durch Tansitivität ) diese berechnen Resultate und /oder schicken sie weiter ergibt sich ein Zyklus zurück zum anfragenden Peer, kann dieser zur Beurteilung der Resultat benutzt werden Benutzer muss nur sein eigenes Schema kennen es ergibt sich ein gerichteter Graph entlang der Mappings, der Zyklen enthalten kann es werden alle vorhandenen Mappings ausgeführt basierend auf existierenden Mappings und der Fähigkeit etwas über diese Mappings zu lernen Idee hinter Berwertung der Resultate: wie viel Semantik geht auf dem Weg verloren? wem kann ich trauen? Einführung

11 Zyklus Q anrede->- P2 P1 anrede->bezeichnung - P4
bezeichnung->titel titel->anrede P3 Chef Beispiel von vorhin liegt zugrunde bezeichnung->titel P4 titel->titel Einführung

12 Einführung Entstehender Informationsverlust bei Anfrage
Fehlende Mappings zu relevanten Peers Unvollständige Abbildung der Attribute Herausfiltern von Tupeln Qualitätsmaße für die Güte der Resultate erforderlich Unstimmigkeiten: falsche Attributmappings auf Schemaebene oder Verletzung von Constriants auf Datenebene Einführung

13 Übersicht Einführung Qualitätsmaße Gossiping Algorithmus Beispiel
Diskussion Qualitätsmaße

14 Qualitätsmaße Zyklen Mittel zur Bewertung
Messen der Qualität der Mappings Messen des Grades semantischer Übereinstimmung Wie wertvoll sind, die Daten, die uns verteiltes Informationssystem gibt Qualitätsmaße

15 Qualitätsmaße Folgende Anforderungen an Peers zur Unterstützung der Messungen nach Eingang einer Query entscheiden wohin die Query weitergeleitet wird nach Eingang von Resultaten analysieren der Resultate und anpassen der eigenen Kriterien und Erneuern der Sicht auf Semantisch Übereinstimmung Aufgrund von Kriterien Auf Schema und auf Datenebene Haben die Ergebnisse dazu beigetragen dem Netzwerk weniger zu vertrauen schrittweise Verbesserung des semantischen Übereinstimmung Qualitätsmaße

16 Qualitätsmaße Kriterien zur Bewertung der Übersetzungsqualität
wesentlich beziehen sich nur auf bearbeitete Anfrage und benötigte Übersetzung äußerlich beziehen sich auf den Grad der Übereinstimmung über einer Menge Peers und nach einer bestimmten Anzahl von Übersetzungen Es wird der Term syntaktische Gleichheit eingeführt Grad an Übersteinstimmung wird über Zyklus heraus gefunden Qualitätsmaße

17 Qualitätsmaße Peer erhält zurückgegebene Anfragen und Daten
bei Nicht-Übereinstimmung einige der Mappings aus Zyklus sind falsch auch eigenes Mapping bei Übereinstimmung es ist nicht klar ob diese aus der Verbesserung von Mapping Fehlern, die auf dem Weg passiert sind, resultiert Peer bekommt Daten und sollen diese nun anylisieren Falsches Attribute Mapping auf Schema Ebene oder Verletzung von Constraints auf Datenebene Qualitätsmaße

18 Qualitätsmaße Man benötigt also:
Analyse welche Quelle die höchste Fehler- Wahrscheinlichkeit besitzt Analyse bis zu welchem Umfang man eigenen Mappings trauen kann Entscheidung wie man diese bei späterem Routing benutzt Qualitätsmaße

19 Qualitätsmaße Bei Anwendung diese Kriterien auf die Attribute einer transformierten Query entsteht ein Feature Vector der die Ergebnisse der einzelnen Kriterien für jedes Attribut beinhaltet die Entscheidung, ob eine Query in Zukunft über Mapping-Link weitergeleitet wird oder nicht basiert auf diesem Vektor wenn alle Peers diesen Ansatz verfolgen erreicht das Netzwerk einen Zustand wo Anfragen nur noch zu Peers weiter geleitet werden die sie am besten verstehen und wo richtige Mappings zunehmend verstärkt werden Zustand wo eine semantisch global Übereinkunft der verschiedenen Schemata eingetreten ist Qualitätsmaße

20 Qualitätsmaße Peer p hält seine Datenbank DBp mit Schema Sp in der relationalen Tabelle R Peer kann sein Datenbank befragen Query q Ergebnisse q(DBp) Qualitätsmaße

21 Tp→p`(qp)(DBp`) = qp(qT(DBp`))
Qualitätsmaße seien p und p` benachbarte Peers Operator: Tp→p` transformiert für Query qT die Daten geordnet nach Schema Sp` in Daten, die nach Schema Sp geordnet sind Tp→p`(qp)(DBp`) = qp(qT(DBp`)) es gibt eine Verbindung zwischen den Knoten wenn es ein Mapping zwischen den Schemata gibt Übersetzungs- oder Mappingoperator Eigenschaft besagt, dass man die Query nun auf Daten aus der Datenbank des Peers p` anwenden kann

22 Qualitätsmaße Query qT hat die Eigenschaft: qT(DBp`) = πa(μf(DBp`))
mehrere Transformationen werden schritt- weise auf einzelne Query angewendet Tn-1→n(…T1 →2(q)…) = T1→2,…,n-1→n(q) Transformationen benutzen erst den Mapping Operator und danach eine Projektion auf den verbleibenden Attributen

23 Qualitätsmaße Query Message query(id,q,p,TT) mit id – Query identifier q – Query selbst p – Query Ursprung TT – Mapping Route Query kann schon transformiert sein

24 Qualitätsmaße Annahme: q = πap(σp(as)(μfa(DB))) mit
ap benutze Attribute der Projektion as benutze Attribute der Selektion fa Liste angewandter Mapping-Funktion Form der transformierte Anfrage T(q)(DB`) = πap(σp(as)(μfa(πa(μf(DB`))))) Formal Definitionen Selektion-Projektion-Mapping Anfrage Mapping Funktion Spezial Fall ist die Umbenennung von Attributen f List von Funktionen der Form A0 := F(A1,…,Ak) Spezialfall: A0 = A1 Qualitätsmaße

25 Syntaktische Gleichheit
nicht alle Attribute in as erhalten bestimmte Eigenschaften, die durch diese Attribute ausgedrückt wurden, können nicht mehr bewertet werden Feature Vector FVσ(T1→,…,→n(q)) = (fvσA1,…, fvσAk) nach Transformation Qualitätsmaße

26 Syntaktische Gleichheit
sei W Vektor von Gewichten der Attribute Syntaktische Gleichheit (σ) Sσ(q,(T1→,…,→n(q)) = W•FVσ W • FVσ W hält werte für Wichtigkeit der Attribute 1 wenn Queries identisch geht gegen 0 um so mehr Attribute verloren gehen 0 wenn alle weg sind Qualitätsmaße

27 Syntaktische Gleichheit
nicht alle Attribute in ap erhalten dadurch sind manche Ergebnisse fehlerhaft oder unvollständig Feature Vector (π) FVπ (T1→,…,→n(q)) = (fvπA1,…, fvπAk) nach Transformation wenn bei einer Projektion z.B. Schlüsselattribute verloren gehen Qualitätsmaße

28 Syntaktische Gleichheit
Syntaktische Gleichheit (π) Sπ (q,(T1→,…,→n(q)) = W•FVπ W • FVπ W hält werte für Wichtigkeit der Attribute Qualitätsmaße

29 Semantische Übereinstimmung
Für eine gegebene Transformation T ist der sourceT(A) definiert als sourceT(A) = {A1,…,Ak}, falls ein F ℮ fa existiert mit A:=F(A1,…,Ak) , sonst Qualitätsmaße

30 Semantische Übereinstimmung
Unterscheidung zwischen semantischer Übereinstimmung entlang eines Kreises und semantischer Übereinstimmung beim Betreten fremder Domäns Qulitätsmaße

31 Semantische Übereinstimmung
entlang eines Zyklus Ausgangs Peer ist wieder erreicht dieses analysiert nun und stellt fest Fall 1 sourceT (Ai) = {Ai} Fall 2 sourceT (Ai) = { } Fall 3 sourceT (Ai) = {Aj} wo i≠j 1→…→n 1→…→n 1→…→n Qualitätsmaße

32 Semantische Übereinstimmung
FVC (Tk→j(q)) = (fvCA1,…, fvCAk) Qualitätsmaße

33 Gossiping Algorithmus
Übersicht Einführung Qualitätsmaße Gossiping Algorithmus Beispiel Diskussion Gossiping Algorithmus

34 Gossiping Algorithmus
für die Definition des Algorithmus haben wir 4 Maße für die Berechnung der Verluste zusätzlich: Vektor W von Gewichten der Attribute sel entsprechende Selektivitäten Smin Wert der minimalen Gleichheit Maße helfen bei der Entscheidung, ob ein Query wert ist weitergeleitet zu werden W Gewichte der Attribute in der Query Selektivität der Attribute Minimale Gleichheit um einen Maße zu haben wann Queries es nicht mehr wert sind weiter geschickt zu werden Gossiping Algorithmus

35 Gossiping Algorithmus
Neue Query Message: query(id,q,p,TT,W,sel,Smin,FVσ,FVπ,FVC,FVH) Paket, die durch das Netzwerk transportiert werden Gossiping Algorithmus

36 Gossiping Algorithmus
auf Zyklus überprüfen Test ob Query schon empfangen wurde Anfrage-Ergebnisse berechnen Aufgaben des Peer wenn so eine Message eintrifft Wenn Gleichheit größer als Smin dann 1 sonst 0 Gossiping Algorithmus

37 Gossiping Algorithmus
Mapping auf Anfrage anwenden Maße für Transformation anpassen Feature Vektoren für Gleichheit testen Weiterleiten der Query, falls alle Feature Vektoren 1 Der Algorithmus hat die Eigenschaften, dass er ein ausreichende Anzahl von Peers mit Queries beliefert und ordentliches Feedback liefert ohne das Netz zu überfluten Gossiping Algorithmus

38 Übersicht Einführung Qualitätsmaße Gossiping Algorithmus Beispiel
Diskussion

39 Beispiel

40 Beispiel Q A C B E F D G titel→name titel→ - - titel→titel titel→titel
name→description/name titel→name B E F titel→titel titel→acronym D name→titel name→titel verschieden Domänen mit unterschiedlichen Schemen titel→name G titel→description/name name→name titel→description/name Beispiel

41 Beispiel A,B,D,E,A + - A,B,D,E,F,A A,B,E,A A,B,E,F,A A,B,F,A A,D,E,A
Cycle TpA-pC fehlerbehaftet TpB-pD fehlerbehaftet A,B,D,E,A + - A,B,D,E,F,A A,B,E,A A,B,E,F,A A,B,F,A A,D,E,A A,D,E,B,F,A A,D,E,F,A Beispiel

42 Übersicht Einführung Qualitätsmaße Gossiping Algorithmus Beispiel
Diskussion

43 Diskussion Kritik: Beispiel umfasst nur ein Attribut was gemappt wird
semantische Gleichheit bei Zyklen hängt nur von den einzelnen Wahrscheinlichkeit für die Attribute ab und nicht von der Query Keine Aussage über große Datenmengen oder wie sich der Algorithmus bei sehr vielen Knoten verhält


Herunterladen ppt "Christian Gebhardt Berlin,"

Ähnliche Präsentationen


Google-Anzeigen