Christian Gebhardt Berlin,

Christian Gebhardt Berlin, 13.07.07
Semantic Gossiping

Übersicht Einführung Qualitätsmaße Gossiping Algorithmus Beispiel
Diskussion

Overlay Netzwerke Einführung 13.07.2007
Overlay Netzwerk werden oberhalb der Transportschicht (Osi) aufgesetzt Knoten werden manuell oder selbst organisierend vernetzt physische Interface werden durch Virtuelle Schnittstellen ersetzt Abstraktion von tatsächlichen physischen Struktur zu logischer Struktur Einführung

Peer Data Management System
allgemein sind PDMS Netzwerk von Informationssystemen Bestandteile Mappings Peers P2 Mappings P1 P4 P3 Einführung

Lokales Mapping Peer Schema Peers Lokale Datenquelle P2 S2 P1 S1 Aufgaben der Peers Anfragen stellen Anfragen planen Anfragen weiterleiten Anfrageergebnisse empfangen, transformieren und zurückreichen Peer Mapping P3 S3 Kommunikation findet nur entlang der Mapping Pfade statt für ein neues Peer muss mindesten ein Schemamapping hinzugefügt werden Einführung

Mappings VORGESETZTER CHEF persID chefID anrede anrede telNr raumNr MITARBEITER mitarbeiter persFID name Schema Mappings auf heterogenen Schemata Man kann zum Beispiel 1:N Assoziation entweder mit Fremdschlüsseln ausdrücken oder das Attribut ins gleiche Tupel aufnehmen Wertkorrespondenzen -> Mappings -> Datentransformation persID Primary Key -> persFID Foreign KEy SELECT persID as chefID anrede as anrede null as raumNr null as mitarbeiter FROM VORGESETZTER UNION SELECT null as chefID null as anrede null as raumNr name as mitarbeiter FROM MITARBEITER Einführung

Mappings VORGESETZTER CHEF persID chefID anrede anrede telNr raumNr MITARBEITER mitarbeiter persFID name SELECT persID as chefID anrede as anrede null as raumNr name as mitarbeiter FROM VORGESETZTER,MITARBEITER WHERE VORGESETZTER.persID = MITARBEITER.persFID Schema Mappings auf heterogenen Schemata Man kann zum Beispiel 1:N Assoziation entweder mit Fremdschlüsseln ausdrücken oder das Attribut ins gleiche Tupel aufnehmen Wertkorrespondenzen -> Mappings -> Datentransformation persID Primary Key -> persFID Foreign Key Mappings lassen sich manuell oder mit Hilfe von Tools erstellen (XQuery) Einführung

PDMS vs. Sensornetzwerke Peers/Knoten können Daten auf Anfrage bereitstellen Peers beinhalten Daten- quellen oder integrieren diese Einzelne Knoten bekommen ihre Daten aus Sensoreinheit Peers können genannte Aufgaben bearbeiten Knoten können nur teilweise dieser Aufgaben bearbeiten es gibt nur paarweise Verknüpfung zwischen Peer Schemata Peer kann Anfragen plan Knoten nicht / Beide können Anfragen weiterleiten Stabile Netzwerk Struktur Einzelne Knoten können aus- fallen Es ist kein globales Wissen vorhanden Einführung

Semantic Gossiping Allgemein: Anfrage vom Benutzer an verteilte Daten
Peers propagieren Anfrage an die Peers zu denen es Schema-Mappings gibt ist es auch möglich sie an Peers zu schicken zu denen es keine Schema-Mappings gibt (durch Tansitivität ) diese berechnen Resultate und /oder schicken sie weiter ergibt sich ein Zyklus zurück zum anfragenden Peer, kann dieser zur Beurteilung der Resultat benutzt werden Benutzer muss nur sein eigenes Schema kennen es ergibt sich ein gerichteter Graph entlang der Mappings, der Zyklen enthalten kann es werden alle vorhandenen Mappings ausgeführt basierend auf existierenden Mappings und der Fähigkeit etwas über diese Mappings zu lernen Idee hinter Berwertung der Resultate: wie viel Semantik geht auf dem Weg verloren? wem kann ich trauen? Einführung

Zyklus Q anrede->- P2 P1 anrede->bezeichnung - P4
bezeichnung->titel titel->anrede P3 Chef Beispiel von vorhin liegt zugrunde bezeichnung->titel P4 titel->titel Einführung

Einführung Entstehender Informationsverlust bei Anfrage
Fehlende Mappings zu relevanten Peers Unvollständige Abbildung der Attribute Herausfiltern von Tupeln Qualitätsmaße für die Güte der Resultate erforderlich Unstimmigkeiten: falsche Attributmappings auf Schemaebene oder Verletzung von Constriants auf Datenebene Einführung

Diskussion Qualitätsmaße

Qualitätsmaße Zyklen Mittel zur Bewertung
Messen der Qualität der Mappings Messen des Grades semantischer Übereinstimmung Wie wertvoll sind, die Daten, die uns verteiltes Informationssystem gibt Qualitätsmaße

Qualitätsmaße Folgende Anforderungen an Peers zur Unterstützung der Messungen nach Eingang einer Query entscheiden wohin die Query weitergeleitet wird nach Eingang von Resultaten analysieren der Resultate und anpassen der eigenen Kriterien und Erneuern der Sicht auf Semantisch Übereinstimmung Aufgrund von Kriterien Auf Schema und auf Datenebene Haben die Ergebnisse dazu beigetragen dem Netzwerk weniger zu vertrauen schrittweise Verbesserung des semantischen Übereinstimmung Qualitätsmaße

Qualitätsmaße Kriterien zur Bewertung der Übersetzungsqualität
wesentlich beziehen sich nur auf bearbeitete Anfrage und benötigte Übersetzung äußerlich beziehen sich auf den Grad der Übereinstimmung über einer Menge Peers und nach einer bestimmten Anzahl von Übersetzungen Es wird der Term syntaktische Gleichheit eingeführt Grad an Übersteinstimmung wird über Zyklus heraus gefunden Qualitätsmaße

Qualitätsmaße Peer erhält zurückgegebene Anfragen und Daten
bei Nicht-Übereinstimmung einige der Mappings aus Zyklus sind falsch auch eigenes Mapping bei Übereinstimmung es ist nicht klar ob diese aus der Verbesserung von Mapping Fehlern, die auf dem Weg passiert sind, resultiert Peer bekommt Daten und sollen diese nun anylisieren Falsches Attribute Mapping auf Schema Ebene oder Verletzung von Constraints auf Datenebene Qualitätsmaße

Qualitätsmaße Man benötigt also:
Analyse welche Quelle die höchste Fehler- Wahrscheinlichkeit besitzt Analyse bis zu welchem Umfang man eigenen Mappings trauen kann Entscheidung wie man diese bei späterem Routing benutzt Qualitätsmaße

Qualitätsmaße Bei Anwendung diese Kriterien auf die Attribute einer transformierten Query entsteht ein Feature Vector der die Ergebnisse der einzelnen Kriterien für jedes Attribut beinhaltet die Entscheidung, ob eine Query in Zukunft über Mapping-Link weitergeleitet wird oder nicht basiert auf diesem Vektor wenn alle Peers diesen Ansatz verfolgen erreicht das Netzwerk einen Zustand wo Anfragen nur noch zu Peers weiter geleitet werden die sie am besten verstehen und wo richtige Mappings zunehmend verstärkt werden Zustand wo eine semantisch global Übereinkunft der verschiedenen Schemata eingetreten ist Qualitätsmaße

Qualitätsmaße Peer p hält seine Datenbank DBp mit Schema Sp in der relationalen Tabelle R Peer kann sein Datenbank befragen Query q Ergebnisse q(DBp) Qualitätsmaße

Tp→p`(qp)(DBp`) = qp(qT(DBp`))
Qualitätsmaße seien p und p` benachbarte Peers Operator: Tp→p` transformiert für Query qT die Daten geordnet nach Schema Sp` in Daten, die nach Schema Sp geordnet sind Tp→p`(qp)(DBp`) = qp(qT(DBp`)) es gibt eine Verbindung zwischen den Knoten wenn es ein Mapping zwischen den Schemata gibt Übersetzungs- oder Mappingoperator Eigenschaft besagt, dass man die Query nun auf Daten aus der Datenbank des Peers p` anwenden kann

Qualitätsmaße Query qT hat die Eigenschaft: qT(DBp`) = πa(μf(DBp`))
mehrere Transformationen werden schrittweise auf einzelne Query angewendet Tn-1→n(…T1 →2(q)…) = T1→2,…,n-1→n(q) Transformationen benutzen erst den Mapping Operator und danach eine Projektion auf den verbleibenden Attributen

Qualitätsmaße Query Message query(id,q,p,TT) mit id – Query identifier q – Query selbst p – Query Ursprung TT – Mapping Route Query kann schon transformiert sein

Qualitätsmaße Annahme: q = πap(σp(as)(μfa(DB))) mit
ap benutze Attribute der Projektion as benutze Attribute der Selektion fa Liste angewandter Mapping-Funktion Form der transformierte Anfrage T(q)(DB`) = πap(σp(as)(μfa(πa(μf(DB`))))) Formal Definitionen Selektion-Projektion-Mapping Anfrage Mapping Funktion Spezial Fall ist die Umbenennung von Attributen f List von Funktionen der Form A0 := F(A1,…,Ak) Spezialfall: A0 = A1 Qualitätsmaße

Syntaktische Gleichheit
nicht alle Attribute in as erhalten bestimmte Eigenschaften, die durch diese Attribute ausgedrückt wurden, können nicht mehr bewertet werden Feature Vector FVσ(T1→,…,→n(q)) = (fvσA1,…, fvσAk) nach Transformation Qualitätsmaße

sei W Vektor von Gewichten der Attribute Syntaktische Gleichheit (σ) Sσ(q,(T1→,…,→n(q)) = W•FVσ W • FVσ W hält werte für Wichtigkeit der Attribute 1 wenn Queries identisch geht gegen 0 um so mehr Attribute verloren gehen 0 wenn alle weg sind Qualitätsmaße

nicht alle Attribute in ap erhalten dadurch sind manche Ergebnisse fehlerhaft oder unvollständig Feature Vector (π) FVπ (T1→,…,→n(q)) = (fvπA1,…, fvπAk) nach Transformation wenn bei einer Projektion z.B. Schlüsselattribute verloren gehen Qualitätsmaße

Syntaktische Gleichheit (π) Sπ (q,(T1→,…,→n(q)) = W•FVπ W • FVπ W hält werte für Wichtigkeit der Attribute Qualitätsmaße

Semantische Übereinstimmung
Für eine gegebene Transformation T ist der sourceT(A) definiert als sourceT(A) = {A1,…,Ak}, falls ein F ℮ fa existiert mit A:=F(A1,…,Ak) ┴ , sonst Qualitätsmaße

Unterscheidung zwischen semantischer Übereinstimmung entlang eines Kreises und semantischer Übereinstimmung beim Betreten fremder Domäns Qulitätsmaße

entlang eines Zyklus Ausgangs Peer ist wieder erreicht dieses analysiert nun und stellt fest Fall 1 sourceT (Ai) = {Ai} Fall 2 sourceT (Ai) = { } Fall 3 sourceT (Ai) = {Aj} wo i≠j 1→…→n 1→…→n 1→…→n Qualitätsmaße

FVC (Tk→j(q)) = (fvCA1,…, fvCAk) Qualitätsmaße

Gossiping Algorithmus
Übersicht Einführung Qualitätsmaße Gossiping Algorithmus Beispiel Diskussion Gossiping Algorithmus

für die Definition des Algorithmus haben wir 4 Maße für die Berechnung der Verluste zusätzlich: Vektor W von Gewichten der Attribute sel entsprechende Selektivitäten Smin Wert der minimalen Gleichheit Maße helfen bei der Entscheidung, ob ein Query wert ist weitergeleitet zu werden W Gewichte der Attribute in der Query Selektivität der Attribute Minimale Gleichheit um einen Maße zu haben wann Queries es nicht mehr wert sind weiter geschickt zu werden Gossiping Algorithmus

Neue Query Message: query(id,q,p,TT,W,sel,Smin,FVσ,FVπ,FVC,FVH) Paket, die durch das Netzwerk transportiert werden Gossiping Algorithmus

auf Zyklus überprüfen Test ob Query schon empfangen wurde Anfrage-Ergebnisse berechnen Aufgaben des Peer wenn so eine Message eintrifft Wenn Gleichheit größer als Smin dann 1 sonst 0 Gossiping Algorithmus

Mapping auf Anfrage anwenden Maße für Transformation anpassen Feature Vektoren für Gleichheit testen Weiterleiten der Query, falls alle Feature Vektoren 1 Der Algorithmus hat die Eigenschaften, dass er ein ausreichende Anzahl von Peers mit Queries beliefert und ordentliches Feedback liefert ohne das Netz zu überfluten Gossiping Algorithmus

Diskussion

Beispiel

Beispiel Q A C B E F D G titel→name titel→ - - titel→titel titel→titel
name→description/name titel→name B E F titel→titel titel→acronym D name→titel name→titel verschieden Domänen mit unterschiedlichen Schemen titel→name G titel→description/name name→name titel→description/name Beispiel

Beispiel A,B,D,E,A + - A,B,D,E,F,A A,B,E,A A,B,E,F,A A,B,F,A A,D,E,A
Cycle TpA-pC fehlerbehaftet TpB-pD fehlerbehaftet A,B,D,E,A + - A,B,D,E,F,A A,B,E,A A,B,E,F,A A,B,F,A A,D,E,A A,D,E,B,F,A A,D,E,F,A Beispiel

Diskussion

Diskussion Kritik: Beispiel umfasst nur ein Attribut was gemappt wird
semantische Gleichheit bei Zyklen hängt nur von den einzelnen Wahrscheinlichkeit für die Attribute ab und nicht von der Query Keine Aussage über große Datenmengen oder wie sich der Algorithmus bei sehr vielen Knoten verhält

Christian Gebhardt Berlin,

Ähnliche Präsentationen

Präsentation zum Thema: "Christian Gebhardt Berlin,"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Christian Gebhardt Berlin,

Ähnliche Präsentationen

Präsentation zum Thema: "Christian Gebhardt Berlin,"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback