Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Carsten Greiveldinger

Ähnliche Präsentationen


Präsentation zum Thema: "Carsten Greiveldinger"—  Präsentation transkript:

1 Carsten Greiveldinger
Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen Carsten Greiveldinger

2 Motivation Finden spezifischer Informationen in XML-Daten Situation:
Ganzes Dokument als Suchergebnis Interessant ist aber nur kleiner Teil

3 Grundidee A B Segmentieren von XML-Daten
Produkte Fahrzeuge Produkt Bez Modell LL Segmentieren von XML-Daten Berücksichtigen von Text und Dokumentstrukturen Basis ist HITS- Algorithmus auf vereinfachter DOM-Struktur Erweiterung von HITS wegen innerer Baumstruktur von DOM und Berücksichtigung von Text

4 XML - Linkstruktur Dokumentübergreifend mit XPointer
Xpointer(//auto[hersteller=„BMW“and year=„1956“]) Identifiziert ein Fragment eines Dokuments mit XPath auch mehrere Elemente als Ziel kann Text, Elemente und beides als Ziel haben => Art von XML-Webgraph

5 HITS Algorithmus auf Linkstruktur
Hubs h: Knoten mit Links auf „gute Seiten“ Authorities a: Seiten, die oft referenziert sind Zu Beginn alle Werte auf 1 Pro Iteration: Werte etwa stabil nach endlich vielen Iterationen

6 Erweiterung von HITS Bei Text und Linkanalyse gleiche Idee: Segmentieren in Teilbäume gleichen Inhalts Dafür Hub- und Auth-Werte für innere Knoten (bisher Auth-Werte für Dokument) Segment&Smooth für zusammenhängende Teilbäume HITS-Iteration auf inneren Knoten

7 Idee des Algorithmus Textähnlichkeit:
Cosinusmaß zwischen Text eines Teilbaums (Featurevektor) und einer Grundmenge (Basiszentroid) Linkstruktur: Erweiterter HITS auf XPointer zu inneren Knoten Resultat: „Frontier mit Microhubs“ die relevante von nicht relevanten Segmenten trennt analog Microauthorities

8 Textsuche Zu Beginn Basismenge => Basiszentroid
TF-Werte als Grundlage Cosinusmaß zwischen Basiszentroid und aktuellem Teilbaum Wenn Ähnlichkeit größer als Schwellenparameter => Knoten in die Frontier

9 Linksuche (1) Für jeden Knoten: Vergleiche Kosten für Aufsplitten auf Kinder und Ähnlichkeit von Vater und Kind Kosten für Kodieren von Hv : Finde Frontier F mit (Aufsplittkosten plus Kodierungskosten der Teilbäume) minimal Referenz verteilung 0 u v Dv

10 Linksuche (2) => v nicht in Frontier, weiter mit x und y
Splitte u auf Kinder v, wenn Kosten für Splitten plus Kosten für Teilbäume zu kodieren kleiner als die Kosten der Gesamtdaten in Hu zu kodieren. Sonst u in Frontier. Diskretisieren der Verteilungen der HUB-Werte mit „Buckets“ Kodierungskosten v: 7,029 x: 1,909 y: 1,909 0,08 0,04 0,11 0,02 0,18 0,22 0,19 v y x 1 3 1,00 ..... 0,30 0,20 0,10 2 ... y x v Erwartungswerte: v: 12/70 x: 4/10 y: 7/30 Annahme: Hubwerte sind poissonverteilt => KL = log(μ2/μ1) +(μ1/μ2 –1) KL = 0, => Kosten für Hv dominieren => v nicht in Frontier, weiter mit x und y

11 Segment & Smooth u1 u2 u1 u2 Die must-prune Knoten markieren
0,05 0,15 0,20 segment &smooth u1 u2 0,40 0,10 0,10 Die must-prune Knoten markieren Microhub-Werte akkumulieren (analog für Authorities) Die aggregierten Werte an die/den inneren Knoten weitergeben Die aggregierten Werte „smoothen“ Eine Iteration des Algorithmus fertig

12 Zusammenfassung Finden von zusammengehörenden (Web-) Graphsegmenten
Genauere Suchergebnisse bei kleinen wie großen Datenmengen Erfolge bei html Ergebnisse für xml stehen noch aus Wahl des Ähnlichkeitsparameters bei Text Feinheit der Diskretisierung bei Links Handhabung der Linkergebnisse von Hub- und Authority-Bewertung


Herunterladen ppt "Carsten Greiveldinger"

Ähnliche Präsentationen


Google-Anzeigen