Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen Carsten Greiveldinger.

Ähnliche Präsentationen


Präsentation zum Thema: "Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen Carsten Greiveldinger."—  Präsentation transkript:

1 Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen Carsten Greiveldinger

2 Motivation Finden spezifischer Informationen in XML-Daten Situation: Ganzes Dokument als Suchergebnis Interessant ist aber nur kleiner Teil

3 Grundidee Segmentieren von XML-Daten Berücksichtigen von Text und Dokumentstrukturen Basis ist HITS- Algorithmus auf vereinfachter DOM-Struktur Erweiterung von HITS wegen innerer Baumstruktur von DOM und Berücksichtigung von Text A A B B Produkte Fahrzeuge Produkt Bez Modell LL

4 XML - Linkstruktur Dokumentübergreifend mit XPointer Xpointer(//auto[hersteller=BMWand year=1956]) Identifiziert ein Fragment eines Dokuments mit XPath auch mehrere Elemente als Ziel kann Text, Elemente und beides als Ziel haben => Art von XML-Webgraph

5 HITS Algorithmus auf Linkstruktur Hubs h: Knoten mit Links auf gute Seiten Authorities a: Seiten, die oft referenziert sind Zu Beginn alle Werte auf 1 Pro Iteration: Werte etwa stabil nach endlich vielen Iterationen

6 Erweiterung von HITS Bei Text und Linkanalyse gleiche Idee: Segmentieren in Teilbäume gleichen Inhalts Dafür Hub- und Auth-Werte für innere Knoten (bisher Auth-Werte für Dokument) Segment&Smooth für zusammenhängende Teilbäume HITS-Iteration auf inneren Knoten

7 Idee des Algorithmus Textähnlichkeit: Cosinusmaß zwischen Text eines Teilbaums (Featurevektor) und einer Grundmenge (Basiszentroid) Linkstruktur: Erweiterter HITS auf XPointer zu inneren Knoten Resultat: Frontier mit Microhubs die relevante von nicht relevanten Segmenten trennt analog Microauthorities

8 Textsuche Zu Beginn Basismenge => Basiszentroid TF-Werte als Grundlage Cosinusmaß zwischen Basiszentroid und aktuellem Teilbaum Wenn Ähnlichkeit größer als Schwellenparameter => Knoten in die Frontier

9 Linksuche (1) Für jeden Knoten: Vergleiche Kosten für Aufsplitten auf Kinder und Ähnlichkeit von Vater und Kind Kosten für Kodieren von H v : Finde Frontier F mit (Aufsplittkosten plus Kodierungskosten der Teilbäume) minimal DvDv v u Referenz verteilung 0

10 Linksuche (2) Splitte u auf Kinder v, wenn Kosten für Splitten plus Kosten für Teilbäume zu kodieren kleiner als die Kosten der Gesamtdaten in H u zu kodieren. Sonst u in Frontier. Diskretisieren der Verteilungen der HUB-Werte mit Buckets 0,08 0,04 0,110,02 0,18 0,22 0,19 v yx , ,300,200, ,00...0,300,200, ,00...0,300,200,10 y x v Annahme: Hubwerte sind poissonverteilt => KL = log(μ 2 /μ 1 ) +(μ 1 /μ 2 –1) Kodierungskosten v: 7,029 x: 1,909 y: 1,909 Erwartungswerte: v: 12/70 x: 4/10 y: 7/30 KL = 0,395 => Kosten für H v dominieren => v nicht in Frontier, weiter mit x und y

11 Segment & Smooth Die must-prune Knoten markieren Microhub-Werte akkumulieren (analog für Authorities) Die aggregierten Werte an die/den inneren Knoten weitergeben Die aggregierten Werte smoothen Eine Iteration des Algorithmus fertig 0,10 u1u1 u2u2 0,05 0,15 0,20 segment &smooth u1u1 u2u2 0,40 0,10 0,40

12 Zusammenfassung Finden von zusammengehörenden (Web-) Graphsegmenten Genauere Suchergebnisse bei kleinen wie großen Datenmengen Erfolge bei html Ergebnisse für xml stehen noch aus Wahl des Ähnlichkeitsparameters bei Text Feinheit der Diskretisierung bei Links Handhabung der Linkergebnisse von Hub- und Authority- Bewertung


Herunterladen ppt "Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen Carsten Greiveldinger."

Ähnliche Präsentationen


Google-Anzeigen