Carsten Greiveldinger

Name: Carsten Greiveldinger
Uploaded: 2018-01-14T12:22:59+00:00
Duration: PTM5S19
Channel: Frauke Alberding
Description: Carsten Greiveldinger

Carsten Greiveldinger
Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen Carsten Greiveldinger

Motivation Finden spezifischer Informationen in XML-Daten Situation:
Ganzes Dokument als Suchergebnis Interessant ist aber nur kleiner Teil

Grundidee A B Segmentieren von XML-Daten
Produkte Fahrzeuge Produkt Bez Modell LL Segmentieren von XML-Daten Berücksichtigen von Text und Dokumentstrukturen Basis ist HITS- Algorithmus auf vereinfachter DOM-Struktur Erweiterung von HITS wegen innerer Baumstruktur von DOM und Berücksichtigung von Text

XML - Linkstruktur Dokumentübergreifend mit XPointer
Xpointer(//auto[hersteller=„BMW“and year=„1956“]) Identifiziert ein Fragment eines Dokuments mit XPath auch mehrere Elemente als Ziel kann Text, Elemente und beides als Ziel haben => Art von XML-Webgraph

HITS Algorithmus auf Linkstruktur
Hubs h: Knoten mit Links auf „gute Seiten“ Authorities a: Seiten, die oft referenziert sind Zu Beginn alle Werte auf 1 Pro Iteration: Werte etwa stabil nach endlich vielen Iterationen

Erweiterung von HITS Bei Text und Linkanalyse gleiche Idee: Segmentieren in Teilbäume gleichen Inhalts Dafür Hub- und Auth-Werte für innere Knoten (bisher Auth-Werte für Dokument) Segment&Smooth für zusammenhängende Teilbäume HITS-Iteration auf inneren Knoten

Idee des Algorithmus Textähnlichkeit:
Cosinusmaß zwischen Text eines Teilbaums (Featurevektor) und einer Grundmenge (Basiszentroid) Linkstruktur: Erweiterter HITS auf XPointer zu inneren Knoten Resultat: „Frontier mit Microhubs“ die relevante von nicht relevanten Segmenten trennt analog Microauthorities

Textsuche Zu Beginn Basismenge => Basiszentroid
TF-Werte als Grundlage Cosinusmaß zwischen Basiszentroid und aktuellem Teilbaum Wenn Ähnlichkeit größer als Schwellenparameter => Knoten in die Frontier

Linksuche (1) Für jeden Knoten: Vergleiche Kosten für Aufsplitten auf Kinder und Ähnlichkeit von Vater und Kind Kosten für Kodieren von Hv : Finde Frontier F mit (Aufsplittkosten plus Kodierungskosten der Teilbäume) minimal Referenz verteilung 0 u v Dv

Linksuche (2) => v nicht in Frontier, weiter mit x und y
Splitte u auf Kinder v, wenn Kosten für Splitten plus Kosten für Teilbäume zu kodieren kleiner als die Kosten der Gesamtdaten in Hu zu kodieren. Sonst u in Frontier. Diskretisieren der Verteilungen der HUB-Werte mit „Buckets“ Kodierungskosten v: 7,029 x: 1,909 y: 1,909 0,08 0,04 0,11 0,02 0,18 0,22 0,19 v y x 1 3 1,00 ..... 0,30 0,20 0,10 2 ... y x v Erwartungswerte: v: 12/70 x: 4/10 y: 7/30 Annahme: Hubwerte sind poissonverteilt => KL = log(μ2/μ1) +(μ1/μ2 –1) KL = 0, => Kosten für Hv dominieren => v nicht in Frontier, weiter mit x und y

Segment & Smooth u1 u2 u1 u2 Die must-prune Knoten markieren
0,05 0,15 0,20 segment &smooth u1 u2 0,40 0,10 0,10 Die must-prune Knoten markieren Microhub-Werte akkumulieren (analog für Authorities) Die aggregierten Werte an die/den inneren Knoten weitergeben Die aggregierten Werte „smoothen“ Eine Iteration des Algorithmus fertig

Zusammenfassung Finden von zusammengehörenden (Web-) Graphsegmenten
Genauere Suchergebnisse bei kleinen wie großen Datenmengen Erfolge bei html Ergebnisse für xml stehen noch aus Wahl des Ähnlichkeitsparameters bei Text Feinheit der Diskretisierung bei Links Handhabung der Linkergebnisse von Hub- und Authority-Bewertung

Carsten Greiveldinger

Ähnliche Präsentationen

Präsentation zum Thema: "Carsten Greiveldinger"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Carsten Greiveldinger

Ähnliche Präsentationen

Präsentation zum Thema: "Carsten Greiveldinger"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback