Carsten Greiveldinger

Slides:

Advertisements

Ähnliche Präsentationen

8. Termin Teil B: Wiederholung Begriffe Baum

Advertisements

Punkt-in-Polygon-Verfahren III (R/R+-Baum)

Kap. 13 Sweep-Line Algorithmen Kap Schnittprobleme

Prof. Dr. S. Albers Prof.Dr.Th Ottmann

Webseitenranking für Suchanfragen anhand von Linkgraphen

Das LCA – Problem in Suffixbäumen

GIN2 – 2. Vorlesung, SS04 Prof. Dr. Wolfram Conen

ADS Vorlesung Prof. Dr. W. Conen, FH Gelsenkirchen

FH-Hof Der B-Baum Richard Göbel. FH-Hof Wahl des Verzweigungsgrad Verzweigungsgrad kann größer als 2 sein v Nachfolger für einen Knoten v-1 Werte in einem.

Der B-Baum Richard Göbel.

Zeitliche Verwaltung XML-basierter Metadaten in digitalen Bibliotheken M. Kalb, G. SpechtUniversität Ulm, Abteilung DBIS.

Kapitel 6: Klassifizierung von Sortiertechniken

R. Der - Vorlesung Algorithmen und Datenstrukturen (Magister)

T-XPath Ein zeitliches Modell für XML-DBS M. Kalb, G. SpechtK. Schneider Universität Ulm EML Heidelberg.

Wasserfall-Ansätze zur Bildsegmentierung

Bäume • Kernidee: Speicherung von Daten in einer Baumstruktur

1. Einführung. 1. Einführung Inhalt Einführung Vorlagen XPath Kontrollstrukturen Sortierung, Gruppierung und Nummerierung Parameter und Variablen Ein-

FH-Hof Grundlagen mehrdimensionaler Suchstrukturen Richard Göbel.

Der R-Baum Richard Göbel.

Effizienz: Indexstrukturen

DOM (Document Object Model)

Suche in Texten: Suffix-Bäume

WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.

Das Maßproblem von Klee

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (17 – Bäume: Grundlagen und natürliche Suchbäume) Prof. Th. Ottmann.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (18 - Bäume: Durchlaufreihenfolgen, Analyse nat. Bäume) Prof. Th. Ottmann.

Algorithmentheorie 12 – Spannende Bäume minimalen Gewichts

Union-Find-Strukturen

XPATH XML Path Language. Xpath – XML Path Language IT Zertifikat - Daten und Metadatenstandards: XPath 2 Entwicklung des W3C Adressierungssprache für.

XML - Abfragesprache Xpath. Problemstellung Unsere XML-Datei steht und wir wollen alle 1. Titel aller vergangenen Sendungen automatisch aus den Playlists.

Seminar parallele Programmierung SS 2003

© 2002 Prof. Dr. G. Hellberg 1 XML-Seminar XML-Technologie: XML in Theorie und Praxis Prof. Dr. G. Hellberg XML-Technologie: XML in Theorie und Praxis.

XML Standardisierungen und Abfragesprachen

Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation II Vorlesung In welcher Masche liegt der Punkt p?

Effiziente Suche in Bilddatenbanken

XPointer Die Xpointer beschreiben einen Ort oder Bereich innerhalb einer XML-Instanz. Die XPointer bauen auf der XML Path Language auf. Die XPointer ist.

XML – Grundlagen und Anwendungen Teil 6: Verarbeitung von XML-Dokumenten: XSLT Prof. Dr. Michael Löwe, FHDW Hannover.

Was versteht man unter XML Schema?

FH-Hof Analyse des R-Baums - Teil 1 Richard Göbel.

- XML-Path Language (xPath) ist eine Empfehlung des W3C - es wurde entwickelt, um durch ein XML- Dokument zu navigieren - und ist ein großer Teil von.

Die Klausur in den lebenden Sprachen

XML - Konzepte XHTML XML Base XPath XInclude XLink XForms XPointer

Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.

Datenbanktechnologie Daniel Ebner SS Mai Ulrike Lohner.

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/

Mehr zum Testen von Hypothesen

Vorlesung #4 Überführung des ER-Modells in das relationale Modell

Jamshid Azizi: Folie Isomorphietest Jamshid Azizi

Graphen und Bäume.

XML (Extensible Markup Language)

Die Sternenuhr Wir entdecken die Wissenschaften LTAM Steffen M. 2003/04 Kneip R.

© 2001 Sven Dammann1 Aufbau Integrierter Informationssysteme XML Bearbeitung und relationale Abbildung Sven Dammann Martin-Luther-Universität Halle-Wittenberg.

Dorfentwicklung Höfen an der Enz Vorstudie Standort Gemeindehalle September 2014.

Analyse der Laufzeit von Algorithmen

Algorithmen und Datenstrukturen 1 SS 2002

XML Schema Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung WS2011/2012 Hist.-kult.wiss. Informationsverarbeitung (Teil.

Geoinformation3 Geoinformation III XML Grundlagen, Namensräume und Hyperlinks Vorlesung 12b.

Laufzeitverhalten beim Sortieren

2. Die rekursive Datenstruktur Baum 2.1 Von der Liste zum Baum

Präsentation transkript:

Carsten Greiveldinger Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen Carsten Greiveldinger

Motivation Finden spezifischer Informationen in XML-Daten Situation: Ganzes Dokument als Suchergebnis Interessant ist aber nur kleiner Teil

Grundidee A B Segmentieren von XML-Daten Produkte Fahrzeuge Produkt Bez Modell LL Segmentieren von XML-Daten Berücksichtigen von Text und Dokumentstrukturen Basis ist HITS- Algorithmus auf vereinfachter DOM-Struktur Erweiterung von HITS wegen innerer Baumstruktur von DOM und Berücksichtigung von Text

XML - Linkstruktur Dokumentübergreifend mit XPointer Xpointer(//auto[hersteller=„BMW“and year=„1956“]) Identifiziert ein Fragment eines Dokuments mit XPath auch mehrere Elemente als Ziel kann Text, Elemente und beides als Ziel haben => Art von XML-Webgraph

HITS Algorithmus auf Linkstruktur Hubs h: Knoten mit Links auf „gute Seiten“ Authorities a: Seiten, die oft referenziert sind Zu Beginn alle Werte auf 1 Pro Iteration: Werte etwa stabil nach endlich vielen Iterationen

Erweiterung von HITS Bei Text und Linkanalyse gleiche Idee: Segmentieren in Teilbäume gleichen Inhalts Dafür Hub- und Auth-Werte für innere Knoten (bisher Auth-Werte für Dokument) Segment&Smooth für zusammenhängende Teilbäume HITS-Iteration auf inneren Knoten

Idee des Algorithmus Textähnlichkeit: Cosinusmaß zwischen Text eines Teilbaums (Featurevektor) und einer Grundmenge (Basiszentroid) Linkstruktur: Erweiterter HITS auf XPointer zu inneren Knoten Resultat: „Frontier mit Microhubs“ die relevante von nicht relevanten Segmenten trennt analog Microauthorities

Textsuche Zu Beginn Basismenge => Basiszentroid TF-Werte als Grundlage Cosinusmaß zwischen Basiszentroid und aktuellem Teilbaum Wenn Ähnlichkeit größer als Schwellenparameter => Knoten in die Frontier

Linksuche (1) Für jeden Knoten: Vergleiche Kosten für Aufsplitten auf Kinder und Ähnlichkeit von Vater und Kind Kosten für Kodieren von Hv : Finde Frontier F mit (Aufsplittkosten plus Kodierungskosten der Teilbäume) minimal Referenz verteilung 0 u v Dv

Linksuche (2) => v nicht in Frontier, weiter mit x und y Splitte u auf Kinder v, wenn Kosten für Splitten plus Kosten für Teilbäume zu kodieren kleiner als die Kosten der Gesamtdaten in Hu zu kodieren. Sonst u in Frontier. Diskretisieren der Verteilungen der HUB-Werte mit „Buckets“ Kodierungskosten v: 7,029 x: 1,909 y: 1,909 0,08 0,04 0,11 0,02 0,18 0,22 0,19 v y x 1 3 1,00 ..... 0,30 0,20 0,10 2 ... y x v Erwartungswerte: v: 12/70 x: 4/10 y: 7/30 Annahme: Hubwerte sind poissonverteilt => KL = log(μ2/μ1) +(μ1/μ2 –1) KL = 0,395 => Kosten für Hv dominieren => v nicht in Frontier, weiter mit x und y

Segment & Smooth u1 u2 u1 u2 Die must-prune Knoten markieren 0,05 0,15 0,20 segment &smooth u1 u2 0,40 0,10 0,10 Die must-prune Knoten markieren Microhub-Werte akkumulieren (analog für Authorities) Die aggregierten Werte an die/den inneren Knoten weitergeben Die aggregierten Werte „smoothen“ Eine Iteration des Algorithmus fertig

Zusammenfassung Finden von zusammengehörenden (Web-) Graphsegmenten Genauere Suchergebnisse bei kleinen wie großen Datenmengen Erfolge bei html Ergebnisse für xml stehen noch aus Wahl des Ähnlichkeitsparameters bei Text Feinheit der Diskretisierung bei Links Handhabung der Linkergebnisse von Hub- und Authority-Bewertung