Webseitenranking für Suchanfragen anhand von Linkgraphen
1 Gliederung Informationen aus dem WWW gewinnen Textsuche PageRank HITS
2 Linkstruktur des WWW WWW Seiten als gerichteter Graph
3 Textsuche Zu viele Seiten zum Lesen –Schlechte Qualität –Geringe Relevanz Links zählen –Verschiedene Gründe Links zu setzen –Für sich genommen zu unzuverlässig
4 Gliederung Informationen aus dem WWW gewinnen Textsuche PageRank HITS
5 Pagerank Von S.Brin und L.Page (1998) Globale Relevanz der WWW Seiten berechnen Links von Menschen gesetzt, von Maschinen auswertbar Seiten mit vielen wichtigen Backlinks sind relevanter
6 PageRank (cont.) Berechnung iterativ
7 1.0,00 2.0,15 3.0,49 4.0,71 5.0,86 6.0,96 7.1,03 8.1,07 9.1, , , , , , ,16... A C B 1.0,00 2.0,40 3.0,66 4.0,84 5.0,95 6.1,03 7.1,09 8.1,12 9.1, , , , , , , ,00 2.0,21 3.0,36 4.0,45 5.0,52 6.0,56 7.0,59 8.0,61 9.0, , , , , , ,64...
8 PageRank (cont.) - Google Nutzt zusätzlich u.a. Linktexte Mischen von PageRank mit anderen Rankings Neue Berechnung der Ranks ca. einmal je Monat
9 Gliederung Informationen aus dem WWW gewinnen Textsuche PageRank HITS
10 HITS »Hypertext-induced Topic Search« Entwickelt von Kleinberg (1999) Unterteilung der Seiten in »Hubs« und »Authorities« Für jede Suche individuell zu berechnen Im »Clever« Projekt von IBM implementiert
11 HITS (cont.) Basismenge auswählen Hub- und Authority-Wert für jede Seite berechen Ranking für die Suche anhand der Basismenge berechnen –Authorities für spezielle Fragen –Hubs und Authorities für allgemeine Fragen
12 HITS (cont.) Wurzelmenge Basismenge
13 Für jede Seite: 1.Authority-Gewicht berechen 2.Hub-Gewicht berechen 3.Normalisieren 4.Wiederhole bis Konvergenz HITS (cont.) q1q1 q2q2 q3q3 p q1q1 q2q2 q3q3 p
14 Weitere Forschungen Traffic Predictor Zitatanalyse Soziale Systeme
15 Zusammenfassung Informationen aus dem WWW gewinnen PageRank HITS
16 noch Fragen ? Vielen Dank
17