Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Hedwig Ehli Geändert vor über 11 Jahren
1
Webseitenranking für Suchanfragen anhand von Linkgraphen Mike.Herzog@informatik.hu-berlin.de www.informatik.hu-berlin.de/~herzog/Studium/TextMining/
2
1 Gliederung Informationen aus dem WWW gewinnen Textsuche PageRank HITS
3
2 Linkstruktur des WWW WWW Seiten als gerichteter Graph
4
3 Textsuche Zu viele Seiten zum Lesen –Schlechte Qualität –Geringe Relevanz Links zählen –Verschiedene Gründe Links zu setzen –Für sich genommen zu unzuverlässig
5
4 Gliederung Informationen aus dem WWW gewinnen Textsuche PageRank HITS
6
5 Pagerank Von S.Brin und L.Page (1998) Globale Relevanz der WWW Seiten berechnen Links von Menschen gesetzt, von Maschinen auswertbar Seiten mit vielen wichtigen Backlinks sind relevanter
7
6 PageRank (cont.) Berechnung iterativ 25 3 3 3 14 50 9 28 25
8
7 1.0,00 2.0,15 3.0,49 4.0,71 5.0,86 6.0,96 7.1,03 8.1,07 9.1,10 10.1,12 11.1,14 12.1,15 13.1,15 14.1,16 15.1,16... A C B 1.0,00 2.0,40 3.0,66 4.0,84 5.0,95 6.1,03 7.1,09 8.1,12 9.1,14 10.1,16 11.1,17 12.1,18 13.1,18 14.1,19 15.1,19... 1.0,00 2.0,21 3.0,36 4.0,45 5.0,52 6.0,56 7.0,59 8.0,61 9.0,62 10.0,63 11.0,63 12.0,64 13.0,64 14.0,64 15.0,64...
9
8 PageRank (cont.) - Google Nutzt zusätzlich u.a. Linktexte Mischen von PageRank mit anderen Rankings Neue Berechnung der Ranks ca. einmal je Monat
10
9 Gliederung Informationen aus dem WWW gewinnen Textsuche PageRank HITS
11
10 HITS »Hypertext-induced Topic Search« Entwickelt von Kleinberg (1999) Unterteilung der Seiten in »Hubs« und »Authorities« Für jede Suche individuell zu berechnen Im »Clever« Projekt von IBM implementiert
12
11 HITS (cont.) Basismenge auswählen Hub- und Authority-Wert für jede Seite berechen Ranking für die Suche anhand der Basismenge berechnen –Authorities für spezielle Fragen –Hubs und Authorities für allgemeine Fragen
13
12 HITS (cont.) Wurzelmenge Basismenge
14
13 Für jede Seite: 1.Authority-Gewicht berechen 2.Hub-Gewicht berechen 3.Normalisieren 4.Wiederhole bis Konvergenz HITS (cont.) q1q1 q2q2 q3q3 p q1q1 q2q2 q3q3 p
15
14 Weitere Forschungen Traffic Predictor Zitatanalyse Soziale Systeme
16
15 Zusammenfassung Informationen aus dem WWW gewinnen PageRank HITS Mike.Herzog@informatik.hu-berlin.de www.informatik.hu-berlin.de/~herzog/Studium/TextMining/
17
16 Mike.Herzog@informatik.hu-berlin.de www.informatik.hu-berlin.de/~herzog/Studium/TextMining/ noch Fragen ? Vielen Dank
18
17 Mike.Herzog@informatik.hu-berlin.de www.informatik.hu-berlin.de/~herzog/Studium/TextMining/
Ähnliche Präsentationen
© 2025 SlidePlayer.org Inc.
All rights reserved.