Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Hermine Nett Geändert vor über 11 Jahren
1
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Vorlesung Sommersemester 2002 Algorithmische Grundlagen des Internets (IX) Christian Schindelhauer schindel@upb.de HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik AG Meyer auf der Heide
2
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 2 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Vereinfachter PageRank-Algorithmus oVereinfachter PageRank-Algorithmus Rank einer Web-Seite R(u) [0,1] Wichtige Seiten vererben ihr Gewicht (gleichmäßig unter ihren Nachfolgern) c ist Normalisierungsfaktor, so dass ||R(u)|| 1 =1 Vorgängermenge B u Nachfolgermenge F u
3
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 3 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Vereinfachter PageRank Beispiel
4
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 4 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Vereinfachter PageRank-Algorithmus oKonvergiert der vereinfachte PageRank-Algorithmus? oWieviele Lösungen gibt es? oWie sinnvoll sind diese?
5
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 5 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Matrixdarstellung R c M R, wobei R Vektor (R(1),R(2),… R(n)) und M folgende n n – Matrix ist:
6
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 6 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Eigenvektor als Fixpunkt der Rekursion Stochastische Matrix oFür Vektor R, n n-Matrix und Zahl c: Wenn M R = c R, ist R Eigenvektor und c Eigenwert oJede n n-Matrix M hat höchstens n Eigenwerte oBeobachtung: Stochastische Matrizen beschreiben Markov- Prozesse über den Zustandsraum {1,..,n} Prob[i j] = M ij
7
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 7 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Eigenvektor als Fixpunkt der Rekursion Stochastische Matrix oDie L1-Norm eines Vektors ist gegeben als Eigenwerte von M | i | 1
8
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 8 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Periodizität Beispiel 1
9
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 9 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Periodizität Beispiel 2
10
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 10 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Notwendige Bedingung für Periodizität
11
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 11 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Notwendige Bedingung für Periodizität
12
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 12 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Notwendige Bedingung für Periodizität
13
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 13 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Hinreichende Bedingung für Konvergenz
14
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 14 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Notwendige Bedingung für Periodizität
15
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 15 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Notwendige Bedingung für Periodizität
16
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 16 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Hinreichende Bedingung für Konvergenz
17
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 17 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Hinreichende Bedingung für Konvergenz
18
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 18 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Nachteile des vereinfachten PageRank- Algorithmus oWeb-Graph hat Senken, d.h. Seiten ohne Links M ist keine stochastische Matrix oWeb-Graph ist periodisch Konvergenz unmöglich oWeb-Graph ist nicht stark zusammenhängend Verschiedene Konvergenzvektoren möglich oRang-Senken: Sarke Zusammenhangskompenenten ohne ausgehenden Kangen saugen Gewicht der Vorgänger auf
19
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 19 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Lösung durch PageRank oProzess startet mit zufälliger Seite oJede Senke erhält Links auf jede Seite in V oNur mit Wahrscheinlichkeit q < 1 wird vereinfachter PageRank durchgeführt Ansonsten starte mit zufälliger Startseite oM ist stochastisch!
20
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 20 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer PageRank-Algorithmus oGraph der Matrix besteht aus einer starken Zus.- komponente oRundwege der Länge 1 existieren PageRank konvergiert gegen den eindeutigen Eigenvektor mit Eigenwert 1
21
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 21 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Kleinbergs HITS-Algoirhtmus (HyperText Induced Search) oAnwendung: Textuelle Suche führt zu großen Anzahl von Treffern, z.B. Suche nach windows Gewünschte Seite enthält nicht Suchwort z.B. http://www.porsche.com enthält weder Sportwagen noch Auto Suche nach allgemeinen Begriffen oIdee des Algorithmus Autorität/Relevanz einer Web-Seite wird durch Links auf Hinweisseiten (hubs) bezeugt z.B. Eisenbahnfans sammeln Links von Eisenbahngesellschaften Autoritäten weisen auf die Qualität von Hinweisseiten hin Ähnlicher Mechanismus wie PageRank-Algorithmus
22
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 22 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Basismengenauswahl oIdeal: S ist relativ klein S enthält viele relevante Web-Seiten S enthält die meisten (oder viele) der wichtigsten Autoritäten oKnotenheuristik Erweitere um Nachfolger da Hinweisseiten in R auf diese zeigen Erweitere um max. d Vorgänger um ausreichende Anzahl von Hinweisseiten zu erhalten
23
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 23 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Kantenmengenheuristik oNeben Knoten werden Kanten eingeschränkt: oKantenmengenheuristik Lösche interne Links (innerhalb der selben Domain) wegen Navigationslinks wegen Links auf Autor Erlaube maximal m ( 4-8) Links aus gleicher Domain auf eine Seite wegen Werbelinks wegen Links auf Softwaretool
24
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 24 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Gegenseitige Verstärkung oGewichtung für Autorität einer Seite i: x i oGewichtung für Hinweiseigenschaft einer Seite i: y i oAutorität/Relevanz einer Web-Seite wird durch Links auf Hinweisseiten (hubs) bezeugt oAutoritäten weisen auf die Qualität von Hinweisseiten hin c1, c2 normieren x und y bezüglich der L2-Norm:
25
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 25 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Der HITS-Algorithmus
26
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 26 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Matrixdarstellung oAus Adjazenzmatrix: oAutoritäten: oHinweisseiten: oNach t Iterationen: oD.h.
27
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 27 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Matrixdarstellung oM = A A T ist symmetrische Matrix oFür symmetrische Matrizen sind alle n Eigenwerte reell sind die n Eigenvektoren orthogonal oEs existiert die Darstellung owobei für die Spaltenvektoren S i gilt oFalls größter Eigenwert 1 > 2 konvergiert der HITS-Algorithmus folgt aus Übungsaufgabe 20
Ähnliche Präsentationen
© 2025 SlidePlayer.org Inc.
All rights reserved.