HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 1 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Vorlesung Sommersemester 2003 Algorithmische Grundlagen des Internets X Christian Schindelhauer HEINZ NIXDORF INSTITUT Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik Institut für Informatik AG Theoretische Informatik Algorithmen, Komplexitätstheorie, Paralleles Rechnen
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 2 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer ACHTUNG Neue Räume Christian Schindelhauer Raum:F2.315 Tel.: Klaus Volbert Raum:F2.313 Tel.:
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 3 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Webseitensuche oPageRank [Brin&Page 98] Vergibt jeder Web-Seite einen absoluten Rang (rank)/Autorität Rang berücksichtigt Eingrad und Autorität des Eingrads Idee Seiten sind wichtig, wenn wichtige Seite auf sie zeigen oHITS (HyperText Induces Topic Search) [Kleinberg 98] Ausgehend von einem Seitenstamm aus einer textuellen Suche Betracht Hubs (Hinweisseiten) und Autoritäten, Idee: Gute Hubs zeigen gute Autoritäten an Gute Autoritäten werden von guten Hubs adressiert
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 4 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Vereinfachter PageRank-Algorithmus oVereinfachter PageRank-Algorithmus Rank einer Web-Seite R(u) [0,1] Wichtige Seiten vererben ihr Gewicht (gleichmäßig unter ihren Nachfolgern) c ist Normalisierungsfaktor, so dass ||R(u)|| 1 =1 Vorgängermenge B u Nachfolgermenge F u
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 5 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Vereinfachter PageRank Beispiel
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 6 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Matrixdarstellung R c M R, wobei R Vektor (R(1),R(2),… R(n)) und M folgende n n – Matrix ist:
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 7 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Vereinfachter PageRank-Algorithmus oKonvergiert der vereinfachte PageRank-Algorithmus? oWieviele Lösungen gibt es? oWie sinnvoll sind diese?
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 8 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Eigenvektor als Fixpunkt der Rekursion Stochastische Matrix oFür Vektor x, n n-Matrix und Zahl λ: Wenn M x = λ x, ist x Eigenvektor und λ Eigenwert oJede n n-Matrix M hat höchstens n Eigenwerte oBeobachtung: Stochastische Matrizen beschreiben Markov- Prozesse über den Zustandsraum {1,..,n} Prob[i j] = M ij
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 9 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Eigenvektor als Fixpunkt der Rekursion Stochastische Matrix oDie L1-Norm eines Vektors ist gegeben als Eigenwerte von M | i | 1
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 10 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Periodizität Beispiel 1
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 11 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Periodizität Beispiel 2
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 12 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Notwendige Bedingung für Periodizität
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 13 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Hinreichende Bedingung für Konvergenz
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 14 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Hinreichende Bedingung für Konvergenz
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 15 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Hinreichende Bedingung für Konvergenz
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 16 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Nachteile des vereinfachten PageRank- Algorithmus oWeb-Graph hat Senken, d.h. Seiten ohne Links M ist keine stochastische Matrix oWeb-Graph ist periodisch Konvergenz unmöglich oWeb-Graph ist nicht stark zusammenhängend Verschiedene Konvergenzvektoren möglich oRang-Senken: Sarke Zusammenhangskompenenten ohne ausgehenden Kangen „saugen“ Gewicht der Vorgänger auf
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 17 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Lösung durch PageRank oProzess startet mit zufälliger Seite oJede Senke erhält Links auf jede Seite in V oNur mit Wahrscheinlichkeit q < 1 wird vereinfachter PageRank durchgeführt Ansonsten starte mit zufälliger Startseite oM ist stochastisch!
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 18 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer PageRank-Algorithmus oGraph der Matrix besteht aus einer starken Zus.- komponente oRundwege der Länge 1 existieren PageRank konvergiert gegen den eindeutigen Eigenvektor mit Eigenwert 1
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 19 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Kleinbergs HITS-Algoirhtmus (HyperText Induced Search) oAnwendung: Textuelle Suche führt zu großen Anzahl von Treffern, z.B. Suche nach „windows“ Gewünschte Seite enthält nicht Suchwort z.B. enthält weder „Sportwagen“ noch „Auto“ Suche nach allgemeinen Begriffen oIdee des Algorithmus Autorität/Relevanz einer Web-Seite wird durch Links auf Hinweisseiten (hubs) bezeugt z.B. Eisenbahnfans sammeln Links von Eisenbahngesellschaften Autoritäten weisen auf die Qualität von Hinweisseiten hin Ähnlicher Mechanismus wie PageRank-Algorithmus
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 20 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Basismengenauswahl oIdeal: S ist relativ klein S enthält viele relevante Web-Seiten S enthält die meisten (oder viele) der wichtigsten Autoritäten oKnotenheuristik Erweitere um Nachfolger da Hinweisseiten in R auf diese zeigen Erweitere um max. d Vorgänger um ausreichende Anzahl von Hinweisseiten zu erhalten
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 21 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Kantenmengenheuristik oNeben Knoten werden Kanten eingeschränkt: oKantenmengenheuristik Lösche interne Links (innerhalb der selben Domain) wegen Navigationslinks wegen Links auf Autor Erlaube maximal m ( 4-8) Links aus gleicher Domain auf eine Seite wegen Werbelinks wegen Links auf Softwaretool
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 22 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Gegenseitige Verstärkung oGewichtung für Autorität einer Seite i: x i oGewichtung für Hinweiseigenschaft einer Seite i: y i oAutorität/Relevanz einer Web-Seite wird durch Links auf Hinweisseiten (hubs) bezeugt oAutoritäten weisen auf die Qualität von Hinweisseiten hin c1, c2 normieren x und y bezüglich der L2-Norm:
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 23 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Der HITS-Algorithmus
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 24 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Matrixdarstellung oAus Adjazenzmatrix: oAutoritäten: oHinweisseiten: oNach t Iterationen: oD.h.
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 25 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Matrixdarstellung oM = A A T ist symmetrische Matrix oFür symmetrische Matrizen sind alle n Eigenwerte reell sind die n Eigenvektoren orthogonal oEs existiert die Darstellung owobei für die Spaltenvektoren S i gilt oFalls größter Eigenwert 1 > 2 konvergiert der HITS-Algorithmus