Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 1 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Vorlesung.

Ähnliche Präsentationen


Präsentation zum Thema: "HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 1 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Vorlesung."—  Präsentation transkript:

1 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 1 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Vorlesung Sommersemester 2003 Algorithmische Grundlagen des Internets X Christian Schindelhauer HEINZ NIXDORF INSTITUT Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik Institut für Informatik AG Theoretische Informatik Algorithmen, Komplexitätstheorie, Paralleles Rechnen

2 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 2 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer ACHTUNG Neue Räume Christian Schindelhauer Raum:F2.315 Tel.: Klaus Volbert Raum:F2.313 Tel.:

3 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 3 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Webseitensuche oPageRank [Brin&Page 98]  Vergibt jeder Web-Seite einen absoluten Rang (rank)/Autorität  Rang berücksichtigt Eingrad und Autorität des Eingrads  Idee Seiten sind wichtig, wenn wichtige Seite auf sie zeigen oHITS (HyperText Induces Topic Search) [Kleinberg 98]  Ausgehend von einem Seitenstamm aus einer textuellen Suche  Betracht Hubs (Hinweisseiten) und Autoritäten, Idee: Gute Hubs zeigen gute Autoritäten an Gute Autoritäten werden von guten Hubs adressiert

4 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 4 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Vereinfachter PageRank-Algorithmus oVereinfachter PageRank-Algorithmus  Rank einer Web-Seite R(u)  [0,1]  Wichtige Seiten vererben ihr Gewicht (gleichmäßig unter ihren Nachfolgern)  c ist Normalisierungsfaktor, so dass ||R(u)|| 1 =1  Vorgängermenge B u  Nachfolgermenge F u

5 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 5 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Vereinfachter PageRank Beispiel

6 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 6 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Matrixdarstellung R  c M R, wobei R Vektor (R(1),R(2),… R(n)) und M folgende n  n – Matrix ist:

7 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 7 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Vereinfachter PageRank-Algorithmus oKonvergiert der vereinfachte PageRank-Algorithmus? oWieviele Lösungen gibt es? oWie sinnvoll sind diese?

8 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 8 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Eigenvektor als Fixpunkt der Rekursion Stochastische Matrix oFür Vektor x, n  n-Matrix und Zahl λ:  Wenn M x = λ x, ist x Eigenvektor und λ Eigenwert oJede n  n-Matrix M hat höchstens n Eigenwerte oBeobachtung: Stochastische Matrizen beschreiben Markov- Prozesse über den Zustandsraum {1,..,n} Prob[i  j] = M ij

9 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 9 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Eigenvektor als Fixpunkt der Rekursion Stochastische Matrix oDie L1-Norm eines Vektors ist gegeben als  Eigenwerte von M | i |  1

10 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 10 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Periodizität Beispiel 1

11 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 11 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Periodizität Beispiel 2

12 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 12 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Notwendige Bedingung für Periodizität

13 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 13 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Hinreichende Bedingung für Konvergenz

14 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 14 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Hinreichende Bedingung für Konvergenz

15 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 15 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Hinreichende Bedingung für Konvergenz

16 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 16 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Nachteile des vereinfachten PageRank- Algorithmus oWeb-Graph hat Senken, d.h. Seiten ohne Links  M ist keine stochastische Matrix oWeb-Graph ist periodisch  Konvergenz unmöglich oWeb-Graph ist nicht stark zusammenhängend  Verschiedene Konvergenzvektoren möglich oRang-Senken: Sarke Zusammenhangskompenenten ohne ausgehenden Kangen „saugen“ Gewicht der Vorgänger auf

17 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 17 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Lösung durch PageRank oProzess startet mit zufälliger Seite oJede Senke erhält Links auf jede Seite in V oNur mit Wahrscheinlichkeit q < 1 wird vereinfachter PageRank durchgeführt Ansonsten starte mit zufälliger Startseite oM ist stochastisch!

18 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 18 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer PageRank-Algorithmus oGraph der Matrix besteht aus einer starken Zus.- komponente oRundwege der Länge 1 existieren  PageRank konvergiert gegen den eindeutigen Eigenvektor mit Eigenwert 1

19 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 19 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Kleinbergs HITS-Algoirhtmus (HyperText Induced Search) oAnwendung:  Textuelle Suche führt zu großen Anzahl von Treffern, z.B. Suche nach „windows“  Gewünschte Seite enthält nicht Suchwort z.B. enthält weder „Sportwagen“ noch „Auto“  Suche nach allgemeinen Begriffen oIdee des Algorithmus  Autorität/Relevanz einer Web-Seite wird durch Links auf Hinweisseiten (hubs) bezeugt z.B. Eisenbahnfans sammeln Links von Eisenbahngesellschaften  Autoritäten weisen auf die Qualität von Hinweisseiten hin  Ähnlicher Mechanismus wie PageRank-Algorithmus

20 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 20 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Basismengenauswahl oIdeal:  S  ist relativ klein  S  enthält viele relevante Web-Seiten  S  enthält die meisten (oder viele) der wichtigsten Autoritäten oKnotenheuristik  Erweitere um Nachfolger da Hinweisseiten in R  auf diese zeigen  Erweitere um max. d Vorgänger um ausreichende Anzahl von Hinweisseiten zu erhalten

21 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 21 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Kantenmengenheuristik oNeben Knoten werden Kanten eingeschränkt: oKantenmengenheuristik  Lösche interne Links (innerhalb der selben Domain) wegen Navigationslinks wegen Links auf Autor  Erlaube maximal m (  4-8) Links aus gleicher Domain auf eine Seite wegen Werbelinks wegen Links auf Softwaretool

22 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 22 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Gegenseitige Verstärkung oGewichtung für Autorität einer Seite i: x i oGewichtung für Hinweiseigenschaft einer Seite i: y i oAutorität/Relevanz einer Web-Seite wird durch Links auf Hinweisseiten (hubs) bezeugt oAutoritäten weisen auf die Qualität von Hinweisseiten hin  c1, c2 normieren x und y bezüglich der L2-Norm:

23 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 23 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Der HITS-Algorithmus

24 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 24 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Matrixdarstellung oAus Adjazenzmatrix: oAutoritäten: oHinweisseiten: oNach t Iterationen: oD.h.

25 HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 25 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Matrixdarstellung oM = A A T ist symmetrische Matrix oFür symmetrische Matrizen  sind alle n Eigenwerte reell  sind die n Eigenvektoren orthogonal oEs existiert die Darstellung owobei für die Spaltenvektoren S i gilt oFalls größter Eigenwert 1 > 2 konvergiert der HITS-Algorithmus


Herunterladen ppt "HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 1 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Vorlesung."

Ähnliche Präsentationen


Google-Anzeigen