Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

Ähnliche Präsentationen


Präsentation zum Thema: "HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer."—  Präsentation transkript:

1 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Vorlesung Sommersemester 2002 Algorithmische Grundlagen des Internets (IX) Christian Schindelhauer schindel@upb.de HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik AG Meyer auf der Heide

2 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 2 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Vereinfachter PageRank-Algorithmus oVereinfachter PageRank-Algorithmus Rank einer Web-Seite R(u) [0,1] Wichtige Seiten vererben ihr Gewicht (gleichmäßig unter ihren Nachfolgern) c ist Normalisierungsfaktor, so dass ||R(u)|| 1 =1 Vorgängermenge B u Nachfolgermenge F u

3 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 3 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Vereinfachter PageRank Beispiel

4 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 4 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Vereinfachter PageRank-Algorithmus oKonvergiert der vereinfachte PageRank-Algorithmus? oWieviele Lösungen gibt es? oWie sinnvoll sind diese?

5 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 5 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Matrixdarstellung R c M R, wobei R Vektor (R(1),R(2),… R(n)) und M folgende n n – Matrix ist:

6 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 6 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Eigenvektor als Fixpunkt der Rekursion Stochastische Matrix oFür Vektor R, n n-Matrix und Zahl c: Wenn M R = c R, ist R Eigenvektor und c Eigenwert oJede n n-Matrix M hat höchstens n Eigenwerte oBeobachtung: Stochastische Matrizen beschreiben Markov- Prozesse über den Zustandsraum {1,..,n} Prob[i j] = M ij

7 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 7 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Eigenvektor als Fixpunkt der Rekursion Stochastische Matrix oDie L1-Norm eines Vektors ist gegeben als Eigenwerte von M | i | 1

8 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 8 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Periodizität Beispiel 1

9 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 9 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Periodizität Beispiel 2

10 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 10 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Notwendige Bedingung für Periodizität

11 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 11 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Notwendige Bedingung für Periodizität

12 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 12 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Notwendige Bedingung für Periodizität

13 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 13 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Hinreichende Bedingung für Konvergenz

14 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 14 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Notwendige Bedingung für Periodizität

15 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 15 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Notwendige Bedingung für Periodizität

16 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 16 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Hinreichende Bedingung für Konvergenz

17 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 17 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Hinreichende Bedingung für Konvergenz

18 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 18 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Nachteile des vereinfachten PageRank- Algorithmus oWeb-Graph hat Senken, d.h. Seiten ohne Links M ist keine stochastische Matrix oWeb-Graph ist periodisch Konvergenz unmöglich oWeb-Graph ist nicht stark zusammenhängend Verschiedene Konvergenzvektoren möglich oRang-Senken: Sarke Zusammenhangskompenenten ohne ausgehenden Kangen saugen Gewicht der Vorgänger auf

19 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 19 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Lösung durch PageRank oProzess startet mit zufälliger Seite oJede Senke erhält Links auf jede Seite in V oNur mit Wahrscheinlichkeit q < 1 wird vereinfachter PageRank durchgeführt Ansonsten starte mit zufälliger Startseite oM ist stochastisch!

20 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 20 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer PageRank-Algorithmus oGraph der Matrix besteht aus einer starken Zus.- komponente oRundwege der Länge 1 existieren PageRank konvergiert gegen den eindeutigen Eigenvektor mit Eigenwert 1

21 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 21 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Kleinbergs HITS-Algoirhtmus (HyperText Induced Search) oAnwendung: Textuelle Suche führt zu großen Anzahl von Treffern, z.B. Suche nach windows Gewünschte Seite enthält nicht Suchwort z.B. http://www.porsche.com enthält weder Sportwagen noch Auto Suche nach allgemeinen Begriffen oIdee des Algorithmus Autorität/Relevanz einer Web-Seite wird durch Links auf Hinweisseiten (hubs) bezeugt z.B. Eisenbahnfans sammeln Links von Eisenbahngesellschaften Autoritäten weisen auf die Qualität von Hinweisseiten hin Ähnlicher Mechanismus wie PageRank-Algorithmus

22 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 22 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Basismengenauswahl oIdeal: S ist relativ klein S enthält viele relevante Web-Seiten S enthält die meisten (oder viele) der wichtigsten Autoritäten oKnotenheuristik Erweitere um Nachfolger da Hinweisseiten in R auf diese zeigen Erweitere um max. d Vorgänger um ausreichende Anzahl von Hinweisseiten zu erhalten

23 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 23 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Kantenmengenheuristik oNeben Knoten werden Kanten eingeschränkt: oKantenmengenheuristik Lösche interne Links (innerhalb der selben Domain) wegen Navigationslinks wegen Links auf Autor Erlaube maximal m ( 4-8) Links aus gleicher Domain auf eine Seite wegen Werbelinks wegen Links auf Softwaretool

24 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 24 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Gegenseitige Verstärkung oGewichtung für Autorität einer Seite i: x i oGewichtung für Hinweiseigenschaft einer Seite i: y i oAutorität/Relevanz einer Web-Seite wird durch Links auf Hinweisseiten (hubs) bezeugt oAutoritäten weisen auf die Qualität von Hinweisseiten hin c1, c2 normieren x und y bezüglich der L2-Norm:

25 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 25 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Der HITS-Algorithmus

26 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 26 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Matrixdarstellung oAus Adjazenzmatrix: oAutoritäten: oHinweisseiten: oNach t Iterationen: oD.h.

27 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 27 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer Matrixdarstellung oM = A A T ist symmetrische Matrix oFür symmetrische Matrizen sind alle n Eigenwerte reell sind die n Eigenvektoren orthogonal oEs existiert die Darstellung owobei für die Spaltenvektoren S i gilt oFalls größter Eigenwert 1 > 2 konvergiert der HITS-Algorithmus folgt aus Übungsaufgabe 20


Herunterladen ppt "HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer."

Ähnliche Präsentationen


Google-Anzeigen