Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Horst Glöckner Geändert vor über 8 Jahren
1
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 1 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Vorlesung Sommersemester 2003 Algorithmische Grundlagen des Internets X Christian Schindelhauer schindel@upb.de HEINZ NIXDORF INSTITUT Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik Institut für Informatik AG Theoretische Informatik Algorithmen, Komplexitätstheorie, Paralleles Rechnen
2
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 2 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer ACHTUNG Neue Räume Christian Schindelhauer Raum:F2.315 Tel.: 60-6692 Klaus Volbert Raum:F2.313 Tel.: 60-6722
3
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 3 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Webseitensuche oPageRank [Brin&Page 98] Vergibt jeder Web-Seite einen absoluten Rang (rank)/Autorität Rang berücksichtigt Eingrad und Autorität des Eingrads Idee Seiten sind wichtig, wenn wichtige Seite auf sie zeigen oHITS (HyperText Induces Topic Search) [Kleinberg 98] Ausgehend von einem Seitenstamm aus einer textuellen Suche Betracht Hubs (Hinweisseiten) und Autoritäten, Idee: Gute Hubs zeigen gute Autoritäten an Gute Autoritäten werden von guten Hubs adressiert
4
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 4 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Vereinfachter PageRank-Algorithmus oVereinfachter PageRank-Algorithmus Rank einer Web-Seite R(u) [0,1] Wichtige Seiten vererben ihr Gewicht (gleichmäßig unter ihren Nachfolgern) c ist Normalisierungsfaktor, so dass ||R(u)|| 1 =1 Vorgängermenge B u Nachfolgermenge F u
5
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 5 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Vereinfachter PageRank Beispiel
6
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 6 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Matrixdarstellung R c M R, wobei R Vektor (R(1),R(2),… R(n)) und M folgende n n – Matrix ist:
7
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 7 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Vereinfachter PageRank-Algorithmus oKonvergiert der vereinfachte PageRank-Algorithmus? oWieviele Lösungen gibt es? oWie sinnvoll sind diese?
8
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 8 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Eigenvektor als Fixpunkt der Rekursion Stochastische Matrix oFür Vektor x, n n-Matrix und Zahl λ: Wenn M x = λ x, ist x Eigenvektor und λ Eigenwert oJede n n-Matrix M hat höchstens n Eigenwerte oBeobachtung: Stochastische Matrizen beschreiben Markov- Prozesse über den Zustandsraum {1,..,n} Prob[i j] = M ij
9
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 9 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Eigenvektor als Fixpunkt der Rekursion Stochastische Matrix oDie L1-Norm eines Vektors ist gegeben als Eigenwerte von M | i | 1
10
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 10 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Periodizität Beispiel 1
11
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 11 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Periodizität Beispiel 2
12
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 12 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Notwendige Bedingung für Periodizität
13
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 13 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Hinreichende Bedingung für Konvergenz
14
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 14 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Hinreichende Bedingung für Konvergenz
15
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 15 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Hinreichende Bedingung für Konvergenz
16
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 16 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Nachteile des vereinfachten PageRank- Algorithmus oWeb-Graph hat Senken, d.h. Seiten ohne Links M ist keine stochastische Matrix oWeb-Graph ist periodisch Konvergenz unmöglich oWeb-Graph ist nicht stark zusammenhängend Verschiedene Konvergenzvektoren möglich oRang-Senken: Sarke Zusammenhangskompenenten ohne ausgehenden Kangen „saugen“ Gewicht der Vorgänger auf
17
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 17 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Lösung durch PageRank oProzess startet mit zufälliger Seite oJede Senke erhält Links auf jede Seite in V oNur mit Wahrscheinlichkeit q < 1 wird vereinfachter PageRank durchgeführt Ansonsten starte mit zufälliger Startseite oM ist stochastisch!
18
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 18 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer PageRank-Algorithmus oGraph der Matrix besteht aus einer starken Zus.- komponente oRundwege der Länge 1 existieren PageRank konvergiert gegen den eindeutigen Eigenvektor mit Eigenwert 1
19
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 19 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Kleinbergs HITS-Algoirhtmus (HyperText Induced Search) oAnwendung: Textuelle Suche führt zu großen Anzahl von Treffern, z.B. Suche nach „windows“ Gewünschte Seite enthält nicht Suchwort z.B. http://www.porsche.com enthält weder „Sportwagen“ noch „Auto“ Suche nach allgemeinen Begriffen oIdee des Algorithmus Autorität/Relevanz einer Web-Seite wird durch Links auf Hinweisseiten (hubs) bezeugt z.B. Eisenbahnfans sammeln Links von Eisenbahngesellschaften Autoritäten weisen auf die Qualität von Hinweisseiten hin Ähnlicher Mechanismus wie PageRank-Algorithmus
20
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 20 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Basismengenauswahl oIdeal: S ist relativ klein S enthält viele relevante Web-Seiten S enthält die meisten (oder viele) der wichtigsten Autoritäten oKnotenheuristik Erweitere um Nachfolger da Hinweisseiten in R auf diese zeigen Erweitere um max. d Vorgänger um ausreichende Anzahl von Hinweisseiten zu erhalten
21
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 21 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Kantenmengenheuristik oNeben Knoten werden Kanten eingeschränkt: oKantenmengenheuristik Lösche interne Links (innerhalb der selben Domain) wegen Navigationslinks wegen Links auf Autor Erlaube maximal m ( 4-8) Links aus gleicher Domain auf eine Seite wegen Werbelinks wegen Links auf Softwaretool
22
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 22 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Gegenseitige Verstärkung oGewichtung für Autorität einer Seite i: x i oGewichtung für Hinweiseigenschaft einer Seite i: y i oAutorität/Relevanz einer Web-Seite wird durch Links auf Hinweisseiten (hubs) bezeugt oAutoritäten weisen auf die Qualität von Hinweisseiten hin c1, c2 normieren x und y bezüglich der L2-Norm:
23
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 23 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Der HITS-Algorithmus
24
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 24 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Matrixdarstellung oAus Adjazenzmatrix: oAutoritäten: oHinweisseiten: oNach t Iterationen: oD.h.
25
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 25 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Matrixdarstellung oM = A A T ist symmetrische Matrix oFür symmetrische Matrizen sind alle n Eigenwerte reell sind die n Eigenvektoren orthogonal oEs existiert die Darstellung owobei für die Spaltenvektoren S i gilt oFalls größter Eigenwert 1 > 2 konvergiert der HITS-Algorithmus
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.