Wie Google Webseiten bewertet

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen für das Erfüllbarkeitsproblem SAT
Advertisements

Christian Scheideler SS 2009
Schnelle Matrizenoperationen von Christian Büttner
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Graphen Ein Graph ist eine Kollektion von Knoten und Kanten. Knoten sind einfache Objekte. Sie haben Namen und können Träger von Werten, Eigenschaften.
Webseitenranking für Suchanfragen anhand von Linkgraphen
13. Transformationen mit Matrizen
R. Der - Vorlesung Algorithmen und Datenstrukturen (Magister)
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.
HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 1 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Vorlesung.
FH-Hof Deadlocks Richard Göbel. FH-Hof Deadlock - Definition Menge von Prozessen ist an einem Deadlock beteiligt: wenn jeder Prozess in dieser Menge auf.
Dynamische Programmierung (2) Matrixkettenprodukt
WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Kapitel 1 Die natürlichen und die ganze Zahlen. Kapitel 1: Die natürlichen und die ganzen Zahlen © Beutelspacher/Zschiegner April 2005 Seite 2 Inhalt.
Seminar parallele Programmierung SS 2003
Proseminar „Algorithmen auf Graphen“
2D-Visualisierung von Daten
Beispiele für Gleichungssysteme
Klausur „Diskrete Mathematik II“
Zu Kap I.8.3. Formale Lösung mit Greenscher Funktion
Neuronale Netze Romy Kuttner, Franco Haberland.
Folie 1 § 29 Determinanten: Eigenschaften und Berechnung (29.1) Definition: Eine Determinantenfunktion auf K nxn ist eine Abbildung (im Falle char(K) ungleich.
Matrix-Algebra Grundlagen 1. Matrizen und Vektoren
§10 Vektorraum. Definition und Beispiele
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
§20 Der Rang einer Matrix Jede (m,n)-Matrix kann auch als ein n-Tupel von Spaltenvektoren geschrieben werden: wobei (20.1) Definition:
Institut für Theoretische Informatik
Institut für Theoretische Informatik
Die Kirchhoffschen Regeln
Lösen von quadratischen Ungleichungen
Multivariate Statistische Verfahren
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 1: Wiederholung (Vor allem Folien von Priv.-Doz. Dr. Kindler vom WS 2001/02.
Multivariate Statistische Verfahren
Multivariate Statistische Verfahren
Petrinetze 1. Einführung Informatik : wesentlich Modellierung von
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Peer-to-Peer- Netzwerke Christian Schindelhauer Sommersemester.
se_4_graphen_und_baeume_I.ppt1 Softwareengineering Graphen und Bäume 1 Prof. Dr.-Ing. Axel Benz, Berlin School of Economics and Law.
Analyse der Laufzeit von Algorithmen
ANN - Simulator Rainer Trummer Ferdinand Schober Christian Spielberger.
Jedem angehenden Ingenieur wird schon zu Beginn beigebracht, zum Beispiel die Summe von zwei Größen nicht etwa in der Form darzustellen. Diese Form ist.
Google (Web-Suchmaschine) Google Books Google Scholar
Eine kurze Geschichte der Graphentheorie
Fallstudie „intelligentes“ semantisches Netz
Dr.-Ing. R. Marklein - GET I - WS 06/07 - V Grundlagen der Elektrotechnik I (GET I) Vorlesung am Fr. 08:30-10:00 Uhr; R (Hörsaal)
Testtheorie (Vorlesung 4: ) Wiederholung/Zusammenfassung
Anfang Präsentation 3. November, 2004 Tarjan’s Schleifenaufbrechalgorithmus In dieser Vorlesung wird ein Verfahren vorgestellt, welches in der Lage ist,
Optimierungs- Algorithmen
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 1 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Vorlesung.
Version vom Max-Flow in Orientierten Matroiden Winfried Hochstättler & Robert Nickel Fernuniversität in Hagen Lehrstuhl für Diskrete Mathematik.
HYPERLINK WAS IST DAS WEB 2.0? SEMANTIC WEB.
Binärbäume.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
Was ist ein HTML-Dokument? - Ein WWW-Dokument, das mit anderen Dokumenten verknüpft ist. - Es kann beinhalten: Text, Bilder, Geräusche, Videos, Animationen,
Klausur „Diskrete Mathematik II“
3. Die Datenstruktur Graph 3.2 Repräsentation von Graphen
 Präsentation transkript:

Wie Google Webseiten bewertet François Bry

Heutige Vorlesung Einleitung Graphen und Matrizen Erste Idee: Ranking als Eigenvektor Fragen: Exisitiert der Eigenvektor? Usw. Zweite Idee: Die Google-Matrix Dritte Idee: Die Power-Methode Schlussbemerkungen

1. Einleitung Die Suche im Web benötigt Suchmaschinen, weil: das Web keine Verwaltung, folglich keine bekannte Struktur hat; das Web für sehr unterschiedlichen Zwecke verwendet wird; viele Daten im Web kurzlebig sind; Es Sichtbarkeitsverzerrungen durch "link farms", "Google bombs", "spamdexing", etc. gibt; das Web riesig ist: über 12 Milliarden Dokumenten in 2009.

1. Einleitung 1997 wurde klar: bekannte Ansätze der IR (Information Retrieval) reichen fürs Web nicht aus. Zwei Ansätze zum Ranking von Webseiten wurden vorgeschlagen: HITS (Hypertext Induced Topic Search) durch Jon Kleinberg PageRank durch Sergey Brin and Larry Page

2. Graphen und Matrizen Gerichteter Graph Adjazenzmatrix A eines gerichteten Graphen Summe der Zeile i: Anzahl der ausgehenden Kanten des Knotens i Summe der Spalte i: Anzahl der eingehenden Kanten des Knotens i A . 1: Komponente i ist die Anzahl der ausgehenden Kanten des Knotens i

2. Graphen und Matrizen H Hyperlink-Matrix des Webs: Transponierte AT der Adjazenzmatrix A eines gerichteten Graphen AT . 1: Komponente i ist die Anzahl der eingehenden Kanten des Knotens i H Hyperlink-Matrix des Webs: Transponierte der Adjazenzmatrix des Hyperlink-Graphens, wobei Kanten einer Seite zu sich selbst nicht berücksichtigt werden

2. Graphen und Matrizen H‘ veränderte Hyerlink-Matrix des Webs: Die Komponenten einer Spalte, die nicht nur Nullen enthält, werden durch die Spaltensumme dividiert. Die Summe einer Spalte ist also 0 oder 1. Bedeutung: Verlinkt eine Webseite auf n weiteren Seiten, so gibt sie jeder dieser n Webseiten 1/n ihrer Wichtigkeit ab. H‘.1: Komponente i ist die von der Webseite i über die Links vererbte Wichtigkeit

3. Erste Idee: Ranking als Eigenvektor Das gesuchte Ranking ist ein Vektor mit realen und positiven Komponenten und ein Eigenvektor, d.h. ein Vektor v, so dass: H‘ . v = v Begründung: v gibt die Wichtigkeiten der Webseiten richtig an, weil nichts mehr vererbt werden kann: H‘ . H‘ . v = H‘ . v = v Bemerkung: ist v Lösung, so auch k . v. Man kann sich auf Vektoren der Länge 1 einschränken.

3. Erste Idee: Ranking als Eigenvektor Auslegung: Eine Webseite ist desto wichtiger, dass sie von wichtigen Webseiten angezeigt wird. Die Wichtigkeit einer Webseite S ist die Summe der Wichtigkeiten der Webseiten, die auf S zeigen. Wenn eine Seite S auf mehrere weiteren Seiten zeigt, dann wird die Wichtigkeit von S unter den Webseiten (in gleichen Teilen) geteilt, worauf S zeigt.

3. Erste Idee: Ranking als Eigenvektor Diese erste Idee war nicht ganz neu: Input-output-Analyse von Wassily Leontiev (Nobel-Preis von 1973): Matrix aber kein Eigenvektor Kreditrisikoschätzung bei Banken: Eigenvektor

4. Existiert der Eigenvektor? Präzisierung der Frage: Gibt es eine Lösung v der Gleichung H‘ . v = v mit realen und positiven Komponenten? Falls ja ist diese Lösung eindeutig? Sonst wären die Lösungen nutzlos.

4. Existiert der Eigenvektor? Satz von Perron-Frobenius: Wenn A die Adjazenzmatrix von einem stark-verbundenen Graph ist, dann hat die Gleichung A . v = v eine eindeutige Lösung v mit realen und positiven Komponenten. Diese Lösung heißt Perron-Vektor von A.

4. Existiert der Eigenvektor? Offensichtlich ist der Hyperlink-Graph des Webs nicht stark-verbunden: Einige Webseiten sind gar nicht angelinked. Eine Suchmaschine kann die meisten davon ignorieren. Einige Webseiten sind Senken, d.h. haben keine ausgehende Links. In H' entsprechen die Senken Spalten, die nur Nullen beinhalten.

5. Zweite Idee : Die Google-Matrix Zur Beseitigung der Senken: Ersetze jede Null in einer Spalte von H', die nur Nullen enthält, durch 1/n (wobei n die Anzahl der Webseiten ist). Zur Starkverbundenheit des Graphen: G = c H' + (1 - c) E mit 0 < c < 1 und E Matrix mit identischen Spalten (p1, ..., pn) mit 0 < pi <1 und Summe der pi = 1.

5. Zweite Idee : Die Google-Matrix Auslegung der Google-Matrix als zufällige Wanderung durch das Web Mit Wahrscheinlichkeit c wird ein Link von der Webseite verfolgt, wo man sich befindet. Mit Wahrscheinlichkeit (1 - c) wird auf irgendeine Webseite gesprungen.

5. Zweite Idee : Die Google-Matrix pi ist der Personalisierungswert der Webseite i: hoch für whitehouse.gov oder lmu.de niedrig für myhomepage.de

6. Dritte Idee : Die Power-Methode Sind A die Adjazenzmatrix eines stark- verbundenen Graphen und w ein Vektor w mit realen und positiven Komponenten, so ist der Limes von Gk.w für k gegen unendlich der Perron-Vektor von A. Effizient wenn A schwach besetzt ist. G ist es nicht aber Gk.w = c H‘k.w + (1 - c) Ek.w und die letzte Komponente der Summe ist leicht zu berechnen.

6. Dritte Idee : Die Power-Methode Die Power-Methode so implementieren, dass nur Vektoren aber keine Matrizen Zwischenergebnisse sind; parallel berechnet wird.

7. Schlussbemerkungen Algebraisierung der Geometrie Was sind Vektoren und Matrizen? Wie kann man damit rechnen? Antwort in der Vorlesung Lineare Algebra Was kann man mit Matrizen und Vektoren noch tun? Sehr viel: Algebraisierung der Geometrie Clustering, Ranking in Data Mining, IR Social Network Analysis Risikoschäzung etc. Siehe meine Vorlesung Web-Informationssysteme