HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 1 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Vorlesung.

Slides:



Advertisements
Ähnliche Präsentationen
Christian Schindelhauer
Advertisements

Christian Schindelhauer
Algorithmen und Komplexität Teil 1: Grundlegende Algorithmen
Webseitenranking für Suchanfragen anhand von Linkgraphen
Einführung in Berechenbarkeit und Formale Sprachen
Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Notationen A = ist eine endliche, nichtleere menge,
Algorithmen und Komplexität Teil 1: Grundlegende Algorithmen
Verifizieren versus Berechnen
1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Algorithmen für Peer-to-Peer-Netzwerke Sommersemester Vorlesung.
Christian Schindelhauer
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken XV Christian Schindelhauer
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 27. Mai 2002 Christian Schindelhauer.
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken IX Christian Schindelhauer
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken X Christian Schindelhauer
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.
HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 1 Algorithm. Grundlagen des Internets 28. Juli 2003 Christian Schindelhauer Vorlesung.
Klaus Volbert 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Sommersemester 2004.
Christian Schindelhauer
1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Algorithmen für Peer-to-Peer-Netzwerke Sommersemester Vorlesung.
1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Einführung in Berechenbarkeit, Formale Sprachen und Komplexitätstheorie Wintersemester.
1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Einführung in Berechenbarkeit, Formale Sprachen und Komplexitätstheorie Wintersemester.
Christian Schindelhauer
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUTE University of Paderborn Algorithms and Complexity Algorithmen und Komplexität Teil 1: Grundlegende.
High Performance = Innovative Computer Systems + Efficient Algorithms Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen.
Algorithmen und Komplexität
1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Einführung in Berechenbarkeit, Formale Sprachen und Komplexitätstheorie Wintersemester.
Christian Schindelhauer
Christian Schindelhauer
Christian Schindelhauer
1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Algorithmen für Peer-to-Peer-Netzwerke Sommersemester Vorlesung.
Christian Schindelhauer
Christian Schindelhauer
Christian Schindelhauer
Einführung in Berechenbarkeit, Formale Sprachen und Komplexitätstheorie Wintersemester 2005/ Vorlesung Dominic Dumrauf.
Christian Schindelhauer
HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Algorithmen des Internets Sommersemester Vorlesung Christian.
HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 1 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Vorlesung.
Christian Schindelhauer
1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Algorithmen für Peer-to-Peer-Netzwerke Sommersemester Vorlesung.
1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Algorithmen für Peer-to-Peer-Netzwerke Sommersemester Vorlesung.
Christian Schindelhauer
Algorithmen des Internets 2005 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität 1 Klausuraufgaben.
Algorithmen des Internets 2005 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität 1 Materialien zu Übung 9 Bälle in Körbe Ranged.
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Manfred Thaller, Universität zu Köln Köln 26. November 2007
Algorithmen beschreiben
Wie Google Webseiten bewertet
8 WWW-Informationen suchen und finden
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Multivariate Statistische Verfahren
Suchmaschinen.
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken III Christian Schindelhauer
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Peer-to-Peer- Netzwerke Christian Schindelhauer Sommersemester.
Peer-to-Peer-Netzwerke
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Christian Schindelhauer Wintersemester 2006/07 6. Vorlesung
Wintersemester 2005 / Vorlesung
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken VIII Christian Schindelhauer
26. Oktober 2005Autor: Walter Leuenberger Computeria Urdorf Treff vom 26. Oktober 2005 Suchmaschinen im Internet Google & Co.
Algorithmische Probleme in Funknetzwerken IV
Dr.-Ing. R. Marklein - GET I - WS 06/07 - V Grundlagen der Elektrotechnik I (GET I) Vorlesung am Fr. 08:30-10:00 Uhr; R (Hörsaal)
HEINZ NIXDORF INSTITUT Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik Algorithmische Probleme in Funknetzwerken XIII Klaus.
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken VI Christian Schindelhauer
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 1 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Vorlesung.
 Präsentation transkript:

HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 1 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Vorlesung Sommersemester 2003 Algorithmische Grundlagen des Internets IX Christian Schindelhauer HEINZ NIXDORF INSTITUT Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik Institut für Informatik AG Theoretische Informatik Algorithmen, Komplexitätstheorie, Paralleles Rechnen

HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 2 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Überblick Suchmaschinen (Stand Dez. 2002) oGespeicherte Dokumentmenge: Search Engine Showdown Estimate (millions) Claim (millions) Google3,0333,083 AlltheWeb2,1062,116 AltaVista1,6891,000 WiseNut1,4531,500 Hotbot1,1473,000 MSN Search1,0183,000 Teoma1, NLResearch Gigablast275150

HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 3 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Webseitensuche oModerne Websuchalgorithmen verlassen sich nicht nur auf textuelle Suche: Problem des Überflusses an Trefferseiten Wörter decken 95% jedes Texts ab (Paretoverteilung) Mehr Web-Seiten als Wörter Gesucht: wichtige Seiten, d.h. Seiten mit Autorität Wichtige Seiten enthalten nicht den Suchbegriff weder Sportwagen oder Auto Aircraft noch Airjet Search engine noch Suchmaschine Bestimmte Seiten besitzen fast alle Schlüsselwörter Web-Verzeichnisse, Z.B enthalten viele Begriffe, aber keine Autoritäten für ein Gebiet Namensgebung der URL irreführend: ist Webverzeichnis Bestimmte Suchbegriffe fast überall z.B. WWW, Web, windows, java

HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 4 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Webseitensuche oPageRank [Brin&Page 98] Vergibt jeder Web-Seite einen absoluten Rang (rank)/Autorität Rang berücksichtigt Eingrad und Autorität des Eingrads Idee Seiten sind wichtig, wenn wichtige Seite auf sie zeigen oHITS (HyperText Induces Topic Search) [Kleinberg 98] Ausgehend von einem Seitenstamm aus einer textuellen Suche Betracht Hubs (Hinweisseiten) und Autoritäten, Idee: Gute Hubs zeigen gute Autoritäten an Gute Autoritäten werden von guten Hubs adressiert

HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 5 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Vereinfachter PageRank-Algorithmus oVereinfachter PageRank-Algorithmus Rank einer Web-Seite R(u) [0,1] Wichtige Seiten vererben ihr Gewicht (gleichmäßig unter ihren Nachfolgern) c ist Normalisierungsfaktor, so dass ||R(u)|| 1 =1 Vorgängermenge B u Nachfolgermenge F u

HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 6 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Vereinfachter PageRank Beispiel

HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 7 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Matrixdarstellung R c M R, wobei R Vektor (R(1),R(2),… R(n)) und M folgende n n – Matrix ist:

HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 8 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Vereinfachter PageRank-Algorithmus oKonvergiert der vereinfachte PageRank-Algorithmus? oWieviele Lösungen gibt es? oWie sinnvoll sind diese?

HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 9 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Eigenvektor als Fixpunkt der Rekursion Stochastische Matrix oFür Vektor x, n n-Matrix und Zahl λ: Wenn M x = λ x, ist x Eigenvektor und λ Eigenwert oJede n n-Matrix M hat höchstens n Eigenwerte oBeobachtung: Stochastische Matrizen beschreiben Markov- Prozesse über den Zustandsraum {1,..,n} Prob[i j] = M ij

HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 10 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Eigenvektor als Fixpunkt der Rekursion Stochastische Matrix oDie L1-Norm eines Vektors ist gegeben als Eigenwerte von M | i | 1

HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 11 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Periodizität Beispiel 1

HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 12 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Periodizität Beispiel 2

HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 13 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Notwendige Bedingung für Periodizität

HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 14 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Hinreichende Bedingung für Konvergenz

HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 15 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Hinreichende Bedingung für Konvergenz

HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 16 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Nachteile des vereinfachten PageRank- Algorithmus oWeb-Graph hat Senken, d.h. Seiten ohne Links M ist keine stochastische Matrix oWeb-Graph ist periodisch Konvergenz unmöglich oWeb-Graph ist nicht stark zusammenhängend Verschiedene Konvergenzvektoren möglich oRang-Senken: Sarke Zusammenhangskompenenten ohne ausgehenden Kangen saugen Gewicht der Vorgänger auf

HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 17 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Lösung durch PageRank oProzess startet mit zufälliger Seite oJede Senke erhält Links auf jede Seite in V oNur mit Wahrscheinlichkeit q < 1 wird vereinfachter PageRank durchgeführt Ansonsten starte mit zufälliger Startseite oM ist stochastisch!

HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 18 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer PageRank-Algorithmus oGraph der Matrix besteht aus einer starken Zus.- komponente oRundwege der Länge 1 existieren PageRank konvergiert gegen den eindeutigen Eigenvektor mit Eigenwert 1