Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.

Ähnliche Präsentationen


Präsentation zum Thema: "HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer."—  Präsentation transkript:

1 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer Vorlesung Sommersemester 2002 Algorithmische Grundlagen des Internets (VII) Christian Schindelhauer schindel@upb.de HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik AG Meyer auf der Heide

2 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 2 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer 2. Kapitel Der Web-Graph

3 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 3 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer Eigenschaften des WWW oWWW: Speicher für Informationen Neues Medium Nicht geplant, unkoordiniert Im Gegensatz zu Stromnetz, Telefon, Straßen, Eisenbahn Trotzdem Gesetzmäßigkeiten Selbstorganisation Ändert sich dauernd oAnalyse der Webstruktur ermöglicht Bessere Suchmaschinen Automatisch erzeugte Webverzeichnisse Gezielte Suchdienste Filter

4 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 4 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer Der Webgraph oG WWW : Statische HTML-Seiten sind Knoten Links sind gerichtete Kanten oAusgrad eines Knoten: Anzahl Links auf einer Webseite oEingrad eines Knoten: Anzahl der Links zu einer Webseite oGerichteter Pfad von Knoten u zu Knoten v: Folge der Webseiten, um von u zu v durch Links zu kommen oUngerichteter Pfad (u=w 0,w 2,…,w m-1,v=w m ) von Knoten u zu Knoten v: Für alle i: Von w i zu w i+1 existiert Link oder umgekehrt oStarke (schwache) Zusammenhangskomponente: Knotenmenge, in der (un-)gerichteter Pfad von jedem Knoten zu jedem anderen existiert

5 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 5 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer Ein-/Ausgradverteilung oEin-/ und Ausgrade sind Paretoverteilt, d.h. Ein/Ausgrad i erscheint mit Häufigkeit ~ 1/i α oExperimentell überprüft von Kumar et al 97: 40 Mio Webseiten Barabasi et al 99: Domain *.nd.edu + Webseiten im Abstand 3 Broder et al 00: 204 Mio Webseiten (Scan Mai+Okt. 1999)

6 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 6 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer Ein-/Ausgradverteilung von G n,p (I) oZufallsgraph G n,p : n Knoten Jede gerichtete Kante erscheint mit unabhängiger Wkeit p oKann der Webgraph durch G n,p beschrieben werden? oErwarteter Ein/Ausgrad in G n,p = (n-1)p Da durchschnittl. Grad in G WWW konstant, wähle Betrachte feste Webseite r Sei X die Anzahl der Links auf r Sei X i =1 wenn Link nach i existiert, sonst 0 Dann ist P[X i =1]=p und P[X i =0]=1-p

7 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 7 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer Pareto-Verteilung (I) oDiskrete Paretoverteilung für x {1,2,3,…} mit konstanten Faktor Es gilt oHeavy-Tail-Eigenschaft: Nicht alle Momente E[X k ] sind definiert Erwartungswert existiert, gdw, α>2 Varianz und E[X 2 ] definiert, gdw. α>3 E[X k ] definiert, gdw. α>k+1 oDichtefunktion der kontinuierlichen Paretoverteilung für x>x 0

8 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 8 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer Pareto-Verteilung (II) oBeispiele für Paretoverteilungen Pareto 1897:Privatvermögen in Bevölkerung Yule 1944:Wortlängen in Sprachen Zipf 1949:Größe von Städten Länge gewisser Molekülketten Dateilängen in Unix-Filesystem …. Zugriffshäufigkeit von Webseiten Besuchshäufigkeit einzelner Websurfer auf einer bestimmten Seite …

9 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 9 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer Zusammenhangskomponenten oStarke und schwache Zus.-komponenten sind Paretoverteilt oRiesige schwache Zus.-Kompontente mit 91% aller Seiten oGrößte starke Zus.Komponente nur 28% Durchmesser 28 Wo ist der Rest?

10 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 10 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer Ein Bild des Webgraphen Weberfassung durch Altavista Mai+Oktober 1999:

11 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 11 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer Web-Suche Der Suchraum oBesonderheiten des Web als Suchraum: Größe: 1998: 350 Mio. Dokumente 2002: > 1 Mrd. Dokumente Dynamik: Jeden Tag gibt es Veränderungen Halbwertszeit einer Webseite: 55 Monate Heterogenität: Bilder, Tondateien, Text, Filme, etc. Sprachvielfalt: > 100 verschiedene Sprachen Kopien Mehr als 30% der Webseiten sind Kopien anderer Hohe Vernetzung: Durchschnittlich ~7-8 Links pro Seite

12 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 12 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer Überblick über Suchmaschinen (I) http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/SearchEngines.html Google AlltheWeb (Advanced) Alta Vista (Advanced) SizeHUGE. Claims over 1.5 billion pages, but may be counting pages not fully indexed. Biggest in tests. HUGE. Claims will reach a billion pages soon. Sometimes ties for first in tests LARGE. Claims to be the biggest also. Type General Web database with often useful ranking by popularity. Far from comprehensive, but often finds "the best" pages. General Web database. Excelle nt ranking. General Web database Boolean logic Partial. AND assumed between words. Capitalize OR. - excludes. No ( ) or nesting. AND default. For OR, enclose terms or phrases in ( ) without typing "or". AND (default), OR, AND NOT, NEAR (within 10 words). Sub-SearchingYesNo

13 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 13 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer Überblick über Suchmaschinen (II) http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/SearchEngines.html Google AlltheWeb (Advanced) Alta Vista (Advanced) Results Ranking Based on page popularity measured in links to it from other pages: high rank if a lot of other pages link to it. Fuzzy AND also invoked. Automatic Fuzzy AND. Also seems to use "importance" and links to pages. Automatic Fuzzy AND. Some of the top results have purchased the right to be there Truncation No Use *. Case sensitivity No Yes. Upper case retrieves only matching upper case. Lower case retrieves either lower or upper case. Also accent and character sensitive. Language Yes. Major Romanized and non-Romanized languages Yes, extensive list includes major Romanized and non- Romanized languages. Translation YesNoYes

14 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 14 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer Überblick Suchmaschinen http://www.searchengineshowdown.com/ (Stand März 2002) Search EnginesBooleanDefaultProximityTruncationCaseFieldsLimitsStopSorting Google -, ORandPhraseNo intitle, inurl, more Language, filetype, date Yes, + search es Relevance, site WiseNut - onlyandPhraseNo Language Yes, + search es Relevance, site AllTheWeb +, -, or with ()and PhraseNo title, URL, link, more Language, domain, No Relevance, site Lycos +, -and PhraseNo title, URL, link, more Language, domain NoRelevance Northern Light and, or, not, ( ), +, - and Phrase Yes * %, auto plurals No title,URL, more Doc type date, more No Relevance, site, date, folders AltaVista Simple +, -, AND, OR, AND NOT, ( ) and usually Phrase, NEAR Yes * < 6 ** unlimited No title, URL, link, more LanguageNo Relevance, site AltaVista Adv. and, or, and not, ( )Phrase Phrase, near, within, <, <~ Yes * < 6 ** unlimited Yes title, URL, link, more Language, date No Relevance, if used HotBot and, or, not, ( ), +, - AndPhraseYes *Yestitle, more Language, date, more Yes Relevance, site MSN Search AND, OR, NOT, ( ), +, - AndPhraseNoYestitle, link Language, date, more YesRelevance Teoma - onlyAndPhraseNo Yes, + search es Folders, Relevance, metasites

15 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 15 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer Überblick Suchmaschinen http://www.searchengineshowdown.com/ (Stand März 2002) oGespeicherte Dokumentmenge: Search Engine Showdown Estimate (millions) Claim (millions) Google9681,500 WiseNut5791,500 AllTheWeb580507 Northern Light417358 AltaVista397500 Hotbot332500 MSN Search 292500

16 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 16 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer Weberfassung oWeb-Crawler: Robust und sorgfältig getestet wegen Heterogenität des Webs Extern: Keine Überlastung von Web-surfer Kein unvorhersehbares Verhalten Intern Effizienter Umgang mit riesigen Datenmengen Bestimmt Reihenfolge der Suche im Web-Graph -Wichtige Seiten zuerst! Richtige Wahl Frequenz der Wiederkehr auf besuchte Seiten oZ.B. Google Verteiltes Crawling-System Jeder Crawler hat 300 Verbindungen gleichzeitig 100 Webseiten/Sekunde - 600 Kbyte Daten pro Sekunde

17 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 17 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer Webseitensuche oModerne Websuchalgorithmen verlassen sich nicht nur auf textuelle Suche: Problem des Überflusses an Trefferseiten 10.000 Wörter decken 95% jedes Texts ab (Paretoverteilung) Mehr Web-Seiten als Wörter Gesucht: wichtige Seiten, d.h. Seiten mit Autorität Wichtige Seiten enthalten nicht den Suchbegriff http://www.porsche.com: weder Sportwagen oder Auto http://www.airbus.com:weder Aircraft noch Airjet http://www.google.de/weder Search engine noch Suchmaschine Bestimmte Seiten besitzen fast alle Schlüsselwörter http://wortschatz.uni-leipzig.de/top10000en.txt Web-Verzeichnisse, Z.B. www.yahoo.com, www.web.de, www.netscape.com enthalten viele Begriffe, aber keine Autoritäten für ein Gebiet Namensgebung der URL irreführend: http://www.haus.com/ ist Webverzeichnis Bestimmte Suchbegriffe fast überall z.B. WWW, Web, windows, java

18 HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 18 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer Webseitensuche oPageRank [Brin&Page 98] Vergibt jeder Web-Seite einen absoluten Rang (rank)/Autorität Rang berücksichtigt Eingrad und Autorität des Eingrads Idee Seiten sind wichtig, wenn wichtige Seite auf sie zeigen oHITS (HyperText Induces Topic Search) [Kleinberg 98] Ausgehend von einem Seitenstamm aus einer textuellen Suche Betracht Hubs (Verteiler) und Autoritäten, Idee: Gute Hubs zeigen gute Autoritäten an Gute Autoritäten werden von guten Hubs adressiert oAnchor Text (Google) Text unter Link und Webseite zusammengenommen Grafiken können gesucht werden Auch Seiten ohne Suchbegriff können werden gefunden


Herunterladen ppt "HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer."

Ähnliche Präsentationen


Google-Anzeigen