Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 1 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Vorlesung.

Ähnliche Präsentationen


Präsentation zum Thema: "HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 1 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Vorlesung."—  Präsentation transkript:

1 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 1 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Vorlesung Sommersemester 2003 Algorithmische Grundlagen des Internets XI Christian Schindelhauer HEINZ NIXDORF INSTITUT Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik Institut für Informatik AG Theoretische Informatik Algorithmen, Komplexitätstheorie, Paralleles Rechnen

2 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 2 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer ACHTUNG Neue Räume Christian Schindelhauer Raum:F2.315 Tel.: Klaus Volbert Raum:F2.313 Tel.:

3 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 3 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Webseitensuche oPageRank [Brin&Page 98] Vergibt jeder Web-Seite einen absoluten Rang (rank)/Autorität Rang berücksichtigt Eingrad und Autorität des Eingrads Idee Seiten sind wichtig, wenn wichtige Seite auf sie zeigen oHITS (HyperText Induced Topic Search) [Kleinberg 98] Ausgehend von einem Seitenstamm aus einer textuellen Suche Betracht Hubs (Hinweisseiten) und Autoritäten, Idee: Gute Hubs zeigen gute Autoritäten an Gute Autoritäten werden von guten Hubs adressiert

4 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 4 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Kleinbergs HITS-Algoirhtmus (HyperText Induced Search) oAnwendung: Textuelle Suche führt zu großen Anzahl von Treffern, z.B. Suche nach windows Gewünschte Seite enthält nicht Suchwort z.B. enthält weder Sportwagen noch Auto Suche nach allgemeinen Begriffen oIdee des Algorithmus Autorität/Relevanz einer Web-Seite wird durch Links auf Hinweisseiten (hubs) bezeugt z.B. Eisenbahnfans sammeln Links von Eisenbahngesellschaften Autoritäten weisen auf die Qualität von Hinweisseiten hin Ähnlicher Mechanismus wie PageRank-Algorithmus

5 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 5 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Basismengenauswahl oIdeal: S ist relativ klein S enthält viele relevante Web-Seiten S enthält die meisten (oder viele) der wichtigsten Autoritäten oKnotenheuristik Erweitere um Nachfolger da Hinweisseiten in R auf diese zeigen Erweitere um max. d Vorgänger um ausreichende Anzahl von Hinweisseiten zu erhalten

6 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 6 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Kantenmengenheuristik oNeben Knoten werden Kanten eingeschränkt: oKantenmengenheuristik Lösche interne Links (innerhalb der selben Domain) wegen Navigationslinks wegen Links auf Autor Erlaube maximal m ( 4-8) Links aus gleicher Domain auf eine Seite wegen Werbelinks wegen Links auf Softwaretool

7 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 7 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Gegenseitige Verstärkung oGewichtung für Autorität einer Seite i: x i oGewichtung für Hinweiseigenschaft einer Seite i: y i oAutorität/Relevanz einer Web-Seite wird durch Links auf Hinweisseiten (hubs) bezeugt oAutoritäten weisen auf die Qualität von Hinweisseiten hin c1, c2 normieren x und y bezüglich der L2-Norm:

8 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 8 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Der HITS-Algorithmus

9 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 9 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Matrixdarstellung oAus Adjazenzmatrix: oAutoritäten: oHinweisseiten: oNach t Iterationen: oD.h.

10 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 10 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Matrixdarstellung oM = A A T ist symmetrische Matrix oFür symmetrische Matrizen sind alle n Eigenwerte reell sind die n Eigenvektoren orthogonal oEs existiert die Darstellung owobei für die Spaltenvektoren S i gilt oFalls größter Eigenwert 1 > 2 konvergiert der HITS-Algorithmus

11 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 11 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer WWW-Lastbalancierung oFür Surfen im Web typisch: Web-Server bieten Web- Seiten an Web-Clients fordern Web- Seiten an oIn der Regel sind diese Mengen disjunkt oEingehende Anforderungen belasten Web-Server hinsichtlich: Übertragungsbandbreite Rechenaufwand (Zeit,Speicher) Hans Hinz Kunz

12 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 12 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Lastanforderungen oEinige Web-Server haben immer hohe Lastanforderungen Z.B. Nachrichten-Sites, Suchmaschinen, Web- verzeichnisse Für permanente Anforderungen müssen Server entsprechen ausgelegt werden oAndere leiden unter hohen Fluktuationen, z.B. Z.B. Web-Site des Tages, NASA, Turniere Server-Erweiterung nicht sinnvoll Bedienung der Anfragen aber erwünscht altenbeken.de MontagDienstag altenbeken.de Mittwoch altenbeken.de

13 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 13 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Lastbalancierung im WWW oAndere leiden unter hohen Fluktuationen Server-Erweiterung nicht sinnvoll Bedienung der Anfragen aber erwünscht o(Kommerzielle) Lösung Dienstleister bieten Ausweich-(Cache) Server an Viele Anforderungen werden auf diese Server verteilt oAber wie? altenbeken.de MontagDienstag altenbeken.de Mittwoch altenbeken.de

14 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 14 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Web-Caching oLeighton, Lewin, et al. STOC 97 Consistent Hashing and Random Trees: Distributed Caching Protocols for Relieving Hot Spots on the World Wide Web Passen bestehende Verfahren für dynamische Hash-Funktionen an WWW-Anforderungen an oLeighton und Lewin (MIT) gründen Akamai 97 oAkaimai 2003: 550 Angestellte Ertrag 145 Mio. $ (2002) Server in 60 Ländern verbunden mit lokalen Netzwerken Web-Cache viadukt.de

15 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 15 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Ausgangssituation oOhne Lastbalancierung: Jeder Browser (Web-Client) belegt einen Web-Server für eine Web-Site oVorteil: Einfach oNachteil: Der Server muß immer für den Worst-Case ausgelegt werden Webseiten Web-Server Web-Clients

16 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 16 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Site Caching oGanze Web-Site wird auf verschiedene Web-Caches kopiert oBrowser fragt bei Web-Server nach Seite oWeb-Server leitet Anfrage auf Web- Cache um (redirect) oWeb-Cache liefert Web-Seite aus oVorteil: Gute Lastbalancierung für Seitenverteilung oNachteil: Bottleneck: Redirect Großer Overhead durch vollständige Web-Site- Replikationen Webseiten Web-Server Web-Clients Web-Cache

17 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 17 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Proxy Caching oJede Web-Seite wird auf einige (wenige) Web-Cache verteilt oNur Startanfrage erreicht Web-Server oLinks referenzieren auf Seiten im Web- Cache oDann surft der Web-Client nur noch auf den Web-Cache oVorteil: Kein Bottleneck oNachteil: Lastbalancierung nur implizit möglich Hohe Anforderung an Caching- Algorithmus Webseiten Web-Server Web-Clients Web-Cache Link

18 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 18 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Anforderungen an Caching-Algorithmus 1.Balance Gleichmäßige Verteilung der Seiten 2.Dynamik Effizientes Einfügen/Löschen von neuen Web-Cache-Servern 3.Views Web-Clients sehen unterschiedliche Menge von Web-Caches

19 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 19 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Ranged Hash-Funktionen oGegeben: Elemente (Items) I, Anzahl: I = | I | Caches (Buckets) B Views V 2 B oRanged Hash-Funktion: Voraussetzung:

20 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 20 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer 1. Idee Hash-Funktion (I) oVerfahren: Wähle Hash-Funktion, z.B. r(i) = a i + b mod n n: Anzahl Cache-Server o Balance: Sehr gut! oDynamik Einfügen/Löschen von nur einem Cach- Server Neue Hash-Funktion und vollständige Neuzuweisung Hoher Aufwand! i + 1 mod i + 2 mod 3

21 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 21 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer 1. Idee Hash-Funktion (II) oVerfahren: Wähle Hash-Funktion, z.B. r(i) = a i + b mod n n: Anzahl Cache- Server o Views Verschiedene Nummerierungen der Web-Cache notwendig Anzahl der Duplikate proportional zu der Anzahl der Views i + 1 mod View 1: 2i+2 mod 3 View 2: 2i+2 mod Ein View

22 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 22 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Anforderungen an Ranged Hash-Funktionen 1. Monotonie oSeiten, die im umfassenderen View einem Cach zugewiesen sind, werden nicht umorganisiert View 1: View 2: Seiten Cache

23 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 23 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Anforderungen an Ranged Hash-Funktionen 2. Balance Für jeden View V ist die Hash-Funktion f V (i) balanciert View 1: View 2: Seiten Cache

24 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 24 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Anforderungen an Ranged Hash-Funktionen 3. Spread Die Verbreitung σ(i) (spread) einer Seite i ist die Gesamtanzahl aller notwendigen Kopien (über alle Views) View 1: View 2: View 3:

25 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 25 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Anforderungen an Ranged Hash-Funktionen 4. Load View 1: View 2: View 3: Die Last λ(b) (load) eines Caches b ist die Gesamtanzahl aller notwendigen Kopien (über alle Views)

26 HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 26 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Konsistentes Hashing oFür jede Hash-Funktion existiert eine Worst-Case-Eingabe Daher betrachtet man grundsätzlich Familien von Hash-Funktionen Genauso definieren wir Familie von Ranged-Hash-Funktionen für geg. Views und Caches oC: Anzahl aller Caches B und Mindestanzahl Caches pro View ist C/t oSei ρ = V/C konstant und I= C (Anzahl Seiten = Anzahl Caches) Theorem Es gibt eine Familie von ranged-Hash-Funktionen F mit den folgenden Eigenschaften 1.Jede Funktion f F ist monoton 2.Balance: Für jeden View gilt 3.Spread: Für jede Seite i ist 4.Load: Für jeden Cache b ist


Herunterladen ppt "HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 1 Algorithm. Grundlagen des Internets 14. Juli 2003 Christian Schindelhauer Vorlesung."

Ähnliche Präsentationen


Google-Anzeigen