Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Algorithmen des Internets Sommersemester 2005 27.06.2005 11. Vorlesung Christian.

Ähnliche Präsentationen


Präsentation zum Thema: "HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Algorithmen des Internets Sommersemester 2005 27.06.2005 11. Vorlesung Christian."—  Präsentation transkript:

1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Algorithmen des Internets Sommersemester Vorlesung Christian Schindelhauer

2 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer 2 Heute Überblick Das Internet: Einführung und Überblick Mathematische Grundlagen IP: Routing im Internet TCP: Das Transport-Protokoll des Internets Die Struktur des World Wide Web und des Internets Suche im Web Web-Caching im Internet Peer-to-peer-Netzwerke –Geschichte und Bedeutung –1. Generation: Napster –2. Generation: Gnutella –3. Generation: CAN und CHORD Angriffe auf das Internet

3 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Peer-to-Peer Netzwerke 2005 Popularität –50% des Internetverkehrs werden durch Peer-to-Peer-Netzwerke verursacht –30 Mio. Europäer haben schon ein Peer-to-Peer-Netzwerk benutzt Peer-to-Peer-Netzwerke leben in einer feindlichen Umgebung –Legale Situation –Egoistische Benutzer –Netzwerke: Internet Service Provider (ISP) filtern Peer-to-Peer Networking Verkehr Benutzer kommen und gehen unangemeldet Peer-to-Peer-Netzwerke werden attackiert Lokale Systemadministratoren bekämpfen Peer-to-peer Netzwerke

4 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Peer-to-peer Netzwerke Peer-to-peer Netzwerke sind verteilte Systeme –ohne zentrale Kontrolle oder hierarchische Strukturen –mit gleicher Software –mit großer Dynamik, d.h. Knoten erscheinen und verschwinden –mit vielen Knoten –mit geringer Netzwerkinformation Internet Knoten erscheint Knoten verschwindet

5 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer 5 A Short History of Peer-to-Peer-Networks 1. Generation –Shawn Napster Fanning (1999) –Zentralisierte Client-Server-Datenbank –Peer-to-peer: download (zumeist mp3- Musik/Video) 2. Generation –Dezentral, unkontrolliert Gnutella eDonkey FastTrack 3. Generation –Effiziente Datenstruktur (DHT) CAN, Chord, Pastry, Tapestriy,... –Anonymität Freenet, I2P, GNUnet, Entropy

6 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Definition Ein Peer-to-Peer-Netzwerk ist ein Kommunikationsnetzwerk zwischen Rechnern, in dem jeder Teilnehmer sowohl Client als auch Server- Aufgaben durchführt. Beobachtung –Das Internet ist (eigentlich auch) ein Peer-to-Peer-Netzwerk Andere Definition –von Peer-to-Peer-Working-Group –In einem Peer-to-Peer-Netzwerk werden verteilte Rechenresourcen durch direkte Kommunikation gemeinsam genutzt. Was ist ein Peer-to-Peer-Netzwerk nicht? –Ein Peer-to-Peer-Netzwerk ist kein Client-Server-Netzwerk!

7 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer 7 Napster-Geschichte Shawn (Napster) Fanning –brachte Juni 1999 eine Beta-Version seines mittlerweile legendären Napster-Peer-to-peer-Netzwerks heraus –Ziel: File-sharing-System –Tatsächlich: Musik-Tauschbörse –Herbst 1999 war Napster Download des Jahres Urheberrechtsklage der Musik-Industrie im Juni 2000 Gegen Ende 2000 Kooperationsvertrag –zwischen Fanning mit Bertelsmann Ecommerce Seitdem ist Napster eine kommerzielle File-Sharing-Plattform

8 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer 8 Wie funktioniert Napster? Client-Server-Struktur Server unterhält – Index mit Meta-Daten Dateiname, Datum, etc –Tabelle der Verbindungen der teilnehmenden Clients –Tabelle aller Dateien der teilnehmenden Clients Query –Client fragt nach Dateinamen –Server sucht nach passenden Teilnehmern –Server antwortet, wer die Datei besitzt –Anfrage-Client lädt Datei von datei- besitzenden Client herunter

9 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer 9 Wie gut ist Napster? Vorteile –Napster ist einfach –Dateien werden schnell und effizient gefunden Nachteile –Zentrale Struktur erleichtert Zensur, feindliche Eingriffe und technisches Pannen wie z.B. Denial-of-Service-Angriff –Napster skaliert nicht d.h. mit zunehmender Teilnehmerzahl verschlechtert sich die Performanz Speicher auf dem Server endlich Resumee –Napster keine akzeptable Peer-to-Peer-Netzwerklösung –Bis auf den Download-Aspekt ist Napster im eigentlichen Sinne kein P2P- Netzwerk

10 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer 10 Gnutella - Geschichte Gnutella –wurde im März 2000 herausgegeben von Justin Frankel und Tom Pepper von Nullsoft –Nullsoft ist seit 1999 eine Tochter von AOL File-Sharing-System –Ziel wie Napster –Arbeitet aber völlig ohne zentrale Strukturen

11 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Gnutella - Originalversion - Anbindung Nachbarschaftslisten –Gnutella verbindet direkt mit anderen Clients –Beim Download wird ein Liste von Clients mitgeliefert –Diese werden ausprobiert bis ein Aktiver sich meldet –Ein aktiver Client gibt dann seine Nachbarschaftsliste weiter –Nachbarschaftslisten werden immer weiter verlängert und gespeichert –Die Anzahl aktiver Nachbarn ist beschränkt (typisch auf fünf)

12 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Gnutella - Originalversion - Anbindung Protokoll –Ping Teilnehmeranfrage werden weiter gereicht gemäß TTL- Feld (time to live) –Pong Reaktion auf Ping Werden auf dem Anfragepfad zurückgereicht IP und Port des angefragten Teilnehmers Anzahl und Größe zur Verfügung gestellter Dateien Graphstruktur –entsteht durch zufälligen Prozess –unterliegt Pareto-Verteilung –entsteht unkontrolliert Gnutella Schnappschuss im Jahr 2000

13 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Gnutella - Originalversion - Anfrage Dateianfrage –wird an alle Nachbarn geschickt –diese senden sie an ihre Nachbarn –bis zu einer vorgegebenen Anzahl von Hops TTL-Feld (time to live) Protokoll –Query Anfrage nach Datei wird bis zu TTL- hops weitergereicht –Query-hits Antwort auf umgekehrten Pfad Wenn Datei gefunden wurde, direkter Download

14 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Gnutella - Diskussion Vorteile –verteilte Netzwerkstruktur –Netzwerk skalierbar Nachteil –Durch TTL findet für Abfragen eine implizite Netzwerkpartitionierung statt –Dadurch Anfrageerfolg gering –Durch lange Wege, große Latenzzeiten Verbesserungsvorschläge –Random Walks statt Broadcasting –Passive Replikation von Information entlang des Pfads Häufigkeit der Replikate nimmt im Quadrat des Abstands ab

15 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Kazaa, Gnutella (II), Morpheus Hybride Struktur –Knoten mit großer Bandbreite werden zu P2P- Server ausgewählt –Diese unterhalten P2P-Netzwerk im Stil von Gnutella –Normale Knoten werden als Clients an diese Super-Knoten angebunden Eingesetzt in –Kazaa –Morpheus –Gnutella (neuere Ausgabe) Vorteile –Verbesserte Skalierbarkeit –Geringere Latenzzeiten Nachteile –Immer noch unzuverlässig und langsam –Clients können sich der Super-Node-Aufgabe verweigern

16 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Warum skaliert Napster nicht? Napster –Client-Server-Struktur entspricht Stern- Topologie –Grad des Graphen n-1 n Anzahl der Peers –Der Stern-Graph ist 1-zusammenhängend Ein Graph ist k-zusammenhängend, –wenn es k Knoten gibt, nach deren Entfernung der Graph unzusammenhängend ist –wenn nach Entfernen von k-1 beliebigen Knoten der Graph noch zusammenhängend ist. Napster skaliert nicht, weil –der Grad des Graphen ist groß Flaschenhals in Kommunikation – und der Zusammenhang ist schwach keine robuste Konstruktion

17 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Warum skaliert Gnutella nicht? Gnutella –Graph-Struktur ist zufälliger Verbindungsgraph –Grad des Graphen klein –Durchmesser gering –Zusammenhang groß Suche aber aufwändig –Um ein Datum sicher zu finden, muss das gesamte Netzwerk durchsucht werden Gnutella skaliert nicht, weil –Keine Struktur in der Datenablage

18 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Warum skalieren Kazaa und Co. nicht? Hybride Struktur –Durchmesser gering –Zusammenhang kann hoch gewählt werden durch Anzahl Super-Nodes per Client –Grad gering Skaliert –nicht so schlecht wie Gnutella oder Napster –nicht gut, da jeder Super-Node jede Anfrage der Clients erhält

19 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Von der Hash-Tabelle zur Distributed Hash-Table (DHT) Hash-Tabellen Vorteile Suche einfach Nachteile –Ein neuer Peer verursacht neue Wahl der Hash-Funktion –Lange Wege Distributed Hash-Table Peers werden an eine Stelle gehasht und erhalten Bereiche des Wertebereichs der Hashfunktion zugeteilt Daten werden auch gehasht –Je nach Bereich den Peers zugeordnet Peers Indexdaten f(23)=1 f(1)=4

20 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Einfügen in die Distributed Hash-Table (DHT) Distributed Hash-Table –Peers werden an eine Stelle gehasht –Dokumente ebenso –Jeder ist für einen Bereich verantwortlich Kommt ein neuer Knoten hinzu –müssen die Nachbarn teilen Verlässt ein Knoten das Netzwerk –übernehmen die Nachbarn sein Gebiet

21 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Eigenschaften DHT Vorteile –Jedes Datum kann einem bestimmten Peer zugewiesen werden –Einfügen und Entfernen von Peers erzeugt nur Veränderungen in den benachbarten Peers DHTs werden von vielen P2P- Netzwerken benutzt Noch zu klären: –Die Verbindungsstruktur Peers Indexdaten f(23)=1 f(1)=4

22 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Content Addressable Network (CAN) Dateien werden in durch (zweiwertige)-Hash-Funktion in das Quadrat abgebildet

23 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer A Scalable Content Addressable Network (CAN) Dateien werden in durch (zweiwertige)-Hash-Funktion in das Quadrat abgebildet Dick Karp Mark Handley Sylvia Ratnasamy Paul Francis Scott Shenker

24 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Content Addressable Network (CAN) Dateien werden in durch (zweiwertige)-Hash-Funktion in das Quadrat abgebildet Am Anfang ist ein leeres Quadrat mit nur einem Peer als Besitzer

25 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Content Addressable Network (CAN) Dateien werden in durch (zweiwertige)-Hash-Funktion in das Quadrat abgebildet Am Anfang ist ein leeres Quadrat mit nur einem Peer als Besitzer Der Besitzer einer Fläche speichert alle Einträge in der Fläche Ein Peer wählt einen zufälligen Punkt in der Ebene

26 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Content Addressable Network (CAN) Dateien werden in durch (zweiwertige)-Hash-Funktion in das Quadrat abgebildet Am Anfang ist ein leeres Quadrat mit nur einem Peer als Besitzer Der Besitzer einer Fläche speichert alle Einträge in der Fläche Ein Peer wählt einen zufälligen Punkt in der Ebene –Der Besitzer des entsprechenden Quadrats teilt seine Fläche und –übergibt die Hälfte dem neuen Peer

27 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Content Addressable Network (CAN) Dateien werden in durch (zweiwertige)-Hash-Funktion in das Quadrat abgebildet Am Anfang ist ein leeres Quadrat mit nur einem Peer als Besitzer Der Besitzer einer Fläche speichert alle Einträge in der Fläche Ein Peer wählt einen zufälligen Punkt in der Ebene –Der Besitzer des entsprechenden Quadrats teilt seine Fläche und –übergibt die Hälfte dem neuen Peer

28 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Content Addressable Network (CAN) Dateien werden in durch (zweiwertige)-Hash-Funktion in das Quadrat abgebildet Am Anfang ist ein leeres Quadrat mit nur einem Peer als Besitzer Der Besitzer einer Fläche speichert alle Einträge in der Fläche Ein Peer wählt einen zufälligen Punkt in der Ebene –Der Besitzer des entsprechenden Quadrats teilt seine Fläche und –übergibt die Hälfte dem neuen Peer

29 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Content Addressable Network (CAN) Dateien werden in durch (zweiwertige)-Hash-Funktion in das Quadrat abgebildet Am Anfang ist ein leeres Quadrat mit nur einem Peer als Besitzer Der Besitzer einer Fläche speichert alle Einträge in der Fläche Ein Peer wählt einen zufälligen Punkt in der Ebene –Der Besitzer des entsprechenden Quadrats teilt seine Fläche und –übergibt die Hälfte dem neuen Peer

30 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Content Addressable Network (CAN) Dateien werden in durch (zweiwertige)-Hash-Funktion in das Quadrat abgebildet Am Anfang ist ein leeres Quadrat mit nur einem Peer als Besitzer Der Besitzer einer Fläche speichert alle Einträge in der Fläche Ein Peer wählt einen zufälligen Punkt in der Ebene –Der Besitzer des entsprechenden Quadrats teilt seine Fläche und –übergibt die Hälfte dem neuen Peer

31 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Content Addressable Network (CAN) Dateien werden in durch (zweiwertige)-Hash-Funktion in das Quadrat abgebildet Am Anfang ist ein leeres Quadrat mit nur einem Peer als Besitzer Der Besitzer einer Fläche speichert alle Einträge in der Fläche Ein Peer wählt einen zufälligen Punkt in der Ebene –Der Besitzer des entsprechenden Quadrats teilt seine Fläche und –übergibt die Hälfte dem neuen Peer

32 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Content Addressable Network (CAN) Dateien werden in durch (zweiwertige)-Hash-Funktion in das Quadrat abgebildet Am Anfang ist ein leeres Quadrat mit nur einem Peer als Besitzer Der Besitzer einer Fläche speichert alle Einträge in der Fläche Ein Peer wählt einen zufälligen Punkt in der Ebene –Der Besitzer des entsprechenden Quadrats teilt seine Fläche und –übergibt die Hälfte dem neuen Peer

33 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Wie groß/klein können solche Flächen werden R(p) : Rechteck eines Peers p A(p) : Fläche des Rechteck eines Peers p n : Anzahl Peers Anfangsquadrat: Fläche 1 Lemma –Für alle Peers p gilt Sei P R,n die Wahrscheinlichkeit, dass keines der n Peers in das Rechteck R hineinfällt. Dann gilt

34 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Die erwartete Fläche eines Peers in CAN Beweis von 1. Seien {1,..,n} die Peers. Dann gilt: Ferner gilt wegen Symmetrie Damit gilt:

35 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Ein nichtgetroffenes Rechteck Beweis von 2. Betrachte ein Rechteck R der Fläche x=Vol(R) Die Wahrscheinlichkeit, dass ein Peer nicht in diese Fläche fällt, ist Die Wahrscheinlichkeit, dass n Peers nicht in R hineinfallen ist Damit ist die Wahrscheinlichkeit dafür höchstens weil für alle R

36 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Wie groß kann ein nicht getroffenes Rechteck sein? Aus 2. folgt für ein Rechteck R i Fläche 2 -i Es genügen also Peers um R i mit Wahrscheinlichkeit 1- n -c zu teilen. Diese kommen jetzt hintereinander. Sei nun Damit wird ein Rechteck der Fläche mit Wkeit nicht geteilt R1R1 R2R2 R3R3 R4R4

37 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Wie gleichmäßig werden die Daten verteilt? Lemma –Mit Wahrscheinlichkeit (log n) n -c wird ein Rechteck der Größe 2c(ln n)/n nicht geteilt. Wenn m Elemente insgesamt gespeichert werden, –so erhält jeder Peer also maximal 2 c (ln n) m/n Elemente, –während der Durchschnitt m/n Elemente speichert Also speichert jeder Peer höchstens 2c (ln n) mal mehr als der Durchschnittspeer mit hoher Wahrscheinlichkeit.

38 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Lookup in CAN Zuerst wird Ort des Indexes durch Berechnung der Hash-Funktion bestimmt Zwischen den Besitzer benachbarter Rechtecke bestehen Kanten Anfrage wird in Richtung des Index weitergeleitet d Dimension des Quadrats –1: Linie –2: Quadrat –3: Würfel –4:... Erwartete Anzahl Hops in d Dimensionen: n 1/d Durchschnittlicher Grad eines Knotens: O(d)

39 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Bewertung CAN Vorteile –Einfaches robustes Verfahren –Balanciert die Datenmenge –Kleiner Grad –Netzwerk ist stark zusammenhängend, dadurch robust –Kennt verschiedene Wege zum Ziel und kann dadurch Routen optimieren Nachteil –Durchmesser bei konstanten Dimensionen des Raums polynomiell groß

40 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Wie gleichmäßig werden die Daten verteilt? Lemm –Mit Wahrscheinlichkeit (log n) n -c wird ein Rechteck der Größe 2c(ln n)/n nicht geteilt. Wenn m Elemente insgesamt gespeichert werden, –so erhält jeder Peer also im Erwartungswert maximal 2 c (ln n) m/n Elemente, –während der Durchschnitt m/n Elemente speichert Also speichert jeder Peer mit hoher Wahrscheinlichkeit höchstens 2c (ln n) mal mehr als der Durchschnittspeer.

41 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Einfügen in CAN = Random Tree Random Tree –Neue Blätter werden zufällig eingefügt –Falls Wurzel interner Knoten, gehe zufällig in linken oder rechten Teilbaum –Falls Wurzel ist Blatt, füge zwei Blatt an diese Wurzel an Tiefe: –im Erwartungswert 2 log n + O(1) –Tiefe O(log n) mit hoher Wahrscheinlichkeit, d.h. 1-n -c Beobachtung –CAN fügt neue Peers ein wie neue Blätter beim Random Tree eingefügt werden

42 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Entfernen von Peers in CAN Verschwindet ein Peer, –meldet er das nicht vorher an Daher Nachbarn testen regelmäßig Anwesenheit –übernimmt der erste Nachbar der das merkt das Gebiet des verschwundenen Peers Peers können mehrere Gebiete verwalten Häufiges Einfügen und Entfernen führt zur Kleinstaaterei (Fragmentierung)

43 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Defragmentierung - der einfache Fall Um die Fragmentierung zu beseitigen, wird von Zeit zu Zeit eine Zonenneuzuweisung durchgeführt Für jeden Peer, der mindestens zwei Zonen hat, Lösche kleinste Zone des Peers und finde Ersatzpeer für dieses Gebiet 1. Fall: Nachbarzone im Baum ist ungeteilt –Dann sind beide Peers Blätter im CAN-Baum –Übertrage Zone dem Nachbarknoten

44 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer 44 Defragmentierung - der schwierige Fall Für jeden Peer, der mindestens zwei Zonen hat, Lösche kleinste Zone des Peers und finde Ersatzpeer für dieses Gebiet 2. Fall: Nachbarzone im Baum ist weiter unterteilt –Führe Tiefensuche in Nachbarbaum durch, bis zwei benachbarte Blätter gefunden worden sind –Übertrage einem Blatt (Peer) die Zonen beider Blätter und –wähle das andere Blatt (Peer) als Ersatzpeer

45 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Bewertung CAN Vorteile –Einfaches robustes Verfahren –Balanciert die Datenmenge –Kleiner Grad –Netzwerk ist stark zusammenhängend, dadurch robust –Kennt verschiedene Wege zum Ziel und kann dadurch Routen optimieren Nachteile –Lange Wege (polynomiell lang) –Stabilität durch geringe Nachbarzahl gefährdet

46 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Chord von Ion Stoica, Robert Morris, David Karger, M. Frans Kaashoek und Hari Balakrishnan (2001) DHT mit Hash-Bildbereich {0,..,2 m-1 } –für genügend großes m Ring-Verknüpfung der Peers Abkürzungen im Ring durch exponentiell gestaffelte Zeiger auf Nachfolger

47 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Chord als DHT n: Knotenanzahl, Knotenmenge V k: Anzahl Schlüssel, Schlüsselmenge K m: Hashwertlänge: m >> log max{K,N} Zwei Hash-Funktionen bilden auf {0,..,2 m -1} ab –r V (b): bildet Peer b zufällig auf {0,..,2 m - 1} ab –r K (i): bildet Index i zufällig auf {0,..,2 m -1} ab Abbildung von i auf einen Peer b = f v (i) –f V (i) := arg min b V (r B (b)-r K (i)) Index

48 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Die Datenstruktur von Chord Für jeden Knoten b: –successor: Nachfolger –predecessor: Vorgänger –Für i {0,..m-1} Finger[i] := Der Knoten der dem Wert r V (b+2 i ) folgt Für kleine i werden die Finger-Einträge immer gleich –Nur unterschiedliche Fingereinträge werden gespeichert Lemma –Die Anzahl unterschiedlicher Finger- Einträge für Knoten b ist mit hoher Wahrscheinlichkeit O(log n) Hohe Wahrscheinlichkeit = 1 - n -c

49 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Balance in Chord n: Anzahl der Knoten im P2P-Netzwerk k: Anzahl der Schlüssel 1 Theorem –Die Datenstruktur von Chord hat folgende Eigenschaften Balance&Load: Mit pol. Wkeit (1-n -c ) werden in jedem Knoten höchstens O(k/n log n) Schlüssel gespeichert Dynamik: Tritt ein neuer Knoten hinzu oder verlässt ein Knoten das Netzwerk müssen mit pol. Wkeit höchstens O(k/n log n) Schlüssel bewegt werden. Beweis –…

50 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Eigenschaften der Datenstruktur Lemma –Der Abstand |r V (b.succ) - r V (b)| ist im Erwartungswert 2 m /n, mit hoher Wahrscheinlichkeit höchstens O((2 m /n) log n) und mit hoher Wahrscheinlichkeit mindestens (2 m /n)/ n c für eine Konstante c>0 In einem Intervall der Länge w 2 m /n sind mit hoher Wahrscheinlichkeit Θ(w) Knoten, falls w=Ω(log n) höchstens O(w log n) Knoten, falls w=O(log n) Lemma –Die Anzahl der Knoten, die einen Fingerzeiger auf Knoten b besitzen ist im Erwartungswert O(log n) mit pol. Wahrscheinlichkeit höchstens O(log n)

51 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Suchen in Chord Theorem –Die Suche braucht mit hoher Wkeit O(log n) Sprünge Suchalgorithmus für Element s: Abbruch(b,s): Knoten b,b=b.succ gefunden, mit r K (s) [r V (b),r V (b)| Hauptroutine: Starte mit irgendeinem Knoten b while not Abbruch(b,s) do for i=m downto 0 do if r K (s) [r V (b.finger[i]),r V (finger[i+1])] then b b.finger[i] fi od

52 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer b s b.finger[m] b.finger[m-1] c xy Suchen in Chord Theorem –Die Suche braucht mit hoher Wkeit O(log n) Sprünge Beweis: –Mit jedem Sprung wird die Entfernung zum Ziel mindestens halbiert –Zu Beginn ist der Abstand höchstens 2 m –Der Mindestabstand zweier benachbarter Peers ist 2 m /n c mit hoher Wkeit –Damit ist die Laufzeit beschränkt durch c log n

53 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer Lemma 1. Der Ausgrad im CHORD-Netzwerk ist O(log n) mit hoher Wkeit 2. Der Eingrad im CHORD-Netzwerk ist O(log 2 n) mit hoher Wkeit Beweis Der minimale Abstand zweier Peers ist 2 m /n c (mit hoher Wkeit) –Damit ist der Ausgrad beschränkt durch c log n (mit hoher Wkeit) Der maximale Abstand zweier Peers ist O(log n 2 m /n) –Jeder Peer, der mit einem seiner Finger auf diese Linie zeigt, erhöht den Eingrad des nachstehenden Peers. –Die Gesamtlänge der Streckenabschnitte, wo solche Peers liegen ist O(log 2 n 2 m /n) –Damit ist w=O(log 2 n) Fingeranzahl b b.finger[m] a.finger[m-1] xy a

54 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer 54 Einfügen von Peers Theorem –O(log 2 n) Nachrichten genügen mit hoher Wkeit, um Peers in CHORD aufzunehmen

55 Algorithmen des Internets HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Christian Schindelhauer 55 Einfügen von Peers Zuerst wird Zielgebiet in O(log n) Schritten gesucht Die ausgehenden Zeiger werden vom Vorgänger und Nachfolger übernommen und angepasst –Die Zeiger müssen jeweils um bis zu O(log n) Schritte entlang des Rings angepasst werden Der Eingrad des neuen ist mit hoher Wkeit O(log 2 n) –Zu suchen kostet jeweils O(log n) –Diese sind jeweils in Gruppen von maximal O(log n) benachbart. –Damit fallen nur O(log n) Suchen á Kosten O(log n) an –Die Aktualisierung hat jeweils konstante Kosten

56 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität 56 Vielen Dank! Ende der 11. Vorlesung Nächste Übung: Mo Nächste Vorlesung: Mo Heinz Nixdorf Institut & Institut für Informatik Universität Paderborn Fürstenallee Paderborn Tel.: / Fax: /


Herunterladen ppt "HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Algorithmen des Internets Sommersemester 2005 27.06.2005 11. Vorlesung Christian."

Ähnliche Präsentationen


Google-Anzeigen