Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Suche in P2P-Netzen: FASD

Ähnliche Präsentationen


Präsentation zum Thema: "Suche in P2P-Netzen: FASD"—  Präsentation transkript:

1 Suche in P2P-Netzen: FASD
Fault-tolerant, Adaptive, Scalable, Distributed search engine Stefan Haun

2 Gliederung Einleitung & Motivation Suchverfahren kurz angerissen
Freenet FASD – Protokoll und Architektur Simulation der FASD Zusammenfassung Diskussion

3 Einleitung & Motivation
Bisher: Strukturen und Datentransfer Jetzt: Suchverfahren in P2P-Netzen Warum? Notwendig zur Informationsbeschaffung Schlechte Suchverfahren erzeugen viel Traffic

4 Zentralisierte Suche (Napster)
Client/Server Zentraler Server verwaltet Speicherorte der Dokumente Clients stellen direkte Suchanfragen an den Server Nachteile: Suchverfahren nicht P2P-Verteilt -> Skaliert nicht Gezielter Angriff auf Server macht Netz unbrauchbar Keine Client-Anonymität, Identität bei Anfrage bekannt Keine Dokumenten-Anonymität Statt dessen: Liste mit Nutzern und ihren Dokumenten!

5 Hash-Based Index Distribution (Chord)
Grundlage ist Hash-Basierter Index (z.B. SHA-1) LOOKUP-Funktion liefert Knoten zur GUID Chord sucht bei N Knoten mit O(log N) Schritten Nachteile: m UND/ODER-Verknüpfungen erzeugen m Suchen Keine effizienten Insert/Remove-Operationen

6 Broadcast (Gnutella) Suchanfrage wird an alle Nachbarn weitergeleitet
Suchtiefe durch HTL (Hops To Live) begrenzt Nachteile: Sehr hoher Traffic im Netzwerk Dokument wird nicht gefunden, wenn „zu weit entfernt“

7 Freenet Netz von Knoten mit lokalem Informationsspeicher
Jedes Dokument durch GUID gekennzeichnet Kein semantischer Zusammenhang zwischen Inhalt und GUID Knoten auf GUID spezialisiert Bildung von Nachbarschaften ähnlicher GUIDs Suchanfrage an Nachbarknoten, die am nächsten an der GUID sind Suchaufwand ist O(log N), N = Knotenzahl

8 FASD Fault-Tolerant, Adaptive, Scalable Distributed search engine
Als Such-Maschine für Freenet entwickelt Technisch sehr stark an Freenet angelehnt Kann aber auch stand-alone oder in anderen Netzen verwendet werden

9 FASD – Protokoll und Architektur
Metadata Keys Schlüssel-Abstand (Closeness) Darstellung der Queries Suche nach Schlüsseln Erzeugen und Einfügen von Schlüsseln Speichern von Schlüsseln Mögliche Inkonsistenzen zwischen P2P-Netz und FASD

10 Metadata Keys Vektor-Repräsentation des Dokuments
Enthalten die Häufigkeiten von Schlüsselwörtern des Dokuments Berechnet nach „TFIDF“ (term frequency x inverse document frequency) Aus Performancegründen als Lexikon bereitgestellt Metadata Key besteht aus Vektor, GUID und Decryption Key

11 Schlüssel-Abstand (Closeness)
Maß für die Ähnlichkeit zweier Metadata Keys Vorteile: Ermöglicht effizientere Suche Macht FASD kompatibel zum Freenet Routing-Algorithmus Cosinus-Abstand (cosine correlation value) verwendet Größerer Cosinus-Wert -> größere Ähnlichkeit Wert von 1 bedeutet Gleichheit Nur indirekte Aussage über Gleichheit der Dokumente!

12 Darstellung der Queries
Query = Vektor Gesuchte Schlüsselwörter werden auf 1 gesetzt Abstandsfunktion der Metadata Keys verwendet UND-Verknüpfungen in einem Vektor darstellbar ODER-Verknüpfungen in Einzelanfragen zerlegt Komplexe Queries in Disjunktive Normalform umgewandelt Beispiel: t1 ODER (t2 UND t3) ODER (t4 UND t5 UND t6)

13 Suche nach Schlüsseln Erweitert Freenets Routing-Algorithmus
Begrenzungen: HTL (hops to live) Anzahl der Treffer (Top n-Liste) Schwellwert für die Ähnlichkeit Jeder Knoten erstellt eigene Top n-Liste Anschließend Top n der Nachbarknoten Ergebnisse werden zu neuer Top n-Liste zusammengeführt und zurückgegeben Ergebnisse entlang des Suchpfades gespeichert

14 Einfügen von Schlüsseln
Metadata Keys vom Knoten berechnet FASD liefert Lexikon mit Gewicht für Schlüsselwort Berechnung vom Benutzer nicht beeinflussbar -> Schlüssel im FASD-Layer konsistent Suche nach ähnlichstem Knoten Schlüssel wird dort eingefügt Inseln ähnlicher Metadata Keys

15 Speichern von Schlüsseln
Schlüssel werden in LRU-Cache gespeichert Läuft der Cache über, werden überflüssige Schlüssel gelöscht -> unpopuläre Schlüssel gehen verloren Effiziente Suche mit invertierten Indizes Effiziente Insert/Remove-Operationen benötigt Aggressives Caching: Alle Metadata Keys, die den Knoten passieren, werden zwischengespeichert

16 Inkonsistenzen zwischen P2P/FASD
Schlüssel wird gelöscht, Dokument existiert noch Wird vermieden, indem Schlüssel bei Direktzugriff aufs Dokument neu eingefügt wird Dokument wird gelöscht, Schlüssel existiert noch Schlüssel über „cull request“ gelöscht Knoten entlang des Suchpfades müssen bestätigen Bestätigung bringt zusätzliche Sicherheit Unerlaubter Cull-Request hat Verbreitung zur Folge

17 Sicherheit FASD nutzt keine Verschlüsselung
Bewertungsalgorithmen nicht ausgereift -> Weitere Forschungsarbeit notwendig! Lösungsansätze zu folgenden Aspekten: Vermeidung von Zensur Qualität der Dokumente

18 Sicherheit: Vermeidung von Zensur
Knoten können Suchabfragen nicht abfangen, da nur Teil des Suchbaums Bei Zensurverdacht kann Knoten umgangen werden Ansatz: Verschlüsselte Suchalgorithmen Problem: Knoten brauchen Schlüssel Network-Of-Trust kann Abhilfe schaffen

19 Sicherheit: Ähnlichkeit vs Qualität
Ähnlichkeit objektiv definiert, Qualität subjektiv Objektiv ähnliches Dokument kann für Nutzer unbrauchbar sein Mögliche Erweiterung um: Reputation der Dokumentenquelle Update-Frequenz Popularität Erwähnung in anderen Dokumenten

20 Anwendungen neben Freenet
FASD auch ohne Freenet als Such-Layer verwendbar Verwendung mit Chord: hat sehr effiziente Methode zur Lokalisierung von Dokumenten jedoch keine Suchfunktion Zusammen mit FASD sehr effektiv Stand-Alone: Als eigenständige Such-Applikation einsetzbar Datentransfer über andere Standards

21 Simulation des FASD FASD-Netz wurde durch Simulation geprüft
Bedingungen: Initial: 20 Knoten, 2500 Dokumente Netz wird schrittweise auf 1000 Knoten erweitert Alle 200 Zeiteinheiten 300 neue Requests Bei Verfügbarkeitstests: HTL = 500 Im Folgenden werden einige Ergebnisse vorgestellt

22 Durchschnittliche Suchtiefe

23 Entwicklung der Suchdauer

24 Entwicklung der Suchtiefe

25 Verhalten bei Angriff auf Knoten

26 Zukünftige Forschung Erweiterung der Funktion für die Schlüsselnähe
Nutzung von verschlüsselter Suche Implementierung eines Trust-Networks Weitere Simulationen und Verbesserung der Parameter FASD soll in Freenet v0.6 integriert werden

27 Zusammenfassung Grundlegendes Problem: Auffinden von Daten ohne zentrale Suchinstanz FASD löst das Problem, indem P2P-Netz als Suchmaschine genutzt wird Simulationen zeigen: Ansatz von FASD kann mit den bekannten Problemen umgehen Aber: Weitere Forschungsarbeiten sind noch notwendig!

28 Vielen Dank für Eure Aufmerksamkeit! :)
Geschafft! Vielen Dank für Eure Aufmerksamkeit! :)

29 Diskussion FASD gefährdet die Verfügbarkeit eines P2P-Netzes, weil semantisch ähnliche Dokumente konzentriert werden. Ist es trotzdem sinnvoll, das Verfahren in Freenet zu integrieren? Sollte es besser standalone laufen? Eine anderweitige Anwendung kann den Austausch des Lexikons notwendig machen. Wie lässt sich eine Migration der Metadata Keys realisieren? Eignet sich FASD auch, um nach Binärdaten zu suchen?


Herunterladen ppt "Suche in P2P-Netzen: FASD"

Ähnliche Präsentationen


Google-Anzeigen