Suche in P2P-Netzen: FASD

Slides:



Advertisements
Ähnliche Präsentationen
Routing – Routing Protokolle
Advertisements

Eine dynamische Menge, die diese Operationen unterstützt,
Polynomial Root Isolation
Klaus-G. Westphal von der Industrie- und Handelskammer Braunschweig öffentlich bestellter und vereidigter Sachverständiger für Straßenverkehrstechnik.
Gemeinsame Klausurtagung 27./
Präsentation von Daniel Hörl
PlanetenWachHundNetz Instrumenting Infrastructure for PlanetLab.
Urheber- und vertragsrechtliche Anmerkungen
7. Natürliche Binärbäume
Kapitel 6. Suchverfahren
Anwendungsverteilung und räumliche Ausdehnung
1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Algorithmen für Peer-to-Peer-Netzwerke Sommersemester Vorlesung.
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Konfiguration eines VPN Netzwerkes
Suchbäume Richard Göbel.
Sortierverfahren Richard Göbel.
Sortierverfahren Richard Göbel.
FH-Hof Optimierungsverfahren für kombinatorische Probleme Richard Göbel.
Effizienz: Indexstrukturen
Informationsgewinnung mit Agenten
WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (17 – Bäume: Grundlagen und natürliche Suchbäume) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (15 Hashverfahren: Verkettung der Überläufer) Prof. Th. Ottmann.
Union-Find-Strukturen
Algorithmen und Datenstrukturen
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Peer-to-Peer- Netzwerke Christian Schindelhauer Sommersemester.
Bau effizienter und effektiver Metasuchmaschinen
Sebastian Grahn Sebastian Kühn
Michael Jiracek Roland Tresselt Harald Kolbe
Michael Jiracek Roland Tresselt Harald Kolbe
Technik Gestaltung Navigation Daten. Übersicht Client Webbrowser InternetServer.
Alexander Hörnlein1, Stanislaus Reimer2, Christian Kneitz2,
ROUTINGVERFAHREN ZUR LASTVERTEILUNG IN CONTENT-DELIVERY-NETWORKS
AWI externer WWW-Server interner WWW-Server Ausgangssituation www.
1 Dienstbeschreibung mit DAML Ein graphischer Editor für DAML - Ting Zheng Betreuer: Michael Klein, Philipp Obreiter.
FH-Hof Algorithmen und Datenstrukturen - Einführung Richard Göbel.
Konzeption und prototypische Realisierung einer Client-Komponente für die digitale Musikdistribution mittels personalisierter Inhaltsproben Diplomarbeit.
Präsentation im Fach „System und Netze“
Unattended Installation ITA-Services Projektziele Installation von Win2k Pro/Server über ein lokales Netzwerk Installation von Win2k Pro/Server.
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
Computergestützte Übersetzung und Terminologieverwaltung
7.1 Externes Suchen Bisherige Algorithmen: geeignet, wenn alle Daten im Hauptspeicher. Große Datenmengen: oft auf externen Speichermedien, z.B. Festplatte.
Splay Trees Von Projdakov Benjamin.
Eine Implementierung einer effiziente externe geordnete (!) lineare Liste Operationen: Search(x) Insert(x) Delete(x)
Einführung in die Programmierung
Effiziente Algorithmen
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Einführung in die Informatik für Naturwissenschaftler und Ingenieure (alias Einführung in die Programmierung) (Vorlesung) Prof. Dr. Günter Rudolph Fachbereich.
Einführung in die Programmierung Wintersemester 2009/10 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.
Einführung in die Informatik für Naturwissenschaftler und Ingenieure (alias Einführung in die Programmierung) (Vorlesung) Prof. Dr. Günter Rudolph Fachbereich.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Peer-to-Peer- Netzwerke Christian Schindelhauer Sommersemester.
Trust and context using the RDF- Source related Storage System (RDF‑S3) and easy RQL (eRQL) Karsten Tolle und Fabian Wleklinski.
Flexibilisierung der Arbeit
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
ohne Animationseffekte (
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Peer-to-Peer- Netzwerke Christian Schindelhauer Sommersemester.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Peer-to-Peer- Netzwerke Christian Schindelhauer Sommersemester.
Information Retrieval, Vektorraummodell
© Es gibt ihn noch, den Sichtblock. A b e r w a n n i s t e s d e n n n u n w i r k l i c h e i n e r ? D i e s e P e r s p e k t i v e ; d.
University of Würzburg Informatik III (Distributed Systems) Prof. Dr. P. Tran-Gia www3.informatik.uni-wuerzburg.de Towards Efficient Simulation of Large.
WILLKOMMEN Daniel Matheis Betreuer: Birgitta König-Ries Michael Klein "Dezentrale Realisierung von Gruppendiensten in Peer-to-Peer-Umgebungen" Studienarbeiter:
Der A*-Algorithmus.
Programmiersprachen II Fortsetzung Datenstrukturen Hashing Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
1. Betreuer: Prof. Dr. Jörg Striegnitz 2. Betreuer: Dr. Martin Schindler Kontextsensitive Autocompletion für Klassendiagramme in der UML/P Florian Leppers.
Igor Vaynerman ISMOD-V ÜbungSS061 ISMOD-V Übung 3 Igor Vaynerman 8 Juni 2006.
 Präsentation transkript:

Suche in P2P-Netzen: FASD Fault-tolerant, Adaptive, Scalable, Distributed search engine Stefan Haun

Gliederung Einleitung & Motivation Suchverfahren kurz angerissen Freenet FASD – Protokoll und Architektur Simulation der FASD Zusammenfassung Diskussion 14.01.2004

Einleitung & Motivation Bisher: Strukturen und Datentransfer Jetzt: Suchverfahren in P2P-Netzen Warum? Notwendig zur Informationsbeschaffung Schlechte Suchverfahren erzeugen viel Traffic 14.01.2004

Zentralisierte Suche (Napster) Client/Server Zentraler Server verwaltet Speicherorte der Dokumente Clients stellen direkte Suchanfragen an den Server Nachteile: Suchverfahren nicht P2P-Verteilt -> Skaliert nicht Gezielter Angriff auf Server macht Netz unbrauchbar Keine Client-Anonymität, Identität bei Anfrage bekannt Keine Dokumenten-Anonymität Statt dessen: Liste mit Nutzern und ihren Dokumenten! 14.01.2004

Hash-Based Index Distribution (Chord) Grundlage ist Hash-Basierter Index (z.B. SHA-1) LOOKUP-Funktion liefert Knoten zur GUID Chord sucht bei N Knoten mit O(log N) Schritten Nachteile: m UND/ODER-Verknüpfungen erzeugen m Suchen Keine effizienten Insert/Remove-Operationen 14.01.2004

Broadcast (Gnutella) Suchanfrage wird an alle Nachbarn weitergeleitet Suchtiefe durch HTL (Hops To Live) begrenzt Nachteile: Sehr hoher Traffic im Netzwerk Dokument wird nicht gefunden, wenn „zu weit entfernt“ 14.01.2004

Freenet Netz von Knoten mit lokalem Informationsspeicher Jedes Dokument durch GUID gekennzeichnet Kein semantischer Zusammenhang zwischen Inhalt und GUID Knoten auf GUID spezialisiert Bildung von Nachbarschaften ähnlicher GUIDs Suchanfrage an Nachbarknoten, die am nächsten an der GUID sind Suchaufwand ist O(log N), N = Knotenzahl 14.01.2004

FASD Fault-Tolerant, Adaptive, Scalable Distributed search engine Als Such-Maschine für Freenet entwickelt Technisch sehr stark an Freenet angelehnt Kann aber auch stand-alone oder in anderen Netzen verwendet werden 14.01.2004

FASD – Protokoll und Architektur Metadata Keys Schlüssel-Abstand (Closeness) Darstellung der Queries Suche nach Schlüsseln Erzeugen und Einfügen von Schlüsseln Speichern von Schlüsseln Mögliche Inkonsistenzen zwischen P2P-Netz und FASD 14.01.2004

Metadata Keys Vektor-Repräsentation des Dokuments Enthalten die Häufigkeiten von Schlüsselwörtern des Dokuments Berechnet nach „TFIDF“ (term frequency x inverse document frequency) Aus Performancegründen als Lexikon bereitgestellt Metadata Key besteht aus Vektor, GUID und Decryption Key 14.01.2004

Schlüssel-Abstand (Closeness) Maß für die Ähnlichkeit zweier Metadata Keys Vorteile: Ermöglicht effizientere Suche Macht FASD kompatibel zum Freenet Routing-Algorithmus Cosinus-Abstand (cosine correlation value) verwendet Größerer Cosinus-Wert -> größere Ähnlichkeit Wert von 1 bedeutet Gleichheit Nur indirekte Aussage über Gleichheit der Dokumente! 14.01.2004

Darstellung der Queries Query = Vektor Gesuchte Schlüsselwörter werden auf 1 gesetzt Abstandsfunktion der Metadata Keys verwendet UND-Verknüpfungen in einem Vektor darstellbar ODER-Verknüpfungen in Einzelanfragen zerlegt Komplexe Queries in Disjunktive Normalform umgewandelt Beispiel: t1 ODER (t2 UND t3) ODER (t4 UND t5 UND t6) 14.01.2004

Suche nach Schlüsseln Erweitert Freenets Routing-Algorithmus Begrenzungen: HTL (hops to live) Anzahl der Treffer (Top n-Liste) Schwellwert für die Ähnlichkeit Jeder Knoten erstellt eigene Top n-Liste Anschließend Top n der Nachbarknoten Ergebnisse werden zu neuer Top n-Liste zusammengeführt und zurückgegeben Ergebnisse entlang des Suchpfades gespeichert 14.01.2004

Einfügen von Schlüsseln Metadata Keys vom Knoten berechnet FASD liefert Lexikon mit Gewicht für Schlüsselwort Berechnung vom Benutzer nicht beeinflussbar -> Schlüssel im FASD-Layer konsistent Suche nach ähnlichstem Knoten Schlüssel wird dort eingefügt Inseln ähnlicher Metadata Keys 14.01.2004

Speichern von Schlüsseln Schlüssel werden in LRU-Cache gespeichert Läuft der Cache über, werden überflüssige Schlüssel gelöscht -> unpopuläre Schlüssel gehen verloren Effiziente Suche mit invertierten Indizes Effiziente Insert/Remove-Operationen benötigt Aggressives Caching: Alle Metadata Keys, die den Knoten passieren, werden zwischengespeichert 14.01.2004

Inkonsistenzen zwischen P2P/FASD Schlüssel wird gelöscht, Dokument existiert noch Wird vermieden, indem Schlüssel bei Direktzugriff aufs Dokument neu eingefügt wird Dokument wird gelöscht, Schlüssel existiert noch Schlüssel über „cull request“ gelöscht Knoten entlang des Suchpfades müssen bestätigen Bestätigung bringt zusätzliche Sicherheit Unerlaubter Cull-Request hat Verbreitung zur Folge 14.01.2004

Sicherheit FASD nutzt keine Verschlüsselung Bewertungsalgorithmen nicht ausgereift -> Weitere Forschungsarbeit notwendig! Lösungsansätze zu folgenden Aspekten: Vermeidung von Zensur Qualität der Dokumente 14.01.2004

Sicherheit: Vermeidung von Zensur Knoten können Suchabfragen nicht abfangen, da nur Teil des Suchbaums Bei Zensurverdacht kann Knoten umgangen werden Ansatz: Verschlüsselte Suchalgorithmen Problem: Knoten brauchen Schlüssel Network-Of-Trust kann Abhilfe schaffen 14.01.2004

Sicherheit: Ähnlichkeit vs Qualität Ähnlichkeit objektiv definiert, Qualität subjektiv Objektiv ähnliches Dokument kann für Nutzer unbrauchbar sein Mögliche Erweiterung um: Reputation der Dokumentenquelle Update-Frequenz Popularität Erwähnung in anderen Dokumenten 14.01.2004

Anwendungen neben Freenet FASD auch ohne Freenet als Such-Layer verwendbar Verwendung mit Chord: hat sehr effiziente Methode zur Lokalisierung von Dokumenten jedoch keine Suchfunktion Zusammen mit FASD sehr effektiv Stand-Alone: Als eigenständige Such-Applikation einsetzbar Datentransfer über andere Standards 14.01.2004

Simulation des FASD FASD-Netz wurde durch Simulation geprüft Bedingungen: Initial: 20 Knoten, 2500 Dokumente Netz wird schrittweise auf 1000 Knoten erweitert Alle 200 Zeiteinheiten 300 neue Requests Bei Verfügbarkeitstests: HTL = 500 Im Folgenden werden einige Ergebnisse vorgestellt 14.01.2004

Durchschnittliche Suchtiefe 14.01.2004

Entwicklung der Suchdauer 14.01.2004

Entwicklung der Suchtiefe 14.01.2004

Verhalten bei Angriff auf Knoten 14.01.2004

Zukünftige Forschung Erweiterung der Funktion für die Schlüsselnähe Nutzung von verschlüsselter Suche Implementierung eines Trust-Networks Weitere Simulationen und Verbesserung der Parameter FASD soll in Freenet v0.6 integriert werden 14.01.2004

Zusammenfassung Grundlegendes Problem: Auffinden von Daten ohne zentrale Suchinstanz FASD löst das Problem, indem P2P-Netz als Suchmaschine genutzt wird Simulationen zeigen: Ansatz von FASD kann mit den bekannten Problemen umgehen Aber: Weitere Forschungsarbeiten sind noch notwendig! 14.01.2004

Vielen Dank für Eure Aufmerksamkeit! :) Geschafft! Vielen Dank für Eure Aufmerksamkeit! :) 14.01.2004

Diskussion FASD gefährdet die Verfügbarkeit eines P2P-Netzes, weil semantisch ähnliche Dokumente konzentriert werden. Ist es trotzdem sinnvoll, das Verfahren in Freenet zu integrieren? Sollte es besser standalone laufen? Eine anderweitige Anwendung kann den Austausch des Lexikons notwendig machen. Wie lässt sich eine Migration der Metadata Keys realisieren? Eignet sich FASD auch, um nach Binärdaten zu suchen? 14.01.2004