Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

The Minerva Project Database Selection in the Context of P2P Search Christian Zimmer, Matthias Bender, Sebastian Michel, Gerhard Weikum Max-Planck-Institut.

Ähnliche Präsentationen


Präsentation zum Thema: "The Minerva Project Database Selection in the Context of P2P Search Christian Zimmer, Matthias Bender, Sebastian Michel, Gerhard Weikum Max-Planck-Institut."—  Präsentation transkript:

1 The Minerva Project Database Selection in the Context of P2P Search Christian Zimmer, Matthias Bender, Sebastian Michel, Gerhard Weikum Max-Planck-Institut für Informatik Saarbrücken 11. GI-Fachtagung für Datenbanksysteme in Business, Technologie und Web März 2005, Karlsruhe

2 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 2 Motivation Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit Diese Suchmaschinen kennt jeder! Reicht uns das wirklich??? Wie wäre es mit einer verteilten P2P-Suchmaschine??

3 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 3 Motivation Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit Jeder Rechner arbeitet als Suchmaschine auf seinen Daten! Warum nur eine Instanz anfragen, wenn man Tausende anfragen könnte? Aber warum Tausende Instanzen anfragen, wenn es schon ausreicht, nur die besten zu fragen?? Dies ist keine Meta-Suchmaschine!

4 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 4 Überblick über den Vortrag Motivation Überblick Grundlagen Peer-to-Peer Systemarchitektur von Minerva Strategien zur Peerselektion Experimente Aufbau Ergebnisse Schlussfolgerungen & Ausblick Im Anschluss: Im Anschluss: Fragen Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

5 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 5 Grundlagen – Peer-to-Peer Systeme (1) Begriff: Dezentralisierte, selbstorganisierende, stark dynamische lose Kopplung von vielen unabhängigen Rechnern zu einem gemeinsamen Rechnersystem Wichtigsten Vorteile Hohe Skalierbarkeit Lastbalancierung Keine einzelne Fehlerpunkte Bekannte Probleme Hohe Dynamik Vertraulichkeit der Daten Anreizproblematik Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit Peer-to-Peer Netzwerk

6 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 6 Grundlagen – Peer-to-Peer Systeme (2) Fundamentale Problemstellung: effizientes Auffinden von Knoten (Peers) in einer verteilten P2P-Umgebung Verschiedene Architekturen Unstrukturierte P2P-Systeme (Gnutella u.a.) Nachrichten werden an die Nachbarknoten rekursiv weitergeleitet Nachteil unnötiger Nachrichten bzw. nicht alle relevanten Knoten werden notwendigerweise erreicht Strukturierte P2P-Systeme (CHORD, CAN u.a.) Bauen auf verteilten Hashtabellen (DHTs) auf Ordnen jedem Schlüssel einen Peer auf eine verteilte Art zu Einzige Methode: lookup() in O(log n) Schritten Wir benutzen CHORD als P2P Routing Netzwerk Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit ? ?

7 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 7 Systemarchitektur Wie wird es nicht funktionieren? P2P Suchmaschine ist keine File-Sharing Software mit Suche nach Dateinamen – wir wollen Multi-Keyword-Suche und Ergebnis-Rangfolgen! Ein zentrales Verzeichnis können wir uns nicht erlauben Anfrage-Flooding ist absolut ineffizient Verteiltes Indizieren aller Dokumente ist viel zu aufwändig Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit So einfach ist P2P-Suche nicht!

8 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 8 Systemarchitektur von MINERVA (1) Wichtigsten Eigenschaften Konzeptionell zentrales, aber physisch verteiltes Verzeichnis. Jeder Peer veröffentlicht Meta-Informationen (Posts) zu jedem Term im lokalen Verzeichnis. Für jeden Term ein verantwortlicher Peer, welcher Peerliste aller bekannten Posts zum Term verwaltet. CHORD für Zuordnung zwischen Term und Peer zuständig; somit jeder Peer für disjunkte Teilmenge aller Terme zuständig. Meta-Informationen im globalen Verzeichnis um Anfragen zu geeigneten Peers zu schicken Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit P4 Posts Peer lokaler Index P1 P3 P2

9 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 9 Systemarchitektur von MINERVA (2) Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit a: P1 P6 P4 b: P5 P3 P1 P6... Schritt 0: Veröffentlichen von pro-term Zusammenfassungen der lokalen Indizes Verteiltes Verzeichnis Term Peerliste P1 P5 P6P4 P2 P3 Schritt 2: Abrufen und Zusammenführen der lokalen Ergebnisse der Peers P4 P5 P1 P2 P3 P6 Schritt 1: Abrufen von Peerlisten für jeden Term der Query Verteiltes Verzeichnis Term Peerliste P1 P5 P6 P2 P3 P4 Anfrage Verarbeitung

10 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 10 Strategien zur Peerselektion Ziel: Das Finden der Peers mit den besten Resultaten zu einer gegebenen Anfrage. Vorgehensweise in 2 Schritten Identifizierung möglicher Kandidaten Durch Abfragen des globalen Verzeichnisses Ermittlung der vielversprechendsten Kandidaten Durch Berechnung eines Gütemaßes für jeden möglichen Kandidaten Mit den Peerlisten müssen Statistiken zu den einzelnen Peers an den anfragenden Peer verschickt werden Mögliche Erweiterungen Kostenbetrachtungen im Gütemaß Unterschiedliche Gewichtung der Anfrageterme Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

11 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 11 Peerselektion – Statistiken Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit Peer 1 D1 D3 D5 Peer 2 D2 D3 D4 Peer 3 D2 D Dokumentenhäufigkeit innerhalb eines Peers cdf 1112 Max. Termhäufigkeit innerhalb eines Peers ctf max Zahl der Dokumente pro Peer |C| Zahl der Terme pro Peer |V| Peerhäufigkeit für einen Term cf

12 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 12 Verschiedene Strategien cdf - ctf max – Ansatz Einfacher ad-hoc Ansatz aus cdf und ctf max Berücksichtigt nur lokale Statistiken CORI – Ansatz Kombiniert kollektionsspezifische Statistiken mit globalen Statistiken (cf) Bei beiden Ansätzen: Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

13 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 13 Weitere Ansätze GlOSS – Ansatz ebenfalls kollektionsspezifische Statistiken und globale Statistiken kombiniert Ansätze basierend auf statistischen Sprachmodellen So genannte Language Models (LM) Basieren auf statistischen Modellen und Wahrscheinlichkeiten Wir benutzen zwei verschiedene LM: Language Model nach Callan Language Model nach Xu & Croft Statistiken werden allerdings nur über die Statistiken der Peers in den Peerlisten berechnet – nicht über alle Peers im System Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

14 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 14 Experimente – Aufbau Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit Anfrageresultat Peer 1 Anfrageresultat Peer 2 Anfrageresultat Peer n Strategie X Peer Reihenfolge Peer 2 Peer 1 Peer 2 Strategie Y Peer Reihenfolge Schritt 1 Berechne Distanzmaß Ideales Referenzresultat Ideale Peer Reihenfolge Peer 1 Peer 2 Schritt 2 Ordne nach Distanzmaß Schritt 3 Distanzmaß Berechnung 10 thematisch fokussierte Kollektionen, eine Referenz-Kollektion 10 Anfragen mit 2 bis 5 Termen pro Anfrage, z.B. George Bush Iraq

15 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 15 Experimente – Distanzmaß Beispiele Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit Pos Referenz Reihenfolge Distanz Strategie 1 Reihenfolge 2 4 Distanz Strategie 2 Reihenfolge 2 8 Distanz Strategie 3 Reihenfolge 2 Mindestlänge / Vergleichslänge

16 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 16 Experimente – Resultate (1) Durchschnittliche Distanzen Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

17 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 17 Experimente – Resultate (2) Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit Ausbeute in Anzahl relevanter Dokumente

18 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 18 Experimente – Resultate (2) Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit Verhältnis relevante Dokumente / Ausführungszeit

19 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 19 Schlussfolgerungen und Ausblick Zusammenfassung Minerva ist eine Peer-to-Peer Suchmaschine, die skalierbar und deren Systemarchitektur erweiterbar ist. Experimente mit verschiedenen Peerselektions-Strategien zeigen unterschiedliche Ergebnisse, aber v.a. dass es reicht, nur wenige Peers anfragen zu müssen. Zukünftige Arbeit Welche Strategien lassen sich beim Zusammenführen (Result Merging) der Ergebnislisten anwenden (zur Zeit nur ein einfacher Ansatz basierend auf Termhäufigkeiten der lokalen Kollektionen) Lassen sich Overlap zwischen einzelnen Kollektionen bereits bei der Peerselektion ausnutzen. Können benutzerspezifische Eigenschaften (Bookmarks) zur Peerselektion benutzt werden Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

20 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 20 Screenshot der Prototypen-GUI Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

21 Vielen Dank für die Aufmerksamkeit Fragen?

22 Reservefolien Das Distanzmaß Information Retrieval cdf-ctf max – Ansatz CORI – Ansatz Experimente Setup Performanz Resultate

23 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 23 Experimente - Distanzmaß Ziel: Vergleich der Anfrageergebnisse der einzelnen Peers mit dem Referenzanfrageergebnis und Vergleich der Peer-Reihenfolgen der einzelnen Strategien mit der Referenz-Peer-Reihenfolge. Bekannte Metriken: Spearmans Footrule oder Kendalls Tau Metrik vergleichen zwei Rangfolgen 1 und 2 mit gleichen Definitionsmengen ( : D [k] mit |D|=k und [k]={1,…,k}). Problem: In beiden Fällen haben wir unvollständige Rangfolgen und vergleichen möglicherweise unterschiedlich lange Rangfolgen ( 2 ) mit einer Referenzrangfolge ( 1 ) Unser Ansatz des Distanzmaßes Gegeben: 1 mit D 1 und 2 mit D 2 Summierung nur über D 2 Erweiterung von 1 notwendig ( 1 (i)=|D 1 | für i D 1 ) Unterschiedliche Länge von 2 wird ausgeglichen durch Erweiterung auf Mindestlänge (Einfügen von künstlichen Dokumenten mit Rang | D 1 |+1) Unsymmetrisches Distanzmaß Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

24 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 24 Grundlagen – Information Retrieval Begriff: IR-Systeme speichern große Mengen an schwach strukturierten oder unstrukturierten Daten (Text, HTML) und stellen Suchfunktionen zur Verfügung, um relevante Dokumente zu einer Anfrage zu berechnen Verschiedene Konzepte Invertierte Indexlisten Zu jedem Term wird eine Liste von IDs von Dokumenten gespeichert, die den Term enthalten. TF*IDF-Maß Relevanzmaß für ein Dokument bezogen auf einen Suchterm basierend auf Termhäufigkeiten. Top-K Anfragen Bei einer Suchanfrage interessieren nur die besten K Ergebnisse bzgl. eines gewählten Relevanzmaßes. Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

25 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 25 cdf – ctf max Ansatz Einfacher ad-hoc Ansatz kombiniert die Dokumenthäufigkeiten innerhalb einer Kollektion (cdf) mit der maximalen Termhäufigkeit einer Kollektion (ctf max ) Die Werte für die einzelnen Terme werden aufsummiert und die Peer- Reihenfolge ergibt sich als absteigende Folge dieser Summen Berücksichtigung nur lokaler Statistiken; keine globale Statistiken über alle Peers Der Parameter zwischen 0 und 1 bestimmt den Einfluss von cdf bzw. ctf max Ähnlichkeit s i des i-ten Peer P i bzgl. einer Anfrage Q = {t1,...tn} Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

26 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 26 CORI – Ansatz (Callan 00) Dieser Ansatz kombiniert die kollektionsspezifischen Statistiken mit globalen Statistiken, um die Ähnlichkeiten besser bewerten zu können. Die Werte für die einzelnen Terme werden aufsummiert und die Peer- Reihenfolge ergibt sich als absteigende Folge dieser Summen: Die Ähnlichkeiten s i,t berechnen sich wie: Für die beiden Faktoren T i,t und I i,t ergibt sich die Berechnung: mit = 0.4 np (~ maximale Größe des P2P-Netzwerks); cf t (~ Länge der Peerliste für Term t); V i (Anzahl verschiedener Terme eines Peers); V avg Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

27 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 27 Experimente - Setup Kollektionen und Anfragen 10 thematisch fokussierte Kollektionen (von bis Dokumenten) und eine Referenz-Kollektion (als Vereinigung mit Duplikateliminierung) mit Dokumenten 10 Anfragen, davon 7 aus den häufigsten Anfragen der Websuch- maschine AltaVista und 3 weitere ausgewählte Anfragen, mit 2 bis 5 Termen pro Anfrage Ablauf mit 10 Peers (je Peer eine Datenkollektion) und einer gemeinsamen Oracle Datenbank, die alle Kollektionen speichert Einige Parameter mussten festgelegt werden Anzahl der Peers in der idealen Peer-Reihenfolge Anzahl der Peers in einer Peerliste Anzahl der Dokumente, die die Referenzkollektion liefert Anzahl der Dokumente, die die einzelnen Peers liefern Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

28 The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 28 Experimente - Performanz Einige Kennzahlen zur Performanz Ausführungszeit einer Anfrage liegt unter 2 Sekunden, wobei die lokale Anfrageausführung die Peer-Selektion klar dominiert. Beim Veröffentlichen der Meta-Informationen werden bei einem Peer mit rund Termen etwa 650 kB gesendet, wobei wir eine Datenkompression benutzen. Eine Anfrage einer Peerliste benötigt etwa 150 Bytes, Die Peerliste selbst etwa 1000 Bytes (linear zu ihrer Länge) Eine komplette Anfrage (2 Anfrageterme) benötigt 100 Bytes und die Rückgabe von 30 Resultaten etwa 2500 Bytes (inklusive aller Statistiken!). Komplexität der Peerselektion: O(n*l+m*log(m)) Mit n als Zahl der Anfrageterme, l die maximale Länge einer Peerliste und m als Anzahl der Peers Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit


Herunterladen ppt "The Minerva Project Database Selection in the Context of P2P Search Christian Zimmer, Matthias Bender, Sebastian Michel, Gerhard Weikum Max-Planck-Institut."

Ähnliche Präsentationen


Google-Anzeigen