The Minerva Project Database Selection in the Context of P2P Search Christian Zimmer, Matthias Bender, Sebastian Michel, Gerhard Weikum Max-Planck-Institut.

Slides:



Advertisements
Ähnliche Präsentationen
Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"
Advertisements

Partitionierungstechniken in Datenbanksystemen
Randomisierte Algorithmen Präfix Suche und Konsistentes Hashing
Kohonennetze für Information Retrieval mit User Feedback
Routing – Routing Protokolle
Inhalt Saarbrücken,.
Christian Schindelhauer
Indizierung von Graphen durch häufige Subgraphen (2)
PlanetenWachHundNetz Instrumenting Infrastructure for PlanetLab.
Seminar Textmining WS 06/07 Aufgaben V Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri.
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.
Seminar Textmining WS 06/07
Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval.
3. Kapitel: Komplexität und Komplexitätsklassen
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Genetische Algorithmen für die Variogrammanpassung
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Lehrstuhl Informatik III: Datenbanksysteme Achim Landschoof 28. April 2009 Strukturierte P2P Systeme 1 Achim Landschoof Betreuerin: Dipl.-Inf. Jessica.
Anfrage-Optimierung und -Bearbeitung in Verteilten DBMS
Sortierverfahren Richard Göbel.
Sortierverfahren Richard Göbel.
Effizienz: Indexstrukturen
WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.
Dynamische Programmierung (2) Matrixkettenprodukt
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.
WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (11-1 –Selbstanordnende lineare Listen) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27-Selbstanordnende lineare Listen) Prof. Th. Ottmann.
Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 16 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.
Geometrisches Divide and Conquer
Genetische Algorithmen
Information Retrieval Modelle: Vektor-Modell
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Peer-to-Peer- Netzwerke Christian Schindelhauer Sommersemester.
Bau effizienter und effektiver Metasuchmaschinen
Institut für Kartographie und Geoinformation Dipl.-Ing. J. Schmittwilken Diskrete Mathe II Übung
Vorlesung 3: Verschiedenes Universität Bielefeld – Technische Fakultät AG Rechnernetze und verteilte Systeme Peter B. Ladkin
Bruchpunktanalyse langzeitkorrelierter Daten
Access 2000 Datenbanken.
Normalformen Normalisieren Schlüssel
Seminar: Verteilte Datenbanken
6 Normalformen Normalisieren Schlüssel
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
Minimum Spanning Tree: MST
Datenmanagement in Sensornetzen PRESTO - Feedback gesteuertes Datenmanagement - SS 2007 Sören Wenzlaff.
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
1 Vorlesung 3 Verschiedenes Peter B. Ladkin
Datenverteilung in Ad-hoc Netzen 1/24 Adaptive Datenverteilung in mobilen Ad-hoc Netzen unter Verwendung des Area Graph basierten Bewegungsmodells S. Bittner,
Effiziente Algorithmen
Dawn (direction anticipation in web-navigation) sebastian stober - direction anticipation in web-navigation2 Motivation Suchmaschinen & Verzeichnisse.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
Routing Instabilitäten
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Peer-to-Peer- Netzwerke Christian Schindelhauer Sommersemester.
Information Retrieval, Vektorraummodell
Eike Schallehn, Martin Endig
Analyse der Laufzeit von Algorithmen
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Oracle Text bei sehr großen Datenmengen Referent Martin Augst Senior Project / Account Manager Semantec GmbH Benzstr.
Rechen- und Kommunikationszentrum (RZ) Selektionsstrategien auf Graphstrukturen Sven Porsche Seminarvorträge Aachen.
Von Wietlisbach, Lenzin und Winter
Einführung: Statistische Verfahren der automatischen Indexierung
 Präsentation transkript:

The Minerva Project Database Selection in the Context of P2P Search Christian Zimmer, Matthias Bender, Sebastian Michel, Gerhard Weikum Max-Planck-Institut für Informatik Saarbrücken 11. GI-Fachtagung für Datenbanksysteme in Business, Technologie und Web März 2005, Karlsruhe

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 2 Motivation Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit Diese Suchmaschinen kennt jeder! Reicht uns das wirklich??? Wie wäre es mit einer verteilten P2P-Suchmaschine??

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 3 Motivation Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit Jeder Rechner arbeitet als Suchmaschine auf seinen Daten! Warum nur eine Instanz anfragen, wenn man Tausende anfragen könnte? Aber warum Tausende Instanzen anfragen, wenn es schon ausreicht, nur die besten zu fragen?? Dies ist keine Meta-Suchmaschine!

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 4 Überblick über den Vortrag Motivation Überblick Grundlagen Peer-to-Peer Systemarchitektur von Minerva Strategien zur Peerselektion Experimente Aufbau Ergebnisse Schlussfolgerungen & Ausblick Im Anschluss: Im Anschluss: Fragen Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 5 Grundlagen – Peer-to-Peer Systeme (1) Begriff: Dezentralisierte, selbstorganisierende, stark dynamische lose Kopplung von vielen unabhängigen Rechnern zu einem gemeinsamen Rechnersystem Wichtigsten Vorteile Hohe Skalierbarkeit Lastbalancierung Keine einzelne Fehlerpunkte Bekannte Probleme Hohe Dynamik Vertraulichkeit der Daten Anreizproblematik Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit Peer-to-Peer Netzwerk

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 6 Grundlagen – Peer-to-Peer Systeme (2) Fundamentale Problemstellung: effizientes Auffinden von Knoten (Peers) in einer verteilten P2P-Umgebung Verschiedene Architekturen Unstrukturierte P2P-Systeme (Gnutella u.a.) Nachrichten werden an die Nachbarknoten rekursiv weitergeleitet Nachteil unnötiger Nachrichten bzw. nicht alle relevanten Knoten werden notwendigerweise erreicht Strukturierte P2P-Systeme (CHORD, CAN u.a.) Bauen auf verteilten Hashtabellen (DHTs) auf Ordnen jedem Schlüssel einen Peer auf eine verteilte Art zu Einzige Methode: lookup() in O(log n) Schritten Wir benutzen CHORD als P2P Routing Netzwerk Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit ? ?

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 7 Systemarchitektur Wie wird es nicht funktionieren? P2P Suchmaschine ist keine File-Sharing Software mit Suche nach Dateinamen – wir wollen Multi-Keyword-Suche und Ergebnis-Rangfolgen! Ein zentrales Verzeichnis können wir uns nicht erlauben Anfrage-Flooding ist absolut ineffizient Verteiltes Indizieren aller Dokumente ist viel zu aufwändig Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit So einfach ist P2P-Suche nicht!

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 8 Systemarchitektur von MINERVA (1) Wichtigsten Eigenschaften Konzeptionell zentrales, aber physisch verteiltes Verzeichnis. Jeder Peer veröffentlicht Meta-Informationen (Posts) zu jedem Term im lokalen Verzeichnis. Für jeden Term ein verantwortlicher Peer, welcher Peerliste aller bekannten Posts zum Term verwaltet. CHORD für Zuordnung zwischen Term und Peer zuständig; somit jeder Peer für disjunkte Teilmenge aller Terme zuständig. Meta-Informationen im globalen Verzeichnis um Anfragen zu geeigneten Peers zu schicken Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit P4 Posts Peer lokaler Index P1 P3 P2

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 9 Systemarchitektur von MINERVA (2) Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit a: P1 P6 P4 b: P5 P3 P1 P6... Schritt 0: Veröffentlichen von pro-term Zusammenfassungen der lokalen Indizes Verteiltes Verzeichnis Term Peerliste P1 P5 P6P4 P2 P3 Schritt 2: Abrufen und Zusammenführen der lokalen Ergebnisse der Peers P4 P5 P1 P2 P3 P6 Schritt 1: Abrufen von Peerlisten für jeden Term der Query Verteiltes Verzeichnis Term Peerliste P1 P5 P6 P2 P3 P4 Anfrage Verarbeitung

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 10 Strategien zur Peerselektion Ziel: Das Finden der Peers mit den besten Resultaten zu einer gegebenen Anfrage. Vorgehensweise in 2 Schritten Identifizierung möglicher Kandidaten Durch Abfragen des globalen Verzeichnisses Ermittlung der vielversprechendsten Kandidaten Durch Berechnung eines Gütemaßes für jeden möglichen Kandidaten Mit den Peerlisten müssen Statistiken zu den einzelnen Peers an den anfragenden Peer verschickt werden Mögliche Erweiterungen Kostenbetrachtungen im Gütemaß Unterschiedliche Gewichtung der Anfrageterme Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 11 Peerselektion – Statistiken Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit Peer 1 D1 D3 D5 Peer 2 D2 D3 D4 Peer 3 D2 D Dokumentenhäufigkeit innerhalb eines Peers cdf 1112 Max. Termhäufigkeit innerhalb eines Peers ctf max Zahl der Dokumente pro Peer |C| Zahl der Terme pro Peer |V| Peerhäufigkeit für einen Term cf

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 12 Verschiedene Strategien cdf - ctf max – Ansatz Einfacher ad-hoc Ansatz aus cdf und ctf max Berücksichtigt nur lokale Statistiken CORI – Ansatz Kombiniert kollektionsspezifische Statistiken mit globalen Statistiken (cf) Bei beiden Ansätzen: Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 13 Weitere Ansätze GlOSS – Ansatz ebenfalls kollektionsspezifische Statistiken und globale Statistiken kombiniert Ansätze basierend auf statistischen Sprachmodellen So genannte Language Models (LM) Basieren auf statistischen Modellen und Wahrscheinlichkeiten Wir benutzen zwei verschiedene LM: Language Model nach Callan Language Model nach Xu & Croft Statistiken werden allerdings nur über die Statistiken der Peers in den Peerlisten berechnet – nicht über alle Peers im System Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 14 Experimente – Aufbau Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit Anfrageresultat Peer 1 Anfrageresultat Peer 2 Anfrageresultat Peer n Strategie X Peer Reihenfolge Peer 2 Peer 1 Peer 2 Strategie Y Peer Reihenfolge Schritt 1 Berechne Distanzmaß Ideales Referenzresultat Ideale Peer Reihenfolge Peer 1 Peer 2 Schritt 2 Ordne nach Distanzmaß Schritt 3 Distanzmaß Berechnung 10 thematisch fokussierte Kollektionen, eine Referenz-Kollektion 10 Anfragen mit 2 bis 5 Termen pro Anfrage, z.B. George Bush Iraq

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 15 Experimente – Distanzmaß Beispiele Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit Pos Referenz Reihenfolge Distanz Strategie 1 Reihenfolge 2 4 Distanz Strategie 2 Reihenfolge 2 8 Distanz Strategie 3 Reihenfolge 2 Mindestlänge / Vergleichslänge

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 16 Experimente – Resultate (1) Durchschnittliche Distanzen Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 17 Experimente – Resultate (2) Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit Ausbeute in Anzahl relevanter Dokumente

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 18 Experimente – Resultate (2) Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit Verhältnis relevante Dokumente / Ausführungszeit

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 19 Schlussfolgerungen und Ausblick Zusammenfassung Minerva ist eine Peer-to-Peer Suchmaschine, die skalierbar und deren Systemarchitektur erweiterbar ist. Experimente mit verschiedenen Peerselektions-Strategien zeigen unterschiedliche Ergebnisse, aber v.a. dass es reicht, nur wenige Peers anfragen zu müssen. Zukünftige Arbeit Welche Strategien lassen sich beim Zusammenführen (Result Merging) der Ergebnislisten anwenden (zur Zeit nur ein einfacher Ansatz basierend auf Termhäufigkeiten der lokalen Kollektionen) Lassen sich Overlap zwischen einzelnen Kollektionen bereits bei der Peerselektion ausnutzen. Können benutzerspezifische Eigenschaften (Bookmarks) zur Peerselektion benutzt werden Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 20 Screenshot der Prototypen-GUI Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

Vielen Dank für die Aufmerksamkeit Fragen?

Reservefolien Das Distanzmaß Information Retrieval cdf-ctf max – Ansatz CORI – Ansatz Experimente Setup Performanz Resultate

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 23 Experimente - Distanzmaß Ziel: Vergleich der Anfrageergebnisse der einzelnen Peers mit dem Referenzanfrageergebnis und Vergleich der Peer-Reihenfolgen der einzelnen Strategien mit der Referenz-Peer-Reihenfolge. Bekannte Metriken: Spearmans Footrule oder Kendalls Tau Metrik vergleichen zwei Rangfolgen 1 und 2 mit gleichen Definitionsmengen ( : D [k] mit |D|=k und [k]={1,…,k}). Problem: In beiden Fällen haben wir unvollständige Rangfolgen und vergleichen möglicherweise unterschiedlich lange Rangfolgen ( 2 ) mit einer Referenzrangfolge ( 1 ) Unser Ansatz des Distanzmaßes Gegeben: 1 mit D 1 und 2 mit D 2 Summierung nur über D 2 Erweiterung von 1 notwendig ( 1 (i)=|D 1 | für i D 1 ) Unterschiedliche Länge von 2 wird ausgeglichen durch Erweiterung auf Mindestlänge (Einfügen von künstlichen Dokumenten mit Rang | D 1 |+1) Unsymmetrisches Distanzmaß Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 24 Grundlagen – Information Retrieval Begriff: IR-Systeme speichern große Mengen an schwach strukturierten oder unstrukturierten Daten (Text, HTML) und stellen Suchfunktionen zur Verfügung, um relevante Dokumente zu einer Anfrage zu berechnen Verschiedene Konzepte Invertierte Indexlisten Zu jedem Term wird eine Liste von IDs von Dokumenten gespeichert, die den Term enthalten. TF*IDF-Maß Relevanzmaß für ein Dokument bezogen auf einen Suchterm basierend auf Termhäufigkeiten. Top-K Anfragen Bei einer Suchanfrage interessieren nur die besten K Ergebnisse bzgl. eines gewählten Relevanzmaßes. Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 25 cdf – ctf max Ansatz Einfacher ad-hoc Ansatz kombiniert die Dokumenthäufigkeiten innerhalb einer Kollektion (cdf) mit der maximalen Termhäufigkeit einer Kollektion (ctf max ) Die Werte für die einzelnen Terme werden aufsummiert und die Peer- Reihenfolge ergibt sich als absteigende Folge dieser Summen Berücksichtigung nur lokaler Statistiken; keine globale Statistiken über alle Peers Der Parameter zwischen 0 und 1 bestimmt den Einfluss von cdf bzw. ctf max Ähnlichkeit s i des i-ten Peer P i bzgl. einer Anfrage Q = {t1,...tn} Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 26 CORI – Ansatz (Callan 00) Dieser Ansatz kombiniert die kollektionsspezifischen Statistiken mit globalen Statistiken, um die Ähnlichkeiten besser bewerten zu können. Die Werte für die einzelnen Terme werden aufsummiert und die Peer- Reihenfolge ergibt sich als absteigende Folge dieser Summen: Die Ähnlichkeiten s i,t berechnen sich wie: Für die beiden Faktoren T i,t und I i,t ergibt sich die Berechnung: mit = 0.4 np (~ maximale Größe des P2P-Netzwerks); cf t (~ Länge der Peerliste für Term t); V i (Anzahl verschiedener Terme eines Peers); V avg Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 27 Experimente - Setup Kollektionen und Anfragen 10 thematisch fokussierte Kollektionen (von bis Dokumenten) und eine Referenz-Kollektion (als Vereinigung mit Duplikateliminierung) mit Dokumenten 10 Anfragen, davon 7 aus den häufigsten Anfragen der Websuch- maschine AltaVista und 3 weitere ausgewählte Anfragen, mit 2 bis 5 Termen pro Anfrage Ablauf mit 10 Peers (je Peer eine Datenkollektion) und einer gemeinsamen Oracle Datenbank, die alle Kollektionen speichert Einige Parameter mussten festgelegt werden Anzahl der Peers in der idealen Peer-Reihenfolge Anzahl der Peers in einer Peerliste Anzahl der Dokumente, die die Referenzkollektion liefert Anzahl der Dokumente, die die einzelnen Peers liefern Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit

The Minerva Project: Database Selection in the Context of P2P Search Christian Zimmer, Max-Planck-Institut für Informatik 28 Experimente - Performanz Einige Kennzahlen zur Performanz Ausführungszeit einer Anfrage liegt unter 2 Sekunden, wobei die lokale Anfrageausführung die Peer-Selektion klar dominiert. Beim Veröffentlichen der Meta-Informationen werden bei einem Peer mit rund Termen etwa 650 kB gesendet, wobei wir eine Datenkompression benutzen. Eine Anfrage einer Peerliste benötigt etwa 150 Bytes, Die Peerliste selbst etwa 1000 Bytes (linear zu ihrer Länge) Eine komplette Anfrage (2 Anfrageterme) benötigt 100 Bytes und die Rückgabe von 30 Resultaten etwa 2500 Bytes (inklusive aller Statistiken!). Komplexität der Peerselektion: O(n*l+m*log(m)) Mit n als Zahl der Anfrageterme, l die maximale Länge einer Peerliste und m als Anzahl der Peers Motivation Überblick Grundlagen Systemarchitektur Strategien Experimente Fazit