Information Retrieval: Methoden zur Selektivitätsabschätzung

Information Retrieval: Methoden zur Selektivitätsabschätzung
Startseite Information Retrieval: Methoden zur Selektivitätsabschätzung Seminar „S2D2“, IPD Böhm, WS 2005/06 Matthias Bracht, (Betreuer: Guido Sautter)

Wozu Selektivitätsabschätzung?
Information Retrieval: Methoden zur Selektivitätsabschätzung Wozu Selektivitätsabschätzung? Beispiel: - 100 Dokumente - 100 enthalten „das“, 50 „auto“, 1 „luxuskarosse“ Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Anfrage: „das AND auto AND luxuskarosse“ Seminar „S2D2“, IPD Böhm Matthias Bracht,

#Dokumente, die für Anfrage relevant sind
Information Retrieval: Methoden zur Selektivitätsabschätzung Selektivität klar: 0 <= Sel(Anfrage) <= 1 Beispiel von vorheriger Folie:  Sel(„das“) = 100%  Sel(„luxuskarosse“) = 1% Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Sel(Anfrage) = #Dokumente, die für Anfrage relevant sind #Dokumente insgesamt Seminar „S2D2“, IPD Böhm Matthias Bracht,

Seminar „S2D2“, IPD Böhm Matthias Bracht,

Selektivitätsabschätzung sinnvoll für:
Information Retrieval: Methoden zur Selektivitätsabschätzung Selektivitätsabschätzung sinnvoll für: Approximation der Anzahl von Termvorkommen Bestimmung der Signifikanz der Terme auf vorheriger Folie „of“ und „the“ gar nicht berücksichtigt! Reihenfolge der Anfrageabarbeitung  vgl. Einstiegsbeispiel Berechnung der Relevanzfunktion Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm Matthias Bracht,

Verschiedene Methoden
Information Retrieval: Methoden zur Selektivitätsabschätzung Verschiedene Methoden parametrische Methoden - bedingt sinnvoll, da bestimmte Art der Verteilung angenommen wird Histogramme Suffix Trees Adaptive Sampling Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm Matthias Bracht,

Histogramme (1) Klassischer Einsatz: numerische Wertebereiche Beispiel: Altersstruktur von 100 Maserati-Besitzern, equi-length-Histogramm Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Sel(Alter < 42) = ? Antwort: irgendwo zw. 0,06 und 0,66! Seminar „S2D2“, IPD Böhm Matthias Bracht,

Histogramme (2) Verbesserung: equi-depth-Histogramme fülle jeden Bucket in etwa gleichmäßig noch weitere Verbesserung: Varianz-Optimierung Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick füge 20 Leute im Alter von hinzu, was passiert? Sel(Alter < 42) = ? Antwort: irgendwo zw. 0,4 und 0,6!  Intervall 3mal kleiner Seminar „S2D2“, IPD Böhm Matthias Bracht,

Histogramme (3) Problem: nicht trivial auf Textkollektionen anwendbar lexikographische Verteilung erschwert sinnvolle Wahl der Bucketgrenzen möglicher Ausweg: ein Eimer pro Wort Counts: Termhäufigkeit in wie vielen Dokumenten kommt Term vor (1mal, 2mal, 4mal usw.) Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm Matthias Bracht,

Vor-/Nachteile geringer Zugriffsaufwand geringer Speicheraufwand: nur Bucketgrenzen und Counts equi-length: initialer und Update-Aufwand gering, dafür evtl. sehr ungenaue Abschätzungen equi-depth: genauere Abschätzungen möglich, aber schwieriger zu bauen (Wahl der Grenzen?) und zu pflegen (Buckets splitten, wenn zu voll?) Problem der sinnvollen Wahl der Bucketgrenzen kaum Einsatzmöglichkeiten für Text Retrieval Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm Matthias Bracht,

Suffix Trees Datenstrukturen, die alle Suffixe von Strings beinhalten Suffixe werden in Baum einsortiert, gemeinsame Präfixe zusammengefasst Beispiel: Suffix Tree für „mautautomat“, Suffixe: mautautomat autautomat utautomat tautomat ... Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick at autautomat automat mat mautautomat ... Sortieren... Seminar „S2D2“, IPD Böhm Matthias Bracht,

Suffix Tree für „mautautomat“
Information Retrieval: Methoden zur Selektivitätsabschätzung Suffix Tree für „mautautomat“ Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick utautomat ma t a ut omat automat ut automat omat automat Einfügen von „automat“? omat Seminar „S2D2“, IPD Böhm Matthias Bracht,

Count-Suffix Tree jeder Knoten enthält zusätzlich Count c Beispiel: 100 Terme: 49x Mazda, 48x Manta, 2x Maserati, 1x Maybach Problem: Speicher Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick ma 100 ... zda 49 nta 48 serati 2 ybach 1 Seminar „S2D2“, IPD Böhm Matthias Bracht,

Pruned Count-Suffix Tree
Information Retrieval: Methoden zur Selektivitätsabschätzung Pruned Count-Suffix Tree Lösung: Knoten mit c < s (s Schwellwert) werden entfernt Beispiel: s = 10 neues Problem: Abschätzung der nicht enthaltenen Terme Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Sel(„maserati“) = ? ma 100 ... Sel(„matchbox“) = ? zda 49 nta 48 serati 2 ybach 1 serati 2 ybach 1 Seminar „S2D2“, IPD Böhm Matthias Bracht,

Anwendung: Wildcard-Suche
Information Retrieval: Methoden zur Selektivitätsabschätzung Anwendung: Wildcard-Suche Beispiel: Dokument mit Termen „lkwmaut“ (40x), „pkwmaut“ (30x), „mautsystem“ (20x), „mautautomat“ (10x), „maut“ (100x) „maut“-Knoten enthält direkt Anzahl der für die Anfrage relevanten Terme! Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick maut 200 ... system 20 automat 10 Sel(„*maut*“) = ? Seminar „S2D2“, IPD Böhm Matthias Bracht,

Vor-/Nachteile gut geeignet für Texte, insbesondere Wildcard-Anfragen + geringer Zugriffsaufwand hoher initialer Aufwand, zusätzlicher Speicheraufwand Genauigkeit für seltenere Terme schlecht keine Inkrementalität! Beispiel: s = 10, füge „maserati“ hinzu periodisch neu bauen? Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick ma 99 ... serati 9 nta 90 Seminar „S2D2“, IPD Böhm Matthias Bracht,

Adaptive Sampling Idee: Random Sampling „weitergedacht“ (zufällig Dokumente auswählen) fortfahren, bis bestimmte Schwellwerte erreicht Anzahl der betrachteten Dokumente Anzahl der Treffer der jeweiligen Anfrage „adaptive“: bestimmte Strategie zur Auswahl der folgenden Samples anwenden z.B. in der „Nähe“ von Treffern weitersuchen Blocksampling: komplette Speicherseiten samplen zusätzliche Abhängigkeiten beachten! Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm Matthias Bracht,

Konfidenzbetrachtung
Information Retrieval: Methoden zur Selektivitätsabschätzung Konfidenzbetrachtung Frage: Wieviel Sampling ist nötig, um akzeptablen Fehler zu erreichen? Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Figure 5 aus [CRN98] Seminar „S2D2“, IPD Böhm Matthias Bracht,

Vor-/Nachteile kein initialer Aufwand, keine Speicherung von Statistiken nötig (vgl. Histogramme, Suffix Trees) Genauigkeit: Konfidenzbereiche können für jede Anfrage neu angegeben werden (keine fixe Bucketanzahl/kein Pruning-Schwellwert) Inkrementalität gegeben Methode für beliebige Daten verwendbar hoher Zugriffsaufwand ggf. sinnvoll: Sampling als Vorstufe zum Aufbau von Histogrammen/Suffix Trees Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm Matthias Bracht,

Zusammenfassung Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Histogramme Suffix Trees Adapt. Sampling Speicher-aufwand gering: nur Bucketgrenzen und Counts hoch: Werte, Zähler, Zeiger... n/a initialer Aufwand linear, abh. von Genauigkeit hoch Update-Aufwand equi-length: gering, sonst ggf. hoch hoch (Pruning!) Zugriffs-Aufwand gering Genauig- keit fix: abh. von Art, Bucketanzahl, Varianz fix: ungenau für seltene Terme variabel: abhängig von Sampling Rate Daten v.a. numerisch v.a. textuell beliebig Seminar „S2D2“, IPD Böhm Matthias Bracht,

Abhängigkeiten/Korrelationen
Information Retrieval: Methoden zur Selektivitätsabschätzung Abhängigkeiten/Korrelationen Beispiel: Sel(„luxus“) = 1 / 10 Sel(„maybach“) = 1 / 100 bei Unabhängigkeit: Antwort 1 / 1000 Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Sel(„luxus“ AND „maybach“) = ? Dokumente mit „maybach“ enthalten aber vermutlich auch „luxus“ Sel(„luxus“ AND „maybach“) also eher bei 1 / 100  Erweiterung der Methoden, um Abhängigkeiten zu erfassen Seminar „S2D2“, IPD Böhm Matthias Bracht,

Synonyme Information Retrieval: Methoden zur Selektivitätsabschätzung
insbesondere Nachrichtentexte verwenden aus Stilgründen Synonyme Beispiel: Dokumente mit „Michael Schumacher“, „der deutsche Rennfahrer“, „Schumi“, „der Rekord-Formel-1-Weltmeister“... Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Anzahl der Vorkommen von „Schumacher“? Erweiterung der Methoden, um Synonyme zu erfassen nebenbei oben verwendet: Indizierung von Phrasen statt von einzelnen Termen Seminar „S2D2“, IPD Böhm Matthias Bracht,

für eure Aufmerksamkeit!
Information Retrieval: Methoden zur Selektivitätsabschätzung Schlussseite Vielen Dank für eure Aufmerksamkeit! [CRN98]: Chaudhuri, S., Motwani, R., Narasayya, V.; Random Sampling for Histogram Construction: How much is enough? In Proc. of ACM SIGMOD, Seattle, 1998. Seminar „S2D2“, IPD Böhm Matthias Bracht,

Information Retrieval: Methoden zur Selektivitätsabschätzung

Ähnliche Präsentationen

Präsentation zum Thema: "Information Retrieval: Methoden zur Selektivitätsabschätzung"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Information Retrieval: Methoden zur Selektivitätsabschätzung

Ähnliche Präsentationen

Präsentation zum Thema: "Information Retrieval: Methoden zur Selektivitätsabschätzung"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback