Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Startseite Information Retrieval: Methoden zur Selektivitätsabschätzung Seminar S2D2, IPD Böhm, WS 2005/06 Matthias Bracht, 10.01.2006 (Betreuer: Guido.

Ähnliche Präsentationen


Präsentation zum Thema: "Startseite Information Retrieval: Methoden zur Selektivitätsabschätzung Seminar S2D2, IPD Böhm, WS 2005/06 Matthias Bracht, 10.01.2006 (Betreuer: Guido."—  Präsentation transkript:

1 Startseite Information Retrieval: Methoden zur Selektivitätsabschätzung Seminar S2D2, IPD Böhm, WS 2005/06 Matthias Bracht, (Betreuer: Guido Sautter)

2 Seminar S2D2, IPD Böhm 2 Matthias Bracht, Wozu Selektivitätsabschätzung? Beispiel: Dokumente enthalten das, 50 auto, 1 luxuskarosse Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Information Retrieval: Methoden zur Selektivitätsabschätzung - Anfrage: das AND auto AND luxuskarosse

3 Seminar S2D2, IPD Böhm 3 Matthias Bracht, Selektivität klar: 0 <= Sel(Anfrage) <= 1 Beispiel von vorheriger Folie: Sel(das) = 100% Sel(luxuskarosse) = 1% Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Information Retrieval: Methoden zur Selektivitätsabschätzung Sel(Anfrage) = #Dokumente, die für Anfrage relevant sind #Dokumente insgesamt

4 Seminar S2D2, IPD Böhm 4 Matthias Bracht, Information Retrieval: Methoden zur Selektivitätsabschätzung

5 Seminar S2D2, IPD Böhm 5 Matthias Bracht, Selektivitätsabschätzung sinnvoll für: Approximation der Anzahl von Termvorkommen Bestimmung der Signifikanz der Terme auf vorheriger Folie of und the gar nicht berücksichtigt! Reihenfolge der Anfrageabarbeitung vgl. Einstiegsbeispiel Berechnung der Relevanzfunktion Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Information Retrieval: Methoden zur Selektivitätsabschätzung

6 Seminar S2D2, IPD Böhm 6 Matthias Bracht, Verschiedene Methoden parametrische Methoden -bedingt sinnvoll, da bestimmte Art der Verteilung angenommen wird Histogramme Suffix Trees Adaptive Sampling Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Information Retrieval: Methoden zur Selektivitätsabschätzung

7 Seminar S2D2, IPD Böhm 7 Matthias Bracht, Histogramme (1) Klassischer Einsatz: numerische Wertebereiche Beispiel: Altersstruktur von 100 Maserati-Besitzern, equi-length-Histogramm Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Information Retrieval: Methoden zur Selektivitätsabschätzung Sel(Alter < 42) = ? Antwort: irgendwo zw. 0,06 und 0,66!

8 Seminar S2D2, IPD Böhm 8 Matthias Bracht, Histogramme (2) Verbesserung: equi-depth-Histogramme fülle jeden Bucket in etwa gleichmäßig noch weitere Verbesserung: Varianz-Optimierung Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Information Retrieval: Methoden zur Selektivitätsabschätzung Sel(Alter < 42) = ? Antwort: irgendwo zw. 0,4 und 0,6! Intervall 3mal kleiner füge 20 Leute im Alter von hinzu, was passiert?

9 Seminar S2D2, IPD Böhm 9 Matthias Bracht, Histogramme (3) Problem: nicht trivial auf Textkollektionen anwendbar lexikographische Verteilung erschwert sinnvolle Wahl der Bucketgrenzen möglicher Ausweg: ein Eimer pro Wort Counts: –Termhäufigkeit –in wie vielen Dokumenten kommt Term vor (1mal, 2mal, 4mal usw.) Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Information Retrieval: Methoden zur Selektivitätsabschätzung

10 Seminar S2D2, IPD Böhm 10 Matthias Bracht, Vor-/Nachteile +geringer Zugriffsaufwand +geringer Speicheraufwand: nur Bucketgrenzen und Counts equi-length: initialer und Update-Aufwand gering, dafür evtl. sehr ungenaue Abschätzungen equi-depth: genauere Abschätzungen möglich, aber schwieriger zu bauen (Wahl der Grenzen?) und zu pflegen (Buckets splitten, wenn zu voll?) –Problem der sinnvollen Wahl der Bucketgrenzen –kaum Einsatzmöglichkeiten für Text Retrieval Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Information Retrieval: Methoden zur Selektivitätsabschätzung

11 Seminar S2D2, IPD Böhm 11 Matthias Bracht, Suffix Trees Datenstrukturen, die alle Suffixe von Strings beinhalten Suffixe werden in Baum einsortiert, gemeinsame Präfixe zusammengefasst Beispiel: Suffix Tree für mautautomat, Suffixe: –mautautomat –autautomat –utautomat –tautomat... Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Information Retrieval: Methoden zur Selektivitätsabschätzung at autautomat automat mat mautautomat... Sortieren...

12 Seminar S2D2, IPD Böhm 12 Matthias Bracht, omat Suffix Tree für mautautomat Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Information Retrieval: Methoden zur Selektivitätsabschätzung omat utautomat ma t auttomat automat omat automat tutautomat Einfügen von automat? automat ut

13 Seminar S2D2, IPD Böhm 13 Matthias Bracht, Count-Suffix Tree jeder Knoten enthält zusätzlich Count c Beispiel: –100 Terme: 49x Mazda, 48x Manta, 2x Maserati, 1x Maybach Problem: Speicher Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Information Retrieval: Methoden zur Selektivitätsabschätzung ma zda 49 nta 48 serati 2 ybach 1

14 Seminar S2D2, IPD Böhm 14 Matthias Bracht, serati 2 ybach 1 Pruned Count-Suffix Tree Lösung: Knoten mit c < s (s Schwellwert) werden entfernt Beispiel: s = 10 neues Problem: Abschätzung der nicht enthaltenen Terme Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Information Retrieval: Methoden zur Selektivitätsabschätzung ma serati 2 ybach 1 zda 49 nta 48 Sel(maserati) = ? Sel(matchbox) = ?

15 Seminar S2D2, IPD Böhm 15 Matthias Bracht, Anwendung: Wildcard-Suche Beispiel: –Dokument mit Termen lkwmaut (40x), pkwmaut (30x), mautsystem (20x), mautautomat (10x), maut (100x) –maut-Knoten enthält direkt Anzahl der für die Anfrage relevanten Terme! Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Information Retrieval: Methoden zur Selektivitätsabschätzung maut system 20 automat 10 Sel(*maut*) = ?

16 Seminar S2D2, IPD Böhm 16 Matthias Bracht, Vor-/Nachteile +gut geeignet für Texte, insbesondere Wildcard-Anfragen +geringer Zugriffsaufwand –hoher initialer Aufwand, zusätzlicher Speicheraufwand –Genauigkeit für seltenere Terme schlecht –keine Inkrementalität! Beispiel: s = 10, füge maserati hinzu periodisch neu bauen? Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Information Retrieval: Methoden zur Selektivitätsabschätzung ma serati 9 nta 90

17 Seminar S2D2, IPD Böhm 17 Matthias Bracht, Adaptive Sampling Idee: Random Sampling weitergedacht (zufällig Dokumente auswählen) fortfahren, bis bestimmte Schwellwerte erreicht –Anzahl der betrachteten Dokumente –Anzahl der Treffer der jeweiligen Anfrage adaptive: bestimmte Strategie zur Auswahl der folgenden Samples anwenden –z.B. in der Nähe von Treffern weitersuchen Blocksampling: komplette Speicherseiten samplen zusätzliche Abhängigkeiten beachten! Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Information Retrieval: Methoden zur Selektivitätsabschätzung

18 Seminar S2D2, IPD Böhm 18 Matthias Bracht, Konfidenzbetrachtung Frage: Wieviel Sampling ist nötig, um akzeptablen Fehler zu erreichen? Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Information Retrieval: Methoden zur Selektivitätsabschätzung Figure 5 aus [CRN98]

19 Seminar S2D2, IPD Böhm 19 Matthias Bracht, Vor-/Nachteile +kein initialer Aufwand, keine Speicherung von Statistiken nötig (vgl. Histogramme, Suffix Trees) +Genauigkeit: Konfidenzbereiche können für jede Anfrage neu angegeben werden (keine fixe Bucketanzahl/kein Pruning-Schwellwert) +Inkrementalität gegeben +Methode für beliebige Daten verwendbar –hoher Zugriffsaufwand ggf. sinnvoll: Sampling als Vorstufe zum Aufbau von Histogrammen/Suffix Trees Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Information Retrieval: Methoden zur Selektivitätsabschätzung

20 Seminar S2D2, IPD Böhm 20 Matthias Bracht, Zusammenfassung Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Information Retrieval: Methoden zur Selektivitätsabschätzung HistogrammeSuffix TreesAdapt. Sampling Speicher- aufwand gering: nur Bucketgrenzen und Counts hoch: Werte, Zähler, Zeiger... n/a initialer Aufwand linear, abh. von Genauigkeit hochn/a Update- Aufwand equi-length: gering, sonst ggf. hoch hoch (Pruning!) n/a Zugriffs- Aufwand gering hoch Genauig- keit fix: abh. von Art, Bucketanzahl, Varianz fix: ungenau für seltene Terme variabel: abhängig von Sampling Rate Daten v.a. numerischv.a. textuellbeliebig

21 Seminar S2D2, IPD Böhm 21 Matthias Bracht, Abhängigkeiten/Korrelationen Beispiel: –Sel(luxus) = 1 / 10 –Sel(maybach) = 1 / 100 –bei Unabhängigkeit: Antwort 1 / 1000 Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Information Retrieval: Methoden zur Selektivitätsabschätzung Sel(luxus AND maybach) = ? Dokumente mit maybach enthalten aber vermutlich auch luxus Sel(luxus AND maybach) also eher bei 1 / 100 Erweiterung der Methoden, um Abhängigkeiten zu erfassen

22 Seminar S2D2, IPD Böhm 22 Matthias Bracht, Synonyme insbesondere Nachrichtentexte verwenden aus Stilgründen Synonyme Beispiel: –Dokumente mit Michael Schumacher, der deutsche Rennfahrer, Schumi, der Rekord-Formel-1- Weltmeister... Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Information Retrieval: Methoden zur Selektivitätsabschätzung Anzahl der Vorkommen von Schumacher? Erweiterung der Methoden, um Synonyme zu erfassen nebenbei oben verwendet: Indizierung von Phrasen statt von einzelnen Termen

23 Seminar S2D2, IPD Böhm 23 Matthias Bracht, Schlussseite Vielen Dank für eure Aufmerksamkeit! Information Retrieval: Methoden zur Selektivitätsabschätzung [CRN98]: Chaudhuri, S., Motwani, R., Narasayya, V.; Random Sampling for Histogram Construction: How much is enough? In Proc. of ACM SIGMOD, Seattle, 1998.


Herunterladen ppt "Startseite Information Retrieval: Methoden zur Selektivitätsabschätzung Seminar S2D2, IPD Böhm, WS 2005/06 Matthias Bracht, 10.01.2006 (Betreuer: Guido."

Ähnliche Präsentationen


Google-Anzeigen