Information Retrieval: Methoden zur Selektivitätsabschätzung

Slides:



Advertisements
Ähnliche Präsentationen
Praktischer Teil des Seminars
Advertisements

Differenzierung nach Qualifizierung ? Qualifizierung wozu ?
Das Online-Übungssystem der FernUniversität
BAG-Fachseminar: Erziehung im Unterricht Jugendanstalt Hameln 13. – 16. November 2005 © kvogel/
Seminar Textmining WS 06/07 Aufgaben V Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri.
Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.
Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.
Seminar Textmining WS 06/07 Aufgaben I 1.Metadaten 2.Einfache Inverse Liste 3.Modifizierte Inverse Liste für komplexere Anfragen 4.Boolsches Retrieval.
Seminar Textmining WS 06/07
Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval.
1 Prof. Dr. Beschorner / UPL / ABWL I / WS / Universität Ulm Allgemeines nDiese Woche keine Tutorien nÜbungsbetrieb ab nächster Woche.
Multi-Media Seminar von Andre Münch
Programmierkurs C/C++
Reuss, Annicka M.; Walter, Dietmar; Feig, Marcel; Kappelmayer, Lutz; Buchholz, Udo; Eckmanns, Tim; Poggensee, Gabriele Influenzaimpfquoten der Saisons.
DEPARTMENT FÜR INFORMATIK
Die Motivationsmaschine
WS Algorithmentheorie 01 – Divide and Conquer (Segmentschnitt) Prof. Dr. Th. Ottmann.
KAB-Deutschlands Mitgliederentwicklung - Gesamtmitgliedschaft Daten zum
Eingabe und Kodierung von Daten in SPSS
Normalformen Normalisieren Schlüssel
Zitieren in wissenschaftlichen Arbeiten
1 Indexierung - Begriffszerlegung Alphabete Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2005/2006 Begriffszerlegung – wo gibt.
IndexierungsqualitätEinstieg
Diskussion Dezimalklassifikation - Expertendiskussion Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2006/76 Diskusion Woran.
Spree SoSe 2006 Titel Typen von Informationsressourcen Eine systematische Übersicht.
Ergebnisorientierung in der Lehrerfortbildung: Wirksamkeit
Universität Karlsruhe (TH) © 2008 Univ,Karlsruhe, IPD, Prof. LockemannDBI 0 Datenbankimplementierung und -tuning Einführung.
Universität Karlsruhe (TH) © 2006 Univ,Karlsruhe, IPD, Prof. Lockemann/Prof. BöhmTAV 0 Transaktionsverwaltung Einführung.
Steinkohle - Weltmarkt
Spezifikations- und Selektionsmethoden für Daten und Dienste
Übung 1: SQL Übungen finden bei Bedarf anstelle der Vorlesungen statt
Informationsverwaltung in Sensornetzen
Entitäten Extraktion Einführung
Wolfgang Patscheider, Leiter EDV Mag. Michael Ruzicka, Konsulent
1 Seminar zu Experimentelle Methoden der Teilchenphysik Der Trigger von ATLAS - Wolf Behrenhoff, Der Trigger im ATLAS-Experiment – LHC Grundlagen.
Stammzell-Transplantationen in Düsseldorf
Prof. Heinz & Constanze Schinner
–Achtung! Heute ist die Luftverschmutzung besonders groß, In vielen Großstädten der Welt wird folgende Warnung an die Bevölkerung gerichtet: –Kinder und.
Relevante Faktoren für eine Top-Platzierung am Beispiel von Google
Studentisches Seminar
E-Learning in Theorie & Praxis
Disposition der Arbeit
(Moderne) C-C-Verknüpfungsreaktionen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Lehr- und Lehrveranstaltungsevaluation
Sammlung von Debugging-Daten Nikolas Herbst Stephan Baumeister Betreuer: Dr. V. Pankratius IPD Tichy, Fakultät für Informatik Praxis der Parallelprogrammierung.
FFG / EIP Österreichische Forschungsförderungs- gesellschaft, Europäische und Internationale Programme Kleine und mittlere Unternehmen im 7.EU-Rahmenprogramm.
Bachelorseminar zur Bachelorarbeit
BJJ Schwarzgurt Pedro Duarte. Seminar in Berlin Submission Grappling und BJJ Seminar in Berlin im IMAG e.V., Kastanienallee 32,
XML - Grundlagen, Verarbeitung und Anwendungen Seminar im SS 2010 Martin Heine Jutta Mülle Guido Sautter Universität Karlsruhe (TH) Institute für Programmstrukturen.
Aforms2web solutions & services GmbH - a company of ANECON and forms2web Kurzbericht für E-GovExperts Arbeitsgruppe Präsentation und Standarddaten ehemals.
German field trials on co-existence ________________________________________________ Seminar on cross contamination, Tallinn Feb. 13th 2007 Dr. Maren Langhof.
Campus App Betreuer: Prof. Dr. rer nat. Friedrich Laux Tim Lessner
Testtechniken-Praktikum WS 2005/06 1 Testgetriebene Entwicklung Andreas Höfer Dr. Matthias Müller mit Beiträgen von Johannes Link.
Testtechniken-Praktikum WS 2005/06 1 Besprechung Java-Test/Aufgabe 1 Andreas Höfer Dr. Matthias Müller.
Ressourcen in Process Aware Information Systems Paul Hübner | | DBIS Seminar Betreuer : Andreas Lanz.
Wöchnerinnen: Befragungsergebnisse I. Quartal 2013 ( )
Fortbildungsmeeting 9. bis 10. März 2012, Wien www. biomed-austria.at Österreichischer Berufsverband der Biomedizinischen AnalytikerInnen.
© author(s) of these slides 2013 including research results of the research network ES and TU Darmstadt otherwise as specified at the respective slide.
WS 2004/2005 Datenbanken II - 5W Mi 17:00 – 18:30 G 3.18 Vorlesung #3 Anfragebearbeitung (Teil 1)
DYNALP dynamic rural alpine space - Inwertsetzung von Natur und Landschaft für Marketing und Tourismus im ländlichen Alpenraum.
Kapitel - Thema letzte Aktualisierung © Accor Hospitaliy Germany Notizen BLANKO 0 X – XXXXXXX XXXXXXXXXXXXXXXXXXX Anmerkung XXXXXXXX Headline.
INHALTE DES VORTRAGS ALS VORSTELLUNG DES THEMAS (10MIN)
INHALTE DES VORTRAGS ALS VORSTELLUNG DES THEMAS (10MIN)
 Präsentation transkript:

Information Retrieval: Methoden zur Selektivitätsabschätzung Startseite Information Retrieval: Methoden zur Selektivitätsabschätzung Seminar „S2D2“, IPD Böhm, WS 2005/06 Matthias Bracht, 10.01.2006 (Betreuer: Guido Sautter)

Wozu Selektivitätsabschätzung? Information Retrieval: Methoden zur Selektivitätsabschätzung Wozu Selektivitätsabschätzung? Beispiel: - 100 Dokumente - 100 enthalten „das“, 50 „auto“, 1 „luxuskarosse“ Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Anfrage: „das AND auto AND luxuskarosse“ Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

#Dokumente, die für Anfrage relevant sind Information Retrieval: Methoden zur Selektivitätsabschätzung Selektivität klar: 0 <= Sel(Anfrage) <= 1 Beispiel von vorheriger Folie:  Sel(„das“) = 100%  Sel(„luxuskarosse“) = 1% Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Sel(Anfrage) = #Dokumente, die für Anfrage relevant sind #Dokumente insgesamt Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

Information Retrieval: Methoden zur Selektivitätsabschätzung Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

Selektivitätsabschätzung sinnvoll für: Information Retrieval: Methoden zur Selektivitätsabschätzung Selektivitätsabschätzung sinnvoll für: Approximation der Anzahl von Termvorkommen Bestimmung der Signifikanz der Terme auf vorheriger Folie „of“ und „the“ gar nicht berücksichtigt! Reihenfolge der Anfrageabarbeitung  vgl. Einstiegsbeispiel Berechnung der Relevanzfunktion Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

Verschiedene Methoden Information Retrieval: Methoden zur Selektivitätsabschätzung Verschiedene Methoden parametrische Methoden - bedingt sinnvoll, da bestimmte Art der Verteilung angenommen wird Histogramme Suffix Trees Adaptive Sampling Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

Information Retrieval: Methoden zur Selektivitätsabschätzung Histogramme (1) Klassischer Einsatz: numerische Wertebereiche Beispiel: Altersstruktur von 100 Maserati-Besitzern, equi-length-Histogramm Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Sel(Alter < 42) = ? Antwort: irgendwo zw. 0,06 und 0,66! Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

Information Retrieval: Methoden zur Selektivitätsabschätzung Histogramme (2) Verbesserung: equi-depth-Histogramme fülle jeden Bucket in etwa gleichmäßig noch weitere Verbesserung: Varianz-Optimierung Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick füge 20 Leute im Alter von 41-43 hinzu, was passiert? Sel(Alter < 42) = ? Antwort: irgendwo zw. 0,4 und 0,6!  Intervall 3mal kleiner Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

Information Retrieval: Methoden zur Selektivitätsabschätzung Histogramme (3) Problem: nicht trivial auf Textkollektionen anwendbar lexikographische Verteilung erschwert sinnvolle Wahl der Bucketgrenzen möglicher Ausweg: ein Eimer pro Wort Counts: Termhäufigkeit in wie vielen Dokumenten kommt Term vor (1mal, 2mal, 4mal usw.) Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

Information Retrieval: Methoden zur Selektivitätsabschätzung Vor-/Nachteile geringer Zugriffsaufwand geringer Speicheraufwand: nur Bucketgrenzen und Counts equi-length: initialer und Update-Aufwand gering, dafür evtl. sehr ungenaue Abschätzungen equi-depth: genauere Abschätzungen möglich, aber schwieriger zu bauen (Wahl der Grenzen?) und zu pflegen (Buckets splitten, wenn zu voll?) Problem der sinnvollen Wahl der Bucketgrenzen kaum Einsatzmöglichkeiten für Text Retrieval Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

Information Retrieval: Methoden zur Selektivitätsabschätzung Suffix Trees Datenstrukturen, die alle Suffixe von Strings beinhalten Suffixe werden in Baum einsortiert, gemeinsame Präfixe zusammengefasst Beispiel: Suffix Tree für „mautautomat“, Suffixe: mautautomat autautomat utautomat tautomat ... Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick at autautomat automat mat mautautomat ... Sortieren... Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

Suffix Tree für „mautautomat“ Information Retrieval: Methoden zur Selektivitätsabschätzung Suffix Tree für „mautautomat“ Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick utautomat ma t a ut omat automat ut automat omat automat Einfügen von „automat“? omat Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

Information Retrieval: Methoden zur Selektivitätsabschätzung Count-Suffix Tree jeder Knoten enthält zusätzlich Count c Beispiel: 100 Terme: 49x Mazda, 48x Manta, 2x Maserati, 1x Maybach Problem: Speicher Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick ma 100 ... zda 49 nta 48 serati 2 ybach 1 Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

Pruned Count-Suffix Tree Information Retrieval: Methoden zur Selektivitätsabschätzung Pruned Count-Suffix Tree Lösung: Knoten mit c < s (s Schwellwert) werden entfernt Beispiel: s = 10 neues Problem: Abschätzung der nicht enthaltenen Terme Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Sel(„maserati“) = ? ma 100 ... Sel(„matchbox“) = ? zda 49 nta 48 serati 2 ybach 1 serati 2 ybach 1 Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

Anwendung: Wildcard-Suche Information Retrieval: Methoden zur Selektivitätsabschätzung Anwendung: Wildcard-Suche Beispiel: Dokument mit Termen „lkwmaut“ (40x), „pkwmaut“ (30x), „mautsystem“ (20x), „mautautomat“ (10x), „maut“ (100x) „maut“-Knoten enthält direkt Anzahl der für die Anfrage relevanten Terme! Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick maut 200 ... system 20 automat 10 Sel(„*maut*“) = ? Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

Information Retrieval: Methoden zur Selektivitätsabschätzung Vor-/Nachteile gut geeignet für Texte, insbesondere Wildcard-Anfragen + geringer Zugriffsaufwand hoher initialer Aufwand, zusätzlicher Speicheraufwand Genauigkeit für seltenere Terme schlecht keine Inkrementalität! Beispiel: s = 10, füge „maserati“ hinzu periodisch neu bauen? Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick ma 99 ... serati 9 nta 90 Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

Information Retrieval: Methoden zur Selektivitätsabschätzung Adaptive Sampling Idee: Random Sampling „weitergedacht“ (zufällig Dokumente auswählen) fortfahren, bis bestimmte Schwellwerte erreicht Anzahl der betrachteten Dokumente Anzahl der Treffer der jeweiligen Anfrage „adaptive“: bestimmte Strategie zur Auswahl der folgenden Samples anwenden z.B. in der „Nähe“ von Treffern weitersuchen Blocksampling: komplette Speicherseiten samplen zusätzliche Abhängigkeiten beachten! Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

Konfidenzbetrachtung Information Retrieval: Methoden zur Selektivitätsabschätzung Konfidenzbetrachtung Frage: Wieviel Sampling ist nötig, um akzeptablen Fehler zu erreichen? Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Figure 5 aus [CRN98] Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

Information Retrieval: Methoden zur Selektivitätsabschätzung Vor-/Nachteile kein initialer Aufwand, keine Speicherung von Statistiken nötig (vgl. Histogramme, Suffix Trees) Genauigkeit: Konfidenzbereiche können für jede Anfrage neu angegeben werden (keine fixe Bucketanzahl/kein Pruning-Schwellwert) Inkrementalität gegeben Methode für beliebige Daten verwendbar hoher Zugriffsaufwand ggf. sinnvoll: Sampling als Vorstufe zum Aufbau von Histogrammen/Suffix Trees Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

Information Retrieval: Methoden zur Selektivitätsabschätzung Zusammenfassung Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Histogramme Suffix Trees Adapt. Sampling Speicher-aufwand gering: nur Bucketgrenzen und Counts hoch: Werte, Zähler, Zeiger... n/a initialer Aufwand linear, abh. von Genauigkeit hoch Update-Aufwand equi-length: gering, sonst ggf. hoch hoch (Pruning!) Zugriffs-Aufwand gering Genauig- keit fix: abh. von Art, Bucketanzahl, Varianz fix: ungenau für seltene Terme variabel: abhängig von Sampling Rate Daten v.a. numerisch v.a. textuell beliebig Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

Abhängigkeiten/Korrelationen Information Retrieval: Methoden zur Selektivitätsabschätzung Abhängigkeiten/Korrelationen Beispiel: Sel(„luxus“) = 1 / 10 Sel(„maybach“) = 1 / 100 bei Unabhängigkeit: Antwort 1 / 1000 Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Sel(„luxus“ AND „maybach“) = ? Dokumente mit „maybach“ enthalten aber vermutlich auch „luxus“ Sel(„luxus“ AND „maybach“) also eher bei 1 / 100  Erweiterung der Methoden, um Abhängigkeiten zu erfassen Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

Synonyme Information Retrieval: Methoden zur Selektivitätsabschätzung insbesondere Nachrichtentexte verwenden aus Stilgründen Synonyme Beispiel: Dokumente mit „Michael Schumacher“, „der deutsche Rennfahrer“, „Schumi“, „der Rekord-Formel-1-Weltmeister“... Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Anzahl der Vorkommen von „Schumacher“? Erweiterung der Methoden, um Synonyme zu erfassen nebenbei oben verwendet: Indizierung von Phrasen statt von einzelnen Termen Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006

für eure Aufmerksamkeit! Information Retrieval: Methoden zur Selektivitätsabschätzung Schlussseite Vielen Dank für eure Aufmerksamkeit! [CRN98]: Chaudhuri, S., Motwani, R., Narasayya, V.; Random Sampling for Histogram Construction: How much is enough? In Proc. of ACM SIGMOD, Seattle, 1998. Seminar „S2D2“, IPD Böhm Matthias Bracht, 10.01.2006