Query Reformulation Seminar Multimedia-Datenbanken Sommersemester 2002 Marcus Denecke
Query Reformulation1 1. Einführung 2. Content-Based Image Retrieval 3. Relevanz-Feedback 3.1 Query-Reweighting 3.2 Query-Expansion 4. Implementation 5. Zusammenfassung Gliederung
Marcus DeneckeQuery Reformulation2 global zunehmende Menge an digitalen Daten darunter: steigender Anteil an Multimediadaten insbesondere Bilder: aus Medizin, Geographie etc. 1. Einführung Wunsch: effiziente Speicherung MMDatenbanken Wunsch: leichtes Wiederauffinden der (Binär-)Daten Problem: Suche in digitalen Daten Ansatz: Verschlagwortung
Marcus DeneckeQuery Reformulation3 jedes Bild wird manuell mit Schlagwörtern versehen Suche erfolgt auf diesen Begriffen aber: Verlagerung des Problems, keine Lösung: Skalierbarkeit Aufwand Subjektivität Inkonsistenz Komplexität Transformation Ansatz: Nutzung des Bildinhaltes zur Suche Schlagwörter 1. Einführung
Marcus DeneckeQuery Reformulation4 2. Content Based Image Retrieval frühe 90er Ansatz: Multimediadaten enthalten bestimmte Features / Merkmale Bsp. für Bilder: Farben, Texturen, Formen Nutzung als Bildindex Vorteile: Automatisierte Extraktion Daten selbst immer konsistent
Marcus DeneckeQuery Reformulation5 2. Content Based Image Retrieval
Marcus DeneckeQuery Reformulation6 Nutzer können ihren Informationsbedarf nicht mit Hilfe der Merkmale ausdrücken Lücke zwischen der Wahrnehmung des Nutzers und der Repräsentation im System Gewichte für den Nutzer umständlich 2. Content Based Image Retrieval Nachteile Idee: Merkmale verbergen und Gewichte dynamisch anpassen Dynamik Iterationen Relevanz-Feedback
Marcus DeneckeQuery Reformulation7 Multimediaobjekt O = O (D, F, R) D = Daten, F = Merkmale, R = Repräsentationen verschiedene Medientypen verschiedene Merkmale (z.B. Farbe, Textur, Form) Merkmale in unterschiedlichen Repräsentationen z.B. Histogramme und Color Moments für die Farbe Repräsentationen wiederum Vektoren mit Werten für die entsprechende Ausprägung 2. Content Based Image Retrieval Multimedia-Objekt-Modell
Marcus DeneckeQuery Reformulation8 Multimedia-Objekt-Modell 2. Content Based Image Retrieval
Marcus DeneckeQuery Reformulation9 Query-Modell 2. Content Based Image Retrieval Erweiterung des Objekt-Modells jeder Ast des Suchbaums ist entsprechend der Relevanz gewichtet bei mehr als einem vorgegebenen Beispiel: Objekt-basiertes Modell Merkmals-basiertes Modell
Marcus DeneckeQuery Reformulation10 Query-Modell 2. Content Based Image Retrieval
Marcus DeneckeQuery Reformulation11 Retrieval-Modell 2. Content Based Image Retrieval bestimmt die Ähnlichkeit zwischen einem Objekt O und einer Query Q durch Berechnung der Distanz mit einer Ähnlichkeitsfunktion D(O, Q) Ergebnis: gerankte Liste von Objekten Objekt-Modell, Query-Modell, Retrieval-Modell und eine Sammlung von Abstandsmassen zusammen bilden das Content-Based Multimedia Retrieval Modell
Marcus DeneckeQuery Reformulation12 Retrieval-Modell 2. Content Based Image Retrieval
Marcus DeneckeQuery Reformulation13 3. Relevanz-Feedback Informationsbedarf modelliert durch dynamisch angepasste Gewichte Query Reweighting Erweiterung der Query um neue Objekte Query Expansion Query Reformulation beschreibt den iterativen Prozeß der Anpassung einer Query basierend auf dem Feedback des Nutzers so, dass sie sein Informationsbedürfnis besser abdeckt als zuvor
Marcus DeneckeQuery Reformulation14 Techniken Query Refinement Query Representation Modification Query Reweighting Query Expansion Query Point Movement 3. Relevanz-Feedback Beispiel: ChariotChariot
Marcus DeneckeQuery Reformulation Query Reweighting Hand-Out Iterativer Prozess Ziel: Modellierung des Informationsbedarfes durch die Anpassung der Gewichte im Query-Model Versuch die high-level-Konzepte des Nutzers (Katze) auf low-level-Features des Systems (Farbe, Form, Textur) abzubilden
Marcus DeneckeQuery Reformulation16 Normalisierung 3.1 Query-Reweighting Problem: Ähnlichkeitsmaße müssen nicht immer im selben Bereich liegen Verzerrung Normalisierung der Komponenten eines Repräsentationsvektors r ij intra Ähnlichkeitswerte jeder Repräsentation S(r ij ) inter Gauss-Normalisierung Wertebereich [0, 1]
Marcus DeneckeQuery Reformulation17 Weight-Updating 3.1 Query-Reweighting eigentliche Erfassung der Subjektivität Nutzer gibt auf einer Skala von sehr relevant (3) bis gar nicht relevant (- 3) die Relevanz zurück Anpassung der Gewichte in den Repräsentationen (W ij ) inter Gewichte der Vektorkomponenten (W ijk ) intra Erhöhung und Minderung der Gewichtung der Merkmale und Repräsentationen
Marcus DeneckeQuery Reformulation Query Expansion Nutzer findet u.U. kein geeignetes Beispiel um sein Informationsbedürnis auszudrücken System das nur mit Beispielen arbeitet limitiert den Nutzer Lösung: Query Expansion Idee: Aufnahme von einer limitierten Auswahl an relevanten Objekten in die anfängliche Query
Marcus DeneckeQuery Reformulation19 Similar Expansion 3.2 Query Expansion Aufnahme von relevanten Objekten, wenn diese sehr ähnlich zu den vom Nutzer als relevant ausgewählten sind Rechtfertigung: da die Objekte den gewünschten ähnlich sind, repräsentieren sie wiederum andere ähnliche Objekte
Marcus DeneckeQuery Reformulation20 Distant Expansion 3.2 Query Expansion Aufnahme von relevanten Objekten, wenn diese weniger ähnlich zu den vom Nutzer als relevant ausgewählten sind Rechtfertigung: diese Objekte könnten einige interessante Merkmale aufweisen, die bis dahin nicht im Suchbaum berücksichtigt wurden Erweiterung der Anfrage um neue Merkmale sollten die Objekte nicht nützlich sein, so werden sie durch das Relevanz-Feedback in der nächsten Iteration wieder gelöscht
Marcus DeneckeQuery Reformulation21 Problem: Berechnung der Ähnlichkeitswerte extrem aufwendig Lösungsansatz: Pufferung eines Teils der Informationen jeder Iteration des Prozesses Ansatz: k-NN-Algorithmus 4. Implementation
Marcus DeneckeQuery Reformulation22 5. Zusammenfassung Relevanz-Feedback sinnvolle Ergänzung des CBIR durch Interaktion wird eine effiziente Suche ermöglicht, ohne dass beide Seiten die Grundlagen der jeweils anderen kennen Problem: die Abbildung von high-level-Konzepten auf low-level-Features ist sehr beschränkt Integration von high-level-Konzepten erforderlich
Marcus DeneckeQuery Reformulation23 Quellen Relevance Feedback: A Power Tool for Interactive Content-Based Image Retrieval; Rui, Huang, Ortega, Mehrotra, September 1998 Query Reformulation for Content Based Multimedia Retrieval in MARS; Pokaew, Mehrotra, Ortega, November 1998 Efficient Query Refinement in Multimedia Databases; Chakrabarti, Porkaew, Mehrotra, 2000