ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung.

Slides:



Advertisements
Ähnliche Präsentationen
Kohonennetze für Information Retrieval mit User Feedback
Advertisements

Bedeutung Atemschutz © OBM H.Engel
Information Systems & Semantic Web University of Koblenz Landau, Germany 5. Feature - Transformationsverfahren 5.1 Diskrete Fourier-Transformation (DFT)
Schuljahr 2007/2008 Hannes Pfeiffer
Überwachung des Nagios-Servers
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Komplexe Distanzfunktionen 7. Effiziente Algorithmen und Datenstrukturen.
Energiebereitstellung in der Muskelzelle
Author: Mitarbeiter Entwicklung. Author: Unsere Situation Teilen Sie die negativen Nachrichten mit. Seien Sie deutlich.
Grundversorgung
Jahrestagung SGMI – SSIM - SSMI 5. & 6. Juni 2008 Sierre / Siders Suisse / Schweiz Wendelin Schramm GECKO Institut für Gesundheitsökonomie und Medizinische.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.3 Karhunen-Loeve-Transformation Minimalität und Orthogonalität innerhalb.
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
Universität Stuttgart Institut für Kernenergetik und Energiesysteme Beispiel 2: Iterative-Inkrementelle Vorgehensmodelle Annahmen: Anforderungen sind unvollständig.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
1 Empowerment der EP KIT im Mainstreaming-Prozess Gabriele Marchl 1 Ziele setzen & Strategie entwickeln 2 Prozess planen & gestalten 3 Zielpublikum ermitteln.
Scannen & Bildoptimieren Grundlagen und Übung.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 4 Multimedia Information Retrieval 1.Einführung 2.Ablauf des Multimedia.
3 Prinzipien des Information Retrieval
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 6 Distanzfunktionen 6.1 Eigenschaften und Klassifikation 6.2 Distanzfunktionen.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 7 Effiziente Algorithmen und Datenstrukturen 7.1 Hochdimensionale Indexstrukturen.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Anwendung DFT zur Feature-Aufbereitung Ziel: Minimalität der Feature-Werte.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.
Einführung eines Remote Desktop Systems am RRZE
Linux-HA-Cluster – Heartbeat mit DRBD
Autoinstallation von SuSE Linux 9.3 Roland Mohl 2. Juni 2005.
Unterschiede zwischen CRT & TFT
Der IPCOP-Router Bastian Neubarth
Erstellen eines Internetzugangs für Kongressteilnehmer
Webcamüberwachung Jürgen Liebl Kommunikationssysteme November 2004.
Redundanter Fileserver mit Heartbeat2 und DRBD - Linux-HA-Cluster
Terminalserver am RRZE
NF Sport Trainingslehre „Energiebereitstellung – Basics“
Energiegewinnung – HKS & Atmung
Methoden des Ausdauertrainings
© data2type 2005, 1 Publishing mit XML Einsatz von XSL für das multimediale, automatisierte Publishing.
Kontakt: greenValue GmbH Tel.: +49 (0) Exklusivforum Geschlossene Fonds Erneuerbare Energien Fonds und.
1. Sächsisches GIS-Forum des GDI Sachsen e. V
Sonderpädagogische Förderung in Tübingen
Die Vergabeplattform erreichen Sie unter:
| April 2013 | Übersicht Vergabeplattform: Übersicht über die Vergabeplattform des Freistaates Sachsen Auf den nachfolgenden Seiten.
Gemeindepädagogik Chancen und Herausforderungen
Funktionsweise, Vorteile und Nachteile der verschiedenen Mausarten
Uni-TV Stefanie Kamionka 08.April Gliederung Partnerschaften Videoübertragung Aufzeichnung.
18. November 2006 Einführung in die Welt der fast 1000 Digital Möglichkeiten / Stefan Schmid / Herzlich willkommen Einführung.
Service Orientierte Architektur
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek R-Baum und Varianten R-Baum X-Baum M-Baum.
Stimmzettel auszählen mit:
Lernziele für PowerPoint
Tourenvorschläge Routing Routenplaner für Radfahrer.
STEADYTEC PK 10/2006 © EIMC Uwe Eisenmann Trends und Anforderungen an industrielle Kommunikationstechnik Referent: Uwe Eisenmann Eisenmann.
Zeitgewinn24.de1 Zeitgewinn durch Informationsvermittlung Carsten Jäcker.
Maschinen- und Prozessüberwachung
EPROG Tutorium #4 Philipp Effenberger
EPROG Tutorium #5 Philipp Effenberger
EPROG Tutorium #3 Philipp Effenberger
Diplomverteidigung Ulrich Dinger Thema: Untersuchung und Entwicklung von Ansätzen und Techniken zur Realisierung einer (Web) Service Language.
SYNCO GmbH Synergie-Consulting Forschung und Entwicklung.
Zeitgewinn24.de1 Auftragsvergabe: Wie generieren Sie bei mir einen Auftrag? Informationsvermittlung Carsten Jäcker.
Telekommunikation und Hochfrequenztechnik
Dipl.Ing. u. Baumaschinen Meister IHK Peter Dönges D.C.M. - Biofuels
Die Bestimmung aller Satzglieder in einem Satz
Information Retrieval, Vektorraummodell
Konversionwww.journalistenakademie.de1/15 Konversionsorientiertes Schreiben Im Direktmarketing spricht man von „Konversion“, wenn man eine bestimmte Aktion.
Bewegung ist Leben! Diagonal vibrieren – diagonal trainieren! Sensomotorisches Training – reflektorisches Muskeltraining
C++ SFINAE inkl. std::enable_if
Breitbandversorgung Gewerbegebiet Oberried
Fischer‘s Software Service Uwe Fisher Ihr Partner für professionelle Lösungen Consulting – Softwareentwicklung – Personal Training.
IT Kleinprojekt abwickeln (Modul 306)
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
 Präsentation transkript:

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung von Bewertungen

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Vereinfachter IR-Prozess

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Motivation erstes Ergebnis oft nicht zufriedenstellend Gründe: vage Vorstellung des Nutzers über Suchergebnisse schlechte Anfrageformulierung unbekannte Dokumentenkollektion keine relevanten Dokumente verfügbar

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Reaktion auf nicht zufriedenstellendes Ergebnis Abbruch Browsing manuelle Abfragemodifikation Relevance Feedback

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Vorteile Relevance Feedback Anwender braucht keine Anfragemodifikation durchzuführen muss Systeminterna nicht kennen Anwender bewertet nur Ergebnisse Annähern an Ergebnis iterativ oft einfacher als mit einer einzigen Anfrage Relevanzwerte vom Nutzer zum System Relevance Feedback

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel Relevance Feedback

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Bewertung von Ergebnisdokumenten zu berücksichtigende Aspekte: Anzahl der zu bewertenden Dokumente soviel wie möglich versus Aufwand: <=10 reduzierte Darstellung der Ergebnisdokumente z.B. Thumbnails, Zusammenfassungen

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Bewertung von Ergebnisdokumenten (2) Art der Bewertung relevant und keine Bewertung relevant, irrelevant und keine Bewertung gestufte Relevanzwerte

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Bewertung von Ergebnisdokumenten (3) Bewertungsgranulat: Dokument oder Dokumenteneigenschaften bzgl. mehreren Anfrageobjekten (Suchtermen) einer zusammengesetzten Anfrage, z.B. Korsika and Strand bzgl. verschiedener Eigenschaftswerte z.B.: Bildersuche anhand Form und Größe, aber getrennte Bewertung

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel gestufte Relevanzwerte

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Pseudorelevanz automatische Bewertung, also Entlastung des Nutzers erste relevante Dokumente gelten automatisch als relevant Anfragemodifikation schlechtere Ergebnisse als bei manueller Relevanzbewertung oft bessere Ergebnisse als ohne Anfrage-Iteration

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Auswertung von Bewertungen Finden eines besseren Ergebnisses Anfragemodifikation: Modifikation von Nutzerprofilen z.B. Text-Retrieval: Profil enthält nutzerspezifische Suchterme (etwa Ferienwohnung für Reisebüro) Modifikation der Dokumentenbeschreibungen z.B. Modifikation des Indexvokabulars erfordert hohen Aufwand Modifikation des Suchalgorithmus z.B. andere Distanzfunktion Modifikation von Anfragetermgewichten in zusammengesetzten, gewichteten Anfragen

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Anfragemodifikation im Vektorraummodell: Rocchio Verschiebung des Anfragevektors in Richtung der als relevant bewerteten Dokumente weg von als irrelevant bewerteten Dokumenten Anfrage: q alt relevant (irrelevant) bewertete Dokumente: D r (D i )

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Anfragemodifikation im Verkorraummodell: Rocchio (2) α und β wichten Einfluss relevanter und irrelevanter Dokumente

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel Rocchio

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 3.4 Bewertung von Retrieval-Systemen Einführung Precision, Recall und Fallout Kombinierte Precision- und Recall-Werte Precision- und Recall-Werte abhängig von der Ergebnisgröße

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einführung Bewertung (Qualitätsvergleich) verschiedener Retrieval- Systeme quantitative Maße vonnöten

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Ergebnisbewertung bzgl. versch. Formulierungsebenen inwieweit ist Ergebnis relevant zu nicht formuliertem Informationsbedarf Informationsbedarf als natürlichsprachliche Frage Informationsbedarf als Anfrage

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Ergebnisbewertung bzgl. versch. Formulierungsebenen (2) Bewertungsunterschiede bzgl. Informationsbedarf und Frage: mangelnde Fähigkeit des Nutzers, Informationsbedarf adäquat als Frage zu formulieren (Bewertung des Nutzers) Frage und Anfrage: mangelnde Formulierung einer Frage als Anfrage (Bewertung des Nutzers und der Abfragesprache)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Nützlichkeit und Relevanz Relevanz: inwieweit befriedigt Ergebnis den Informationsbedarf Nützlichkeit: inwieweit ist das Ergebnis hilfreich Unabhängigkeit zwischen Nützlichkeit und Relevanz Beispiel: irrelevant aber (vielleicht?) nützlich: Suche nach Urlaubsmöglichkeiten in Korsika liefert Flugmöglichkeiten

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Nützlichkeit und Relevanz (2) Beispiel: relevant aber nutzlos: Suche nach Urlaubsmöglichkeiten in Korsika liefert veraltete Dokumente zu Ferienwohnungen im Folgenden Konzentration auf Relevanz und Irrelevanz von Ergebnissen bzgl. Anfrage

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Precision, Recall und Fallout zunächst Ergebnis als Menge zwei verschiedene Fehlentscheidungen 1.false alarms (fa) bezeichnet diejenigen Dokumente, die vom Retrieval-System irrtümlicherweise als relevant zurückgeliefert werden 2.false dismissals (fd) sind Dokumente, die fälschlicherweise vom Retrieval-System als irrelevant eingestuft wurden

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Precision, Recall und Fallout (2) zwei korrekte Entscheidungen: 1.correct alarms (ca) 2.correct dismissals (cd) fa, fd, ca, cd stehen für entsprechende Dokumentanzahlen bzgl. einer Anfrage

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek fa, fd, ca, cd

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek fa, fd, ca, cd im Euler-Venn-Diagramm

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Precision P Precision: Wieviele (als Verhältnis) Ergebnisdokumente sind tatsächlich relevant?

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Recall R Recall: Wieviele (als Verhältnis) tatsächlich relevante Dokumente erscheinen im Ergebnis

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Fallout F Verhältnis falsch gefundener zur Gesamtzahl irrelevanter Dokumente

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Ermittlung von fd und ca normalerweise nur fa+ca+fd+cd und ca+fa bekannt für fd und ca Nutzerbewertung notwendig ca durch Relevanzbewertung der Ergebnisdokumente fd durch Relevanzbewertung der zurückgehaltenen Dokumente

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Ermittlung von fd und ca (2) Problem: meist hoher Aufwand aufgrund hoher Dokumentenanzahl, insbesondere für fd Lösungsansatz: Verwendung von kleiner, repräsentativer Testdatenbank

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Durchschnitt über Anfrageserie Precision, Recall, Fallout definiert bzgl. einer Anfrage besser: mehrere Anfragen und entsprechende Durchschnittswerte

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel 20 Dokumente, 2 Anfragen, jeweils 10 Ergebnisdokumente

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Precision versus Recall beide Werte gleich wichtig, da gute Precision auf Kosten Recall: möglichst kleine Ergebnismenge z.B. Ergebnismenge enthält nur ein relevantes Dokument: P = 100% und R 0 gutes Recall auf Kosten Precision: möglichst große Ergebnismenge z.B. Ergebnismenge enthält alle Dokumente: R = 100% und P 0

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Abhängigkeit von Dokumentanzahl Ergebnis als Liste ca, cd, fa, fd, Precision und Recall sind abhängig von Ergebnisgröße r daher ca(r), cd(r), fa(r), fd(r), P q (r) und R q (r) bzgl. der r ersten Ergebnisdokumente

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Kombinierte Precision- und Recall-Werte beim Inkrementieren von r, pro neues Dokument zwei Varianten

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel 20 Dokumente, 1 Anfrage, 2 Retrieval-Systeme die selben 20 Dokumente, neue Anfrage, 3. Retrieval-System

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispielwerte für Precision und Recall tabellarisch

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispielwerte für Precision und Recall graphisch

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Abbildung zwischen Precision und Recall Linie ist Sägezahnlinie keine Funktion Ziel: Precision als Funktion über Recall Lösung: pro Recall-Wert maximalen Precision-Wert verwenden Optimum: 100%-Linie System besser, je näher zum Optimum

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Precision als Funktion über Recall

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Unterschiedliche Recall-Werte unterschiedliche Anfragen erzeugen oft unterschiedliche Recall-Werte z.B. Anfrage 1,2 versus 3 Ziel: Vergleich Retrieval-System immer bzgl. 11 Standard- Recall-Stufen 11 Standard-Recall-Stufen: 0%, 10%,..., 100%

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Unterschiedliche Recall-Werte (2) Lösung: Precision-Werte aus Intervallen berechnen: r j S ist j-te Stufe der 11 Stufen und r i sind ursprüngliche Recall-Stufen

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 11 Standard-Recall-Stufen grafisch

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Alternative Precision-Recall-Funktion ursprüngliche Abbildung ist keine Funktion (Sägezahnlinie) alternative Lösung: pro Recall-Wert den größten Precision-Wert des aktuellen und aller nachfolgenden Recall-Werte übernehmen

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 11 Standard-Recall-Stufen grafisch

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Durchschnitt über Standard-Recall-Stufen Recall-unabhängiger Vergleich Durchschnittswerte zum Vergleich nutzen wenn gewünscht: zusätzlich Durchschnitt über mehrere Anfragen

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Precision-Werte abhängig von Ergebnisgröße

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Harmonisches Mittel Kombination von Precision und Recall einer Ereignisgröße

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel harmonisches Mittel

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel harmonisches Mittel grafisch

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 3.5 Nutzerprofile Retrieval-Szenarien Einfluss von Nutzerprofilen auf den Retrieval-Prozess

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Motivation bis jetzt keine Unterscheidung von Anwender und Anwendergruppen Verhalten bzw. Suchbedarf verschiedener Nutzer differiert oft Idee: Subjektivität wird als Nutzerprofil modelliert und bei Suche berücksichtigt nur sinnvoll bei häufigem Zugriff von einzelnen Nutzern mit Identifikation

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel Bibliothekarin in einer Informatik-Bibliothek kennt Nutzer Professoren interessiert an spezieller Fachliteratur Studenten interessiert an Lehrbüchern

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Bestandteile eines Nutzerprofils etwa eine feste Anfrage vorgegeben vom Nutzer oder aus Suchläufen ermittelt zusätzlich möglich: Bildungsstand: Vorkenntnisse Vertrautheitsgrad mit Interessensgebiet: Anfänger versus Experte

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Bestandteile eines Nutzerprofils (2) Spachfähigkeit: Deutschkenntnisse Retrieval-Historie: Ergebnisse vorheriger Sitzungen spezielle Präferenzen: z.B. Bevorzugung eines bestimmten Journals

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Retrieval-Szenarien

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Filtering mit Profilen Vergleich Nutzerprofile mit neu eingefügten Dokumenten Relevanz Nutzer wird informiert Dokument quasi als Anfrage und Profile als Datenkollektion System ist aktiv Push-Dienst oder Current-Awareness- System oder Subscription

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek zusätzliche Sortierung anhand Relevanz: Routing Beispiel: Ärzte bleiben informiert anhand medizinischer Artikel, die entsprechend ihren Profilen gefiltert werden Filtering mit Profilen (2)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Retrieval mit Profilen Nutzerstamm statisch zwei Realisierungsmöglichkeiten 1.Nachfiltern: Filtering auf Anfrageergebnis hoher Berechnungsaufwand durch u.U. großem Zwischenergebnis reduzieren nur false alarms 2.Vorfiltern: Nutzerprofil beeinflusst Retrieval-Prozess direkt Reduzierung von false alarms und false dismissals

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Nachfiltern

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einfluss von Nutzerprofilen auf den Retrieval-Prozess Annahme: Anfrage als Profil einfache Realisierung: Verschiebung Anfragepunkt q in Richtung Profilabfragepunkt p

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einfluss von Nutzerprofilen auf den Retrieval-Prozess (2) Problem: relevante Dokumente bzgl. q können irrelevant bzgl. q' werden, gewünscht: Reduzierung false dismissals statt Reduzierung false alarms

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Minimumsfunktion Erweiterung der Anfragesemantik statt -modifikation naiver Ansatz: Min-Funktion

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Minimumsfunktion Problem 1: Profil liefert immer selbe Dokumentmenge Problem 2: Dokumente zwischen q und p erscheinen nicht unbedingt im Ergebnis

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Summenbildung Problem: Suchbereich wird zu groß

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Multiplikation Kompromiss zwischen Min-Funktion und Summenbildung 3 Varianten in Abhängigkeit von r: