Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Bardawulf Schlee Geändert vor über 11 Jahren
1
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung von Bewertungen
2
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de2 Vereinfachter IR-Prozess
3
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de3 Motivation erstes Ergebnis oft nicht zufriedenstellend Gründe: vage Vorstellung des Nutzers über Suchergebnisse schlechte Anfrageformulierung unbekannte Dokumentenkollektion keine relevanten Dokumente verfügbar
4
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de4 Reaktion auf nicht zufriedenstellendes Ergebnis Abbruch Browsing manuelle Abfragemodifikation Relevance Feedback
5
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de5 Vorteile Relevance Feedback Anwender braucht keine Anfragemodifikation durchzuführen muss Systeminterna nicht kennen Anwender bewertet nur Ergebnisse Annähern an Ergebnis iterativ oft einfacher als mit einer einzigen Anfrage Relevanzwerte vom Nutzer zum System Relevance Feedback
6
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de6 Beispiel Relevance Feedback
7
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de7 Bewertung von Ergebnisdokumenten zu berücksichtigende Aspekte: Anzahl der zu bewertenden Dokumente soviel wie möglich versus Aufwand: <=10 reduzierte Darstellung der Ergebnisdokumente z.B. Thumbnails, Zusammenfassungen
8
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de8 Bewertung von Ergebnisdokumenten (2) Art der Bewertung relevant und keine Bewertung relevant, irrelevant und keine Bewertung gestufte Relevanzwerte
9
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de9 Bewertung von Ergebnisdokumenten (3) Bewertungsgranulat: Dokument oder Dokumenteneigenschaften bzgl. mehreren Anfrageobjekten (Suchtermen) einer zusammengesetzten Anfrage, z.B. Korsika and Strand bzgl. verschiedener Eigenschaftswerte z.B.: Bildersuche anhand Form und Größe, aber getrennte Bewertung
10
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de10 Beispiel gestufte Relevanzwerte
11
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de11 Pseudorelevanz automatische Bewertung, also Entlastung des Nutzers erste relevante Dokumente gelten automatisch als relevant Anfragemodifikation schlechtere Ergebnisse als bei manueller Relevanzbewertung oft bessere Ergebnisse als ohne Anfrage-Iteration
12
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de12 Auswertung von Bewertungen Finden eines besseren Ergebnisses Anfragemodifikation: Modifikation von Nutzerprofilen z.B. Text-Retrieval: Profil enthält nutzerspezifische Suchterme (etwa Ferienwohnung für Reisebüro) Modifikation der Dokumentenbeschreibungen z.B. Modifikation des Indexvokabulars erfordert hohen Aufwand Modifikation des Suchalgorithmus z.B. andere Distanzfunktion Modifikation von Anfragetermgewichten in zusammengesetzten, gewichteten Anfragen
13
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de13 Anfragemodifikation im Vektorraummodell: Rocchio Verschiebung des Anfragevektors in Richtung der als relevant bewerteten Dokumente weg von als irrelevant bewerteten Dokumenten Anfrage: q alt relevant (irrelevant) bewertete Dokumente: D r (D i )
14
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de14 Anfragemodifikation im Verkorraummodell: Rocchio (2) α und β wichten Einfluss relevanter und irrelevanter Dokumente
15
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de15 Beispiel Rocchio
16
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de16 3.4 Bewertung von Retrieval-Systemen Einführung Precision, Recall und Fallout Kombinierte Precision- und Recall-Werte Precision- und Recall-Werte abhängig von der Ergebnisgröße
17
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de17 Einführung Bewertung (Qualitätsvergleich) verschiedener Retrieval- Systeme quantitative Maße vonnöten
18
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de18 Ergebnisbewertung bzgl. versch. Formulierungsebenen inwieweit ist Ergebnis relevant zu nicht formuliertem Informationsbedarf Informationsbedarf als natürlichsprachliche Frage Informationsbedarf als Anfrage
19
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de19 Ergebnisbewertung bzgl. versch. Formulierungsebenen (2) Bewertungsunterschiede bzgl. Informationsbedarf und Frage: mangelnde Fähigkeit des Nutzers, Informationsbedarf adäquat als Frage zu formulieren (Bewertung des Nutzers) Frage und Anfrage: mangelnde Formulierung einer Frage als Anfrage (Bewertung des Nutzers und der Abfragesprache)
20
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de20 Nützlichkeit und Relevanz Relevanz: inwieweit befriedigt Ergebnis den Informationsbedarf Nützlichkeit: inwieweit ist das Ergebnis hilfreich Unabhängigkeit zwischen Nützlichkeit und Relevanz Beispiel: irrelevant aber (vielleicht?) nützlich: Suche nach Urlaubsmöglichkeiten in Korsika liefert Flugmöglichkeiten
21
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de21 Nützlichkeit und Relevanz (2) Beispiel: relevant aber nutzlos: Suche nach Urlaubsmöglichkeiten in Korsika liefert veraltete Dokumente zu Ferienwohnungen im Folgenden Konzentration auf Relevanz und Irrelevanz von Ergebnissen bzgl. Anfrage
22
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de22 Precision, Recall und Fallout zunächst Ergebnis als Menge zwei verschiedene Fehlentscheidungen 1.false alarms (fa) bezeichnet diejenigen Dokumente, die vom Retrieval-System irrtümlicherweise als relevant zurückgeliefert werden 2.false dismissals (fd) sind Dokumente, die fälschlicherweise vom Retrieval-System als irrelevant eingestuft wurden
23
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de23 Precision, Recall und Fallout (2) zwei korrekte Entscheidungen: 1.correct alarms (ca) 2.correct dismissals (cd) fa, fd, ca, cd stehen für entsprechende Dokumentanzahlen bzgl. einer Anfrage
24
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de24 fa, fd, ca, cd
25
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de25 fa, fd, ca, cd im Euler-Venn-Diagramm
26
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de26 Precision P Precision: Wieviele (als Verhältnis) Ergebnisdokumente sind tatsächlich relevant?
27
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de27 Recall R Recall: Wieviele (als Verhältnis) tatsächlich relevante Dokumente erscheinen im Ergebnis
28
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de28 Fallout F Verhältnis falsch gefundener zur Gesamtzahl irrelevanter Dokumente
29
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de29 Ermittlung von fd und ca normalerweise nur fa+ca+fd+cd und ca+fa bekannt für fd und ca Nutzerbewertung notwendig ca durch Relevanzbewertung der Ergebnisdokumente fd durch Relevanzbewertung der zurückgehaltenen Dokumente
30
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de30 Ermittlung von fd und ca (2) Problem: meist hoher Aufwand aufgrund hoher Dokumentenanzahl, insbesondere für fd Lösungsansatz: Verwendung von kleiner, repräsentativer Testdatenbank
31
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de31 Durchschnitt über Anfrageserie Precision, Recall, Fallout definiert bzgl. einer Anfrage besser: mehrere Anfragen und entsprechende Durchschnittswerte
32
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de32 Beispiel 20 Dokumente, 2 Anfragen, jeweils 10 Ergebnisdokumente
33
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de33 Precision versus Recall beide Werte gleich wichtig, da gute Precision auf Kosten Recall: möglichst kleine Ergebnismenge z.B. Ergebnismenge enthält nur ein relevantes Dokument: P = 100% und R 0 gutes Recall auf Kosten Precision: möglichst große Ergebnismenge z.B. Ergebnismenge enthält alle Dokumente: R = 100% und P 0
34
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de34 Abhängigkeit von Dokumentanzahl Ergebnis als Liste ca, cd, fa, fd, Precision und Recall sind abhängig von Ergebnisgröße r daher ca(r), cd(r), fa(r), fd(r), P q (r) und R q (r) bzgl. der r ersten Ergebnisdokumente
35
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de35 Kombinierte Precision- und Recall-Werte beim Inkrementieren von r, pro neues Dokument zwei Varianten
36
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de36 Beispiel 20 Dokumente, 1 Anfrage, 2 Retrieval-Systeme die selben 20 Dokumente, neue Anfrage, 3. Retrieval-System
37
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de37 Beispielwerte für Precision und Recall tabellarisch
38
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de38 Beispielwerte für Precision und Recall graphisch
39
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de39 Abbildung zwischen Precision und Recall Linie ist Sägezahnlinie keine Funktion Ziel: Precision als Funktion über Recall Lösung: pro Recall-Wert maximalen Precision-Wert verwenden Optimum: 100%-Linie System besser, je näher zum Optimum
40
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de40 Precision als Funktion über Recall
41
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de41 Unterschiedliche Recall-Werte unterschiedliche Anfragen erzeugen oft unterschiedliche Recall-Werte z.B. Anfrage 1,2 versus 3 Ziel: Vergleich Retrieval-System immer bzgl. 11 Standard- Recall-Stufen 11 Standard-Recall-Stufen: 0%, 10%,..., 100%
42
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de42 Unterschiedliche Recall-Werte (2) Lösung: Precision-Werte aus Intervallen berechnen: r j S ist j-te Stufe der 11 Stufen und r i sind ursprüngliche Recall-Stufen
43
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de43 11 Standard-Recall-Stufen grafisch
44
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de44 Alternative Precision-Recall-Funktion ursprüngliche Abbildung ist keine Funktion (Sägezahnlinie) alternative Lösung: pro Recall-Wert den größten Precision-Wert des aktuellen und aller nachfolgenden Recall-Werte übernehmen
45
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de45 11 Standard-Recall-Stufen grafisch
46
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de46 Durchschnitt über Standard-Recall-Stufen Recall-unabhängiger Vergleich Durchschnittswerte zum Vergleich nutzen wenn gewünscht: zusätzlich Durchschnitt über mehrere Anfragen
47
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de47 Precision-Werte abhängig von Ergebnisgröße
48
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de48 Harmonisches Mittel Kombination von Precision und Recall einer Ereignisgröße
49
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de49 Beispiel harmonisches Mittel
50
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de50 Beispiel harmonisches Mittel grafisch
51
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de51 3.5 Nutzerprofile Retrieval-Szenarien Einfluss von Nutzerprofilen auf den Retrieval-Prozess
52
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de52 Motivation bis jetzt keine Unterscheidung von Anwender und Anwendergruppen Verhalten bzw. Suchbedarf verschiedener Nutzer differiert oft Idee: Subjektivität wird als Nutzerprofil modelliert und bei Suche berücksichtigt nur sinnvoll bei häufigem Zugriff von einzelnen Nutzern mit Identifikation
53
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de53 Beispiel Bibliothekarin in einer Informatik-Bibliothek kennt Nutzer Professoren interessiert an spezieller Fachliteratur Studenten interessiert an Lehrbüchern
54
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de54 Bestandteile eines Nutzerprofils etwa eine feste Anfrage vorgegeben vom Nutzer oder aus Suchläufen ermittelt zusätzlich möglich: Bildungsstand: Vorkenntnisse Vertrautheitsgrad mit Interessensgebiet: Anfänger versus Experte
55
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de55 Bestandteile eines Nutzerprofils (2) Spachfähigkeit: Deutschkenntnisse Retrieval-Historie: Ergebnisse vorheriger Sitzungen spezielle Präferenzen: z.B. Bevorzugung eines bestimmten Journals
56
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de56 Retrieval-Szenarien
57
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de57 Filtering mit Profilen Vergleich Nutzerprofile mit neu eingefügten Dokumenten Relevanz Nutzer wird informiert Dokument quasi als Anfrage und Profile als Datenkollektion System ist aktiv Push-Dienst oder Current-Awareness- System oder Subscription
58
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de58 zusätzliche Sortierung anhand Relevanz: Routing Beispiel: Ärzte bleiben informiert anhand medizinischer Artikel, die entsprechend ihren Profilen gefiltert werden Filtering mit Profilen (2)
59
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de59 Retrieval mit Profilen Nutzerstamm statisch zwei Realisierungsmöglichkeiten 1.Nachfiltern: Filtering auf Anfrageergebnis hoher Berechnungsaufwand durch u.U. großem Zwischenergebnis reduzieren nur false alarms 2.Vorfiltern: Nutzerprofil beeinflusst Retrieval-Prozess direkt Reduzierung von false alarms und false dismissals
60
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de60 Nachfiltern
61
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de61 Einfluss von Nutzerprofilen auf den Retrieval-Prozess Annahme: Anfrage als Profil einfache Realisierung: Verschiebung Anfragepunkt q in Richtung Profilabfragepunkt p
62
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de62 Einfluss von Nutzerprofilen auf den Retrieval-Prozess (2) Problem: relevante Dokumente bzgl. q können irrelevant bzgl. q' werden, gewünscht: Reduzierung false dismissals statt Reduzierung false alarms
63
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de63 Minimumsfunktion Erweiterung der Anfragesemantik statt -modifikation naiver Ansatz: Min-Funktion
64
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de64 Minimumsfunktion Problem 1: Profil liefert immer selbe Dokumentmenge Problem 2: Dokumente zwischen q und p erscheinen nicht unbedingt im Ergebnis
65
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de65 Summenbildung Problem: Suchbereich wird zu groß
66
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de66 Multiplikation Kompromiss zwischen Min-Funktion und Summenbildung 3 Varianten in Abhängigkeit von r:
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.