Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 14.12.2014 / 15.12.2013 / 5.12.2011.

Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 14.12.2014 / 15.12.2013 / 5.12.2011

Inhalt  Einführung des MTC-Verfahrens  Vorbetrachtungen  Abkürzungen und Beispiel für diese Folien  Präzision und durchschnittliche Präzision  Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment  MTC-Verfahren, Spezifikation  Erläuterung des Dokument-Selektionsalgorithmus  Formeln für die Dokumentgewichte  Berechnung des (Nicht-)Relevanzeffekts eines Dokuments  Tracing des Selektionsalgorithmus für das Folienbeispiel  Abbruchkriterium für den Algorithmus  Konfidenz  Evaluierungsergebnisse 2© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Beurteilungsmethode Minimal Test Collection (MTC)  Ben Carterette (2008). Low-Cost and Robust Evaluation of Information Retrieval Systems. PhD thesis, University of Massachusetts Amherst  Ben Carterette, James Allan, and Ramesh K. Sitaraman. Minimal test collections for retrieval evaluation. In: Proceedings of SIGIR, pages 268-275, 2006. http://ir.cis.udel.edu/~carteret/papers/sigir06.pdfhttp://ir.cis.udel.edu/~carteret/papers/sigir06.pdf  James Allan, Ben Carterette, Javed A. Aslam, Virgil Pavlu, Blagovest Dachev, Evangelos Kanoulas (2007). Million Query Track 2007 Overview. Proceedings of TREC 2007. http://maroo.cs.umass.edu/pub/web/getpdf.php?id=800 http://maroo.cs.umass.edu/pub/web/getpdf.php?id=800  auch UMass-Verfahren genannt (University of Massachusetts Amherst) 3© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection Verfahren (MTC) Grundgedanken  Genaue Schätzung der Information Retrieval Evaluierungsmetriken erfordert eine riesige Menge von Relevanzbeurteilungen  Eine neue Sicht auf die durchschnittliche Präzision (average precision – AP) zeigt, dass es möglich ist, eine Menge von Retrievalsystemen mit hoher Konfidenz mit einer minimalen Menge von Beurteilungen zu evaluieren  Diese Sicht führt auch zu einem Algorithmus zum inkrementellen Aufbau von Testkollektionen 4© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 (Carterette, Allan, Sitamaran, 2006)

Abkürzungen 6© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Beispiel für diese Folien  2 Systeme: System 1 (S 1 ) und System 2 (S 2 )  3 Dokumente: A, B, C  Ausgabelisten der beiden Systeme: 7© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Beispiel für diese Folien Übersicht zu den nachfolgenden Betrachtungsvarianten der Evaluierungsmaße 8© Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013 prec@rPrecision auf Rang r SPsum precision APaverage precision

Anforderungen an Information Retrieval- Evaluierungsmaße  Ein gutes Evaluierungsmaß sollte folgende Systemeigenschaften hoch bewerten  Das System setzt relevante Systeme auf die oberen Ränge (precision)  Das System findet viele relevante Dokumente (recall)  Die durchschnittliche Präzision (AP) erfasst sowohl precision als auch recall eines Systems 10© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Evaluierungsmaß: Präzision auf Rang r 11© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 Ausgabeliste nach einem Beispiel von (Carterette,Kanoulas,Yilmaz, 2010)

Evaluierungsmaß: Durchschnittliche Präzision (average precision – AP) 12© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 Ausgabeliste nach einem Beispiel von (Carterette,Kanoulas,Yilmaz, 2010)

Evaluierungsmaße: Präzision und durchschnittliche Präzision Darstellung als Zufallsexperimente  Darstellung als Gleichungen über Bernoulli Experimente X i für die Relevanz von Dokument i  x i Boolescher Indikator der Relevanz von Dokument i 14© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Evaluierungsmaß: Präzision Darstellung als Zufallsexperiment  Auswahl eines Ranges aus der Menge {1, …, t}, 1 ≤ r ≤ t  Ausgabe der binären Dokumentrelevanz auf diesem Rang  Formel und Beispiel 15© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 Ausgabeliste nach einem Beispiel von (Carterette,Kanoulas,Yilmaz, 2010)

Evaluierungsmaß: Durchschnittliche Präzision Darstellung als Zufallsexperiment 16© Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013 multipliziert mit binäre Dokumentrelevanz auf Rang r precision auf dem Rang der relevanten Dokumente

Darstellungen der Evaluierungsmaße 17© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 Standard Zufallsexperiment

18© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 Beispiel zu

19© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 Precision auf Rang 1 Precision auf Rang 2Precision auf Rang 3

Evaluierungsmaß: Durchschnittliche Präzision Formel für beliebige Dokumentreihenfolge  für eine Betrachtung der Dokumente in beliebiger Reihenfolge ist zu ersetzen durch den Koeffizienten a ij : 20© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 (Carterette, Allan, Sitamaran, 2006)

Beispiel Variante 1 21© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Beispiel Variante 2 22© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection Verfahren (MTC) Ziele und Methode  Ziel  vergleichende Evaluierung zweier oder mehrerer Systeme  Durchführung eines Minimums an Relevanzbewertungen  Methode  neue Sicht auf durchschnittliche Präzision (AP) ermöglicht  Algorithmus zur Auswahl des nächsten zu bewertenden Dokuments: Dokument mit dem nächst größten Einfluss auf AP  Abbruchkriterium für die Evaluierung  Schätzung des Grades der Konfidenz auf der Basis einer Verteilung möglicher Dokumentbeurteilungen 24© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 (Carterette, Allan, Sitamaran, 2006)

Minimal Test Collection Verfahren (MTC) Grundstruktur des Dokumentselektionsalgorithmus  Ableitung eines Dokumentgewichts aus einem algebraischen Ausdruck der Differenz zweier Systeme bezüglich des gewählten Evaluierungsmaßes 1)  Ordnung der Dokumente nach Dokumentgewicht und Beurteilung des höchstgewichteten Dokuments  Aktualisierung der Dokumentgewichte unter Berücksichtigung der Beurteilungen der beurteilten Dokumente  Wiederholung bis zum Erreichen der Abbruchbedingung 1) Berechnung mit verschiedenen Maßen möglich: precision, recall, DCG, avarage precision 25© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 Carterette, Kanoulas, Yilmaz (2010:77/1)

Minimal Test Collection (MTC) Methode Differenz der durchschnittlichen Präzision zweier Systeme 26© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 (Carterette, Allan, Sitamaran, 2006) Die Differenz der durchschnittlichen Präzision zweier Systeme ist Die durchschnittliche Präzision eines Systems ist

Evaluierungsmaß: Durchschnittliche Präzision Zusammenwirken von Relevanzbeurteilungen  Bei der Berechnung der durchschnittlichen Präzision wirken die Relevanzbeurteilungen zusammen  wenn das Dokument auf Rang 1 relevant ist, erhöht sich der Beitrag jedes folgenden relevanten Dokuments  wenn das Dokument auf Rang 1 nicht relevant ist, verringert sich der maximal mögliche Beitrag jedes folgenden relevanten Dokuments 27© Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013

Evaluierungsmaß: Durchschnittliche Präzision Zusammenwirken von Relevanzbeurteilungen  Sei SP (sum precision) = AP ∙ |R|  Wenn Dokument A relevant ist, ist sein Gesamtbeitrag zu SP : 1 + 1/2 + 1/3 -- abhängig von der Relevanz der nachfolgenden Dokumente, da für AP nur die Werte auf den Rängen relevanter Dokumente gezählt werden  Wenn Dokument A nicht relevant ist, kann SP nicht größer sein als |R| - 1 – 1/2 – 1/3  Beurteilungen als „nicht relevant“ sind also informativ für AP 28© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 Carterette, Kanoulas, Yilmaz (2010:93/1)

Einfluss einer positiven Dokumentbeurteilung auf die inkrementelle Berechnung von SP - Beispiel  Angenommen, alle Dokumente gelten als nicht relevant  wenn ein Dokument als relevant beurteilt wird, ergibt sich folgende Veränderung: 29© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 Beispiel nach (Carterette,Kanoulas,Yilmaz, 2010)

Einfluss einer negativen Dokumentbeurteilung auf die inkrementelle Berechnung von SP - Beispiel  Angenommen, alle Dokumente gelten als relevant  wenn ein Dokument als nicht relevant beurteilt wird, ergibt sich folgende Veränderung: 30© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 Beispiel nach (Carterette,Kanoulas,Yilmaz, 2010) Beurteilung von Dokument C hat den nächstgrößten Einfluss

Minimal Test Collection (MTC) Methode Dokument-Selektions-Algorithmus zum Nachweis von ΔSP 31© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 (Carterette, 2008:42)

Minimal Test Collection (MTC) Methode Dokument-Selektions-Algorithmus zum Nachweis von ΔSP: Dokumentgewichte 33© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 Basis- Effekt Zusammenwirken mit beurteilten Dokumenten zusätzliche Basis für nonrel-Gewichte 1) 1) zusätzliche Basis für rel-Gewichte: unbeurteilte Dokumente sind nicht-relevant: x k =0 zusätzliche Basis für nonrel-Gewichte: unbeurteilte Dokumente sind relevant: x k =1 (Carterette, 2008:42) (Carterette,Kanoulas,Yilmaz, 2010)

Minimal Test Collection (MTC) Dokumentgewichte Start Detail w A R, w B R, w C R 35© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Dokumentgewichte Start Detail w A N 36© Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013 (max {rank(A),rank(C)}in System s 1 ) = 3(max {rank(A),rank(C)}in System s 2 ) = 2 Annahme, alle nicht-betrachteten Dokumente seien relevant Bewertung von A als nicht-relevant führt zur gezeigten Verminderung der maximal erreichbaren SP

Minimal Test Collection (MTC) Selektionsalgorithmus Start 38© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Selektionsalgorithmus 1.Iteration 41© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 - C als relevant beurteilt: x 3 = 1 - neue Dokumentgewichte für die übrigen Dokumente:

Minimal Test Collection (MTC) Selektionsalgorithmus 1.Iteration 42© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 - C als relevant beurteilt: x 3 = 1 - neue Dokumentgewichte für die übrigen Dokumente: wNwN

Minimal Test Collection (MTC) Selektionsalgorithmus 1. Iteration 43© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Selektionsalgorithmus 2.Iteration 44© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 -C als relevant beurteilt: x 3 = 1 - A als nicht-relevant beurteilt: x 1 = 0 - neue Dokumentgewichte für die übrigen Dokumente:

Minimal Test Collection (MTC) Methode Abbruchkriterium für die Berechnung  Abbruch: wenn feststeht, ob AP 1 > AP 2 oder umgekehrt  ein Dokument, das die Hypothese Δ AP > 0 unterstützt  ist relevant und hat  ein „positives Gewicht“ (d.h. es hat einen höheren Rang in System 1)  ein Dokument, das die Hypothese Δ AP < 0 unterstützt hat ein „negatives Gewicht“ 46© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 (Carterette, Allan, Sitamaran, 2006)

Minimal Test Collection (MTC) Methode Abbruchkriterium für die Berechnung  wenn die Summe der Gewichte der relevanten Dokumente größer ist als das mögliche Maximum der Summe der Gewichte der „negativen“ Dokumente, können wir folgern: Δ AP > 0  Sei S die Menge der beurteilten relevanten Dokumente T die Menge der unbeurteilten Dokumente, dann ist ein hinreichendes Abbruchkriterium 47© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 LHS: Δ AP berechnet über beurteilte relevante Dokumente RHS: obere Grenze des Betrages, um den Δ AP vermindert würde, wenn unbeurteilte Dokumente als relevant beurteilt würden (Carterette, Allan, Sitamaran, 2006)

Minimal Test Collection (MTC) Methode Abbruchkriterium für die Berechnung 48© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 Carterette,Kanoulas,Yilmaz, 2010: S. 98a)

Minimal Test Collection (MTC) Methode Abbruchkriterium für die Berechnung 49© Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013 Carterette,Kanoulas,Yilmaz, 2010: S. 98b)

Minimal Test Collection (MTC) Methode Abbruchkriterium für die Berechnung 50© Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013 Carterette,Kanoulas,Yilmaz, 2010: S. 99a Dokument- Selektions- Algorithmus zum Nachweis von ΔSP

Minimal Test Collection (MTC) Methode Ein optimaler Algorithmus  Wir wollen jeweils das Dokument finden, das auf einer der beiden Seiten (LHS bzw. RHS) den größten Einfluss hat:  jedes Dokument erhält ein  das nächste zu beurteilende Dokument, ist das Dokument, das max {p i w i R,(1 - p i )w i N }, p i = P(x i = 1) maximiert 51© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 (Carterette, Allan, Sitamaran, 2006)

Minimal Test Collection (MTC) Methode Ein optimaler Algorithmus  Stand bevor ein Dokument beurteilt wurde  LHS = 0  RHS Summe aller negativen Koeffizienten  Optimierungsziel  Erhöhung der LHS durch Auffinden relevanter Dokumente  Erniedrigung der RHS durch Auffinden nicht-relevanter Dokumente 52© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Methode Konfidenz  Betrachtung der Differenz der durchschnittlichen Präzision Δ AP zwischen zwei Systemen s 1 und s 2  AP ist über alle möglichen Relevanzzuordnungen zu allen unbeurteilten Dokumente normalverteilt  Ebenso ist Δ AP normalverteilt  Normalverteilung ermöglicht Angabe einer Konfidenz für das beim jeweiligen Fortschritt der Beurteilung erreichte Ergebnis 54© Karin Haenelt, Evaluierung von IR-Systemen: MTC 14.12.2014 (Carterette, Allan, Sitamaran, 2006)

Minimal Test Collection (MTC) Methode Durchschnittspräzision ist über alle möglichen Relevanzzuordnungen zu allen unbeurteilten Dokumente normalverteilt Testbeispiel:  2 Ranglisten mit je 100 Dokumenten erzeugt  p i = P(x i = 1) auf.5 gesetzt  zufällig 5000 Mengen von Relevanzbeurteilungen erzeugt  Δ AP für jede Menge von Relevanz- beurteilungen für die beiden Ranglisten berechnet 55© Karin Haenelt, Evaluierung von IR-Systemen: MTC 14.12.2014 (Carterette, Allan, Sitamaran, 2006)

Minimal Test Collection (MTC) Methode Konfidenz  75% Konfidenz, dass System A besser ist als System B bedeutet: die Wahrscheinlichkeit, dass die Bewertung der relativen Qualität der verglichenen Systeme sich ändert, wenn weitere Dokumente in die Beurteilung einbezogen werden, beträgt maximal 25%.  Berechnung der Konfidenz beruht auf einer Annahme der Wahrscheinlichkeit der Relevanz unbeurteilter Dokumente: jedes unbeurteilte Dokument ist mit gleicher Wahrscheinlichkeit relevant oder nicht relevant 56© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 (Carterette, 2007)

Minimal Test Collection (MTC) Methode Kumulative Dichtefunktion zum Auffinden von  Gegeben eine Menge von Relevanzbeurteilungen  Verwendung der normalen kumulativen Dichtefunktion zum Auffinden von  Bei ergeben mindestens 95% der möglichen Relevanzzuordnungen  95 % Konfidenz für die Folgerung (Signifikanzniveau α = 0.05)  Neue Abbruchbedingung  Annahme: p i = 0.5 für unbeurteilte Dokumente 57© Karin Haenelt, Evaluierung von IR-Systemen: MTC 14.12.2014 (Carterette, Allan, Sitamaran, 2006)

Minimal Test Collection (MTC) Methode Testsysteme 59© Karin Haenelt, Evaluierung von IR-Systemen: MTC 14.12.2014 (Carterette, Allan, Sitamaran, 2006) http://www.lemurproject.org/indri http://www.lemurproject.org http://lucene.apache.org http://www.cs.mu.oz.au/mg ftp://ftp.cs.cornell.edu/pub/smart http://www.seg.rmit.edu.au/zettair

Minimal Test Collection (MTC) Methode Ergebnisse 60© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 (Carterette, Allan, Sitamaran, 2006)

Minimal Test Collection (MTC) Methode Ergebnisse 61© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 (Carterette, Allan, Sitamaran, 2006)

Minimal Test Collection (MTC) Methode Ergebnisse TREC 2007  Vergleich der Ergebnisse  TREC-Standardmethode über Terabyte-Corpus  MTC über MillionQueries-Corpus  statMap über MillionQueries-Corpus  Übereinstimmung in der relativen Ordnung der Systeme  statMap vermutlich bessere Schätzung der mean average precision (MAP)  MTC vermutlich ein korrektes Ranking der Systeme  MTC bessere Konfidenz 62© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011 (Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007)

Literatur  James Allan, Ben Carterette, Javed A. Aslam, Virgil Pavlu, Blagovest Dachev, Evangelos Kanoulas (2007). Million Query Track 2007 Overview. Proceedings of TREC 2007. http://maroo.cs.umass.edu/pub/web/getpdf.php?id=800 http://maroo.cs.umass.edu/pub/web/getpdf.php?id=800  Ben Carterette (2008). Low-Cost and Robust Evaluation of Information Retrieval Systems. PhD thesis, University of Massachusetts Amherst  Ben Carterette (2007). Robust Test Collections for Retrieval Evaluation. IN: Proceedings of SIGIR’07, July 23–27, 2007  Ben Carterette, Evangelos Kanoulas, Emine Yilmaz (2010). Low-Cost Evaluation in information Retrieval. Tutorial of the 33 rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. http://ir.cis.udel.edu/SIGIR10tutorial/slides.pdf http://ir.cis.udel.edu/SIGIR10tutorial/slides.pdf  Ben Carterette, James Allan, and Ramesh K. Sitaraman. Minimal test collections for retrieval evaluation. In: Proceedings of SIGIR’06, pages 268-275, 2006. http://ir.cis.udel.edu/~carteret/papers/sigir06.pdf http://ir.cis.udel.edu/~carteret/papers/sigir06.pdf  Eliah Ninyo, Keren Kenzi (o.J.). Minimal Test Collections for Retrieval Evaluation. B. Carterette et al. http://cs.haifa.ac.il/courses/infor/students/Minimal Test Collections for Retrieval Evaluation-Eli+Keren.ppthttp://cs.haifa.ac.il/courses/infor/students/Minimal Test Collections for Retrieval Evaluation-Eli+Keren.ppt 63© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 14.12.2014 / 15.12.2013 / 5.12.2011.

Ähnliche Präsentationen

Präsentation zum Thema: "Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 14.12.2014 / 15.12.2013 / 5.12.2011."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 14.12.2014 / 15.12.2013 / 5.12.2011.

Ähnliche Präsentationen

Präsentation zum Thema: "Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 14.12.2014 / 15.12.2013 / 5.12.2011."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback