Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Slides:



Advertisements
Ähnliche Präsentationen
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Advertisements

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Telefonnummer.
Seminar Textmining WS 06/07
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2012.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Workshop zur Medienarbeit der katholischen Kirche Aspekte des Religionsmonitors Berlin, 02. April 2008.
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
= = = = 47 = 47 = 48 = =
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
© 2006 W. Oberschelp, G. Vossen Rechneraufbau & Rechnerstrukturen, Folie 2.1.
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
Information Retrieval Modelle: Vektor-Modell
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Bewegte Bezugssysteme
AC Analyse.
Differentielles Paar UIN rds gm UIN
Prof. Dr. Bernhard Wasmayr
Studienverlauf im Ausländerstudium
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
Prof. Dr. Günter Gerhardinger Soziale Arbeit mit Einzelnen und Familien Übersicht über die Lehrveranstaltung Grundlegende Bestimmungsfaktoren der Praxis.
20:00.
„Küsse deine Freunde“ – FlexKom-App teilen
Zusatzfolien zu B-Bäumen
Evaluierung von Information Retrieval Systemen Teil 2: TREC – Million Query Track Karin Haenelt
Eine Einführung in die CD-ROM
Dokumentation der Umfrage
für Weihnachten oder als Tischdekoration für das ganze Jahr
Where Europe does business Lück, JDZB | Seite © GfW NRW 252 a.
1 Ein kurzer Sprung in die tiefe Vergangenheit der Erde.
Wir üben die Malsätzchen
Syntaxanalyse Bottom-Up und LR(0)
Addieren und Subtrahieren von Dezimalzahlen
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt
Geometrische Aufgaben
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
Symmetrische Blockchiffren DES – der Data Encryption Standard
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Großer Altersunterschied bei Paaren fällt nicht auf!
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Bevölkerungsentwicklung und –struktur der Stadt Bozen
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
1 Arbeitsgemeinschaft Biologische Psychiatrie Verordnungsgewohnheiten von Psychopharmaka Statuserhebung 2005 W.Günther G.Laux T.Messer N.Müller M.Schmauss.
1 Mathematical Programming Nichtlineare Programmierung.
Technische Frage Technische Frage Bitte löse die folgende Gleichung:
Unternehmensbewertung Thomas Hering ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures Tabellenübersicht.
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
Klicken Sie hierfür die Taste F5 auf Ihrer Tastatur
Folie Einzelauswertung der Gemeindedaten
J-Team: Gymnasium Ulricianum Aurich und MTV Aurich Ein Projekt im Rahmen von UlricianumBewegt.de Euro haben wir schon…  8000 mal habt ihr bereits.
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
Technische Kommunikation
Einführung in die Volkswirtschaftslehre, Mikroökonomie und Wettbewerbspolitik Lothar Wildmann ISBN: © 2014 Oldenbourg Wissenschaftsverlag.
Sehen, Hören, Schmecken: wenn uns unsere Sinne täuschen
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
Evaluierung von Information Retrieval Systemen Teil 2: TREC – Million Query Track Karin Haenelt /
Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt / /
 Präsentation transkript:

Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011

Inhalt Einführung des MTC-Verfahrens Vorbetrachtungen Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Beurteilungsmethode Minimal Test Collection (MTC) Ben Carterette (2008). Low-Cost and Robust Evaluation of Information Retrieval Systems. PhD thesis, University of Massachusetts Amherst Ben Carterette, James Allan, and Ramesh K. Sitaraman. Minimal test collections for retrieval evaluation. In: Proceedings of SIGIR, pages 268-275, 2006. http://ir.cis.udel.edu/~carteret/papers/sigir06.pdf James Allan, Ben Carterette, Javed A. Aslam, Virgil Pavlu, Blagovest Dachev, Evangelos Kanoulas (2007). Million Query Track 2007 Overview. Proceedings of TREC 2007. http://maroo.cs.umass.edu/pub/web/getpdf.php?id=800 auch UMass-Verfahren genannt (University of Massachusetts Amherst) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection Verfahren (MTC) Grundgedanken Genaue Schätzung der Information Retrieval Evaluierungsmetriken erfordert eine riesige Menge von Relevanzbeurteilungen Eine neue Sicht auf die durchschnittliche Präzision (average precision – AP) zeigt, dass es möglich ist, eine Menge von Retrievalsystemen mit hoher Konfidenz mit einer minimalen Menge von Beurteilungen zu evaluieren Diese Sicht führt auch zu einem Algorithmus zum inkrementellen Aufbau von Testkollektionen (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Inhalt Einführung des MTC-Verfahrens Vorbetrachtungen Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Abkürzungen © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Beispiel für diese Folien 2 Systeme: System 1 (S1) und System 2 (S2) 3 Dokumente: A, B, C Ausgabelisten der beiden Systeme: © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Beispiel für diese Folien Übersicht zu den nachfolgenden Betrachtungsvarianten der Evaluierungsmaße prec@r Precision auf Rang r SP sum precision AP average precision © Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013

Inhalt Einführung des MTC-Verfahrens Vorbetrachtungen Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Anforderungen an Information Retrieval-Evaluierungsmaße Ein gutes Evaluierungsmaß sollte folgende Systemeigenschaften hoch bewerten Das System setzt relevante Systeme auf die oberen Ränge (precision) Das System findet viele relevante Dokumente (recall) Die durchschnittliche Präzision (AP) erfasst sowohl precision als auch recall eines Systems © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Evaluierungsmaß: Präzision auf Rang r Ausgabeliste nach einem Beispiel von (Carterette,Kanoulas,Yilmaz, 2010) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Evaluierungsmaß: Durchschnittliche Präzision (average precision – AP) Ausgabeliste nach einem Beispiel von (Carterette,Kanoulas,Yilmaz, 2010) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Inhalt Einführung des MTC-Verfahrens Vorbetrachtungen Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Evaluierungsmaße: Präzision und durchschnittliche Präzision Darstellung als Zufallsexperimente Darstellung als Gleichungen über Bernoulli Experimente Xi für die Relevanz von Dokument i xi Boolescher Indikator der Relevanz von Dokument i © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Evaluierungsmaß: Präzision Darstellung als Zufallsexperiment Auswahl eines Ranges aus der Menge {1, …, t}, 1 ≤ r ≤ t Ausgabe der binären Dokumentrelevanz auf diesem Rang Formel und Beispiel Ausgabeliste nach einem Beispiel von (Carterette,Kanoulas,Yilmaz, 2010) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Evaluierungsmaß: Durchschnittliche Präzision Darstellung als Zufallsexperiment binäre Dokumentrelevanz auf Rang r precision auf dem Rang der relevanten Dokumente multipliziert mit © Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013

Darstellungen der Evaluierungsmaße Standard Zufallsexperiment © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Beispiel zu © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Beispiel zu Precision auf Rang 1 Precision auf Rang 2 © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Evaluierungsmaß: Durchschnittliche Präzision Formel für beliebige Dokumentreihenfolge für eine Betrachtung der Dokumente in beliebiger Reihenfolge ist zu ersetzen durch den Koeffizienten aij: (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Beispiel Variante 1 © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Beispiel Variante 2 © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Inhalt Einführung des MTC-Verfahrens Vorbetrachtungen Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection Verfahren (MTC) Ziele und Methode vergleichende Evaluierung zweier oder mehrerer Systeme Durchführung eines Minimums an Relevanzbewertungen Methode neue Sicht auf durchschnittliche Präzision (AP) ermöglicht Algorithmus zur Auswahl des nächsten zu bewertenden Dokuments: Dokument mit dem nächst größten Einfluss auf AP Abbruchkriterium für die Evaluierung Schätzung des Grades der Konfidenz auf der Basis einer Verteilung möglicher Dokumentbeurteilungen (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection Verfahren (MTC) Grundstruktur des Dokumentselektionsalgorithmus Ableitung eines Dokumentgewichts aus einem algebraischen Ausdruck der Differenz zweier Systeme bezüglich des gewählten Evaluierungsmaßes1) Ordnung der Dokumente nach Dokumentgewicht und Beurteilung des höchstgewichteten Dokuments Aktualisierung der Dokumentgewichte unter Berücksichtigung der Beurteilungen der beurteilten Dokumente Wiederholung bis zum Erreichen der Abbruchbedingung 1) Berechnung mit verschiedenen Maßen möglich: precision, recall, DCG, avarage precision Carterette, Kanoulas, Yilmaz (2010:77/1) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Methode Differenz der durchschnittlichen Präzision zweier Systeme Die durchschnittliche Präzision eines Systems ist Die Differenz der durchschnittlichen Präzision zweier Systeme ist (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Evaluierungsmaß: Durchschnittliche Präzision Zusammenwirken von Relevanzbeurteilungen Bei der Berechnung der durchschnittlichen Präzision wirken die Relevanzbeurteilungen zusammen wenn das Dokument auf Rang 1 relevant ist, erhöht sich der Beitrag jedes folgenden relevanten Dokuments wenn das Dokument auf Rang 1 nicht relevant ist, verringert sich der maximal mögliche Beitrag jedes folgenden relevanten Dokuments © Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013

Evaluierungsmaß: Durchschnittliche Präzision Zusammenwirken von Relevanzbeurteilungen Sei SP (sum precision) = AP ∙ |R| Wenn Dokument A relevant ist, ist sein Gesamtbeitrag zu SP : 1 + 1/2 + 1/3 -- abhängig von der Relevanz der nachfolgenden Dokumente, da für AP nur die Werte auf den Rängen relevanter Dokumente gezählt werden Wenn Dokument A nicht relevant ist, kann SP nicht größer sein als |R| - 1 – 1/2 – 1/3 Beurteilungen als „nicht relevant“ sind also informativ für AP Carterette, Kanoulas, Yilmaz (2010:93/1) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Einfluss einer positiven Dokumentbeurteilung auf die inkrementelle Berechnung von 𝚫SP - Beispiel Angenommen, alle Dokumente gelten als nicht relevant wenn ein Dokument als relevant beurteilt wird, ergibt sich folgende Veränderung: Beispiel nach (Carterette,Kanoulas,Yilmaz, 2010) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Einfluss einer negativen Dokumentbeurteilung auf die inkrementelle Berechnung von 𝚫SP - Beispiel Angenommen, alle Dokumente gelten als relevant wenn ein Dokument als nicht relevant beurteilt wird, ergibt sich folgende Veränderung: Beurteilung von Dokument C hat den nächstgrößten Einfluss Beispiel nach (Carterette,Kanoulas,Yilmaz, 2010) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Methode Dokument-Selektions-Algorithmus zum Nachweis von ΔSP (Carterette, 2008:42) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Inhalt Einführung des MTC-Verfahrens Vorbetrachtungen Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Methode Dokument-Selektions-Algorithmus zum Nachweis von ΔSP: Dokumentgewichte Basis- Effekt zusätzliche Basis für nonrel-Gewichte 1) Zusammenwirken mit beurteilten Dokumenten 1) zusätzliche Basis für rel-Gewichte: unbeurteilte Dokumente sind nicht-relevant: xk=0 zusätzliche Basis für nonrel-Gewichte: unbeurteilte Dokumente sind relevant: xk=1 (Carterette, 2008:42) (Carterette,Kanoulas,Yilmaz, 2010) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Inhalt Einführung des MTC-Verfahrens Vorbetrachtungen Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Dokumentgewichte Start Detail wAR, wBR, wCR © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Dokumentgewichte Start Detail wAN (max {rank(A),rank(C)}in System s1) = 3 (max {rank(A),rank(C)}in System s2) = 2 Annahme, alle nicht-betrachteten Dokumente seien relevant Bewertung von A als nicht-relevant führt zur gezeigten Verminderung der maximal erreichbaren SP © Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013

Inhalt Einführung des MTC-Verfahrens Vorbetrachtungen Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Selektionsalgorithmus Start © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Selektionsalgorithmus Start © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Selektionsalgorithmus Start © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Selektionsalgorithmus 1.Iteration - C als relevant beurteilt: x3 = 1 - neue Dokumentgewichte für die übrigen Dokumente: © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Selektionsalgorithmus 1.Iteration wN Minimal Test Collection (MTC) Selektionsalgorithmus 1.Iteration - C als relevant beurteilt: x3 = 1 - neue Dokumentgewichte für die übrigen Dokumente: © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Selektionsalgorithmus 1. Iteration © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Selektionsalgorithmus 2.Iteration C als relevant beurteilt: x3 = 1 A als nicht-relevant beurteilt: x1 = 0 - neue Dokumentgewichte für die übrigen Dokumente: © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Inhalt Einführung des MTC-Verfahrens Vorbetrachtungen Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Methode Abbruchkriterium für die Berechnung Abbruch: wenn feststeht, ob AP1 > AP2 oder umgekehrt ein Dokument, das die Hypothese Δ AP > 0 unterstützt ist relevant und hat ein „positives Gewicht“ (d.h. es hat einen höheren Rang in System 1) ein Dokument, das die Hypothese Δ AP < 0 unterstützt hat ein „negatives Gewicht“ (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Methode Abbruchkriterium für die Berechnung wenn die Summe der Gewichte der relevanten Dokumente größer ist als das mögliche Maximum der Summe der Gewichte der „negativen“ Dokumente, können wir folgern: Δ AP > 0 Sei S die Menge der beurteilten relevanten Dokumente T die Menge der unbeurteilten Dokumente, dann ist ein hinreichendes Abbruchkriterium LHS: Δ AP berechnet über beurteilte relevante Dokumente RHS: obere Grenze des Betrages, um den Δ AP vermindert würde, wenn unbeurteilte Dokumente als relevant beurteilt würden (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Methode Abbruchkriterium für die Berechnung Carterette,Kanoulas,Yilmaz, 2010: S. 98a) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Methode Abbruchkriterium für die Berechnung Carterette,Kanoulas,Yilmaz, 2010: S. 98b) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013

Minimal Test Collection (MTC) Methode Abbruchkriterium für die Berechnung Dokument-Selektions-Algorithmus zum Nachweis von ΔSP Carterette,Kanoulas,Yilmaz, 2010: S. 99a © Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013

Minimal Test Collection (MTC) Methode Ein optimaler Algorithmus Wir wollen jeweils das Dokument finden, das auf einer der beiden Seiten (LHS bzw. RHS) den größten Einfluss hat: jedes Dokument erhält ein das nächste zu beurteilende Dokument, ist das Dokument, das max {piwiR,(1 - pi)wiN} , pi = P(xi = 1) maximiert (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Methode Ein optimaler Algorithmus Stand bevor ein Dokument beurteilt wurde LHS = 0 RHS Summe aller negativen Koeffizienten Optimierungsziel Erhöhung der LHS durch Auffinden relevanter Dokumente Erniedrigung der RHS durch Auffinden nicht-relevanter Dokumente © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Inhalt Einführung des MTC-Verfahrens Vorbetrachtungen Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Methode Konfidenz Betrachtung der Differenz der durchschnittlichen Präzision Δ AP zwischen zwei Systemen s1 und s2 Δ AP hat eine Verteilung über alle möglichen Relevanzbeurteilungen der unbeurteilten Dokumente: Δ AP konvergiert mit zunehmender Anzahl beurteilter Dokumente zu einer Normalverteilung Normalverteilung ermöglicht Angabe einer Konfidenz für das beim jeweiligen Fortschritt der Beurteilung erreichte Ergebnis (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Methode Konfidenz 75% Konfidenz, dass System A besser ist als System B bedeutet: die Wahrscheinlichkeit, dass die Bewertung der relativen Qualität der verglichenen Systeme sich ändert, wenn weitere Dokumente in die Beurteilung einbezogen werden, beträgt maximal 25%. Berechnung der Konfidenz beruht auf einer Annahme der Wahrscheinlichkeit der Relevanz unbeurteilter Dokumente: jedes unbeurteilte Dokument ist mit gleicher Wahrscheinlichkeit relevant oder nicht relevant (Carterette, 2007) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Methode Durchschnittspräzision ist normalverteilt Testbeispiel: 2 Ranglisten mit je 100 Dokumenten pi = P(xi = 1) auf .5 gesetzt zufällig 5000 Mengen von Relevanzbeurteilungen erzeugt Δ AP für jede Menge von Relevanz- beurteilungen für die beiden Ranglisten berechnet d.h. bei unvollständigen Testkollektionen ist AP normalverteilt über alle möglichen Relevanzzuordnungen zu unbeurteilten Dokumenten (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Methode Durchschnittspräzision ist normalverteilt Testbeispiel: d.h. bei unvollständigen Testkollektionen ist AP normalverteilt über alle möglichen Relevanzzuordnungen zu unbeurteilten Dokumenten die meisten queries liegen in der Mitte (geringe Differenz zwischen zwei Systemen) (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Methode Kumulative Dichtefunktion zum Auffinden von Gegeben eine Menge von Relevanzbeurteilungen Verwendung der normalen kumulativen Dichtefunktion zum Auffinden von Wenn , würden mindestens 95% der möglichen Relevanzzuordnungen folgern 95 % Konfidenz für die Folgerung Neue Abbruchbedingung Annahme: pi = 0.5 für unbeurteilte Dokumente (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Inhalt Einführung des MTC-Verfahrens Vorbetrachtungen Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Methode Ergebnisse (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Methode Ergebnisse (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Minimal Test Collection (MTC) Methode Ergebnisse TREC 2007 Vergleich der Ergebnisse TREC-Standardmethode über Terabyte-Corpus MTC über MillionQueries-Corpus statMap über MillionQueries-Corpus Übereinstimmung in der relativen Ordnung der Systeme statMap vermutlich bessere Schätzung der mean average precision (MAP) MTC vermutlich ein korrektes Ranking der Systeme MTC bessere Konfidenz (Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007) © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Literatur James Allan, Ben Carterette, Javed A. Aslam, Virgil Pavlu, Blagovest Dachev, Evangelos Kanoulas (2007). Million Query Track 2007 Overview. Proceedings of TREC 2007. http://maroo.cs.umass.edu/pub/web/getpdf.php?id=800 Ben Carterette (2008). Low-Cost and Robust Evaluation of Information Retrieval Systems. PhD thesis, University of Massachusetts Amherst Ben Carterette (2007). Robust Test Collections for Retrieval Evaluation. IN: Proceedings of SIGIR’07, July 23–27, 2007 Ben Carterette, Evangelos Kanoulas, Emine Yilmaz (2010). Low-Cost Evaluation in information Retrieval. Tutorial of the 33rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. http://ir.cis.udel.edu/SIGIR10tutorial/slides.pdf Ben Carterette, James Allan, and Ramesh K. Sitaraman. Minimal test collections for retrieval evaluation. In: Proceedings of SIGIR’06, pages 268-275, 2006. http://ir.cis.udel.edu/~carteret/papers/sigir06.pdf Eliah Ninyo, Keren Kenzi (o.J.). Minimal Test Collections for Retrieval Evaluation. B. Carterette et al. http://cs.haifa.ac.il/courses/infor/students/Minimal Test Collections for Retrieval Evaluation-Eli+Keren.ppt © Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011