Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 14.12.2014 / 15.12.2013 / 5.12.2011.

Slides:

Advertisements

Ähnliche Präsentationen

Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,

Advertisements

Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.

TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking

Seminar Textmining WS 06/07

5. Sortier-Algorithmen Vorbemerkungen:

Ein Modellansatz zur Beschreibung von Vagheiten

Theorie psychometrischer Tests, III

Sortierverfahren Richard Göbel.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.

Information Retrieval Modelle: Vektor-Modell

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Evaluierung von Information Retrieval Systemen Kursfolien Karin Haenelt.

Beispiele für Gleichungssysteme

2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell

Algorithmen des Internets 2005 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität 1 Materialien zu Übung 9 Bälle in Körbe Ranged.

Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.

Relevanz Ranking Bisher:

PowerPoint-Folien zur 5. Vorlesung „Evolutionsstrategie I“

Einführung in die Metaanalyse

Eigenschaften der OLS-Schätzer

Probleme der Modellspezifikation

Histogramm/empirische Verteilung Verteilungen

Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/

Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt /

Effiziente Algorithmen

Effiziente Algorithmen

Einführung in die beurteilende Statistik

Evaluierung von Information Retrieval Systemen Teil 2: TREC – Million Query Track Karin Haenelt

Effiziente Algorithmen

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Effiziente Algorithmen

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Effiziente Algorithmen

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/

Information und Kommunikation

Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/

Information und Kommunikation Hartmut Klauck Universität Frankfurt SS

Hartmut Klauck Universität Frankfurt WS 06/

Polynome und schnelle Fourier-Transformation

Wahrscheinlichkeitsrechnung

Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt

Strategie der Modellbildung

Nichtlineare Optimierung

Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig

Wesentlichkeit im Rahmen

Evaluierung von Information Retrieval Systemen Teil 2: TREC – Million Query Track Karin Haenelt /

Kapitel 3: Erhaltungssätze

© 2005 KPMG Deutsche Treuhand-Gesellschaft AG, the German member firm of KPMG International, a Swiss cooperative. All rights reserved. KPMG and the KPMG.

Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)

Gliederung der Vorlesung

Testtheorie (Vorlesung 12: ) Wiederholung: Reliabilität

Geoinformationssysteme

Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

Begriffe Ableitungen Rechnen mit Excel

- Seite 1 TIME INTELLIGENCE ® by Zeichenrand – Löschen! Titel.

Lineare Optimierung Nakkiye Günay, Jennifer Kalywas & Corina Unger Jetzt erkläre ich euch die einzelnen Schritte und gebe Tipps!

- Seite 1 TIME INTELLIGENCE ® by Titel.

Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.

Präsentation transkript:

Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt / /

Inhalt  Einführung des MTC-Verfahrens  Vorbetrachtungen  Abkürzungen und Beispiel für diese Folien  Präzision und durchschnittliche Präzision  Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment  MTC-Verfahren, Spezifikation  Erläuterung des Dokument-Selektionsalgorithmus  Formeln für die Dokumentgewichte  Berechnung des (Nicht-)Relevanzeffekts eines Dokuments  Tracing des Selektionsalgorithmus für das Folienbeispiel  Abbruchkriterium für den Algorithmus  Konfidenz  Evaluierungsergebnisse 2© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Beurteilungsmethode Minimal Test Collection (MTC)  Ben Carterette (2008). Low-Cost and Robust Evaluation of Information Retrieval Systems. PhD thesis, University of Massachusetts Amherst  Ben Carterette, James Allan, and Ramesh K. Sitaraman. Minimal test collections for retrieval evaluation. In: Proceedings of SIGIR, pages ,  James Allan, Ben Carterette, Javed A. Aslam, Virgil Pavlu, Blagovest Dachev, Evangelos Kanoulas (2007). Million Query Track 2007 Overview. Proceedings of TREC  auch UMass-Verfahren genannt (University of Massachusetts Amherst) 3© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Minimal Test Collection Verfahren (MTC) Grundgedanken  Genaue Schätzung der Information Retrieval Evaluierungsmetriken erfordert eine riesige Menge von Relevanzbeurteilungen  Eine neue Sicht auf die durchschnittliche Präzision (average precision – AP) zeigt, dass es möglich ist, eine Menge von Retrievalsystemen mit hoher Konfidenz mit einer minimalen Menge von Beurteilungen zu evaluieren  Diese Sicht führt auch zu einem Algorithmus zum inkrementellen Aufbau von Testkollektionen 4© Karin Haenelt, Evaluierung von IR-Systemen: MTC (Carterette, Allan, Sitamaran, 2006)

Inhalt  Einführung des MTC-Verfahrens  Vorbetrachtungen  Abkürzungen und Beispiel für diese Folien  Präzision und durchschnittliche Präzision  Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment  MTC-Verfahren, Spezifikation  Erläuterung des Dokument-Selektionsalgorithmus  Formeln für die Dokumentgewichte  Berechnung des (Nicht-)Relevanzeffekts eines Dokuments  Tracing des Selektionsalgorithmus für das Folienbeispiel  Abbruchkriterium für den Algorithmus  Konfidenz  Evaluierungsergebnisse 5© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Abkürzungen 6© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Beispiel für diese Folien  2 Systeme: System 1 (S 1 ) und System 2 (S 2 )  3 Dokumente: A, B, C  Ausgabelisten der beiden Systeme: 7© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Beispiel für diese Folien Übersicht zu den nachfolgenden Betrachtungsvarianten der Evaluierungsmaße 8© Karin Haenelt, Evaluierung von IR-Systemen: MTC auf Rang r SPsum precision APaverage precision

Inhalt  Einführung des MTC-Verfahrens  Vorbetrachtungen  Abkürzungen und Beispiel für diese Folien  Präzision und durchschnittliche Präzision  Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment  MTC-Verfahren, Spezifikation  Erläuterung des Dokument-Selektionsalgorithmus  Formeln für die Dokumentgewichte  Berechnung des (Nicht-)Relevanzeffekts eines Dokuments  Tracing des Selektionsalgorithmus für das Folienbeispiel  Abbruchkriterium für den Algorithmus  Konfidenz  Evaluierungsergebnisse 9© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Anforderungen an Information Retrieval- Evaluierungsmaße  Ein gutes Evaluierungsmaß sollte folgende Systemeigenschaften hoch bewerten  Das System setzt relevante Systeme auf die oberen Ränge (precision)  Das System findet viele relevante Dokumente (recall)  Die durchschnittliche Präzision (AP) erfasst sowohl precision als auch recall eines Systems 10© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Evaluierungsmaß: Präzision auf Rang r 11© Karin Haenelt, Evaluierung von IR-Systemen: MTC Ausgabeliste nach einem Beispiel von (Carterette,Kanoulas,Yilmaz, 2010)

Evaluierungsmaß: Durchschnittliche Präzision (average precision – AP) 12© Karin Haenelt, Evaluierung von IR-Systemen: MTC Ausgabeliste nach einem Beispiel von (Carterette,Kanoulas,Yilmaz, 2010)

Inhalt  Einführung des MTC-Verfahrens  Vorbetrachtungen  Abkürzungen und Beispiel für diese Folien  Präzision und durchschnittliche Präzision  Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment  MTC-Verfahren, Spezifikation  Erläuterung des Dokument-Selektionsalgorithmus  Formeln für die Dokumentgewichte  Berechnung des (Nicht-)Relevanzeffekts eines Dokuments  Tracing des Selektionsalgorithmus für das Folienbeispiel  Abbruchkriterium für den Algorithmus  Konfidenz  Evaluierungsergebnisse 13© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Evaluierungsmaße: Präzision und durchschnittliche Präzision Darstellung als Zufallsexperimente  Darstellung als Gleichungen über Bernoulli Experimente X i für die Relevanz von Dokument i  x i Boolescher Indikator der Relevanz von Dokument i 14© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Evaluierungsmaß: Präzision Darstellung als Zufallsexperiment  Auswahl eines Ranges aus der Menge {1, …, t}, 1 ≤ r ≤ t  Ausgabe der binären Dokumentrelevanz auf diesem Rang  Formel und Beispiel 15© Karin Haenelt, Evaluierung von IR-Systemen: MTC Ausgabeliste nach einem Beispiel von (Carterette,Kanoulas,Yilmaz, 2010)

Evaluierungsmaß: Durchschnittliche Präzision Darstellung als Zufallsexperiment 16© Karin Haenelt, Evaluierung von IR-Systemen: MTC multipliziert mit binäre Dokumentrelevanz auf Rang r precision auf dem Rang der relevanten Dokumente

Darstellungen der Evaluierungsmaße 17© Karin Haenelt, Evaluierung von IR-Systemen: MTC Standard Zufallsexperiment

18© Karin Haenelt, Evaluierung von IR-Systemen: MTC Beispiel zu

19© Karin Haenelt, Evaluierung von IR-Systemen: MTC Precision auf Rang 1 Precision auf Rang 2Precision auf Rang 3

Evaluierungsmaß: Durchschnittliche Präzision Formel für beliebige Dokumentreihenfolge  für eine Betrachtung der Dokumente in beliebiger Reihenfolge ist zu ersetzen durch den Koeffizienten a ij : 20© Karin Haenelt, Evaluierung von IR-Systemen: MTC (Carterette, Allan, Sitamaran, 2006)

Beispiel Variante 1 21© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Beispiel Variante 2 22© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Inhalt  Einführung des MTC-Verfahrens  Vorbetrachtungen  Abkürzungen und Beispiel für diese Folien  Präzision und durchschnittliche Präzision  Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment  MTC-Verfahren, Spezifikation  Erläuterung des Dokument-Selektionsalgorithmus  Formeln für die Dokumentgewichte  Berechnung des (Nicht-)Relevanzeffekts eines Dokuments  Tracing des Selektionsalgorithmus für das Folienbeispiel  Abbruchkriterium für den Algorithmus  Konfidenz  Evaluierungsergebnisse 23© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Minimal Test Collection Verfahren (MTC) Ziele und Methode  Ziel  vergleichende Evaluierung zweier oder mehrerer Systeme  Durchführung eines Minimums an Relevanzbewertungen  Methode  neue Sicht auf durchschnittliche Präzision (AP) ermöglicht  Algorithmus zur Auswahl des nächsten zu bewertenden Dokuments: Dokument mit dem nächst größten Einfluss auf AP  Abbruchkriterium für die Evaluierung  Schätzung des Grades der Konfidenz auf der Basis einer Verteilung möglicher Dokumentbeurteilungen 24© Karin Haenelt, Evaluierung von IR-Systemen: MTC (Carterette, Allan, Sitamaran, 2006)

Minimal Test Collection Verfahren (MTC) Grundstruktur des Dokumentselektionsalgorithmus  Ableitung eines Dokumentgewichts aus einem algebraischen Ausdruck der Differenz zweier Systeme bezüglich des gewählten Evaluierungsmaßes 1)  Ordnung der Dokumente nach Dokumentgewicht und Beurteilung des höchstgewichteten Dokuments  Aktualisierung der Dokumentgewichte unter Berücksichtigung der Beurteilungen der beurteilten Dokumente  Wiederholung bis zum Erreichen der Abbruchbedingung 1) Berechnung mit verschiedenen Maßen möglich: precision, recall, DCG, avarage precision 25© Karin Haenelt, Evaluierung von IR-Systemen: MTC Carterette, Kanoulas, Yilmaz (2010:77/1)

Minimal Test Collection (MTC) Methode Differenz der durchschnittlichen Präzision zweier Systeme 26© Karin Haenelt, Evaluierung von IR-Systemen: MTC (Carterette, Allan, Sitamaran, 2006) Die Differenz der durchschnittlichen Präzision zweier Systeme ist Die durchschnittliche Präzision eines Systems ist

Evaluierungsmaß: Durchschnittliche Präzision Zusammenwirken von Relevanzbeurteilungen  Bei der Berechnung der durchschnittlichen Präzision wirken die Relevanzbeurteilungen zusammen  wenn das Dokument auf Rang 1 relevant ist, erhöht sich der Beitrag jedes folgenden relevanten Dokuments  wenn das Dokument auf Rang 1 nicht relevant ist, verringert sich der maximal mögliche Beitrag jedes folgenden relevanten Dokuments 27© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Evaluierungsmaß: Durchschnittliche Präzision Zusammenwirken von Relevanzbeurteilungen  Sei SP (sum precision) = AP ∙ |R|  Wenn Dokument A relevant ist, ist sein Gesamtbeitrag zu SP : 1 + 1/2 + 1/3 -- abhängig von der Relevanz der nachfolgenden Dokumente, da für AP nur die Werte auf den Rängen relevanter Dokumente gezählt werden  Wenn Dokument A nicht relevant ist, kann SP nicht größer sein als |R| - 1 – 1/2 – 1/3  Beurteilungen als „nicht relevant“ sind also informativ für AP 28© Karin Haenelt, Evaluierung von IR-Systemen: MTC Carterette, Kanoulas, Yilmaz (2010:93/1)

Einfluss einer positiven Dokumentbeurteilung auf die inkrementelle Berechnung von SP - Beispiel  Angenommen, alle Dokumente gelten als nicht relevant  wenn ein Dokument als relevant beurteilt wird, ergibt sich folgende Veränderung: 29© Karin Haenelt, Evaluierung von IR-Systemen: MTC Beispiel nach (Carterette,Kanoulas,Yilmaz, 2010)

Einfluss einer negativen Dokumentbeurteilung auf die inkrementelle Berechnung von SP - Beispiel  Angenommen, alle Dokumente gelten als relevant  wenn ein Dokument als nicht relevant beurteilt wird, ergibt sich folgende Veränderung: 30© Karin Haenelt, Evaluierung von IR-Systemen: MTC Beispiel nach (Carterette,Kanoulas,Yilmaz, 2010) Beurteilung von Dokument C hat den nächstgrößten Einfluss

Minimal Test Collection (MTC) Methode Dokument-Selektions-Algorithmus zum Nachweis von ΔSP 31© Karin Haenelt, Evaluierung von IR-Systemen: MTC (Carterette, 2008:42)

Inhalt  Einführung des MTC-Verfahrens  Vorbetrachtungen  Abkürzungen und Beispiel für diese Folien  Präzision und durchschnittliche Präzision  Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment  MTC-Verfahren, Spezifikation  Erläuterung des Dokument-Selektionsalgorithmus  Formeln für die Dokumentgewichte  Berechnung des (Nicht-)Relevanzeffekts eines Dokuments  Tracing des Selektionsalgorithmus für das Folienbeispiel  Abbruchkriterium für den Algorithmus  Konfidenz  Evaluierungsergebnisse 32© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Minimal Test Collection (MTC) Methode Dokument-Selektions-Algorithmus zum Nachweis von ΔSP: Dokumentgewichte 33© Karin Haenelt, Evaluierung von IR-Systemen: MTC Basis- Effekt Zusammenwirken mit beurteilten Dokumenten zusätzliche Basis für nonrel-Gewichte 1) 1) zusätzliche Basis für rel-Gewichte: unbeurteilte Dokumente sind nicht-relevant: x k =0 zusätzliche Basis für nonrel-Gewichte: unbeurteilte Dokumente sind relevant: x k =1 (Carterette, 2008:42) (Carterette,Kanoulas,Yilmaz, 2010)

Inhalt  Einführung des MTC-Verfahrens  Vorbetrachtungen  Abkürzungen und Beispiel für diese Folien  Präzision und durchschnittliche Präzision  Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment  MTC-Verfahren, Spezifikation  Erläuterung des Dokument-Selektionsalgorithmus  Formeln für die Dokumentgewichte  Berechnung des (Nicht-)Relevanzeffekts eines Dokuments  Tracing des Selektionsalgorithmus für das Folienbeispiel  Abbruchkriterium für den Algorithmus  Konfidenz  Evaluierungsergebnisse 34© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Minimal Test Collection (MTC) Dokumentgewichte Start Detail w A R, w B R, w C R 35© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Minimal Test Collection (MTC) Dokumentgewichte Start Detail w A N 36© Karin Haenelt, Evaluierung von IR-Systemen: MTC (max {rank(A),rank(C)}in System s 1 ) = 3(max {rank(A),rank(C)}in System s 2 ) = 2 Annahme, alle nicht-betrachteten Dokumente seien relevant Bewertung von A als nicht-relevant führt zur gezeigten Verminderung der maximal erreichbaren SP

Inhalt  Einführung des MTC-Verfahrens  Vorbetrachtungen  Abkürzungen und Beispiel für diese Folien  Präzision und durchschnittliche Präzision  Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment  MTC-Verfahren, Spezifikation  Erläuterung des Dokument-Selektionsalgorithmus  Formeln für die Dokumentgewichte  Berechnung des (Nicht-)Relevanzeffekts eines Dokuments  Tracing des Selektionsalgorithmus für das Folienbeispiel  Abbruchkriterium für den Algorithmus  Konfidenz  Evaluierungsergebnisse 37© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Minimal Test Collection (MTC) Selektionsalgorithmus Start 38© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Minimal Test Collection (MTC) Selektionsalgorithmus Start 39© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Minimal Test Collection (MTC) Selektionsalgorithmus Start 40© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Minimal Test Collection (MTC) Selektionsalgorithmus 1.Iteration 41© Karin Haenelt, Evaluierung von IR-Systemen: MTC C als relevant beurteilt: x 3 = 1 - neue Dokumentgewichte für die übrigen Dokumente:

Minimal Test Collection (MTC) Selektionsalgorithmus 1.Iteration 42© Karin Haenelt, Evaluierung von IR-Systemen: MTC C als relevant beurteilt: x 3 = 1 - neue Dokumentgewichte für die übrigen Dokumente: wNwN

Minimal Test Collection (MTC) Selektionsalgorithmus 1. Iteration 43© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Minimal Test Collection (MTC) Selektionsalgorithmus 2.Iteration 44© Karin Haenelt, Evaluierung von IR-Systemen: MTC C als relevant beurteilt: x 3 = 1 - A als nicht-relevant beurteilt: x 1 = 0 - neue Dokumentgewichte für die übrigen Dokumente:

Inhalt  Einführung des MTC-Verfahrens  Vorbetrachtungen  Abkürzungen und Beispiel für diese Folien  Präzision und durchschnittliche Präzision  Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment  MTC-Verfahren, Spezifikation  Erläuterung des Dokument-Selektionsalgorithmus  Formeln für die Dokumentgewichte  Berechnung des (Nicht-)Relevanzeffekts eines Dokuments  Tracing des Selektionsalgorithmus für das Folienbeispiel  Abbruchkriterium für den Algorithmus  Konfidenz  Evaluierungsergebnisse 45© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Minimal Test Collection (MTC) Methode Abbruchkriterium für die Berechnung  Abbruch: wenn feststeht, ob AP 1 > AP 2 oder umgekehrt  ein Dokument, das die Hypothese Δ AP > 0 unterstützt  ist relevant und hat  ein „positives Gewicht“ (d.h. es hat einen höheren Rang in System 1)  ein Dokument, das die Hypothese Δ AP < 0 unterstützt hat ein „negatives Gewicht“ 46© Karin Haenelt, Evaluierung von IR-Systemen: MTC (Carterette, Allan, Sitamaran, 2006)

Minimal Test Collection (MTC) Methode Abbruchkriterium für die Berechnung  wenn die Summe der Gewichte der relevanten Dokumente größer ist als das mögliche Maximum der Summe der Gewichte der „negativen“ Dokumente, können wir folgern: Δ AP > 0  Sei S die Menge der beurteilten relevanten Dokumente T die Menge der unbeurteilten Dokumente, dann ist ein hinreichendes Abbruchkriterium 47© Karin Haenelt, Evaluierung von IR-Systemen: MTC LHS: Δ AP berechnet über beurteilte relevante Dokumente RHS: obere Grenze des Betrages, um den Δ AP vermindert würde, wenn unbeurteilte Dokumente als relevant beurteilt würden (Carterette, Allan, Sitamaran, 2006)

Minimal Test Collection (MTC) Methode Abbruchkriterium für die Berechnung 48© Karin Haenelt, Evaluierung von IR-Systemen: MTC Carterette,Kanoulas,Yilmaz, 2010: S. 98a)

Minimal Test Collection (MTC) Methode Abbruchkriterium für die Berechnung 49© Karin Haenelt, Evaluierung von IR-Systemen: MTC Carterette,Kanoulas,Yilmaz, 2010: S. 98b)

Minimal Test Collection (MTC) Methode Abbruchkriterium für die Berechnung 50© Karin Haenelt, Evaluierung von IR-Systemen: MTC Carterette,Kanoulas,Yilmaz, 2010: S. 99a Dokument- Selektions- Algorithmus zum Nachweis von ΔSP

Minimal Test Collection (MTC) Methode Ein optimaler Algorithmus  Wir wollen jeweils das Dokument finden, das auf einer der beiden Seiten (LHS bzw. RHS) den größten Einfluss hat:  jedes Dokument erhält ein  das nächste zu beurteilende Dokument, ist das Dokument, das max {p i w i R,(1 - p i )w i N }, p i = P(x i = 1) maximiert 51© Karin Haenelt, Evaluierung von IR-Systemen: MTC (Carterette, Allan, Sitamaran, 2006)

Minimal Test Collection (MTC) Methode Ein optimaler Algorithmus  Stand bevor ein Dokument beurteilt wurde  LHS = 0  RHS Summe aller negativen Koeffizienten  Optimierungsziel  Erhöhung der LHS durch Auffinden relevanter Dokumente  Erniedrigung der RHS durch Auffinden nicht-relevanter Dokumente 52© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Inhalt  Einführung des MTC-Verfahrens  Vorbetrachtungen  Abkürzungen und Beispiel für diese Folien  Präzision und durchschnittliche Präzision  Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment  MTC-Verfahren, Spezifikation  Erläuterung des Dokument-Selektionsalgorithmus  Formeln für die Dokumentgewichte  Berechnung des (Nicht-)Relevanzeffekts eines Dokuments  Tracing des Selektionsalgorithmus für das Folienbeispiel  Abbruchkriterium für den Algorithmus  Konfidenz  Evaluierungsergebnisse 53© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Minimal Test Collection (MTC) Methode Konfidenz  Betrachtung der Differenz der durchschnittlichen Präzision Δ AP zwischen zwei Systemen s 1 und s 2  AP ist über alle möglichen Relevanzzuordnungen zu allen unbeurteilten Dokumente normalverteilt  Ebenso ist Δ AP normalverteilt  Normalverteilung ermöglicht Angabe einer Konfidenz für das beim jeweiligen Fortschritt der Beurteilung erreichte Ergebnis 54© Karin Haenelt, Evaluierung von IR-Systemen: MTC (Carterette, Allan, Sitamaran, 2006)

Minimal Test Collection (MTC) Methode Durchschnittspräzision ist über alle möglichen Relevanzzuordnungen zu allen unbeurteilten Dokumente normalverteilt Testbeispiel:  2 Ranglisten mit je 100 Dokumenten erzeugt  p i = P(x i = 1) auf.5 gesetzt  zufällig 5000 Mengen von Relevanzbeurteilungen erzeugt  Δ AP für jede Menge von Relevanz- beurteilungen für die beiden Ranglisten berechnet 55© Karin Haenelt, Evaluierung von IR-Systemen: MTC (Carterette, Allan, Sitamaran, 2006)

Minimal Test Collection (MTC) Methode Konfidenz  75% Konfidenz, dass System A besser ist als System B bedeutet: die Wahrscheinlichkeit, dass die Bewertung der relativen Qualität der verglichenen Systeme sich ändert, wenn weitere Dokumente in die Beurteilung einbezogen werden, beträgt maximal 25%.  Berechnung der Konfidenz beruht auf einer Annahme der Wahrscheinlichkeit der Relevanz unbeurteilter Dokumente: jedes unbeurteilte Dokument ist mit gleicher Wahrscheinlichkeit relevant oder nicht relevant 56© Karin Haenelt, Evaluierung von IR-Systemen: MTC (Carterette, 2007)

Minimal Test Collection (MTC) Methode Kumulative Dichtefunktion zum Auffinden von  Gegeben eine Menge von Relevanzbeurteilungen  Verwendung der normalen kumulativen Dichtefunktion zum Auffinden von  Bei ergeben mindestens 95% der möglichen Relevanzzuordnungen  95 % Konfidenz für die Folgerung (Signifikanzniveau α = 0.05)  Neue Abbruchbedingung  Annahme: p i = 0.5 für unbeurteilte Dokumente 57© Karin Haenelt, Evaluierung von IR-Systemen: MTC (Carterette, Allan, Sitamaran, 2006)

Inhalt  Einführung des MTC-Verfahrens  Vorbetrachtungen  Abkürzungen und Beispiel für diese Folien  Präzision und durchschnittliche Präzision  Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment  MTC-Verfahren, Spezifikation  Erläuterung des Dokument-Selektionsalgorithmus  Formeln für die Dokumentgewichte  Berechnung des (Nicht-)Relevanzeffekts eines Dokuments  Tracing des Selektionsalgorithmus für das Folienbeispiel  Abbruchkriterium für den Algorithmus  Konfidenz  Evaluierungsergebnisse 58© Karin Haenelt, Evaluierung von IR-Systemen: MTC

Minimal Test Collection (MTC) Methode Testsysteme 59© Karin Haenelt, Evaluierung von IR-Systemen: MTC (Carterette, Allan, Sitamaran, 2006) ftp://ftp.cs.cornell.edu/pub/smart

Minimal Test Collection (MTC) Methode Ergebnisse 60© Karin Haenelt, Evaluierung von IR-Systemen: MTC (Carterette, Allan, Sitamaran, 2006)

Minimal Test Collection (MTC) Methode Ergebnisse 61© Karin Haenelt, Evaluierung von IR-Systemen: MTC (Carterette, Allan, Sitamaran, 2006)

Minimal Test Collection (MTC) Methode Ergebnisse TREC 2007  Vergleich der Ergebnisse  TREC-Standardmethode über Terabyte-Corpus  MTC über MillionQueries-Corpus  statMap über MillionQueries-Corpus  Übereinstimmung in der relativen Ordnung der Systeme  statMap vermutlich bessere Schätzung der mean average precision (MAP)  MTC vermutlich ein korrektes Ranking der Systeme  MTC bessere Konfidenz 62© Karin Haenelt, Evaluierung von IR-Systemen: MTC (Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007)

Literatur  James Allan, Ben Carterette, Javed A. Aslam, Virgil Pavlu, Blagovest Dachev, Evangelos Kanoulas (2007). Million Query Track 2007 Overview. Proceedings of TREC  Ben Carterette (2008). Low-Cost and Robust Evaluation of Information Retrieval Systems. PhD thesis, University of Massachusetts Amherst  Ben Carterette (2007). Robust Test Collections for Retrieval Evaluation. IN: Proceedings of SIGIR’07, July 23–27, 2007  Ben Carterette, Evangelos Kanoulas, Emine Yilmaz (2010). Low-Cost Evaluation in information Retrieval. Tutorial of the 33 rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.  Ben Carterette, James Allan, and Ramesh K. Sitaraman. Minimal test collections for retrieval evaluation. In: Proceedings of SIGIR’06, pages ,  Eliah Ninyo, Keren Kenzi (o.J.). Minimal Test Collections for Retrieval Evaluation. B. Carterette et al. Test Collections for Retrieval Evaluation-Eli+Keren.ppthttp://cs.haifa.ac.il/courses/infor/students/Minimal Test Collections for Retrieval Evaluation-Eli+Keren.ppt 63© Karin Haenelt, Evaluierung von IR-Systemen: MTC