Evaluierung von Information Retrieval Systemen Teil 2: TREC – Million Query Track Karin Haenelt 4.12.2011.

Slides:

Advertisements

Ähnliche Präsentationen

Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211

Was ist Testtheorie?.

Seminar Textmining WS 06/07

5. Sortier-Algorithmen Vorbemerkungen:

Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.

Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.

Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.

Sortierverfahren Richard Göbel.

FH-Hof Effizienz - Grundlagen Richard Göbel. FH-Hof Inhalt Einführung Aufwand für Anfragen ohne Indexierung Indexstrukturen für Anfragen an eine Tabelle.

Algorithmentheorie 04 –Hashing

WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.

Prof. Dr. S. Albers Prof. Dr. Th. Ottmann

© 2006 W. Oberschelp, G. Vossen Rechneraufbau & Rechnerstrukturen, Folie 2.1.

Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.

Information Retrieval Modelle: Vektor-Modell

© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Evaluierung von Information Retrieval Systemen Kursfolien Karin Haenelt.

Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.

PKJ 2005/1 Stefan Dissmann Zusammenfassung Bisher im Kurs erarbeitete Konzepte(1): Umgang mit einfachen Datentypen Umgang mit Feldern Umgang mit Referenzen.

AC Analyse. 2Ausgewählte Themen des analogen Schaltungsentwurfs Sprungantwort.

Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.

Relevanz Ranking Bisher:

Datenmanagement in Sensornetzen PRESTO - Feedback gesteuertes Datenmanagement - SS 2007 Sören Wenzlaff.

Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.

Kennlinie Lichtregelung in JavaNNS Version 1.1

Heute: Scherenzange zeichnen

Einführung in die Metaanalyse

Extended multistep outflow method for the accurate determination of soil hydraulic properties close to water saturation W. Durner und S.C. Iden, SS2012.

1. 2 Schreibprojekt Zeitung 3 Überblick 1. Vorstellung ComputerLernWerkstatt 2. Schreibprojekt: Zeitung 2.1 Konzeption des Kurses 2.2 Projektverlauf.

Vielstoffthermodynamik

Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.

Daten auswerten Boxplots

Neue variable Lernkontrollen mit Diagnose und Förderplanung

Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt /

SK / , , in Hochkössen und der Wildschönau flow Ski- und Snowboardschule Intersport Menzel.

1 Fachtagung am Seniorenorientiertes Design und Marketing ThyssenKrupp Immobilien Design for all - Anpassungen im Wohnungsbestand 1.Demographie.

LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)

Abschlussvortrag zur Studienarbeit

HORIZONT 1 XINFO ® Das IT - Informationssystem HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 /

Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.

Archival and Discovery

Absatzwirtschaft Vertriebsumfrage Düsseldorf, den

Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt

Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II

PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES KULTURELLER ZUSAMMENHALT UND AUSDEHNUNG DER IDEEN AUF EUROPÄISCHEM.

Das IT - Informationssystem

1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.

Analyseprodukte numerischer Modelle

Analyseprodukte numerischer Modelle Tidekennwertanalysen des Schwebstofftransportes.

Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.

Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.

Vortrag von Rechtsanwältin Verena Nedden, Fachanwältin für Steuerrecht zur Veranstaltung Wege zum bedingungslosen Grundeinkommen der Piratenpartei Rhein-Hessen.

Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.

Information Retrieval, Vektorraummodell

Toleranzanalyse und Simulation Beispiel 1, Montage von Einzelteilen

Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45

Statistik – Regression - Korrelation

Analyse der Laufzeit von Algorithmen

Das IT - Informationssystem

1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.

Monatsbericht Ausgleichsenergiemarkt Gas – Oktober

Monatsbericht Ausgleichsenergiemarkt Gas – November

Evaluierung von Information Retrieval Systemen Teil 2: TREC – Million Query Track Karin Haenelt /

Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt / /

Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)

Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

Präsentation transkript:

Evaluierung von Information Retrieval Systemen Teil 2: TREC – Million Query Track Karin Haenelt

Inhalt: TREC Million Query Track Ziele und Aufgaben Auswahl des Corpus und der Queries Teilnehmende Systeme Beurteilungsverfahren Beurteilungsmethoden UMass NEU 2© Karin Haenelt, Evaluierung von IR-Systemen

Million Query Track erste Durchführung: TREC 2007 Ziele des Tracks 1.Erforschung des ad-hoc-Retrieval in einer sehr großen Dokumentkollektion 2.Untersuchungen der Systemevaluierung, Frage: was ist besser: viele oberflächliche Beurteilungen oder wenige gründliche Beurteilungen? 3 (Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007) © Karin Haenelt, Evaluierung von IR-Systemen

Million Query Track Aufgaben der Teilnehmenden 1.Systemlauf von Anfragen gegen eine 426 GB Testkollektion 2.Beurteilung von Dokumenten bezüglich der Relevanz für bestimmte Anfragen kollaboratives online-Verfahren: alle Teilnehmenden beurteilen eine Teilmenge der Dokumente 4 (Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007) © Karin Haenelt, Evaluierung von IR-Systemen

Inhalt: TREC Million Query Track Ziele und Aufgaben Auswahl des Corpus und der Queries Teilnehmende Systeme Beurteilungsverfahren Beurteilungsmethoden UMass NEU 5© Karin Haenelt, Evaluierung von IR-Systemen

Testaufbau Auswahl des Corpus: GOV2-Collection Sammlung des Webseiten der.gov-Domäne aus dem Jahr 2004 gesammelt von Web-Crawlern HTML, text, extrahierte Texte aus PDF, Word und Postscript 25 Millionen Dokumente, 426 GB verteilt durch Universität Glasgow auf Platte gegen Beteiligung an Unkosten der Zusammenstellung und der Versendung 6 (Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007) © Karin Haenelt, Evaluierung von IR-Systemen

Testaufbau Auswahl der Queries Sammlung von Anfragen an eine große Internetsuchmaschine Auswahl von Anfragen mit mindestens einem relevanten Dokument in GOV2-Corpus ermittelt aus log files der Suchmaschine Anfragen, die zu einem Click auf ein Dokument aus GOV2-Corpus führten Clicks bieten keine Garantie, aber gewisse Wahrscheinlichkeit der Relevanz keine Qualitätskontrolle der Queries (Tippfehler, sprachliche Fehler, …) Erstellung einer Textdatei mit den Anfragen Beispiel: 32: barack obama internships 7 (Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007) © Karin Haenelt, Evaluierung von IR-Systemen

Testaufbau Auswahl der Queries Short Queries (TREC-Standard): Originalanfragen an die Suchmaschine Long Queries (TREC-Standard): aus short queries während des Beurteilungsprozesses von Menschen entwickelt 8 (Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007) © Karin Haenelt, Evaluierung von IR-Systemen

Einsendungen der Teilnehmenden Durchlauf der Fragen Rückgabe der höchstplatzierten Ausgaben für jede der Queries 9 (Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007) © Karin Haenelt, Evaluierung von IR-Systemen

Inhalt: TREC Million Query Track Ziele und Aufgaben Auswahl des Corpus und der Queries Teilnehmende Systeme Beurteilungsverfahren Beurteilungsmethoden UMass NEU 10© Karin Haenelt, Evaluierung von IR-Systemen

Teilnehmende ARSC multisearch system / University of Alaska Fairbanks Grid Information Retrieval und multisearch-Ansatz: Verteilung einer Anfrage auf mehrere Hosts mit jeweils eigenen Suchmaschinen Ziel: Schätzung der Anzahl von Hosts, die für Anfragen in der vorgegebenen Zeit befragt werden können frühere Leistung für ähnliche Anfragen (TREC-Bewertung); qrel: (topic, document, relevance score) 20% der Hosts, die ein relevantes Dokument zu einer Query liefern, enthalten 78% aller relevanten Dokumente 80% der Hosts, die für alle Queries ein relevantes Dokument liefern, enthalten 10 oder weniger relevante Dokumente für eine Query nur die Hosts mit den meisten relevanten Dokumenten in früheren TRECs durchsucht Zusammenführung der Ergebnisse (in Entwicklung) Index- und Suchtechniken aus Lucene verwendet 11 (Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007) © Karin Haenelt, Evaluierung von IR-Systemen

Teilnehmende Exegy Inc. Firma: Entwickler von Ultra-Hochleistungs-Hardware (11-50 Mitarbeitende) Suche mit Spezialsuchmaschine: Exegy Text Miner (XTM): hybrides System: hardware-software co-design-Architektur Suche über unindizierte Texte (brute force string search) relevante Ergebnisse für die meisten Queries durchschnittliche Precision (nach UMass-Messung) und (nach NEU-Messung) vollständige Suche über gesamtes unindiziertes Corpus für Fragen in weniger als 2,5 Stunden 12 (Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007) © Karin Haenelt, Evaluierung von IR-Systemen

Teilnehmende IBM Haifa Weiterentwicklung der Ranking-Funktion von Lucene zu üblichen Formeln der TREC-Teilnehmenden: bessere Dokumentlängennormalisierung bessere Term-Gewichts-Maße Query-Parsing Stoppwortentfernung Synonym-Expansion Phrasen-Expansion deutlich bessere Ergebnisse als mit früheren Lucene-Formeln ähnliche Ergebnisse wie mit eigener Suchmaschine Juru 13 (Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007) © Karin Haenelt, Evaluierung von IR-Systemen

Teilnehmende Universität Amsterdam / Universität Twente Ziel: Vergleich früherer Terabyte Tracks mit Million Query Track: Einfluss flacher Pooling-Methoden auf gemessene Effektivität der Retrievalmethoden Einfluss größerer Themenmenge Retrieval nach folgenden Methoden Volltext-Index (mit Vektorraum-Modell und Sprachmodell) Titel-Index (mit Sprachmodell) Anker-Text-Index (Text eines Hyperlinks) (mit Sprachmodell) 14 (Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007) © Karin Haenelt, Evaluierung von IR-Systemen

Teilnehmende Universität Amsterdam / Universität Twente Bewertung der Ergebnisse nach Standard-TREC-Verfahren Bewertung der Ergebnisse nach MQ-Bewertungen (nicht- gesichtete Texte gelten als nicht relevant) Vergleich: MQ-Evaluierung ähnliche Ergebnisse wie nach Standard- TREC-Methode MQ-Evaluierung zeigt stärkere Korrelation mit precision auf den vorderen Rängen 15 (Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007) © Karin Haenelt, Evaluierung von IR-Systemen

Teilnehmende University of Melbourne Vier Retrieval-Varianten 1.topic-only (Originalanfragen) Ähnlichkeitsmaß basierend auf einem Sprachmodell mit Dirichlet-Glättung 2.Anfrage an öffentliche Suchmaschine, Auswahl von Termen aus den 5 höchtplatzierten Dokumenten und Erweiterung der Anfrage um diese Terme 3.impact-based ranking (Anzahl der Zitierungen) 4.Zusammenfassung von 1 und 3 16 (Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007) © Karin Haenelt, Evaluierung von IR-Systemen

Teilnehmende Heilongjiang Institute of Technology, China: verwendet Lemur Northeastern University: verschiedene Lemur-Standardformeln (tf-idf bm25, tdf-idf log, kl abs, kl dir, inquery, cos, okapi) und Kombination der Ausgabe (Metasuche) mit dem hedge Algorithmus RMIT: Zettair Dirichlet smoothed language model SabIR Standard SMART ltu.Lnu University of Massachusetts Amherst verwendet Indri-Retrieval- System 17 (Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007) © Karin Haenelt, Evaluierung von IR-Systemen

Inhalt: TREC Million Query Track Ziele und Aufgaben Auswahl des Corpus und der Queries Teilnehmende Systeme Beurteilungsverfahren Beurteilungsmethoden UMass NEU 18© Karin Haenelt, Evaluierung von IR-Systemen

Relevanzbeurteilungen Ziel Ziel: Erstellung einer kleinen Anzahl von Beurteilungen für eine große Anzahl von Themen Ergebnis 1700 vom queries beurteilt frühere TRECs: 50 queries Bewertende NIST Gutachter Teilnehmende 19 (Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007) © Karin Haenelt, Evaluierung von IR-Systemen

Relevanzbeurteilungen Beurteilungsverfahren Bewertungssystem erstellt von University of Massachusetts auf der Basis des Drupal-Content Management Systems 1.Bewertungssystem schlägt 10 zufällig ausgewählte queries vor 2.Bewertende wählen eine dieser 10 queries zur Beurteilung 3.Bewertende erstellen eine TREC-long query ( Beschreibung, narrative Angabe der Relevanzkriterien) 4.Bewertungssystem präsentiert ein Dokument und fragt, ob es für die query relvant ist (highly relevant, relevant, not relevant) 5.Wiederholung von 4. bis zu 40 Dokumenten 20 (Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007) © Karin Haenelt, Evaluierung von IR-Systemen

Inhalt: TREC Million Query Track Ziele und Aufgaben Auswahl des Corpus und der Queries Teilnehmende Systeme Beurteilungsverfahren Beurteilungsmethoden UMass NEU 21© Karin Haenelt, Evaluierung von IR-Systemen

Beurteilungsmethode Standardevaluierungsverfahren der TREC Aufbau von Datenbanken mit großen Mengen von Relevanzbeurteilungen Teilnehmende schicken Ergebnisse der Retrievalläufe auf einem Corpus ein N höchstplatzierte Dokumente aus jedem System kommen in einen Pool und werden von Menschen auf Relevanz untersucht 22© Karin Haenelt, Evaluierung von IR-Systemen

Beurteilungsmethode Standardevaluierungsverfahren der TREC Pooling&Beurteilungs-Verfahren ungeeignet für riesige Datenmengen im besten Fall uneffizient im schlechtesten Fall nicht machbar sehr dynamische Kollektionen (Beispiel: Internet) und ständige Evaluierung neuer Algorithmen (Testdaten verschwinden, verlieren an Relevanz, erscheinen neu) spezifische Aufgaben (sehr hoher Aufwand für Einzelfall) 23© Karin Haenelt, Evaluierung von IR-Systemen

Beurteilungsmethode Minimal Test Collection (MTC) Ben Carterette, James Allan, and Ramesh K. Sitaraman. Minimal test collections for retrieval evaluation. In: Proceedings of SIGIR, pages , James Allan, Ben Carterette, Javed A. Aslam, Virgil Pavlu, Blagovest Dachev, Evangelos Kanoulas (2007). Million Query Track 2007 Overview. Proceedings of TREC auch UMass-Verfahren genannt (University of Massachusetts Amherst) 24 (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen

Beurteilungsmethode Minimal Test Collection (MTC) Ziel Erforschung eines minimalen Beurteilungsaufwandes für eine möglichst hohe Konfidenz des Evaluierungsergebnisses Aufbau einer minimalen Testkollektion zum Vergleich von IR-Systemen 25© Karin Haenelt, Evaluierung von IR-Systemen

Beurteilungsmethode Minimal Test Collection (MTC) Ansatz: Verbindung von Evaluierung und Konstruktion von Testkollektionen 26 (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen

Beurteilungsmethode Minimal Test Collection (MTC) Methode: neue Sicht auf durchschnittliche Präzision Schätzung des Grades der Konfidenz durch Definition einer Verteilung über mögliche Dokumentbeurteilungen ermöglicht Evaluierung von Retrievalsystemen mit minimaler Menge an Beurteilungen führt zu einem Algorithmus zum Aufbau einer Testkollektion Studie mit dieser Methode: Bestimmung der Rangfolge einer Menge von Systemen möglich mit kleiner Gruppe von Beurteilenden in weniger als drei Stunden mit 95% Konfidenz 27 (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen

Minimal Test Collection (MTC) Methode Grundgedanken 1.Neuartige Sicht auf durchschnittliche Präzision (AP – average precision): Betrachtung im Sinne eines Bernouilli Experiments 2.AP ist normalverteilt über mögliche Mengen von Relevanzbeurteilungen 3.[2.] ermöglicht die Schätzung der Konfidenz einer AP 4.Grad der Konfidenz dient als Abbruchkriterium für den Algorithmus 5.[4.] ermöglicht Verbindung von Evaluierung und Konstruktion einer Testkollektion 28 (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen

Minimal Test Collection (MTC) Methode Grundgedanken 1 1.Neue Sicht auf durchschnittliche Präzision (AP – average precision): Betrachtung des Beitrags einzelner Dokumente zur durchschnittlichen Präzision (AP average precision) als quadratische Gleichung über Bernoulli Experimente X i für die Relevanz eines Dokuments i 29 (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen

Minimal Test Collection (MTC) Methode Grundgedanken 2 2.Betrachtung der Differenz der durchschnittlichen Präzision Δ AP zwischen zwei Systemen s 1 und s 2 Δ AP hat eine Verteilung über alle möglichen Relevanzbeurteilungen der unbeurteilten Dokumente: Δ AP konvergiert mit zunehmender Anzahl beurteilter Dokumente zu einer Normalverteilung Normalverteilung ermöglicht Angabe einer Konfidenz für das beim jeweiligen Fortschritt der Beurteilung erreichte Ergebnis 30 (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen

Minimal Test Collection (MTC) Methode Grundgedanken 3 3.Grad der Beurteilungssicherheit dient als Abbruchkriterium für den Algorithmus 4. Verbindung von Evaluation und Konstruktion der Testkollektion 31 (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen

Minimal Test Collection (MTC) Methode Durchschnittspräzision ist normalverteilt Testbeispiel: 2 Ranglisten mit je 100 Dokumenten p i = P(x i = 1) auf.5 gesetzt zufällig 5000 Mengen von Relevanzbeurteilungen erzeugt für jede Menge von Relevanz- beurteilungen für die beiden Ranglisten berechnet d.h. bei unvollständigen Testkollektionen ist AP normalverteilt über alle möglichen Relevanzzuordnungen zu unbeurteilten Dokumenten 32 (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen

Minimal Test Collection (MTC) Methode Durchschnittspräzision ist normalverteilt Testbeispiel: d.h. bei unvollständigen Testkollektionen ist AP normalverteilt über alle möglichen Relevanzzuordnungen zu unbeurteilten Dokumenten die meisten queries liegen in der Mitte (geringe Differenz zwischen zwei Systemen) 33 (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen

Minimal Test Collection (MTC) Methode Kumulative Dichtefunktion zum Auffinden von Gegeben eine Menge von Relevanzbeurteilungen Verwendung der normalen kumulativen Dichtefunktion zum Auffinden von Wenn, würden mindestens 95% der möglichen Relevanzzuordnungen folgern 95 % Konfidenz für die Folgerung Neue Abbruchbedingung Annahme: p i = 0.5 für unbeurteilte Dokumente 34 (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen

Minimal Test Collection (MTC) Methode Ergebnisse 35 (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen

Minimal Test Collection (MTC) Methode Ergebnisse 36 (Carterette, Allan, Sitamaran, 2006) © Karin Haenelt, Evaluierung von IR-Systemen

Minimal Test Collection (MTC) Methode Evaluierungssystem ordnet Dokumente iterativ nach ihrem Informationsbeitrag zu einer Differenz der durchschnittlichen Präzision präsentiert das höchstgeordnete Dokument zur Beurteilung Neugewichtung und Neuordnung der Dokumente nach einer Beurteilung 37© Karin Haenelt, Evaluierung von IR-Systemen

Auswahl von Dokumente für die Beurteilung Statistical evaluation (statMAP) Methode beurteilt eine Zufallsmenge von Dokumenten von einer geordneten Liste erzeugt eine Schätzung der Durchschnittspräzision, R-Präzision und Präzision an Standard-Messpunkten nicht-zufällig beurteilte Dokumente können in den Schätzprozess einbezogen werden 38 (Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007) © Karin Haenelt, Evaluierung von IR-Systemen

Ergebnisse TREC 2007 Vergleich der Ergebnisse TREC-Standardmethode über Terabyte-Corpus MTC über MillionQueries-Corpus statMap über MillionQueries-Corpus Übereinstimmung in der relativen Ordnung der Systeme statMap vermutlich bessere Schätzung der mean average precision (MAP) MTC vermutlich ein korrektes Ranking der Systeme MTC bessere Konfidenz 39 (Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007) © Karin Haenelt, Evaluierung von IR-Systemen

Literatur James Allan, Ben Carterette, Javed A. Aslam, Virgil Pavlu, Blagovest Dachev, Evangelos Kanoulas (2007). Million Query Track 2007 Overview. Proceedings of TREC Ben Carterette, James Allan, and Ramesh K. Sitaraman. Minimal test collections for retrieval evaluation. In: Proceedings of SIGIR, pages , Eliah Ninyo, Keren Kenzi (o.J.). Minimal Test Collections for Retrieval Evaluation. B. Carterette et al. Test Collections for Retrieval Evaluation-Eli+Keren.ppt Test Collections for Retrieval Evaluation-Eli+Keren.ppt Versionen: 2.1: , 2.0: , 1.0: © Karin Haenelt, Evaluierung von IR-Systemen