18.12.2002 Erweiterte Fassung 14.12.03 Karin Haenelt, IR-Evaluierung Evaluierung von Information Retrieval Systemen Kursfolien Karin Haenelt.

Slides:



Advertisements
Ähnliche Präsentationen
Probleme der Integration und Heterogenität bei der Recherche textueller Dokumente vascoda - infoconnex - SOWIPORT September 2004, Hamburg Jürgen Krause.
Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211
IT-Projektmanagement
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Projekt zur Evaluation, Reaktivierung vorhandener Kenntnisse und Festigung des Arbeitens mit Größen im Mathematikunterricht mit Schülern der 7. Klassen.
Telefonnummer.
Seminar Textmining WS 06/07
Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem
Die Rolle der betrieblichen beruflichen Weiterbildung und der externen Anbieter im europäischen Kontext Vortrag im Rahmen der Tagung „Berufliche Weiterbildung.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Cassey - Common Answer Set Evaluation sYstem Jean Gressmann Benjamin Kaufmann Robert Lenk.
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Reguläre Sprachen Karin Haenelt.
Information Retrieval Modelle: Vektor-Modell
© Karin Haenelt 2006, Äquivalenzen Reg.Ausdrücke, Reg.Sprachen, EA ( ) 1 Reguläre Sprachen Karin Haenelt.
Informationsextraktion mit endlichen Automaten
© Karin Haenelt, Modellierung Menschlicher.Sprachen mit Regulären Ausdrücken, Modellierung menschlicher Sprachen mit Regulären Ausdrücken.
Mathematische Grundlagen
© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.
© Karin Haenelt 2005, Endliche Automaten: Alphabet, Zeichenreihe, Sprache, Endliche Automaten Grundlagen: Alphabet, Zeichenreihe, Sprache.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Differentielles Paar UIN rds gm UIN
Prof. Dr. Bernhard Wasmayr
Spree SoSe 2011 Qualität einer Erschließung Relevanz- und Vollständigkeitsrate Zur Erinnerung: Zweck der Erschließung von Dokumenten/Texten ist nicht in.
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Universität Karlsruhe (TH) © 2006 Univ,Karlsruhe, IPD, Prof. Lockemann/Prof. BöhmTAV 0 Transaktionsverwaltung Einführung.
Gesichtserkennung mit Hilfe eines Neuronalen Netzes (SNNS)
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Prof. Dr. Günter Gerhardinger Soziale Arbeit mit Einzelnen und Familien Übersicht über die Lehrveranstaltung Grundlegende Bestimmungsfaktoren der Praxis.
20:00.
Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt /
Zusatzfolien zu B-Bäumen
Evaluierung von Information Retrieval Systemen Teil 2: TREC – Million Query Track Karin Haenelt
Eine Einführung in die CD-ROM
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
Dokumentation der Umfrage
1 Ein kurzer Sprung in die tiefe Vergangenheit der Erde.
Wir üben die Malsätzchen
Syntaxanalyse Bottom-Up und LR(0)
Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt
XML-Query. Übersicht Was ist XML-Query? Vergleich RDB XML-Dokument Syntaktisches und Use-Cases Kritik und Diskussion.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt
Internet-User 1999 in der Schweiz "Haben Sie schon einmal das Internet benutzt ?" - nach sozio-demografischen Merkmalen WISO Telefonumfrage ECATT99.
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Plötzlicher Herztod – Definition (I)
Sachbezugswerte 2007 (SV-Entgeltverordnung) Sachbezugswerte für freie Verpflegung FrühstückMittagessenAbendessen 1,50 2,67 Monatlicher Wert Verpflegung.
Zusammengestellt von OE3DSB
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Wie spät ist es? Wieviel Uhr ist es?
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
Projekt Messendorferstraße Graz TOP 1-33 /EG Wohnhaus 1 Grundstück 2 Schlafen10,28 m² Wohnen /Kochen 15,35 m² Diele 2,50 m² Bad mit WC 4,40m² Terrasse.
Folie Einzelauswertung der Gemeindedaten
Information Retrieval Modelle: Probabilistische Modelle Kursfolien
Numbers Greetings and Good-byes All about Me Verbs and Pronouns
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Literary Machines, zusammengestellt für ::COLLABOR:: von H. Mittendorfer Literary MACHINES 1980 bis 1987, by Theodor Holm NELSON ISBN
Deutsch 1 Lesson 6 den 30. April  What do all German nouns have in common? Revision.
Evaluierung von Information Retrieval Systemen Teil 2: TREC – Million Query Track Karin Haenelt /
Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt / /
5.1 5 Retrieval auf Bildern (.... in a nutshell)  Bedeutung.... ... im Zusammenhang mit Information Retrieval ... für Anwendungen Medizin: "Finde ähnliche.
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
Die Geschichte des Internet ??. Vannevar Bush As We May Think (1945) Memex - Der Schreibtisch mit dem Bildschirm.
Komparativ und Superlativ German 2. zum Beispiel … Ein VW ist schnell. Ein BMW ist schneller. Ein Porsche ist am Schnellsten. There are 2 levels of comparison:
The PageRank Axioms Johannes Zaunschirm. Überblick / Outline  Alon Altman and Moshe Tennenholtz. “Ranking Systems: The PageRank Axioms”., 2005  Basisstruktur.
© 2009 Morgan Kaufmann.. © 2009 Morgan Kaufmann.
 Präsentation transkript:

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Evaluierung von Information Retrieval Systemen Kursfolien Karin Haenelt

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Evaluierungsveranstaltungen TREC Text Retrieval Evaluation Conference –jährlich seit 1992 –Sponsoren: Defence Advanced Research Projects Agency (DARPA) National Institute of Standards and Technology (NIST) MUC Message Understanding Conference –3,1991; 4, 1992; 5, 1993; 6, 1995; 7, 1997,.. –Sponsoren: – Advanced Research Projects Agency (ARPA)

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Logische Einteilung der Datenbasis R R nicht-relevante nicht ausgeg. Dokumente nicht-relevante ausgegebene Dokumente relevante nicht ausgeg. Dokumente relevante ausgegebene Dokumente

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Verfahren zur Bestimmung der relevanten Dokumente

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Bestimmung durch Juroren Beobachtungen TREC: –Übereinstimmung zwischen 2 Juroren: 70% Kowalski, 1997

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Bestimmung durch Pooling Kowalski, 1997

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Bestimmung durch Pooling German Indexing and Retrieval Testdatabase (GIRT): –1389relevante Dokumente durch Juroren ermittelt – 662relevante Dokumente durch Pooling ermittelt Frisch/Kluck, 1997, 34

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Standardmaße zur Evaluierung PrecisionGenauigkeit des Suchprozesses RecallVollständigkeit des Suchprozesses FalloutEffektivität des Suchprozesses

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Recall/Precision-Graph Gemessen an 11 Standardmesspunkten: Recall 100%, 90%, 80% … 0% Punkte durch Geraden verbunden Geraden haben keine interpolierende Bedeutung Zwischen den 11 Standardmesspunkten sind keine Werte definiert Baeza-Yates/Ribeiro-Neto, 1999,74

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Rq={d 3,d 5,d 9,d 25,d 39,d 44,d 56,d 71,d 89,d 123 } Berechnungsbeispiel Menge der relevanten Dokumente Ranking für query q 1.d d9d9 11.d 38 2.d 84 7.d d 48 3.d 56 8.d d d6d6 9.d d d8d8 10.d d3d3 Recall und Precision Baeza-Yates/Ribeiro-Neto, 1999,74

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Recall/Precision-Graph Baeza-Yates/Ribeiro-Neto, 1999,74

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Durchschnittliche Precision über mehrere Queries Baeza-Yates/Ribeiro-Neto, 1999,74

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Durchschnittliche Precision über mehrere Queries Baeza-Yates/Ribeiro-Neto, 1999,76 Recall-Ebenen können für einzelne Queries verschieden sein von den 11 Standard-Recall-Ebenen Interpolationsprozedur erforderlich Interpolierte Präzision bei j.ter Standard-Recall-Ebene: höchste bekannte Präzision auf einer Recall-Ebene zwischen der j.ten und der j+1.ten Recall-Ebene

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Rq={d 3,d 56,d 129 } Berechnungsbeispiel, interpolierte Werte Menge der relevanten Dokumente Ranking für query q 1.d d9d9 11.d 38 2.d 84 7.d d 48 3.d 56 8.d d d6d6 9.d d d8d8 10.d d3d3 Recall und Precision Baeza-Yates/Ribeiro-Neto, 1999,77

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Recall/Precision-Graph Baeza-Yates/Ribeiro-Neto, 1999,77

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Stand der Inhaltserschließung Information Retrieval No more than 40% precision for 20% recall (Sparck Jones 1987) 60 % der Resultate sind falsch 80 % der relevanten Texte werden nicht gefunden Message Understanding Eingeschränktes Fachgebiet Anfragen vorher bekannt Beste Ergebnisse 55 % precision / 45 % recall

Erweiterte Fassung Karin Haenelt, IR-Evaluierung

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Status der Relevanzmenge In all cases, evaluation of Information Retrieval Systems will suffer from the subjective nature of information. There is no deterministic methodology for understanding what is relevant to a users search. (Kowalski, 1997, 244) non calculable in operational systems. If the system knew the total set of relevant items in the database, it would have been retrieved. (Kowalski, 1997, 5)

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Bedeutung der Relevanzmenge Wieviel Information wird gebraucht? –vollständige Information zu einem Sachverhalt –hinreichende Information zur Erfüllung einer Aufgabe Wie relevant ist relevant? –sicher –vielleicht –weniger –nicht

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Literatur Kowalski, Gerald: Information Retrieval Systems: Theory and Implementation. Kluwer Academic Publishers: Boston/Dordrecht/London,1997. Frisch, Elisabeth und Michael Kluck: Pretest zum Projekt German Indexing and Retrieval Testdatabase (GIRT) unter Anwendung der retrievalsysteme Messenger und freeWAISsf. IZ-Arbeitsbericht 10. Bonn: Informationszentrum Sozilawissenschaften, Harman, Donna: Overview of the Fourth Text REtrieval Conference (TREC-4). TREC-4 Proceedings. nlpir.nist.gov/TREC/t4_proceedings.html Ricardo Baeza-Yates und Bertheir Ribeiro-Neto (Eds.) (1999): Modern Information Retrieval.Essex: Addison Wesley Longman Limited, Kap. 13 Will, Craig A.: Comparing Human and Machine Performance for Natural Language Information Extraction: Results for English Microelectronics from the MUC-5 Evaluation. In: Proc. of the Fifth Message Understanding Conference. Morgan Kaufmann Publishers, pp