Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

18.12.2002 Erweiterte Fassung 14.12.03 Karin Haenelt, IR-Evaluierung Evaluierung von Information Retrieval Systemen Kursfolien Karin Haenelt.

Ähnliche Präsentationen


Präsentation zum Thema: "18.12.2002 Erweiterte Fassung 14.12.03 Karin Haenelt, IR-Evaluierung Evaluierung von Information Retrieval Systemen Kursfolien Karin Haenelt."—  Präsentation transkript:

1 Erweiterte Fassung Karin Haenelt, IR-Evaluierung Evaluierung von Information Retrieval Systemen Kursfolien Karin Haenelt

2 Erweiterte Fassung Karin Haenelt, IR-Evaluierung Evaluierungsveranstaltungen TREC Text Retrieval Evaluation Conference –jährlich seit 1992 –Sponsoren: Defence Advanced Research Projects Agency (DARPA) National Institute of Standards and Technology (NIST) MUC Message Understanding Conference –3,1991; 4, 1992; 5, 1993; 6, 1995; 7, 1997,.. –Sponsoren: – Advanced Research Projects Agency (ARPA)

3 Erweiterte Fassung Karin Haenelt, IR-Evaluierung Logische Einteilung der Datenbasis R R nicht-relevante nicht ausgeg. Dokumente nicht-relevante ausgegebene Dokumente relevante nicht ausgeg. Dokumente relevante ausgegebene Dokumente

4 Erweiterte Fassung Karin Haenelt, IR-Evaluierung Verfahren zur Bestimmung der relevanten Dokumente

5 Erweiterte Fassung Karin Haenelt, IR-Evaluierung Bestimmung durch Juroren Beobachtungen TREC: –Übereinstimmung zwischen 2 Juroren: 70% Kowalski, 1997

6 Erweiterte Fassung Karin Haenelt, IR-Evaluierung Bestimmung durch Pooling Kowalski, 1997

7 Erweiterte Fassung Karin Haenelt, IR-Evaluierung Bestimmung durch Pooling German Indexing and Retrieval Testdatabase (GIRT): –1389relevante Dokumente durch Juroren ermittelt – 662relevante Dokumente durch Pooling ermittelt Frisch/Kluck, 1997, 34

8 Erweiterte Fassung Karin Haenelt, IR-Evaluierung Standardmaße zur Evaluierung PrecisionGenauigkeit des Suchprozesses RecallVollständigkeit des Suchprozesses FalloutEffektivität des Suchprozesses

9 Erweiterte Fassung Karin Haenelt, IR-Evaluierung Recall/Precision-Graph Gemessen an 11 Standardmesspunkten: Recall 100%, 90%, 80% … 0% Punkte durch Geraden verbunden Geraden haben keine interpolierende Bedeutung Zwischen den 11 Standardmesspunkten sind keine Werte definiert Baeza-Yates/Ribeiro-Neto, 1999,74

10 Erweiterte Fassung Karin Haenelt, IR-Evaluierung Rq={d 3,d 5,d 9,d 25,d 39,d 44,d 56,d 71,d 89,d 123 } Berechnungsbeispiel Menge der relevanten Dokumente Ranking für query q 1.d d9d9 11.d 38 2.d 84 7.d d 48 3.d 56 8.d d d6d6 9.d d d8d8 10.d d3d3 Recall und Precision Baeza-Yates/Ribeiro-Neto, 1999,74

11 Erweiterte Fassung Karin Haenelt, IR-Evaluierung Recall/Precision-Graph Baeza-Yates/Ribeiro-Neto, 1999,74

12 Erweiterte Fassung Karin Haenelt, IR-Evaluierung Durchschnittliche Precision über mehrere Queries Baeza-Yates/Ribeiro-Neto, 1999,74

13 Erweiterte Fassung Karin Haenelt, IR-Evaluierung Durchschnittliche Precision über mehrere Queries Baeza-Yates/Ribeiro-Neto, 1999,76 Recall-Ebenen können für einzelne Queries verschieden sein von den 11 Standard-Recall-Ebenen Interpolationsprozedur erforderlich Interpolierte Präzision bei j.ter Standard-Recall-Ebene: höchste bekannte Präzision auf einer Recall-Ebene zwischen der j.ten und der j+1.ten Recall-Ebene

14 Erweiterte Fassung Karin Haenelt, IR-Evaluierung Rq={d 3,d 56,d 129 } Berechnungsbeispiel, interpolierte Werte Menge der relevanten Dokumente Ranking für query q 1.d d9d9 11.d 38 2.d 84 7.d d 48 3.d 56 8.d d d6d6 9.d d d8d8 10.d d3d3 Recall und Precision Baeza-Yates/Ribeiro-Neto, 1999,77

15 Erweiterte Fassung Karin Haenelt, IR-Evaluierung Recall/Precision-Graph Baeza-Yates/Ribeiro-Neto, 1999,77

16 Erweiterte Fassung Karin Haenelt, IR-Evaluierung Stand der Inhaltserschließung Information Retrieval No more than 40% precision for 20% recall (Sparck Jones 1987) 60 % der Resultate sind falsch 80 % der relevanten Texte werden nicht gefunden Message Understanding Eingeschränktes Fachgebiet Anfragen vorher bekannt Beste Ergebnisse 55 % precision / 45 % recall

17 Erweiterte Fassung Karin Haenelt, IR-Evaluierung

18 Erweiterte Fassung Karin Haenelt, IR-Evaluierung Status der Relevanzmenge In all cases, evaluation of Information Retrieval Systems will suffer from the subjective nature of information. There is no deterministic methodology for understanding what is relevant to a users search. (Kowalski, 1997, 244) non calculable in operational systems. If the system knew the total set of relevant items in the database, it would have been retrieved. (Kowalski, 1997, 5)

19 Erweiterte Fassung Karin Haenelt, IR-Evaluierung Bedeutung der Relevanzmenge Wieviel Information wird gebraucht? –vollständige Information zu einem Sachverhalt –hinreichende Information zur Erfüllung einer Aufgabe Wie relevant ist relevant? –sicher –vielleicht –weniger –nicht

20 Erweiterte Fassung Karin Haenelt, IR-Evaluierung Literatur Kowalski, Gerald: Information Retrieval Systems: Theory and Implementation. Kluwer Academic Publishers: Boston/Dordrecht/London,1997. Frisch, Elisabeth und Michael Kluck: Pretest zum Projekt German Indexing and Retrieval Testdatabase (GIRT) unter Anwendung der retrievalsysteme Messenger und freeWAISsf. IZ-Arbeitsbericht 10. Bonn: Informationszentrum Sozilawissenschaften, Harman, Donna: Overview of the Fourth Text REtrieval Conference (TREC-4). TREC-4 Proceedings. nlpir.nist.gov/TREC/t4_proceedings.html Ricardo Baeza-Yates und Bertheir Ribeiro-Neto (Eds.) (1999): Modern Information Retrieval.Essex: Addison Wesley Longman Limited, Kap. 13 Will, Craig A.: Comparing Human and Machine Performance for Natural Language Information Extraction: Results for English Microelectronics from the MUC-5 Evaluation. In: Proc. of the Fifth Message Understanding Conference. Morgan Kaufmann Publishers, pp


Herunterladen ppt "18.12.2002 Erweiterte Fassung 14.12.03 Karin Haenelt, IR-Evaluierung Evaluierung von Information Retrieval Systemen Kursfolien Karin Haenelt."

Ähnliche Präsentationen


Google-Anzeigen