Seminar Textmining WS 06/07

Slides:



Advertisements
Ähnliche Präsentationen
Mobile Classroom S.OF.T – in the School of Tomorrow
Advertisements

Stefan Lohrum Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
Mean and variance.
Webseitenranking für Suchanfragen anhand von Linkgraphen
Lorenzkurve Die folgenden Darstellungen orientieren sich zuerst an ganz einfachen Fällen, nämlich der Situation in Entenhausen und in einem kleinen.
Seminar Textmining WS 06/07 Aufgaben V Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri.
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.
Seminar Textmining WS 06/07
Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling.
Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.
Seminar Textmining WS 06/07 Aufgaben I 1.Metadaten 2.Einfache Inverse Liste 3.Modifizierte Inverse Liste für komplexere Anfragen 4.Boolsches Retrieval.
Seminar Textmining WS 06/07 Themen Übung 8 Diskussion über Erkennung von Eigennamen Question Answering Stemming.
Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
INFORMATION RETRIEVAL (IR)
Terme mit Variablen Beispiel: Ein Quadrat hat immer 4 gleichlange Seiten. Der Umfang des Quadrats ist die Summe aller Seitenlängen. Auch wenn wir noch.
Untersuchungen zur Funktion des P38IP-Gens bei Prostatakarzinomzelllinien Ergebnisse PC-3 Doreen Kunze
Suchmaschinen Seminar Prinzipien und Algorithmen Peter K. Ibach Suchmaschinen.
Methode 1. Konvertierung der Hz-Werte in log-Hz Die Sprecherunterschiede werden reduziert Die Wahrnehmung der Frequenzunterschiede ist eher logarithmisch.
BCD Ripple Carry Adder von Enrico Billich.
WS 03/04 Algorithmentheorie 03 - Randomisierung Prof. Dr. S. Albers Prof. Dr. Th. Ottmann.
WS Algorithmentheorie 01 – Divide and Conquer (Segmentschnitt) Prof. Dr. Th. Ottmann.
Information Retrieval Modelle: Vektor-Modell
Erweiterte Fassung Karin Haenelt, IR-Evaluierung Evaluierung von Information Retrieval Systemen Kursfolien Karin Haenelt.
Operationen auf verketteten Listen
GROOVE Graphs for Object-Oriented Verification Seminar: SEFSIS Sommersemester 2006 Basil Becker
Automatisches Clustering und automatische Klassifikation
Spree SoSe 2011 Clustering – Wie Maschinen die Ähnlichkeit von Dokumenten erkennen.
IndexierungsqualitätEinstieg
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
Informationen zur Klausur
3 Prinzipien des Information Retrieval
Addierwerke.
Phylogenetische Bäume & ihre Konstruktion
Physik in elementaren Portionen, Karlsruhe,
Information Retrieval: Methoden zur Selektivitätsabschätzung
Spezifikations- und Selektionsmethoden für Daten und Dienste
Klausurbesprechung Referent: Dipl.-Kfm. René Herrmann
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
Wir zeichnen eine Windrose!
20:00.
Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt /
Was ist das? Kaufst du das? Brauchst du das?.
... Unternehmens- leitung
Die Methode public Datenelement getEnde (Datenelement d) Ziel: //Klasse Knoten public Datenelement getEnde(Datenelement d){ return nachfolger.getEnde(inhalt);
Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt
Benutzerhinweise: Die nächste Folie sowie die jeweils nächste
Das Bernoulli-Prinzip
Eine mannschaftstaktische Maßnahme im Volleyball
CuP - Java Neunte Vorlesung Entspricht Kapitel 4.2 und 5 des Skriptums
 Tryptophan-Synthese
Technische Informatik II Übung 7: Automaten Implementierungsaspekte
Vorlesung Automatisierungsprojekte Seite 6/1
Information Retrieval, Vektorraummodell
Universitätsbibliothek -Zwischenbericht Zeitschriftenranking Sitzung der Medienkommission, 18. April 2005 Anja Herwig 1 ZeRaVO Zwischenbericht.
Prüfung auf Serialisierbarkeit (3)
You need to use your mouse to see this presentation © Heidi Behrens.
CrissCross SWD-DDC-Mapping Referentin: Jessica Hubrich, M.A., M.L.I.S. KofSE, Linz 2008.
Philosophie BA-KiJu Überblick über den Studienverlauf Philosophisches Seminar.
Seminarleiter-Zuordnung (S1-S8)
Technische Informatik II
Inhibierung der C13orf19-mRNA- Expression durch siRNA in Prostatakarzinomzellen Chromosom 13q im PCa oft von genetischen Veränderungen betroffen –Hypothese:
Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt / /
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
Subnetting.
Volltextsuchmaschinen, © Till Hänisch 2001 Altavista, Google & Co Volltextsuche im Großen, aber wie ?
„TIERISCHE MITBEWOHNER“
 Präsentation transkript:

Seminar Textmining WS 06/07 Aufgaben V Rankingbewertungen Precision/Recall und Mean Average Precision Als Verbessung vom boolschen Retrieval Vector space Termgewichtungen Hund Katze: Dokument mit 3xHund und 0xKatze gewinnt über Dokument mit 1xHund und 1xKatze (Beispiel rechnen lassen) Seminar Textmining WS 06/07

Bewertung von Rankings Gegeben sind folgend bewertete Antworten: S1: x – x x x - - - - - (10) S2: - - - x - - x x x – (10) S3: x – x – x – x – x – (20) S4: - x – x – x – x - x (30) S5: - - - - - - - x - - (1) Nehmen Sie an, dass es sich um die gleiche Query handelt und um verschiedene IR Systeme. Welches hat beste Precision, Recall, F-value (2PR/(P+R)), Mean Average Precision? Nehmen Sie an, es handelt sich um in IR System und verschiedene Queries. Wie hoch ist Precision, Recall, F-value und Mean Average Precision? Seminar Textmining WS 06/07

Bewertung von Rankings Auflösung: P R F MAP S1: 4/10 4/10 4/10 (1 + 2/3 + 3/4 + 4/5)/10 * 100 = 32.2% S2: 4/10 4/10 4/10 (1/4 + 2/7 + 3/8 + 4/9)/10 * 100 = 13.6% S3: 5/10 5/20 1/3 (1 + 2/3 + 3/5 + 4/7 + 5/9)/20 * 100 = 17% S4: 5/10 5/30 1/4 (1/2 + 2/4 + 3/6 + 4/8 + 5/10)/30 *100 = 8.3% S5: 100% 100% 100% (1/8)/1*100 = 12.5% Nehmen Sie an, es handelt sich um in IR System und verschiedene Queries. Wie hoch ist Precision, Recall, F-value und Mean Average Precision? P=56% R=44.3% F=47.7% MAP=16.72% Seminar Textmining WS 06/07

Seminar Textmining WS 06/07 In diesem Diagramm sind Precision und Recall eingetragen. Welche Kurve ist Precision, welche Recall? Wenn noch F-value eingetragen wäre, wie würde die neue Kurve aussehen? 100% A B Size of top list Seminar Textmining WS 06/07

Berechnung von Ranking Gegeben folgende Dokumente und Terme, sowie eine query. Ranken Sie die Dokumente entsprechend der query. D1: Hund(2) Katze und(4) der(2) die … D2: D3: D4: D5: Q: Der Hund jagt die Katze … unter der Annahme der binären Kodierung: sim(Q,D1)= … … mit Summe aus Termwert und … sim(Q,D1)=… Berechnen Sie die Ähnlichkeit der Dokumente untereinander. Seminar Textmining WS 06/07

Seminar Textmining WS 06/07