Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.

Slides:



Advertisements
Ähnliche Präsentationen
Vom HW-Automaten zum Prozessor
Advertisements

Zerlegung von Graphen.
Relationentheorie AIFB SS Transitive (funktionale) Abhängigkeiten Transitive (funktionale) Abhängigkeiten (1|3) Geg.: r: (U | F); A,
Apriori-Algorithmus zur Entdeckung von Assoziationsregeln
Webseitenranking für Suchanfragen anhand von Linkgraphen
Seminar Textmining WS 06/07 Aufgaben V Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri.
Seminar Textmining WS 06/07 Themen I Übung in erster Linie um zugrundeliegende Methoden zu verstehen. D.h. es gibt immer einen/mehrere Themenschwerpunkte,
Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.
Seminar Textmining WS 06/07 Aufgaben I 1.Metadaten 2.Einfache Inverse Liste 3.Modifizierte Inverse Liste für komplexere Anfragen 4.Boolsches Retrieval.
Seminar Textmining WS 06/07 Themen Übung 8 Diskussion über Erkennung von Eigennamen Question Answering Stemming.
Seminar Textmining WS 06/07
Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
Müll 1NaturEinkaufenMüll 2Vermischtes
3.1 3 Implementierungstechniken 3.1 Kompression von invertierten Dateien Warum? Parameter des Index: N = Anzahl Dokumente n = Anzahl Terme f t = Dokumentfrequenz.
Herzlich Willkommen zum Tutorium: Makroökonomik WS 2009/10 // Holger Nickel.
Übungsblatt 05 Lehrstuhl für Kommunal- und Umweltökonomie
Theorie psychometrischer Tests, III
Maschinelle Übersetzung I
Nebenläufigkeit Teil I
Minimieren ohne Ableitungen
Messung in Einheiten der Standardabweichung
Informationsgewinnung mit Agenten
REKURSION + ITERATION. Bemerkung: Die in den folgenden Folien angegebenen "Herleitungen" sind keine exakten Beweise, sondern Plausibilitätsbetrachtungen.
Gottfried Vossen 5. Auflage 2008 Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme Kapitel 22: Grundlagen der Crash Recovery.
Information Retrieval Modelle: Vektor-Modell
Beispiele für Gleichungssysteme
Übung Datenbanksysteme SQL-Anfragen (2)
XML-Algebren Martin Winkler.
Wir haben gemogelt !.
(Ron Rivest, Adi Shamit, Leonard Adleman , 1977)
Poisson - Verteilung P Poisson - Verteilung
Automatisches Clustering und automatische Klassifikation
Spree SoSe 2011 Clustering – Wie Maschinen die Ähnlichkeit von Dokumenten erkennen.
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
Bedingte Wahrscheinlichkeiten
Statistische Methoden I WS 2004/2005 Probeklausur Freitag, 21. Januar statt Vorlesung - In 2 Wochen In 2 Wochen!
Recovery AIFB SS Recovery 5.1 Fehler im Datenbankbetrieb(1/10) (1)Transaktionsfehler (TF) (2)Systemfehler (SF) (3)Speicherfehler (SpF) Fehlerfallen.
Information Retrieval: Methoden zur Selektivitätsabschätzung
Implementierung von S2PL (1) Scheduler als Verwalter von Sperren auf Datenelementen sowie Warteschlangen für Sperren (Sperren-Verwalter). Transaktion 1Transaktion.
Bézier-Bernstein Methoden für Bivariate Polynome
§8 Gruppen und Körper (8.1) Definition: Eine Gruppe G ist eine Menge zusammen mit einer Verknüpfung, die jedem Paar (a,b) von Elementen aus G ein weiteres.
Machine Learning KNN und andere (Kap. 8).
So, ein paar Fragen.. Wo sind mehr Bälle? Wo sind mehr Steine?
§24 Affine Koordinatensysteme
Effiziente Algorithmen
Design and analysis of GUI test-case prioritization using weight-based methods Samra Khan.
... Unternehmens- leitung
Übungsblatt 02 Lehrstuhl für Kommunal- und Umweltökonomie
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Übungsblatt 05 Lehrstuhl für Kommunal- und Umweltökonomie
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Klicken Sie in der Meldungsleiste auf Bearbeitung aktivieren,
Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt
Systematisierung von Entscheidungssituationen nach dem Informationsstand bzgl. der Umwelt Unge- wißheit Risiko Sicherheit Unsicherheit Entscheidungen.
Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt
Eine mannschaftstaktische Maßnahme im Volleyball
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Information Retrieval, Vektorraummodell
Vegetationsplot 43 m 10 m Sammlerplot Reserveplot Bodenplot A1 A2 A3 A4 B1 B2 B3 B4 C1 C2 C3 C4 D1 D2 D3 D4 Streusammler Schneesammler Regensammler Vegetationsquadrat.
You need to use your mouse to see this presentation © Heidi Behrens.
Information Retrieval Modelle: Probabilistische Modelle Kursfolien
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
2 Grundlagen des Information Retrieval
Folie 1 §8 Gruppen und Körper (8.1) Definition: Eine Gruppe G ist eine Menge zusammen mit einer Verknüpfung, die jedem Paar (a,b) von Elementen aus G ein.
Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Einführung: Statistische Verfahren der automatischen Indexierung
 Präsentation transkript:

Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung

Seminar Textmining WS 06/07 1. Vector Space Model Grundlagen Was ist der Unterschied zwischen Boolschen R. und VSM R.? Warum erlaubt vsm statt Anfragen auch Dokumente als Anfrage? Gegeben seien drei Dokumente. Repräsentieren Sie diese im VSM. D1: Dies ist Dokument Nummer Eins. D2: Und dies dies ist ein ganz anderes Dokument D3: Von Pferden und anderen Haustieren handelt dieses Schriftstück. Gegeben sei nun Anfrage dies Dokument. Geben Sie ein Ranking der drei Dokumente ohne Berücksichtigung der Term-Term-korrelation. Wie sieht das Ranking für dies Nummer aus?

Seminar Textmining WS 06/ Dokumente im VSM 1 dies(4), 2 ist(3), 3 dokument(3), 4 nummer, 5 eins, 6 und, 7 ein(2), 8 ganz, 9 anderes, 10 aber, 11 hier, 12 über, 13 Haustiere D1 = ( ) D2 = ( ) D3 = ( )

Seminar Textmining WS 06/07 2. Ranking Dies Dokument: 1 dies(4), 2 ist(3), 3 dokument(3), 4 nummer, 5 eins, 6 und, 7 ein(2), 8 ganz, 9 anderes, 10 aber, 11 hier, 12 über, 13 Haustiere D1 = ( ) D2 = ( ) D3 = ( ) Dn = a1 a2 a3 … Q1 = ( ) Q2 = ( ) Qn = q1 q2 q3 Sim(D1,Q1)= 1*1 + 1*1 = 2 Sim(D2,Q1)= 2*1 + 1*1 = 3 Sim(D3,Q1)= 1*1 + 1*1 = 2 Ranking={D2,{D1,D3}} Sim(D1,Q2)= 1*1 + 1*1 = 2 Sim(D2,Q2)= 2*1 + 0*1 = 2 Sim(D3,Q2)= 1*1 + 0*1 = 1 Ranking={{D1,D2},D3}

Seminar Textmining WS 06/07 3. Term-Term-Korrelation Gegeben sei folgender Ausschnitt für die Term-Term-Korrelation: Berechnen Sie nun die Rankings der drei Dokumente für beide Anfragen! ai = Dokumentverktorwert qi = Queryvektorwert Summe ai*qi*Tij D = ( … ) Q= ( … ) Sim(D1,Q1)= (1T1 + 1T2 + 1T3 + 1T4+1T5)(1T1 + 1T3)=3.3 T1,1 + T1,2 + T1,3 … + T3,1 + T3, = 4.6 Sim(D2,Q1)= (2*T1 + T2 + T3 +T5 +T6 +T7 +T8)(T1 +T3) = 2T1,1 + 1T1,2 + 1T1,3 + 2T3,1 + 1T3,2 + 1T3,3 = = 6.4 1(dies)2(ist)3(ein)4(Dok)

Seminar Textmining WS 06/07 4. Relevance Feedback Erläutern Sie die folgenden Begriffe: –Explicit feedback –Implicit feedback –Blind feedback Erläutern Sie den Rocchio Algorithmus: (von Jimmy Lin Folien, der diese wiederum aus Doug Ouards Buch hat) q m = modified query vector; q 0 = original query vector; α,β,γ: weights (hand-chosen or set empirically); D r = set of known relevant doc vectors; D nr = set of known irrelevant doc vectors

Seminar Textmining WS 06/07 5. Termgewichtung Gegeben sei Anfrage dies Dokument. –Gewichten Sie die anfrageterme entsprechend ihrer Wichtigkeit. –Welche Kriterien legen Sie dabei zugrunde?

Seminar Textmining WS 06/ Termgewichtung Gegeben sei Anfrage dies Dokument. –Gewichten Sie die anfrageterme entsprechend ihrer Wichtigkeit. Dokument ist wichtiger als dies –Welche Kriterien legen Sie dabei zugrunde? Dokument hat mehr Bedeutung, ist konkreter Wie lassen sich diese Kriterien formalisieren?

Seminar Textmining WS 06/ Termgewichtung Gegeben sei Anfrage dies Dokument. –Gewichten Sie die anfrageterme entsprechend ihrer Wichtigkeit. Dokument ist wichtiger als dies –Welche Kriterien legen Sie dabei zugrunde? Dokument hat mehr Bedeutung, ist konkreter Wie lassen sich diese Kriterien formalisieren? –Termfrequency tf ij = Freq. Von Term i in Dok. j –Ausserdem, in je weniger verschiedenen Dokumenten ein Term vorkommt, umso spezieller ist es fuer das vorliegende Dokument, daher inverse document frequency: logN/n +1 –Tf * idf hat sich bislang als bestes Mass herausgestellt.

Seminar Textmining WS 06/07