Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.

Ähnliche Präsentationen


Präsentation zum Thema: "Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung."—  Präsentation transkript:

1 Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung

2 Seminar Textmining WS 06/07 1. Vector Space Model Grundlagen Was ist der Unterschied zwischen Boolschen R. und VSM R.? Warum erlaubt vsm statt Anfragen auch Dokumente als Anfrage? Gegeben seien drei Dokumente. Repräsentieren Sie diese im VSM. D1: Dies ist Dokument Nummer Eins. D2: Und dies dies ist ein ganz anderes Dokument D3: Von Pferden und anderen Haustieren handelt dieses Schriftstück. Gegeben sei nun Anfrage dies Dokument. Geben Sie ein Ranking der drei Dokumente ohne Berücksichtigung der Term-Term-korrelation. Wie sieht das Ranking für dies Nummer aus?

3 Seminar Textmining WS 06/07 1.1. Dokumente im VSM 1 dies(4), 2 ist(3), 3 dokument(3), 4 nummer, 5 eins, 6 und, 7 ein(2), 8 ganz, 9 anderes, 10 aber, 11 hier, 12 über, 13 Haustiere 1 2 3 4 5 6 7 8 9 10 11 12 13 D1 = (1 1 1 1 1 0 0 0 0 0 0 0 0) D2 = (2 1 1 0 1 1 1 1 0 0 0 0 0) D3 = (1 1 1 0 0 0 1 0 0 1 1 1 1)

4 Seminar Textmining WS 06/07 2. Ranking Dies Dokument: 1 dies(4), 2 ist(3), 3 dokument(3), 4 nummer, 5 eins, 6 und, 7 ein(2), 8 ganz, 9 anderes, 10 aber, 11 hier, 12 über, 13 Haustiere 1 2 3 4 5 6 7 8 9 10 11 12 13 D1 = (1 1 1 1 1 0 0 0 0 0 0 0 0) D2 = (2 1 1 0 1 1 1 1 0 0 0 0 0) D3 = (1 1 1 0 0 0 1 0 0 1 1 1 1) Dn = a1 a2 a3 … Q1 = (1 0 1 0 0 0 0 0 0 0 0 0 0) Q2 = (1 0 0 1 0 0 0 0 0 0 0 0 0) Qn = q1 q2 q3 Sim(D1,Q1)= 1*1 + 1*1 = 2 Sim(D2,Q1)= 2*1 + 1*1 = 3 Sim(D3,Q1)= 1*1 + 1*1 = 2 Ranking={D2,{D1,D3}} Sim(D1,Q2)= 1*1 + 1*1 = 2 Sim(D2,Q2)= 2*1 + 0*1 = 2 Sim(D3,Q2)= 1*1 + 0*1 = 1 Ranking={{D1,D2},D3}

5 Seminar Textmining WS 06/07 3. Term-Term-Korrelation Gegeben sei folgender Ausschnitt für die Term-Term-Korrelation: Berechnen Sie nun die Rankings der drei Dokumente für beide Anfragen! ai = Dokumentverktorwert qi = Queryvektorwert Summe ai*qi*Tij D = (1 1 1 1 1 0 0 … ) Q= (1 0 1 0 … ) Sim(D1,Q1)= (1T1 + 1T2 + 1T3 + 1T4+1T5)(1T1 + 1T3)=3.3 T1,1 + T1,2 + T1,3 … + T3,1 + T3,2 1 0.5 0.8 0.8 0.5 1 = 4.6 Sim(D2,Q1)= (2*T1 + T2 + T3 +T5 +T6 +T7 +T8)(T1 +T3) = 2T1,1 + 1T1,2 + 1T1,3 + 2T3,1 + 1T3,2 + 1T3,3 = 2 + 0.5 + 0.8 + 1.6 + 0.5 + 1 = 6.4 1(dies)2(ist)3(ein)4(Dok) 1 10.50.80 2 0.51 0 3 0.80.510 4 0001

6 Seminar Textmining WS 06/07 4. Relevance Feedback Erläutern Sie die folgenden Begriffe: –Explicit feedback –Implicit feedback –Blind feedback Erläutern Sie den Rocchio Algorithmus: (von Jimmy Lin Folien, der diese wiederum aus Doug Ouards Buch hat) q m = modified query vector; q 0 = original query vector; α,β,γ: weights (hand-chosen or set empirically); D r = set of known relevant doc vectors; D nr = set of known irrelevant doc vectors

7 Seminar Textmining WS 06/07 5. Termgewichtung Gegeben sei Anfrage dies Dokument. –Gewichten Sie die anfrageterme entsprechend ihrer Wichtigkeit. –Welche Kriterien legen Sie dabei zugrunde?

8 Seminar Textmining WS 06/07 5.1. Termgewichtung Gegeben sei Anfrage dies Dokument. –Gewichten Sie die anfrageterme entsprechend ihrer Wichtigkeit. Dokument ist wichtiger als dies –Welche Kriterien legen Sie dabei zugrunde? Dokument hat mehr Bedeutung, ist konkreter Wie lassen sich diese Kriterien formalisieren?

9 Seminar Textmining WS 06/07 5.1. Termgewichtung Gegeben sei Anfrage dies Dokument. –Gewichten Sie die anfrageterme entsprechend ihrer Wichtigkeit. Dokument ist wichtiger als dies –Welche Kriterien legen Sie dabei zugrunde? Dokument hat mehr Bedeutung, ist konkreter Wie lassen sich diese Kriterien formalisieren? –Termfrequency tf ij = Freq. Von Term i in Dok. j –Ausserdem, in je weniger verschiedenen Dokumenten ein Term vorkommt, umso spezieller ist es fuer das vorliegende Dokument, daher inverse document frequency: logN/n +1 –Tf * idf hat sich bislang als bestes Mass herausgestellt.

10 Seminar Textmining WS 06/07

11


Herunterladen ppt "Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung."

Ähnliche Präsentationen


Google-Anzeigen