Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Seminar Textmining WS 06/07 Aufgaben V Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri.

Ähnliche Präsentationen


Präsentation zum Thema: "Seminar Textmining WS 06/07 Aufgaben V Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri."—  Präsentation transkript:

1 Seminar Textmining WS 06/07 Aufgaben V Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri

2 Seminar Textmining WS 06/07

3 1. Klassifikation Welche Sorten von Klassifikationen gibt es? –Erläutern Sie Facettenklassifikation, Registerklassifikation und Dezimalklassifikation? –Lässt sich eine Polyhierarchie stets in eine Monohierarchie überführen? Gegeben seien drei Dokumente und zwei Klassen. D1 = T1 T1 D2 = T2 T2 D3 = T1 T2 T3 K1 = T1 K2 = T2 Klassifizieren Sie die Dokumente in die zwei Klassen unter berücksichtigung einer Term-Term Korrelationsmatrix T1T2T3 T100 T20.5 T3

4 Seminar Textmining WS 06/07 2. Probabilistic Information Retrieval Im binary independence model, wenn P(rel), wie gross ist dann P(nrel)? Es werden Wahrscheinlichkeiten genutzt, um auszurechnen, wie ein Dokument zu einer query passt f(d,q) liefert einen Wert, der aussagt, wie sehr d zu q passt. Dadurch lassen sich alle d zu q ranken. f(d,q) = log (Pq(rel|(d1,…,dn)) / (1-Pq(rel…))) Um aber Pq abschaetzen zu können wird bedingte Unabhängigkeit angenommen, somit f(d,q) = Summei di log ((pi(1-qi)) / (qi(1-pi)) ) Dabei ist pi die Wkt. Dass ein relevantes Dokument Term i beinhaltet Und qi ist die Wkt., dass ein irrelevantes Dok. Term i beinhaltet Nach Schätzung durch Relevanzurteile dann nur noch einsetzen

5 Seminar Textmining WS 06/07 2.1. Daten Berechnen sie, wie sehr Dokumente zu query passen, wenn Relevanz, Dokumente und Terme gegeben sind. T1 T2 T3 T4 T5 rel(q1) D1 1 1 1 0 0 n D2 1 1 0 0 1 n D3 0 0 1 1 1 n D4 0 1 1 0 0 r D5 1 1 0 0 0 r D6 1 0 1 0 1 r D7 0 1 0 1 0 n pi1 (ri/r) qi1 (fi-ri)/(f-r) -fi ist dok. mit i- f ist zahl dokumente -ri ist rel. mit i- r ist zahl rel. dokum. q1 1 1 0 0 1 f(d,q) = Summei dUNDqi log ((pi(1-qi)) / (qi(1-pi)) ) f(d1,q1) = f(d2,q1) = f(d3,q1) = F(d4,q1) = F(d5,q1) = F(d6,q1) = F(d7,q1) =

6 Seminar Textmining WS 06/07 2.2. Daten T1 T2 T3 T4 T5 rel(q1) D1 1 1 1 0 0 n D2 1 1 0 0 1 n D3 0 0 1 1 1 n D4 0 1 1 0 0 r D5 1 1 0 0 0 r D6 1 0 1 0 1 r D7 0 1 0 1 0 n pi1 2/3 2/3 2/3 0 1/3 (ri/r) qi1 2/4 3/4 2/4 2/4 2/4 (fi-ri)/(f-r) -fi ist dok. mit i- f ist zahl dokumente -ri ist rel. mit i- r ist zahl rel. dokum. q1 1 1 0 0 1 f(d1,q1) = Si di log ((pi(1-qi)) / (qi(1-pi)) ) %aber nur da, wo Ti und Di != 0 = 1*log(0.6*0.5/0.5*0.3) + 1*log(0.6*0.25/0.75*0.3) +0 + 0 + 0 = = 0.3 + -0.18 + 0 + 0 + 0 = 0.12 f(d2,q1) = 0.3 + -0.18 + 0 + 0 + -0.3 = -0.18 f(d3,q1) = 0 + 0 + 0 + 0 + -0.3 = -0.3 F(d4,q1) = 0 + -0.18 + 0 + 0 + 0 = -0.18 F(d5,q1) = 0.3 + -0.18 + 0 + 0 + 0 = 0.12 F(d6,q1) = 0.3 + 0 + 0 + 0 + -0.3 = 0 F(d7,q1) = 0 + -0.18 + 0 + 0 + 0 = -0.18

7 Seminar Textmining WS 06/07 3. Indexierung von Dokumenten Welche Indexierungsvarianten sind Ihnen bekannt? Welche Terme sollen im Index stehen? Welche Faktoren spielen eine negative Rolle?

8 Seminar Textmining WS 06/07 3.1. Indexierung von Dokumenten Welche Indexierungsvarianten sind Ihnen bekannt? –Titelbasiertes indexieren –Schlagwörterbasiert –Abstract –Ordnungssystem (Klassifikationssystem) Welche Terme sollen im Index stehen? Welche Faktoren spielen eine negative Rolle? –Ambiguität –Historisch verwandte Begriffe –Metaphorische Benutzung –Fachterminologie –Unspezifische Terme –Verwendung der Terme bei Recherche und bei Indexierung

9 Seminar Textmining WS 06/07 3.2. WordNet 00003226 03 n 02 organism 0 being 0 055 @ 00003009 n 0000 + 02536315 v 0201 -c 00270602 a 0000 -c 00323358 a 0000 -c 01615477 a 0000 ~ 00004358 n 0000 ~... 01242256 05 n 01 conspecific 0 001 @ 00003226 n 0000 | an organism belonging to the same species as another organism doc


Herunterladen ppt "Seminar Textmining WS 06/07 Aufgaben V Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri."

Ähnliche Präsentationen


Google-Anzeigen