Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.

Slides:

Advertisements

Ähnliche Präsentationen

Vom HW-Automaten zum Prozessor

Advertisements

Zerlegung von Graphen.

Relationentheorie AIFB SS Transitive (funktionale) Abhängigkeiten Transitive (funktionale) Abhängigkeiten (1|3) Geg.: r: (U | F); A,

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln

Webseitenranking für Suchanfragen anhand von Linkgraphen

Seminar Textmining WS 06/07 Aufgaben V Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri.

Seminar Textmining WS 06/07 Themen I Übung in erster Linie um zugrundeliegende Methoden zu verstehen. D.h. es gibt immer einen/mehrere Themenschwerpunkte,

Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.

Seminar Textmining WS 06/07 Aufgaben I 1.Metadaten 2.Einfache Inverse Liste 3.Modifizierte Inverse Liste für komplexere Anfragen 4.Boolsches Retrieval.

Seminar Textmining WS 06/07 Themen Übung 8 Diskussion über Erkennung von Eigennamen Question Answering Stemming.

Seminar Textmining WS 06/07

Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval.

Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!

Müll 1NaturEinkaufenMüll 2Vermischtes

3.1 3 Implementierungstechniken 3.1 Kompression von invertierten Dateien Warum? Parameter des Index: N = Anzahl Dokumente n = Anzahl Terme f t = Dokumentfrequenz.

Herzlich Willkommen zum Tutorium: Makroökonomik WS 2009/10 // Holger Nickel.

Übungsblatt 05 Lehrstuhl für Kommunal- und Umweltökonomie

Theorie psychometrischer Tests, III

Maschinelle Übersetzung I

Nebenläufigkeit Teil I

Minimieren ohne Ableitungen

Messung in Einheiten der Standardabweichung

Informationsgewinnung mit Agenten

REKURSION + ITERATION. Bemerkung: Die in den folgenden Folien angegebenen "Herleitungen" sind keine exakten Beweise, sondern Plausibilitätsbetrachtungen.

Gottfried Vossen 5. Auflage 2008 Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme Kapitel 22: Grundlagen der Crash Recovery.

Information Retrieval Modelle: Vektor-Modell

Beispiele für Gleichungssysteme

Übung Datenbanksysteme SQL-Anfragen (2)

XML-Algebren Martin Winkler.

Wir haben gemogelt !.

(Ron Rivest, Adi Shamit, Leonard Adleman , 1977)

Poisson - Verteilung P Poisson - Verteilung

Automatisches Clustering und automatische Klassifikation

Spree SoSe 2011 Clustering – Wie Maschinen die Ähnlichkeit von Dokumenten erkennen.

Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.

Relevanz Ranking Bisher:

Bedingte Wahrscheinlichkeiten

Statistische Methoden I WS 2004/2005 Probeklausur Freitag, 21. Januar statt Vorlesung - In 2 Wochen In 2 Wochen!

Recovery AIFB SS Recovery 5.1 Fehler im Datenbankbetrieb(1/10) (1)Transaktionsfehler (TF) (2)Systemfehler (SF) (3)Speicherfehler (SpF) Fehlerfallen.

Information Retrieval: Methoden zur Selektivitätsabschätzung

Implementierung von S2PL (1) Scheduler als Verwalter von Sperren auf Datenelementen sowie Warteschlangen für Sperren (Sperren-Verwalter). Transaktion 1Transaktion.

Bézier-Bernstein Methoden für Bivariate Polynome

§8 Gruppen und Körper (8.1) Definition: Eine Gruppe G ist eine Menge zusammen mit einer Verknüpfung, die jedem Paar (a,b) von Elementen aus G ein weiteres.

Machine Learning KNN und andere (Kap. 8).

So, ein paar Fragen.. Wo sind mehr Bälle? Wo sind mehr Steine?

§24 Affine Koordinatensysteme

Effiziente Algorithmen

Design and analysis of GUI test-case prioritization using weight-based methods Samra Khan.

... Unternehmens- leitung

Übungsblatt 02 Lehrstuhl für Kommunal- und Umweltökonomie

Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/

Übungsblatt 05 Lehrstuhl für Kommunal- und Umweltökonomie

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/

Information und Kommunikation Hartmut Klauck Universität Frankfurt SS

Klicken Sie in der Meldungsleiste auf Bearbeitung aktivieren,

Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt

Systematisierung von Entscheidungssituationen nach dem Informationsstand bzgl. der Umwelt Unge- wißheit Risiko Sicherheit Unsicherheit Entscheidungen.

Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt

Eine mannschaftstaktische Maßnahme im Volleyball

Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.

Information Retrieval, Vektorraummodell

Vegetationsplot 43 m 10 m Sammlerplot Reserveplot Bodenplot A1 A2 A3 A4 B1 B2 B3 B4 C1 C2 C3 C4 D1 D2 D3 D4 Streusammler Schneesammler Regensammler Vegetationsquadrat.

You need to use your mouse to see this presentation © Heidi Behrens.

Information Retrieval Modelle: Probabilistische Modelle Kursfolien

Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)

2 Grundlagen des Information Retrieval

Folie 1 §8 Gruppen und Körper (8.1) Definition: Eine Gruppe G ist eine Menge zusammen mit einer Verknüpfung, die jedem Paar (a,b) von Elementen aus G ein.

Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

Einführung: Statistische Verfahren der automatischen Indexierung

Präsentation transkript:

Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung

Seminar Textmining WS 06/07 1. Vector Space Model Grundlagen Was ist der Unterschied zwischen Boolschen R. und VSM R.? Warum erlaubt vsm statt Anfragen auch Dokumente als Anfrage? Gegeben seien drei Dokumente. Repräsentieren Sie diese im VSM. D1: Dies ist Dokument Nummer Eins. D2: Und dies dies ist ein ganz anderes Dokument D3: Von Pferden und anderen Haustieren handelt dieses Schriftstück. Gegeben sei nun Anfrage dies Dokument. Geben Sie ein Ranking der drei Dokumente ohne Berücksichtigung der Term-Term-korrelation. Wie sieht das Ranking für dies Nummer aus?

Seminar Textmining WS 06/ Dokumente im VSM 1 dies(4), 2 ist(3), 3 dokument(3), 4 nummer, 5 eins, 6 und, 7 ein(2), 8 ganz, 9 anderes, 10 aber, 11 hier, 12 über, 13 Haustiere D1 = ( ) D2 = ( ) D3 = ( )

Seminar Textmining WS 06/07 2. Ranking Dies Dokument: 1 dies(4), 2 ist(3), 3 dokument(3), 4 nummer, 5 eins, 6 und, 7 ein(2), 8 ganz, 9 anderes, 10 aber, 11 hier, 12 über, 13 Haustiere D1 = ( ) D2 = ( ) D3 = ( ) Dn = a1 a2 a3 … Q1 = ( ) Q2 = ( ) Qn = q1 q2 q3 Sim(D1,Q1)= 1*1 + 1*1 = 2 Sim(D2,Q1)= 2*1 + 1*1 = 3 Sim(D3,Q1)= 1*1 + 1*1 = 2 Ranking={D2,{D1,D3}} Sim(D1,Q2)= 1*1 + 1*1 = 2 Sim(D2,Q2)= 2*1 + 0*1 = 2 Sim(D3,Q2)= 1*1 + 0*1 = 1 Ranking={{D1,D2},D3}

Seminar Textmining WS 06/07 3. Term-Term-Korrelation Gegeben sei folgender Ausschnitt für die Term-Term-Korrelation: Berechnen Sie nun die Rankings der drei Dokumente für beide Anfragen! ai = Dokumentverktorwert qi = Queryvektorwert Summe ai*qi*Tij D = ( … ) Q= ( … ) Sim(D1,Q1)= (1T1 + 1T2 + 1T3 + 1T4+1T5)(1T1 + 1T3)=3.3 T1,1 + T1,2 + T1,3 … + T3,1 + T3, = 4.6 Sim(D2,Q1)= (2*T1 + T2 + T3 +T5 +T6 +T7 +T8)(T1 +T3) = 2T1,1 + 1T1,2 + 1T1,3 + 2T3,1 + 1T3,2 + 1T3,3 = = 6.4 1(dies)2(ist)3(ein)4(Dok)

Seminar Textmining WS 06/07 4. Relevance Feedback Erläutern Sie die folgenden Begriffe: –Explicit feedback –Implicit feedback –Blind feedback Erläutern Sie den Rocchio Algorithmus: (von Jimmy Lin Folien, der diese wiederum aus Doug Ouards Buch hat) q m = modified query vector; q 0 = original query vector; α,β,γ: weights (hand-chosen or set empirically); D r = set of known relevant doc vectors; D nr = set of known irrelevant doc vectors

Seminar Textmining WS 06/07 5. Termgewichtung Gegeben sei Anfrage dies Dokument. –Gewichten Sie die anfrageterme entsprechend ihrer Wichtigkeit. –Welche Kriterien legen Sie dabei zugrunde?

Seminar Textmining WS 06/ Termgewichtung Gegeben sei Anfrage dies Dokument. –Gewichten Sie die anfrageterme entsprechend ihrer Wichtigkeit. Dokument ist wichtiger als dies –Welche Kriterien legen Sie dabei zugrunde? Dokument hat mehr Bedeutung, ist konkreter Wie lassen sich diese Kriterien formalisieren?

Seminar Textmining WS 06/ Termgewichtung Gegeben sei Anfrage dies Dokument. –Gewichten Sie die anfrageterme entsprechend ihrer Wichtigkeit. Dokument ist wichtiger als dies –Welche Kriterien legen Sie dabei zugrunde? Dokument hat mehr Bedeutung, ist konkreter Wie lassen sich diese Kriterien formalisieren? –Termfrequency tf ij = Freq. Von Term i in Dok. j –Ausserdem, in je weniger verschiedenen Dokumenten ein Term vorkommt, umso spezieller ist es fuer das vorliegende Dokument, daher inverse document frequency: logN/n +1 –Tf * idf hat sich bislang als bestes Mass herausgestellt.

Seminar Textmining WS 06/07