Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.

Ähnliche Präsentationen


Präsentation zum Thema: "Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering."—  Präsentation transkript:

1 Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering

2 Seminar Textmining WS 06/07 1. Termgewichtung Gegeben sei Anfrage dieses kleine Dokument über Information Retrieval. –Gewichten Sie die Anfrageterme entsprechend ihrer Wichtigkeit. –Welche Kriterien legen Sie dabei zugrunde? Wie lassen sich diese Kriterien formalisieren?

3 Seminar Textmining WS 06/07 1.1. Termgewichtung Gegeben sei Anfrage dieses kleine Dokument über Information Retrieval. –Gewichten Sie die Anfrageterme entsprechend ihrer Wichtigkeit. –Welche Kriterien legen Sie dabei zugrunde? Wie lassen sich diese Kriterien formalisieren? Frequenz Wortgruppen Abstand

4 Seminar Textmining WS 06/07 1.1. Termgewichtung Gegeben sei Anfrage dies Dokument. –Gewichten Sie die Anfrageterme entsprechend ihrer Wichtigkeit. Dokument ist wichtiger als dies –Welche Kriterien legen Sie dabei zugrunde? Dokument hat mehr Bedeutung, ist konkreter Wie lassen sich diese Kriterien formalisieren? –Termfrequency tf ij = Freq. Von Term i in Dok. j –Ausserdem, in je weniger verschiedenen Dokumenten ein Term vorkommt, umso spezieller ist es fuer das vorliegende Dokument, daher inverse document frequency: logN/n +1 (n ist Anzahl der Dokumente mit Term i, N alle Dokumente) –Cfreq = K + (1-K) freqTermIinJ / maxFreqJ –Nfreq = log(freqTermIinJ +1) / log lengthJ –Tf * idf hat sich bislang als bestes Mass herausgestellt.

5 Seminar Textmining WS 06/07 1.3. Termgewichte Rechnen Sie die Termgewichte für in, Asien, Ferrari, Schumacher, Rennen nach den verschiedenen Varianten aus und vergleichen Sie mit Ihrer Intuition über die Wichtigkeit der Terme. Ferrari siegt wieder! (51) –Ferrari Sieg Schumacher –Bei dem gestrigen Rennen gewann Michael S. in einem überzeugenden Rennen zum 5. Mal in Folge die Goldmedaille. Während das Rennen am Anfang noch von X dominiert wurde, konnte Michael S. X schließlich in einem gewagten Manöver überholen und verlor den Vorsprung nicht wieder. Unfall bei Rennen (33) –Ferrari Schumacher Karambolage –Am vergangenen Samstag kam es zu einer Massenkarambolage, in die auch Michael Schumacher vom Ferrari Team verwickelt wurde. Durch das deutlich gelichtete Fahrerfeld gewinnt Y anschließend. Neuer Motor mit weniger Verbrauch bei gleicher Leistung (40) –Toyota Energieeffizienz Antriebsleistung –Der neue Antrieb, vorgestellt von Toyota und hergestellt in Asien, erreicht durch ein Computergesteuertes Einspritz- und Zündungsverfahren bei gleicher Leistung einen im Schnitt um 1,2 Liter verringerten Benzinverbrauch

6 Seminar Textmining WS 06/07 2. Postings Datei Erklären Sie, wozu es die Postings Datei gibt. Erstellen Sie ein Diagramm, welches darstellt, wie Sie ihre invertierte Liste implementieren würden unter den folgenden Voraussetzungen: –Muss Vector space unterstützen –Suche nach Einzeltermen sollte O(1) sein –Soll relative Positionsinformationen liefern können (z.B. alle Dokumente, wo Term A drei weiter links von Term B vorkommt) –Soll Satz und Absatzgrenzen berücksichtigen


Herunterladen ppt "Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering."

Ähnliche Präsentationen


Google-Anzeigen