Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval.

Ähnliche Präsentationen


Präsentation zum Thema: "Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval."—  Präsentation transkript:

1 Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval

2 Seminar Textmining WS 06/07 1. Postings Datei Erklären Sie, wozu es die Postings Datei gibt. Erstellen Sie ein Diagramm, welches darstellt, wie Sie ihre invertierte Liste implementieren würden unter den folgenden Voraussetzungen: –Muss Vector space unterstützen –Suche nach Einzeltermen sollte O(1) sein –Soll relative Positionsinformationen liefern können (z.B. alle Dokumente, wo Term A drei weiter links von Term B vorkommt) –Soll Satz und Absatzgrenzen berücksichtigen

3 Seminar Textmining WS 06/07 2. Clustering Was ist der Unterschied zwischen Klassifikation und Clustering? Gegeben seien folgende Dokumente: –D1 = {1 2 5 3 2 10 0 0 0 0 0 0 0} –D2 = {4 2 0 0 0 1 2 3 0 0 0 0 0} –D3 = {2 1 0 0 0 0 1 1 0 0 0 0 0} –D4 = {0 0 0 0 0 0 0 1 0 1 4 2 1} –D5 = {0 0 0 0 0 0 0 0 1 4 2 1 2} –D6 = {2 1 0 0 0 0 2 2 1 4 2 1 3} –D7 = {0 0 0 0 1 1 2 2 1 0 0 0 0} Erstellen Sie eine Dokumentenähnlichkeitsmatrix. Clustern Sie die Dokumente entsprechend –Single link clustering –Group average link clustering –Heuristisches clustering

4 Seminar Textmining WS 06/07 2.1. Clustering Was ist der Unterschied zwischen Klassifikation und Clustering? Gegeben seien folgende Dokumente: –D1 = {1 2 5 3 2 10 0 0 0 0 0 0 0} –D2 = {4 2 0 0 0 1 2 3 0 0 0 0 0} –D3 = {2 1 0 0 0 0 1 1 0 0 0 0 0} –D4 = {0 0 0 0 0 0 0 1 0 1 4 2 1} –D5 = {0 0 0 0 0 0 0 0 1 4 2 1 2} –D6 = {2 1 0 0 0 0 2 2 1 4 2 1 3} –D7 = {0 0 0 0 1 1 2 2 1 0 0 0 0} Erstellen Sie eine Dokumentenähnlichkeitsmatrix –Summe ai*bi Clustern Sie die Dokumente entsprechend –Single link clustering –Group average link clustering –Heuristisches clustering D1D2D3D4D5D6D7 D116 D2 D3 D4 D5 D6 D7

5 Seminar Textmining WS 06/07 2.2. Clustering Gegeben sei nun die Anfrage T2 T6 (bei 1 anfangen zu zählen), wie könnte Resultat aussehen?


Herunterladen ppt "Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval."

Ähnliche Präsentationen


Google-Anzeigen