Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval
Seminar Textmining WS 06/07 1. Postings Datei Erklären Sie, wozu es die Postings Datei gibt. Erstellen Sie ein Diagramm, welches darstellt, wie Sie ihre invertierte Liste implementieren würden unter den folgenden Voraussetzungen: –Muss Vector space unterstützen –Suche nach Einzeltermen sollte O(1) sein –Soll relative Positionsinformationen liefern können (z.B. alle Dokumente, wo Term A drei weiter links von Term B vorkommt) –Soll Satz und Absatzgrenzen berücksichtigen
Seminar Textmining WS 06/07 2. Clustering Was ist der Unterschied zwischen Klassifikation und Clustering? Gegeben seien folgende Dokumente: –D1 = { } –D2 = { } –D3 = { } –D4 = { } –D5 = { } –D6 = { } –D7 = { } Erstellen Sie eine Dokumentenähnlichkeitsmatrix. Clustern Sie die Dokumente entsprechend –Single link clustering –Group average link clustering –Heuristisches clustering
Seminar Textmining WS 06/ Clustering Was ist der Unterschied zwischen Klassifikation und Clustering? Gegeben seien folgende Dokumente: –D1 = { } –D2 = { } –D3 = { } –D4 = { } –D5 = { } –D6 = { } –D7 = { } Erstellen Sie eine Dokumentenähnlichkeitsmatrix –Summe ai*bi Clustern Sie die Dokumente entsprechend –Single link clustering –Group average link clustering –Heuristisches clustering D1D2D3D4D5D6D7 D116 D2 D3 D4 D5 D6 D7
Seminar Textmining WS 06/ Clustering Gegeben sei nun die Anfrage T2 T6 (bei 1 anfangen zu zählen), wie könnte Resultat aussehen?