Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Renate Schild Geändert vor über 11 Jahren
1
Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval
2
Seminar Textmining WS 06/07 1. Postings Datei Erklären Sie, wozu es die Postings Datei gibt. Erstellen Sie ein Diagramm, welches darstellt, wie Sie ihre invertierte Liste implementieren würden unter den folgenden Voraussetzungen: –Muss Vector space unterstützen –Suche nach Einzeltermen sollte O(1) sein –Soll relative Positionsinformationen liefern können (z.B. alle Dokumente, wo Term A drei weiter links von Term B vorkommt) –Soll Satz und Absatzgrenzen berücksichtigen
3
Seminar Textmining WS 06/07 2. Clustering Was ist der Unterschied zwischen Klassifikation und Clustering? Gegeben seien folgende Dokumente: –D1 = {1 2 5 3 2 10 0 0 0 0 0 0 0} –D2 = {4 2 0 0 0 1 2 3 0 0 0 0 0} –D3 = {2 1 0 0 0 0 1 1 0 0 0 0 0} –D4 = {0 0 0 0 0 0 0 1 0 1 4 2 1} –D5 = {0 0 0 0 0 0 0 0 1 4 2 1 2} –D6 = {2 1 0 0 0 0 2 2 1 4 2 1 3} –D7 = {0 0 0 0 1 1 2 2 1 0 0 0 0} Erstellen Sie eine Dokumentenähnlichkeitsmatrix. Clustern Sie die Dokumente entsprechend –Single link clustering –Group average link clustering –Heuristisches clustering
4
Seminar Textmining WS 06/07 2.1. Clustering Was ist der Unterschied zwischen Klassifikation und Clustering? Gegeben seien folgende Dokumente: –D1 = {1 2 5 3 2 10 0 0 0 0 0 0 0} –D2 = {4 2 0 0 0 1 2 3 0 0 0 0 0} –D3 = {2 1 0 0 0 0 1 1 0 0 0 0 0} –D4 = {0 0 0 0 0 0 0 1 0 1 4 2 1} –D5 = {0 0 0 0 0 0 0 0 1 4 2 1 2} –D6 = {2 1 0 0 0 0 2 2 1 4 2 1 3} –D7 = {0 0 0 0 1 1 2 2 1 0 0 0 0} Erstellen Sie eine Dokumentenähnlichkeitsmatrix –Summe ai*bi Clustern Sie die Dokumente entsprechend –Single link clustering –Group average link clustering –Heuristisches clustering D1D2D3D4D5D6D7 D116 D2 D3 D4 D5 D6 D7
5
Seminar Textmining WS 06/07 2.2. Clustering Gegeben sei nun die Anfrage T2 T6 (bei 1 anfangen zu zählen), wie könnte Resultat aussehen?
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.