Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 1 Gruppe Clustering Einführung AIFB Seminar Text Mining Gruppe V Text Clustering Oliver Kunzelmann, Robin Meyersiek, Stefan Speidel
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 2 Gruppe Clustering Text Clustering Wissensgewinnung aus Texten 2. Document Clustering Untersuchung der im IBM Intelligent Miner for Text implementierten Clusterverfahren Einführung
Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 3 Gruppe Clustering Text Clustering Einführung Dokumente PreprocessingMatrixClusteralgorithmus
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 4 Gruppe Clustering Transformation des natürlich-sprachlichen Textes in eine computergerechte Datenform: Reduktion der Dokumente auf ihren wesentlichen Inhalt Stemming Analyse der Dokumentstruktur Morphological Analysis, Sätze, Subjekte/Objekte und Verben Preprocessing mit WinSmes Preprocessing
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 5 Gruppe Clustering Der Schiedsrichter zog die gelbe Karte. ((((:SYN (:SUBJ (:RANGE (:SEM (:HEAD "schiedsrichter") (:QUANTIFIER "d-det")) (:AGR ((:TENSE. :NO) (:FORM. :NO) (:PERSON. 3) (:GENDER. :M) (:NUMBER. :S) (:CASE. :NOM)) ((:TENSE. :NO) (:FORM. :NO) (:PERSON. 3) (:GENDER. :M) (:NUMBER. :P) (:CASE. :GEN))) (:END. 2) (:START. 0) (:TYPE. :NP))) (:OBJ (:RANGE (:SEM (:HEAD "karte") (:MODS "gelb") (:QUANTIFIER "d-det")) (:AGR ((:TENSE. :NO) (:FORM. :NO) (:PERSON. 3) (:GENDER. :F) (:NUMBER. :S) (:CASE. :AKK)) ((:TENSE. :NO) (:FORM. :NO) (:PERSON. 3) (:GENDER. :F) (:NUMBER. :S) (:CASE. :NOM))) (:END. 6) (:START. 3) (:TYPE. :NP))) (:NP-MODS) (:PP-MODS) (:SC-MODS) (:PROCESS (:ART. :FIN) (:STEM. "zieh") (:FORM. "zog") (:END. 3) (:START. 2) (:TYPE. :VERB)) (:FRAME ((:NP. :NOM) (:NP. :AKK))) (:START. 0) (:END. 6) (:SQL-TYPE. :GF-VERB-NODE) (:TYPE. :SUBJ-OBJ))))) Preprocessing
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 6 Gruppe Clustering Preprocessing Schwachpunkte von WinSMES 0.99 Hoher Bedarf an Rechnerleistung. Bei der grammatikalischen Analyse wurden nicht alle Dokumente bearbeitet. Einlesen der Quelldaten in WinSmes aufwendig, da das Programm keine größeren Inputs verkraftet
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 7 Gruppe Clustering Erzeugung der Nomen-Verb Matrix Zähle, wie viele unterschiedliche Nomen und Verben im gesamten Textkörper vorkommen und schreibe sie in zwei Stringvektoren N und V. Erstelle eine VxN Zahlenmatrix. (Eine Zeile für jedes Nomen und eine Spalte für jedes Verb) Parse die Dokumente Satz für Satz. Zu jedem Satz wird der Wortstamm des Hauptverbes und die Wortstämme aller vorkommenden Nomen herausgesucht und in der Matrix an den entsprechenden Punkten eingetragen. Matrixer- zeugung
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 8 Gruppe Clustering Reduzieren der Matrix Jedes Nomen wird somit durch seinen Verbvektor im Raum der Verben beschrieben. Die hohe Dimensionalität dieses Raumes ist jedoch für Clusteralgorithmen sehr rechen- und speicherintensiv Reduziere die Matrix wo möglich und sinnvoll: Entferne Spalten und Zeilen mit Stopwörtern (z.B. sein, Minute) Entferne alle Zeilen und Spalten die nur Nullen enthalten Matrixer- zeugung
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 9 Gruppe Clustering Reduzieren mit Domänenlexikon Aus dem Domänenlexikon können Synonyme durch ihr Hauptbedeutungswort ersetzt werden z.B.: Matthäus Spieler 60er TSV 1860 München Problem: Noch kein Domänenlexikon vorhanden! Matrixer- zeugung
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 10 Gruppe Clustering Normalisieren der Matrix Jeder Eintrag in der Matrix wird durch die entsprechende Spalten- und Zeilensumme geteilt und so normalisiert. Dies entspricht einer term frequency (tf) bzw. term frequency - inverse document frequency (tfidf) Gewichtung beim Document clustering und der Normalisierung auf die Dokumentenlänge. Spaltensummen: Verben die sehr häufig bzw. mit vielen verschiedenen Nomen vorkommen sind nicht so bezeichnend für das Nomen. Zeilensummen: Nicht die absolute Anzahl an Nomen-verb- kombinationen, sondern der relative Anteil einer Kombination an allen Kombinationen eines Nomens ist relevant. Matrixer- zeugung 4/(63*5) = 0,0127
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 11 Gruppe Clustering Normalisieren der Matrix Matrixer- zeugung
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 12 Gruppe Clustering k-means Clustern Die so reduzierte und normalisierte Matrix hatte 351 Spalten (Verben) und 944 Zeilen (Nomen) Mit Hilfe von SPSS wurde sie mit dem k-means Algorithmus geclustert. Dabei wird die Anzahl an gewünschten Clustern vorgegeben. Wir probierten diverse Werte aus und nahmen schließlich 200. Dabei landeten 623 Nomen im selben Cluster. Also clusterten wir diese nocheinmal im selben Verfahren.
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 13 Gruppe Clustering k-means Clustern k-means Clustern – Output-Auszug
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 14 Gruppe Clustering Hierarchisches Clustern Das hierarchische Clustern erfordert noch mehr Rechenzeit und Speicher. Dafür kann man mit Hilfe eines Dendrogramms schnell welche Cluster nahe beieinander liegen. Hierarchisch Clustern
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 15 Gruppe Clustering Dokument Clustern Clustern von Texten und nicht von Textinhalten Clustern basiert auf Häufigkeiten von vorkommenden Wörtern verwendetes Tool ist IBM-Intelligent-Miner for Text Cluster-Tool für englische Texte ausgelegt Dokument Clustern
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 16 Gruppe Clustering IBM-Cluster-Tool Mögliche Clusterverfahren sind das binary und das hierarchical clustering Stoplist-Verfahren dem Clusterverfahren vorausschaltbar Aufruf des Cluster-Tools über Kommadozeilen Vielzahl von Parameter für Algorithmus wählbar Dokument Clustern
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 17 Gruppe Clustering imzxrun -x ant -b 2 -f C -I files.txt imzrclst -v -c s -a 20 -n 7 -o outfile Aufrufzeile mit Paramter Clusterprogramm Preprosessinga: Detect abbreviations (f.e. categories NAME, PERSON, ORG, PLACE, OTHER). n: Extract names (categories NAME, PERSON, ORG, PLACE, OTHER). t: Extract terms (category UTERM). w: wide topics (fewer clusters) m: medium topics s: specific topics (many clusters) Ähnlichkeit der Cluster in % Anzahl der Cluster Dokument Clustern
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 18 Gruppe Clustering Hierarchical Clustering Ergebnisse der Verfahren Input: 88 Textdokumente Sprache Englisch mit Preprocessing Binary Relational Clustering Int. Miner Beispiele
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 19 Gruppe Clustering Schlußbetrachtung Inhaltliches Clustern bedarf einer großen Datenmenge als Input, um vernünftige Ergebnisse zu liefern Dokument Clustern mit Intelligent Miner nur mit Englischen Texten möglich (sinnvoll) Clusterverfahren mit Search Engine koppeln schwierig Schlußbe- trachtung