Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Irmgard Stram Geändert vor über 11 Jahren
1
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 1 Gruppe Clustering 1.02.2000 Einführung AIFB Seminar Text Mining Gruppe V Text Clustering Oliver Kunzelmann, Robin Meyersiek, Stefan Speidel
2
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 2 Gruppe Clustering 1.02.2000 1. Text Clustering Wissensgewinnung aus Texten 2. Document Clustering Untersuchung der im IBM Intelligent Miner for Text implementierten Clusterverfahren Einführung
3
Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 3 Gruppe Clustering 1.02.2000 1. Text Clustering Einführung Dokumente PreprocessingMatrixClusteralgorithmus
4
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 4 Gruppe Clustering 1.02.2000 Transformation des natürlich-sprachlichen Textes in eine computergerechte Datenform: Reduktion der Dokumente auf ihren wesentlichen Inhalt Stemming Analyse der Dokumentstruktur Morphological Analysis, Sätze, Subjekte/Objekte und Verben Preprocessing mit WinSmes Preprocessing
5
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 5 Gruppe Clustering 1.02.2000 Der Schiedsrichter zog die gelbe Karte. ((((:SYN (:SUBJ (:RANGE (:SEM (:HEAD "schiedsrichter") (:QUANTIFIER "d-det")) (:AGR ((:TENSE. :NO) (:FORM. :NO) (:PERSON. 3) (:GENDER. :M) (:NUMBER. :S) (:CASE. :NOM)) ((:TENSE. :NO) (:FORM. :NO) (:PERSON. 3) (:GENDER. :M) (:NUMBER. :P) (:CASE. :GEN))) (:END. 2) (:START. 0) (:TYPE. :NP))) (:OBJ (:RANGE (:SEM (:HEAD "karte") (:MODS "gelb") (:QUANTIFIER "d-det")) (:AGR ((:TENSE. :NO) (:FORM. :NO) (:PERSON. 3) (:GENDER. :F) (:NUMBER. :S) (:CASE. :AKK)) ((:TENSE. :NO) (:FORM. :NO) (:PERSON. 3) (:GENDER. :F) (:NUMBER. :S) (:CASE. :NOM))) (:END. 6) (:START. 3) (:TYPE. :NP))) (:NP-MODS) (:PP-MODS) (:SC-MODS) (:PROCESS (:ART. :FIN) (:STEM. "zieh") (:FORM. "zog") (:END. 3) (:START. 2) (:TYPE. :VERB)) (:FRAME ((:NP. :NOM) (:NP. :AKK))) (:START. 0) (:END. 6) (:SQL-TYPE. :GF-VERB-NODE) (:TYPE. :SUBJ-OBJ))))) Preprocessing
6
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 6 Gruppe Clustering 1.02.2000 Preprocessing Schwachpunkte von WinSMES 0.99 Hoher Bedarf an Rechnerleistung. Bei der grammatikalischen Analyse wurden nicht alle Dokumente bearbeitet. Einlesen der Quelldaten in WinSmes aufwendig, da das Programm keine größeren Inputs verkraftet
7
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 7 Gruppe Clustering 1.02.2000 Erzeugung der Nomen-Verb Matrix Zähle, wie viele unterschiedliche Nomen und Verben im gesamten Textkörper vorkommen und schreibe sie in zwei Stringvektoren N und V. Erstelle eine VxN Zahlenmatrix. (Eine Zeile für jedes Nomen und eine Spalte für jedes Verb) Parse die Dokumente Satz für Satz. Zu jedem Satz wird der Wortstamm des Hauptverbes und die Wortstämme aller vorkommenden Nomen herausgesucht und in der Matrix an den entsprechenden Punkten eingetragen. Matrixer- zeugung
8
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 8 Gruppe Clustering 1.02.2000 Reduzieren der Matrix Jedes Nomen wird somit durch seinen Verbvektor im Raum der Verben beschrieben. Die hohe Dimensionalität dieses Raumes ist jedoch für Clusteralgorithmen sehr rechen- und speicherintensiv Reduziere die Matrix wo möglich und sinnvoll: Entferne Spalten und Zeilen mit Stopwörtern (z.B. sein, Minute) Entferne alle Zeilen und Spalten die nur Nullen enthalten Matrixer- zeugung
9
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 9 Gruppe Clustering 1.02.2000 Reduzieren mit Domänenlexikon Aus dem Domänenlexikon können Synonyme durch ihr Hauptbedeutungswort ersetzt werden z.B.: Matthäus Spieler 60er TSV 1860 München Problem: Noch kein Domänenlexikon vorhanden! Matrixer- zeugung
10
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 10 Gruppe Clustering 1.02.2000 Normalisieren der Matrix Jeder Eintrag in der Matrix wird durch die entsprechende Spalten- und Zeilensumme geteilt und so normalisiert. Dies entspricht einer term frequency (tf) bzw. term frequency - inverse document frequency (tfidf) Gewichtung beim Document clustering und der Normalisierung auf die Dokumentenlänge. Spaltensummen: Verben die sehr häufig bzw. mit vielen verschiedenen Nomen vorkommen sind nicht so bezeichnend für das Nomen. Zeilensummen: Nicht die absolute Anzahl an Nomen-verb- kombinationen, sondern der relative Anteil einer Kombination an allen Kombinationen eines Nomens ist relevant. Matrixer- zeugung 4/(63*5) = 0,0127
11
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 11 Gruppe Clustering 1.02.2000 Normalisieren der Matrix Matrixer- zeugung
12
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 12 Gruppe Clustering 1.02.2000 k-means Clustern Die so reduzierte und normalisierte Matrix hatte 351 Spalten (Verben) und 944 Zeilen (Nomen) Mit Hilfe von SPSS wurde sie mit dem k-means Algorithmus geclustert. Dabei wird die Anzahl an gewünschten Clustern vorgegeben. Wir probierten diverse Werte aus und nahmen schließlich 200. Dabei landeten 623 Nomen im selben Cluster. Also clusterten wir diese nocheinmal im selben Verfahren.
13
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 13 Gruppe Clustering 1.02.2000 k-means Clustern k-means Clustern – Output-Auszug
14
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 14 Gruppe Clustering 1.02.2000 Hierarchisches Clustern Das hierarchische Clustern erfordert noch mehr Rechenzeit und Speicher. Dafür kann man mit Hilfe eines Dendrogramms schnell welche Cluster nahe beieinander liegen. Hierarchisch Clustern
15
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 15 Gruppe Clustering 1.02.2000 Dokument Clustern Clustern von Texten und nicht von Textinhalten Clustern basiert auf Häufigkeiten von vorkommenden Wörtern verwendetes Tool ist IBM-Intelligent-Miner for Text Cluster-Tool für englische Texte ausgelegt Dokument Clustern
16
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 16 Gruppe Clustering 1.02.2000 IBM-Cluster-Tool Mögliche Clusterverfahren sind das binary und das hierarchical clustering Stoplist-Verfahren dem Clusterverfahren vorausschaltbar Aufruf des Cluster-Tools über Kommadozeilen Vielzahl von Parameter für Algorithmus wählbar Dokument Clustern
17
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 17 Gruppe Clustering 1.02.2000 imzxrun -x ant -b 2 -f C -I files.txt imzrclst -v -c s -a 20 -n 7 -o outfile Aufrufzeile mit Paramter Clusterprogramm Preprosessinga: Detect abbreviations (f.e. categories NAME, PERSON, ORG, PLACE, OTHER). n: Extract names (categories NAME, PERSON, ORG, PLACE, OTHER). t: Extract terms (category UTERM). w: wide topics (fewer clusters) m: medium topics s: specific topics (many clusters) Ähnlichkeit der Cluster in % Anzahl der Cluster Dokument Clustern
18
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 18 Gruppe Clustering 1.02.2000 Hierarchical Clustering Ergebnisse der Verfahren Input: 88 Textdokumente Sprache Englisch mit Preprocessing Binary Relational Clustering Int. Miner Beispiele
19
Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 19 Gruppe Clustering 1.02.2000 Schlußbetrachtung Inhaltliches Clustern bedarf einer großen Datenmenge als Input, um vernünftige Ergebnisse zu liefern Dokument Clustern mit Intelligent Miner nur mit Englischen Texten möglich (sinnvoll) Clusterverfahren mit Search Engine koppeln schwierig Schlußbe- trachtung
Ähnliche Präsentationen
© 2025 SlidePlayer.org Inc.
All rights reserved.