Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 1 Gruppe Clustering.

Slides:

Advertisements

Ähnliche Präsentationen

Algorithmen und Datenstrukturen

Advertisements

Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

Seminar Experimentielle Evaluierung im Information Retrieval Aufgabenstellung, Ablauf, Probleme, Lösungen und Ergebnisse des Experiments Martin Jansson.

Kohonennetze für Information Retrieval mit User Feedback

Eine dynamische Menge, die diese Operationen unterstützt,

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln

Objekt – Relationales – Modell Tomasz Makowski IN

Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.

Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval.

3. Kapitel: Komplexität und Komplexitätsklassen

Seminar Stochastik im WS 02/03

HTML - Einführung Richard Göbel.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.

DOM (Document Object Model)

Parameterübergabe von zweidimensionalen Feldern in Funktionen.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.

Information Retrieval Modelle: Vektor-Modell

Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.

EINI-I Einführung in die Informatik für Naturwissenschaftler und Ingenieure I Kapitel 7 Claudio Moraga, Gisbert Dittrich FBI Unido

EINI-I Einführung in die Informatik für Naturwissenschaftler und Ingenieure I Vorlesung 2 SWS WS 99/00 Gisbert Dittrich FBI Unido

Zusammenfassung Vorwoche

High Performance = Innovative Computer Systems + Efficient Algorithms Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen.

Lexikalisch-Funktionale Grammatik

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

Was bedeutet "Weiche drei schalten"?

DVG Kommentare1 Kommentare. DVG Kommentare 2 Kommentare Es gibt zwei Arten von Kommentaren: einzeilige Kommentare // der Kommentar geht.

DVG Klassen und Objekte

DVG Kommentare 1 Kommentare. 2 Kommentare Es gibt zwei Arten von Kommentaren: einzeilige Kommentare // der Kommentar geht bis zum Ende der Zeile.

Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen

Wismar Business School

Rechnungserstellung Wenn Sie diese Präsentation (Rechnungserstellung.html) im Internet-Explorer ablaufen lassen wollen, so klicken Sie bitte auf das Leinwandsymbol.

Seite Common Gateway Interface. Konzepte. Übersicht 1Einleitung 2Was ist CGI? 3Wozu wird CGI verwendet? 4Geschichtlicher Überblick 5Grundvoraussetzungen.

Folie 1 § 29 Determinanten: Eigenschaften und Berechnung (29.1) Definition: Eine Determinantenfunktion auf K nxn ist eine Abbildung (im Falle char(K) ungleich.

Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.

FH-Hof 1 XML-Parser Richard Göbel. FH-Hof 2 XML-Parser- DOM Object Tree Parser Objekt der Klasse 'DocumentBuilderFactory' mit 'newInstance()' erzeugen.

Vigenère Verschlüsselung

Prof. Dr. Gerhard Schmidt pres. by H.-J. Steffens Software Engineering SS 2009Folie 1 Objektmodellierung Objekte und Klassen Ein Objekt ist ein Exemplar.

Wie Google Webseiten bewertet

Christian Schulz, Marc Thielbeer, Sebastian Boldt

Klicken Sie in der Meldungsleiste auf Bearbeitung aktivieren,

Knowledge Discovery mit Wordnet und Alembic Workbench

1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Effiziente Algorithmen

Javakurs FSS 2012 Lehrstuhl Stuckenschmidt

Technische Hilfe Datenauswertung

Folie 1 Kapitel IV. Matrizen Inhalt: Matrizen als eigenständige mathematische Objekte Zusammenhang zwischen Matrizen und linearen Abbildungen Produkt von.

Polynome und schnelle Fourier-Transformation

Wird ganz am Anfang der HTML-Datei geschrieben Doctype html public bedeutet, dass man sich auf die Öffentlichkeit der html-dtd bezieht Html ist die meist.

Einführung in die Programmiersprache C 4

HORIZONT 1 XINFO ® Das IT - Informationssystem PL/1 Scanner HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.

HORIZONT 1 XINFO ® Das IT - Informationssystem Assembler HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 /

Abteilung für automatische Sprachverarbeitung

Vom Kontext zum Projekt V Carina Berning Sabrina Gursch Pierre Streicher Intelligente Dateisysteme.

Normalisierungsprozess

Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.

DATEISPEICHER in der S P S

Statistische Methoden in der Wirtschafts- und Sozialgeographie

Information Retrieval, Vektorraummodell

Programmiervorkurs WS 2014 Referenzdatentypen

 exx1.fit in IRIS laden. 167 Bilder  Dies sind Bilder, die bereits gestacked sind.

Inhaltserschliessung ein Beispiel A Bibliographic Search by Computer Updating plasma-physics data was a chance to experiment with information and programs.

Clusteranalyse Tamara Katschnig.

Reguläre Ausdrücke Stephan Baldes

Kapitel 2 Grammar INDEX 1.Adjectives. Verbs, Present Tense (Review) 1.Auf Klebepapier schreib was du erinnerst über Deutsche Verben 2.Notizen über Present.

CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.

Arbeiten mit WordSmith 4. Inhalt 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus) 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus)

PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.

Einführung: Statistische Verfahren der automatischen Indexierung

Präsentation transkript:

Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 1 Gruppe Clustering Einführung AIFB Seminar Text Mining Gruppe V Text Clustering Oliver Kunzelmann, Robin Meyersiek, Stefan Speidel

Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 2 Gruppe Clustering Text Clustering Wissensgewinnung aus Texten 2. Document Clustering Untersuchung der im IBM Intelligent Miner for Text implementierten Clusterverfahren Einführung

Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 3 Gruppe Clustering Text Clustering Einführung Dokumente PreprocessingMatrixClusteralgorithmus

Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 4 Gruppe Clustering Transformation des natürlich-sprachlichen Textes in eine computergerechte Datenform: Reduktion der Dokumente auf ihren wesentlichen Inhalt Stemming Analyse der Dokumentstruktur Morphological Analysis, Sätze, Subjekte/Objekte und Verben Preprocessing mit WinSmes Preprocessing

Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 5 Gruppe Clustering Der Schiedsrichter zog die gelbe Karte. ((((:SYN (:SUBJ (:RANGE (:SEM (:HEAD "schiedsrichter") (:QUANTIFIER "d-det")) (:AGR ((:TENSE. :NO) (:FORM. :NO) (:PERSON. 3) (:GENDER. :M) (:NUMBER. :S) (:CASE. :NOM)) ((:TENSE. :NO) (:FORM. :NO) (:PERSON. 3) (:GENDER. :M) (:NUMBER. :P) (:CASE. :GEN))) (:END. 2) (:START. 0) (:TYPE. :NP))) (:OBJ (:RANGE (:SEM (:HEAD "karte") (:MODS "gelb") (:QUANTIFIER "d-det")) (:AGR ((:TENSE. :NO) (:FORM. :NO) (:PERSON. 3) (:GENDER. :F) (:NUMBER. :S) (:CASE. :AKK)) ((:TENSE. :NO) (:FORM. :NO) (:PERSON. 3) (:GENDER. :F) (:NUMBER. :S) (:CASE. :NOM))) (:END. 6) (:START. 3) (:TYPE. :NP))) (:NP-MODS) (:PP-MODS) (:SC-MODS) (:PROCESS (:ART. :FIN) (:STEM. "zieh") (:FORM. "zog") (:END. 3) (:START. 2) (:TYPE. :VERB)) (:FRAME ((:NP. :NOM) (:NP. :AKK))) (:START. 0) (:END. 6) (:SQL-TYPE. :GF-VERB-NODE) (:TYPE. :SUBJ-OBJ))))) Preprocessing

Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 6 Gruppe Clustering Preprocessing Schwachpunkte von WinSMES 0.99 Hoher Bedarf an Rechnerleistung. Bei der grammatikalischen Analyse wurden nicht alle Dokumente bearbeitet. Einlesen der Quelldaten in WinSmes aufwendig, da das Programm keine größeren Inputs verkraftet

Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 7 Gruppe Clustering Erzeugung der Nomen-Verb Matrix Zähle, wie viele unterschiedliche Nomen und Verben im gesamten Textkörper vorkommen und schreibe sie in zwei Stringvektoren N und V. Erstelle eine VxN Zahlenmatrix. (Eine Zeile für jedes Nomen und eine Spalte für jedes Verb) Parse die Dokumente Satz für Satz. Zu jedem Satz wird der Wortstamm des Hauptverbes und die Wortstämme aller vorkommenden Nomen herausgesucht und in der Matrix an den entsprechenden Punkten eingetragen. Matrixer- zeugung

Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 8 Gruppe Clustering Reduzieren der Matrix Jedes Nomen wird somit durch seinen Verbvektor im Raum der Verben beschrieben. Die hohe Dimensionalität dieses Raumes ist jedoch für Clusteralgorithmen sehr rechen- und speicherintensiv Reduziere die Matrix wo möglich und sinnvoll: Entferne Spalten und Zeilen mit Stopwörtern (z.B. sein, Minute) Entferne alle Zeilen und Spalten die nur Nullen enthalten Matrixer- zeugung

Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 9 Gruppe Clustering Reduzieren mit Domänenlexikon Aus dem Domänenlexikon können Synonyme durch ihr Hauptbedeutungswort ersetzt werden z.B.: Matthäus Spieler 60er TSV 1860 München Problem: Noch kein Domänenlexikon vorhanden! Matrixer- zeugung

Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 10 Gruppe Clustering Normalisieren der Matrix Jeder Eintrag in der Matrix wird durch die entsprechende Spalten- und Zeilensumme geteilt und so normalisiert. Dies entspricht einer term frequency (tf) bzw. term frequency - inverse document frequency (tfidf) Gewichtung beim Document clustering und der Normalisierung auf die Dokumentenlänge. Spaltensummen: Verben die sehr häufig bzw. mit vielen verschiedenen Nomen vorkommen sind nicht so bezeichnend für das Nomen. Zeilensummen: Nicht die absolute Anzahl an Nomen-verb- kombinationen, sondern der relative Anteil einer Kombination an allen Kombinationen eines Nomens ist relevant. Matrixer- zeugung 4/(63*5) = 0,0127

Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 11 Gruppe Clustering Normalisieren der Matrix Matrixer- zeugung

Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 12 Gruppe Clustering k-means Clustern Die so reduzierte und normalisierte Matrix hatte 351 Spalten (Verben) und 944 Zeilen (Nomen) Mit Hilfe von SPSS wurde sie mit dem k-means Algorithmus geclustert. Dabei wird die Anzahl an gewünschten Clustern vorgegeben. Wir probierten diverse Werte aus und nahmen schließlich 200. Dabei landeten 623 Nomen im selben Cluster. Also clusterten wir diese nocheinmal im selben Verfahren.

Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 13 Gruppe Clustering k-means Clustern k-means Clustern – Output-Auszug

Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 14 Gruppe Clustering Hierarchisches Clustern Das hierarchische Clustern erfordert noch mehr Rechenzeit und Speicher. Dafür kann man mit Hilfe eines Dendrogramms schnell welche Cluster nahe beieinander liegen. Hierarchisch Clustern

Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 15 Gruppe Clustering Dokument Clustern Clustern von Texten und nicht von Textinhalten Clustern basiert auf Häufigkeiten von vorkommenden Wörtern verwendetes Tool ist IBM-Intelligent-Miner for Text Cluster-Tool für englische Texte ausgelegt Dokument Clustern

Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 16 Gruppe Clustering IBM-Cluster-Tool Mögliche Clusterverfahren sind das binary und das hierarchical clustering Stoplist-Verfahren dem Clusterverfahren vorausschaltbar Aufruf des Cluster-Tools über Kommadozeilen Vielzahl von Parameter für Algorithmus wählbar Dokument Clustern

Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 17 Gruppe Clustering imzxrun -x ant -b 2 -f C -I files.txt imzrclst -v -c s -a 20 -n 7 -o outfile Aufrufzeile mit Paramter Clusterprogramm Preprosessinga: Detect abbreviations (f.e. categories NAME, PERSON, ORG, PLACE, OTHER). n: Extract names (categories NAME, PERSON, ORG, PLACE, OTHER). t: Extract terms (category UTERM). w: wide topics (fewer clusters) m: medium topics s: specific topics (many clusters) Ähnlichkeit der Cluster in % Anzahl der Cluster Dokument Clustern

Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 18 Gruppe Clustering Hierarchical Clustering Ergebnisse der Verfahren Input: 88 Textdokumente Sprache Englisch mit Preprocessing Binary Relational Clustering Int. Miner Beispiele

Einführung Preprosessing Matrixer- zeugung k-means Clustern Hierarchisch Clustern Dokument Clustern Int. Miner Beispiele Schlußbe- trachtung 19 Gruppe Clustering Schlußbetrachtung Inhaltliches Clustern bedarf einer großen Datenmenge als Input, um vernünftige Ergebnisse zu liefern Dokument Clustern mit Intelligent Miner nur mit Englischen Texten möglich (sinnvoll) Clusterverfahren mit Search Engine koppeln schwierig Schlußbe- trachtung