Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch

Name: Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch
Uploaded: 2018-01-15T17:22:30+00:00
Duration: PTM4S25
Channel: Gertrude Still
Description: Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch

Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch
am Seminar für Computerlinguistik der Uni Heidelberg Datum:

Was ist Cluster-X ? Cluster-X... ist eine Windows-Anwendung
fasst thematisch ähnliche Dokumente zu Clustern zusammen ermöglicht die Ausweitung einer bool´schen Suche verwendet hierzu den Oh!™ Algorithmus (Oh!™ = Orphan Hunting! & Topic Merging)

Entwicklung Cluster-X wurde in C++ unter MS-Windows entwickelt
Es wurde Wert auf kurze Laufzeiten gelegt Verwendete Bibliotheken: - MFC für die GUI - selbst entwickelte Matrix- & Vektorklassen

Die Architektur Korpus IRPreProcess SearchResults ClusterView
DocTermMatrix IRBoolSearch DisplayEngine TermList DocumentList IRCluster Cluster

Die Technik Oh!™ basiert auf dem k-Means Algorithmus
Dieser wird durch verschiedene Elemente erweitert TopicMerging OrphanHunting k-Means Oh!™

k-Means Erzeuge k ZV Ordne DV zufällig den ZV zu Berechne neue ZV
Ordne DV den jeweils ähnlichsten ZV zu Neuzuordnung? Ja Nein Termination ZV = Zentroidvektor DV = Dokumentvektor

Oh!™-Algorithmus Topic Merging Orphan Hunting Erzeuge n ZV
(n = Anz. der Dok.) Orphan Hunting Topic Merging Exisitieren 2 ähnliche ZV? Ja Lösche den nun leeren ZV Ordne jedem ZV genau einen DV zu Nein Berechne neue ZV Übertrage DV in ähnlichen ZV Diese beiden Vorgänge werden nur ausgeführt, wenn eine festgesetzte Ähnlichkeit überschritten wird Ordne DV den jeweils ähnlichsten ZV zu Lösche den nun leeren ZV ZV mit nur einem zug. DV? Ja Ordne DV dem nächst ähnlichen ZV zu Nein Neuzuordnung? Ja Termination Nein

Datenstrukturen Für Cluster-X wurden 3 angepasste Datentypen verwendet
CVector<TYPE> (Hilfsklasse für Operationen mit Vektoren) CMatrix<TYPE> (Speicherung der Zentroiden) CSparseDataMatrix<TYPE> (Speicherung der Dokument-Term-Matrix)

SparseDataMatrix CSparseDataMatrix<TYPE> ist auf Speicherung von Matrizen mit überwiegend nicht verwendeten Elementen zugeschnitten (0-Werte) Originalmatrix SparseDataMatrix Beispielersparniss: Dokument-Term-Matrix (Bibel-Korpus) Originalmatrix: > KByte  SparseDataMatrix: 880 KByte

Nun zur Praxis... 1) Cluster-X starten 2) Zigarettenpause
Ihre Optionen: 1) Cluster-X starten 2) Zigarettenpause

Probleme & ToDo Extrem hohe Speicherbelastung
 Temporäre Berechnung der ZV  Latent Semantic Indexing (SVD) Korpusabhängige Idealparameter evtl. mashine learning Methoden (user feedback) Parameterabhängige Laufzeiten (worst case: O(n²))  Lösung N/A (algorithmusinhärent)

The End... Dozentin: Priv.-Doz. Dr. Karin Haenelt
Ort: Seminar für Computerlinguistik / Uni Heidelberg Veranstaltung: Information Retrieval (WS2001/02)

Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch

Ähnliche Präsentationen

Präsentation zum Thema: "Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch

Ähnliche Präsentationen

Präsentation zum Thema: "Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback