Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch

Ähnliche Präsentationen


Präsentation zum Thema: "Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch"—  Präsentation transkript:

1 Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch
am Seminar für Computerlinguistik der Uni Heidelberg Datum:

2 Was ist Cluster-X ? Cluster-X... ist eine Windows-Anwendung
fasst thematisch ähnliche Dokumente zu Clustern zusammen ermöglicht die Ausweitung einer bool´schen Suche verwendet hierzu den Oh!™ Algorithmus (Oh!™ = Orphan Hunting! & Topic Merging)

3 Entwicklung Cluster-X wurde in C++ unter MS-Windows entwickelt
Es wurde Wert auf kurze Laufzeiten gelegt Verwendete Bibliotheken: - MFC für die GUI - selbst entwickelte Matrix- & Vektorklassen

4 Die Architektur Korpus IRPreProcess SearchResults ClusterView
DocTermMatrix IRBoolSearch DisplayEngine TermList DocumentList IRCluster Cluster

5 Die Technik Oh!™ basiert auf dem k-Means Algorithmus
Dieser wird durch verschiedene Elemente erweitert TopicMerging OrphanHunting k-Means Oh!™

6 k-Means Erzeuge k ZV Ordne DV zufällig den ZV zu Berechne neue ZV
Ordne DV den jeweils ähnlichsten ZV zu Neuzuordnung? Ja Nein Termination ZV = Zentroidvektor DV = Dokumentvektor

7 Oh!™-Algorithmus Topic Merging Orphan Hunting Erzeuge n ZV
(n = Anz. der Dok.) Orphan Hunting Topic Merging Exisitieren 2 ähnliche ZV? Ja Lösche den nun leeren ZV Ordne jedem ZV genau einen DV zu Nein Berechne neue ZV Übertrage DV in ähnlichen ZV Diese beiden Vorgänge werden nur ausgeführt, wenn eine festgesetzte Ähnlichkeit überschritten wird Ordne DV den jeweils ähnlichsten ZV zu Lösche den nun leeren ZV ZV mit nur einem zug. DV? Ja Ordne DV dem nächst ähnlichen ZV zu Nein Neuzuordnung? Ja Termination Nein

8 Datenstrukturen Für Cluster-X wurden 3 angepasste Datentypen verwendet
CVector<TYPE> (Hilfsklasse für Operationen mit Vektoren) CMatrix<TYPE> (Speicherung der Zentroiden) CSparseDataMatrix<TYPE> (Speicherung der Dokument-Term-Matrix)

9 SparseDataMatrix CSparseDataMatrix<TYPE> ist auf Speicherung von Matrizen mit überwiegend nicht verwendeten Elementen zugeschnitten (0-Werte) Originalmatrix SparseDataMatrix Beispielersparniss: Dokument-Term-Matrix (Bibel-Korpus) Originalmatrix: > KByte  SparseDataMatrix: 880 KByte

10 Nun zur Praxis... 1) Cluster-X starten 2) Zigarettenpause
Ihre Optionen: 1) Cluster-X starten 2) Zigarettenpause

11 Probleme & ToDo Extrem hohe Speicherbelastung
 Temporäre Berechnung der ZV  Latent Semantic Indexing (SVD) Korpusabhängige Idealparameter evtl. mashine learning Methoden (user feedback) Parameterabhängige Laufzeiten (worst case: O(n²))  Lösung N/A (algorithmusinhärent)

12 The End... Dozentin: Priv.-Doz. Dr. Karin Haenelt
Ort: Seminar für Computerlinguistik / Uni Heidelberg Veranstaltung: Information Retrieval (WS2001/02)


Herunterladen ppt "Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch"

Ähnliche Präsentationen


Google-Anzeigen