Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 28.01.2002.

Ähnliche Präsentationen


Präsentation zum Thema: "Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 28.01.2002."—  Präsentation transkript:

1 Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum:

2 Was ist Cluster-X ? ist eine Windows-Anwendung Cluster-X... fasst thematisch ähnliche Dokumente zu Clustern zusammen verwendet hierzu den Oh! Algorithmus (Oh! = Orphan Hunting! & Topic Merging) ermöglicht die Ausweitung einer bool´schen Suche

3 Entwicklung Cluster-X wurde in C++ unter MS-Windows entwickelt Es wurde Wert auf kurze Laufzeiten gelegt Verwendete Bibliotheken: - MFC für die GUI - selbst entwickelte Matrix- & Vektorklassen

4 Die Architektur Korpus IRPreProcess DocTermMatrix TermList DocumentList IRCluster Cluster IRBoolSearch SearchResultsClusterView DisplayEngine

5 Die Technik Oh! basiert auf dem k-Means Algorithmus Dieser wird durch verschiedene Elemente erweitert TopicMergingOrphanHunting k-Means Oh!

6 k-Means Erzeuge k ZV Ordne DV zufällig den ZV zu Berechne neue ZV Ordne DV den jeweils ähnlichsten ZV zu Neuzuordnung? Ja Termination Nein ZV = Zentroidvektor DV = Dokumentvektor

7 Orphan Hunting Topic Merging Oh!-Algorithmus Erzeuge n ZV (n = Anz. der Dok.) Ordne jedem ZV genau einen DV zu Berechne neue ZV Ordne DV den jeweils ähnlichsten ZV zu Neuzuordnung? Ja Termination Nein ZV mit nur einem zug. DV? Ordne DV dem nächst ähnlichen ZV zu Lösche den nun leeren ZV Übertrage DV in ähnlichen ZV Lösche den nun leeren ZV Exisitieren 2 ähnliche ZV? Nein Ja Nein Diese beiden Vorgänge werden nur ausgeführt, wenn eine festgesetzte Ähnlichkeit überschritten wird

8 Datenstrukturen Für Cluster-X wurden 3 angepasste Datentypen verwendet 1)CVector (Hilfsklasse für Operationen mit Vektoren) 2)CMatrix (Speicherung der Zentroiden) 3)CSparseDataMatrix (Speicherung der Dokument-Term-Matrix)

9 SparseDataMatrix CSparseDataMatrix ist auf Speicherung von Matrizen mit überwiegend nicht verwendeten Elementen zugeschnitten (0-Werte) OriginalmatrixSparseDataMatrix Beispielersparniss: Dokument-Term-Matrix (Bibel-Korpus) Originalmatrix: > KByte SparseDataMatrix: 880 KByte

10 Nun zur Praxis... 1) Cluster-X starten Cluster-X startenCluster-X starten Ihre Optionen: 2) Zigarettenpause Zigarettenpause

11 Probleme & ToDo Extrem hohe Speicherbelastung Temporäre Berechnung der ZV Latent Semantic Indexing (SVD) Korpusabhängige Idealparameter evtl. mashine learning Methoden (user feedback) Parameterabhängige Laufzeiten (worst case: O(n²)) Lösung N/A (algorithmusinhärent)

12 The End... Dozentin: Priv.-Doz. Dr. Karin Haenelt Ort: Seminar für Computerlinguistik / Uni Heidelberg Veranstaltung: Information Retrieval (WS2001/02)


Herunterladen ppt "Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 28.01.2002."

Ähnliche Präsentationen


Google-Anzeigen