Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch

Slides:



Advertisements
Ähnliche Präsentationen
Präsentiert von Torben Pastuch
Advertisements

Algorithmentheorie 08 – Dynamische Programmierung (1)
Grundlagen des A*-Algorithmus und Anwendung in der Routenplanung
Kohonennetze für Information Retrieval mit User Feedback
Eine dynamische Menge, die diese Operationen unterstützt,
Simulation komplexer technischer Anlagen
Algorithmen und Komplexität Teil 1: Grundlegende Algorithmen
LiLi und die Lernplattform
T-XPath Ein zeitliches Modell für XML-DBS M. Kalb, G. SpechtK. Schneider Universität Ulm EML Heidelberg.
Seminar Stochastik im WS 02/03
Rechnungswesen und Finanzierung
FH-Hof Optimierungsverfahren für kombinatorische Probleme Richard Göbel.
Grundlagen der R Programmiersprache
DOM (Document Object Model)
WS 03/04 Algorithmentheorie 03 - Randomisierung Prof. Dr. S. Albers Prof. Dr. Th. Ottmann.
Dynamische Programmierung (2) Matrixkettenprodukt
Prof. Dr. S. Albers Prof. Dr. Th. Ottmann
WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (14 Amortisierte worst-case-Analyse Beispiel: Bitwechselkosten eines Dualzählers) Prof. Th. Ottmann.
WS 06/07 Algorithmentheorie 01 - Einleitung Prof. Dr. Th. Ottmann Tobias Lauer.
Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 12 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.
Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 16 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.
XINDICE The Apache XML Project Name: Jacqueline Langhorst
Information Retrieval Modelle: Vektor-Modell
© 2002 Prof. Dr. G. Hellberg 1 XML-Seminar XML-Technologie: XML in Theorie und Praxis Prof. Dr. G. Hellberg XML-Technologie: XML in Theorie und Praxis.
EINI-I Einführung in die Informatik für Naturwissenschaftler und Ingenieure I Vorlesung 2 SWS WS 99/00 Gisbert Dittrich FBI Unido
EINI-I Einführung in die Informatik für Naturwissenschaftler und Ingenieure I Kapitel 11 Claudio Moraga, Gisbert Dittrich FBI Unido
Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUTE University of Paderborn Algorithms and Complexity Algorithmen und Komplexität Teil 1: Grundlegende.
Technik Gestaltung Navigation Daten. Übersicht Client Webbrowser InternetServer.
PKJ 2005/1 Stefan Dissmann Rückblick auf 2005 Was zuletzt in 2005 vorgestellt wurde: Klassen mit Attributen, Methoden und Konstruktoren Referenzen auf.
Grundlegende Analysen & Zwischendarstellungen
Automatisches Clustering und automatische Klassifikation
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.
FH-Hof Algorithmen und Datenstrukturen - Einführung Richard Göbel.
Vista XP C:\ logisch physisch C:\ Desktop > Computer > Lokaler
PRJ 2007/1 Stefan Dissmann Verkettete datenstruktur: Liste Problem: Liste, die eine beliebige Zahl von Elementen verwaltet Operationen: Erzeugen, Anfügen,
Die 1. Binomische Formel BETRACHTE DAS QUADRAT MIT SEINEN VIER TEILFLÄCHEN!!!! a b ab.
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.
Computerorientierte Physik VORLESUNG Zeit: jeweils Mo Uhr Ort: Hörsaal 5.01, Institut für Experimentalphysik, Universitätsplatz 5, A-8010.
Eine Implementierung einer effiziente externe geordnete (!) lineare Liste Operationen: Search(x) Insert(x) Delete(x)
Einführung in die Informatik für Naturwissenschaftler und Ingenieure (alias Einführung in die Programmierung) (Vorlesung) Prof. Dr. Günter Rudolph Fachbereich.
Einführung in die Programmierung
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Einführung in die Programmierung Wintersemester 2009/10 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.
Limited Local Search And Restart Nähere Betrachtungen.
Algorithm Engineering „GPU Algorithmen“
1 Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Einführung Lernmodul Nutzungsbedingungen:
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation III Vorlesung 1 WS 2001/02 Punkt-in-Landkarte I (Streifenkarte)
Vergisst das Internet?.
Generative Softwareentwicklung in der Praxis Olaf Kaus, „Java User Group“, Hannover 6.Oktober 2003.
Vom graphischen Differenzieren
Computer Algebra für Brüche --- angepasst an Ausbildungszwecke
The PicSOM Retrieval System 1 Christian Steinberg.
1 Slawa Belousow, Seminar über Algorithmen Load Balancing Slawa Belousow Freie Universität Berlin, Institut für Informatik.
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
c-means clustering (FCM)
MS Word 2010 Word Texte eingeben und bearbeiten automatische und manuelle Korrekturen Text bearbeiten Word Texte eingeben und bearbeiten automatische und.
MS Word 2010 Word Zusätzliche Elemente in den Text einfügen  Symbole, Sonderzeichen  Schnellbausteine Word Zusätzliche Elemente in den Text einfügen.
Information Retrieval mit Oracle Text Erfahrungsbericht.
Analytische Geometrie – Entwicklung von Übersichtsdiagrammen Vorbereitungsseminar zum fachdidaktischen Praktikum SS 2010 Dozentin: Claudia Homberg-Halter.
Algorithmen und Datenstrukturen
Multivariate Statistische Verfahren
Kleines 1x1 ABCD Aufgaben Kleines 1x1 A · 8 = Lösung.
3. Die Datenstruktur Graph 3.2 Repräsentation von Graphen
 Präsentation transkript:

Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 28.01.2002

Was ist Cluster-X ? Cluster-X... ist eine Windows-Anwendung fasst thematisch ähnliche Dokumente zu Clustern zusammen ermöglicht die Ausweitung einer bool´schen Suche verwendet hierzu den Oh!™ Algorithmus (Oh!™ = Orphan Hunting! & Topic Merging)

Entwicklung Cluster-X wurde in C++ unter MS-Windows entwickelt Es wurde Wert auf kurze Laufzeiten gelegt Verwendete Bibliotheken: - MFC für die GUI - selbst entwickelte Matrix- & Vektorklassen

Die Architektur Korpus IRPreProcess SearchResults ClusterView DocTermMatrix IRBoolSearch DisplayEngine TermList DocumentList IRCluster Cluster

Die Technik Oh!™ basiert auf dem k-Means Algorithmus Dieser wird durch verschiedene Elemente erweitert TopicMerging OrphanHunting k-Means Oh!™

k-Means Erzeuge k ZV Ordne DV zufällig den ZV zu Berechne neue ZV Ordne DV den jeweils ähnlichsten ZV zu Neuzuordnung? Ja Nein Termination ZV = Zentroidvektor DV = Dokumentvektor

Oh!™-Algorithmus Topic Merging Orphan Hunting Erzeuge n ZV (n = Anz. der Dok.) Orphan Hunting Topic Merging Exisitieren 2 ähnliche ZV? Ja Lösche den nun leeren ZV Ordne jedem ZV genau einen DV zu Nein Berechne neue ZV Übertrage DV in ähnlichen ZV Diese beiden Vorgänge werden nur ausgeführt, wenn eine festgesetzte Ähnlichkeit überschritten wird Ordne DV den jeweils ähnlichsten ZV zu Lösche den nun leeren ZV ZV mit nur einem zug. DV? Ja Ordne DV dem nächst ähnlichen ZV zu Nein Neuzuordnung? Ja Termination Nein

Datenstrukturen Für Cluster-X wurden 3 angepasste Datentypen verwendet CVector<TYPE> (Hilfsklasse für Operationen mit Vektoren) CMatrix<TYPE> (Speicherung der Zentroiden) CSparseDataMatrix<TYPE> (Speicherung der Dokument-Term-Matrix)

SparseDataMatrix CSparseDataMatrix<TYPE> ist auf Speicherung von Matrizen mit überwiegend nicht verwendeten Elementen zugeschnitten (0-Werte) Originalmatrix SparseDataMatrix Beispielersparniss: Dokument-Term-Matrix (Bibel-Korpus) Originalmatrix: >10.000 KByte  SparseDataMatrix: 880 KByte

Nun zur Praxis... 1) Cluster-X starten 2) Zigarettenpause Ihre Optionen: 1) Cluster-X starten 2) Zigarettenpause

Probleme & ToDo Extrem hohe Speicherbelastung  Temporäre Berechnung der ZV  Latent Semantic Indexing (SVD) Korpusabhängige Idealparameter evtl. mashine learning Methoden (user feedback) Parameterabhängige Laufzeiten (worst case: O(n²))  Lösung N/A (algorithmusinhärent)

The End... Dozentin: Priv.-Doz. Dr. Karin Haenelt Ort: Seminar für Computerlinguistik / Uni Heidelberg Veranstaltung: Information Retrieval (WS2001/02)