Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Aglaja Wesselmann Geändert vor über 11 Jahren
1
Globaler Ansatz Hough-Transformation
stammt aus Computer-Graphik 2-dimensional (Bild-Verarbeitung) Verallgemeinerung auf d-dimensionale Räume Übertragung des Clustering in einen neuen Raum (“Parameter-Raum” der Hough-Transformation) Einschränkung des Suchraumes (von nicht-abzählbar unendlich auf O(n!)) übliche Suchheuristik für Hough-Transformation: O(2d) effiziente Suchheuristik! Zimek: Correlation Clustering
2
Hough-Transformation
gegeben: gesucht: lineare Unterräume, in denen viele Punkte liegen Idee: Abbildung von Punkten im Datenraum (Bild-Raum) auf Funktionen im Parameter-Raum x y picture space parameter space p1 Zimek: Correlation Clustering
3
d-dimensionale Polarkoordinaten
ei, 1 i d: Orthonormal-Basis x = (x1,…,xd)T: d-dimensionaler Vektor auf Hypersphäre um den Ursprung mit Radius r ui: Einheitsvektor in Richtung der Projektion von x auf den Unterraum span(ei,…,ed) 1,…,d-1: i Winkel zwischen ui und ei span(e2,e3) e1 e2 e3 x u2 2 u3 3=0 u1 1 Zimek: Correlation Clustering
4
Parametrisierungsfunktion
Länge des Normalenvektors mit mit den Winkeln 1,…,d-1 für die Gerade durch Punkt p: y s p3 f p3 f p2 p2 f p1 p1 (s, s) s s x picture space parameter space Zimek: Correlation Clustering
5
Eigenschaften der Transformation
Punkt im Datenraum Sinusoid im Parameterraum Punkt im Parameterraum Hyperebene im Datenraum Punkte auf gemeinsamer Hyperebene im Datenraum Sinusoide mit gemeinsamem Schnittpunkt im Parameterraum Schnitt von Sinusoiden im Parameterraum Hyperebene durch die entsprechenden Punkte im Datenraum Zimek: Correlation Clustering
6
Correlation Clustering mittels Hough-Transformation
dichte Regionen im Parameterraum lineare Strukturen im Datenraum (Hyperebenen mit d-1) exakte Lösung: Bestimmung aller Schnittpunkte nicht durchführbar zu exakt approximative Lösung: Grid-basiertes Clustering im Parameterraum finde Zellen, die von mindestens m Sinusoiden geschnitten werden Suchraum begrenzt, aber in O(rd) möglichst reine Cluster erfordern großes r (Auflösung des Grids) Zimek: Correlation Clustering
7
Algorithmus CASH: effiziente Suchheuristik
CASH: Clustering in Arbitrary Subspaces based on the Hough-Transform [SIAM DM08, special issue SAM] Parameterraum wird rekursiv achsenweise geteilt mit einer festen Ordnung der Achsen [1, … , d-1, ] Fortsetzung immer mit dem Hyperquader, der die meisten Punkte repräsentiert (Prioritätssuche) Zimek: Correlation Clustering
8
Algorithmus CASH: effiziente Suchheuristik
Hyperquader, die weniger als m Punkte repräsentieren, können ausgeschlossen werden frühzeitiges Ende des Suchpfades Hyperquader, die nach s rekursiven Teilungen von mindestens m Sinusoiden geschnitten werden, repräsentieren ein Correlation Cluster (mit d-1) Punkte des Clusters (bzw. entsprechende Sinusoide) werden aus allen anderen Hyperquadern entfernt rekursive Untersuchung des Clusters nach Transformation in den entsprechenden d-1-dimensionalen Unterraum, um Correlation Cluster mit d-2 etc. zu finden Zimek: Correlation Clustering
9
Algorithmus CASH: Eigenschaften
findet beliebige Anzahl von Clustern Benutzerangaben: Suchtiefe (Anzahl der Splits maximale Größe einer Cluster-Zelle/Genauigkeit) Mindestdichte einer Zelle ( minimale Anzahl von Punkten im Cluster) Dichte einer Zelle bezüglich Parameterraum beruht nicht auf der “locality assumption” für Datenraum globales Verfahren für Correlation Clustering Suchheuristik skaliert linear in Anzahl der Punkte, aber durchschnittlich mit ~ d3 ABER: worst case-Degeneration zu vollständiger Aufzählung (exponentiell in d) ist theoretisch möglich Zimek: Correlation Clustering
Ähnliche Präsentationen
© 2025 SlidePlayer.org Inc.
All rights reserved.