Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

DATABASE SYSTEMS GROUP Globaler Ansatz Hough-Transformation –stammt aus Computer-Graphik –2-dimensional (Bild-Verarbeitung) Verallgemeinerung auf d -dimensionale.

Ähnliche Präsentationen


Präsentation zum Thema: "DATABASE SYSTEMS GROUP Globaler Ansatz Hough-Transformation –stammt aus Computer-Graphik –2-dimensional (Bild-Verarbeitung) Verallgemeinerung auf d -dimensionale."—  Präsentation transkript:

1 DATABASE SYSTEMS GROUP Globaler Ansatz Hough-Transformation –stammt aus Computer-Graphik –2-dimensional (Bild-Verarbeitung) Verallgemeinerung auf d -dimensionale Räume Übertragung des Clustering in einen neuen Raum (Parameter-Raum der Hough-Transformation) Einschränkung des Suchraumes (von nicht-abzählbar unendlich auf O(n!) ) übliche Suchheuristik für Hough-Transformation: O(2 d ) effiziente Suchheuristik! Zimek: Correlation Clustering 1

2 DATABASE SYSTEMS GROUP Hough-Transformation gegeben: gesucht: lineare Unterräume, in denen viele Punkte liegen Idee: Abbildung von Punkten im Datenraum (Bild-Raum) auf Funktionen im Parameter-Raum Zimek: Correlation Clustering 2 p1p1 x y picture spaceparameter space

3 DATABASE SYSTEMS GROUP e i, 1 i d : Orthonormal-Basis x = (x 1,…,x d ) T : d -dimensionaler Vektor auf Hypersphäre um den Ursprung mit Radius r u i : Einheitsvektor in Richtung der Projektion von x auf den Unterraum span(e i,…,e d ) 1,…, d-1 : i Winkel zwischen u i und e i span(e 2,e 3 ) d-dimensionale Polarkoordinaten Zimek: Correlation Clustering 3 e1e1 e2e2 e3e3 x u1u1 1 u2u2 2 u3u3 3 =0

4 DATABASE SYSTEMS GROUP Parametrisierungsfunktion Länge des Normalenvektors mit mit den Winkeln 1,…, d-1 für die Gerade durch Punkt p : Zimek: Correlation Clustering 4 parameter space p1p1 f p2p2 f p3p3 f picture space x y ( s, s ) p1p1 p2p2 p3p3 s s s

5 DATABASE SYSTEMS GROUP Eigenschaften der Transformation Zimek: Correlation Clustering 5 Punkt im Datenraum Sinusoid im Parameterraum Punkt im Parameterraum Hyperebene im Datenraum Punkte auf gemeinsamer Hyperebene im Datenraum Sinusoide mit gemeinsamem Schnittpunkt im Parameterraum Schnitt von Sinusoiden im Parameterraum Hyperebene durch die entsprechenden Punkte im Datenraum

6 DATABASE SYSTEMS GROUP Correlation Clustering mittels Hough-Transformation dichte Regionen im Parameterraum lineare Strukturen im Datenraum (Hyperebenen mit d-1 ) exakte Lösung: Bestimmung aller Schnittpunkte –nicht durchführbar –zu exakt approximative Lösung: Grid-basiertes Clustering im Parameterraum finde Zellen, die von mindestens m Sinusoiden geschnitten werden –Suchraum begrenzt, aber in O(r d ) –möglichst reine Cluster erfordern großes r (Auflösung des Grids) Zimek: Correlation Clustering 6

7 DATABASE SYSTEMS GROUP Algorithmus CASH: effiziente Suchheuristik CASH: Clustering in Arbitrary Subspaces based on the Hough- Transform [SIAM DM08, special issue SAM] Parameterraum wird rekursiv achsenweise geteilt mit einer festen Ordnung der Achsen [ 1, …, d-1, ] Fortsetzung immer mit dem Hyperquader, der die meisten Punkte repräsentiert (Prioritätssuche) Zimek: Correlation Clustering 7

8 DATABASE SYSTEMS GROUP Algorithmus CASH: effiziente Suchheuristik Hyperquader, die weniger als m Punkte repräsentieren, können ausgeschlossen werden frühzeitiges Ende des Suchpfades Hyperquader, die nach s rekursiven Teilungen von mindestens m Sinusoiden geschnitten werden, repräsentieren ein Correlation Cluster (mit d-1 ) –Punkte des Clusters (bzw. entsprechende Sinusoide) werden aus allen anderen Hyperquadern entfernt –rekursive Untersuchung des Clusters nach Transformation in den entsprechenden d-1 -dimensionalen Unterraum, um Correlation Cluster mit d-2 etc. zu finden Zimek: Correlation Clustering 8

9 DATABASE SYSTEMS GROUP Algorithmus CASH: Eigenschaften findet beliebige Anzahl von Clustern Benutzerangaben: –Suchtiefe (Anzahl der Splits maximale Größe einer Cluster- Zelle/Genauigkeit) –Mindestdichte einer Zelle ( minimale Anzahl von Punkten im Cluster) Dichte einer Zelle bezüglich Parameterraum beruht nicht auf der locality assumption für Datenraum globales Verfahren für Correlation Clustering Suchheuristik skaliert linear in Anzahl der Punkte, aber durchschnittlich mit ~ d 3 ABER: worst case-Degeneration zu vollständiger Aufzählung (exponentiell in d ) ist theoretisch möglich Zimek: Correlation Clustering 9


Herunterladen ppt "DATABASE SYSTEMS GROUP Globaler Ansatz Hough-Transformation –stammt aus Computer-Graphik –2-dimensional (Bild-Verarbeitung) Verallgemeinerung auf d -dimensionale."

Ähnliche Präsentationen


Google-Anzeigen