Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Norbert Waldfogel Geändert vor über 9 Jahren
1
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz
2
Gliederung 1.) Einleitung - Clustering - Entscheidungsbäume 2.) Verfahrensweise 3.) Vorteile 4.) Fazit 2
3
1.) Einleitung 3 Entscheidungs- bäume CL Trees (Clustering Trees) Clustering- Verfahren
4
Clustering 4 Ziele des Clustering: – intrinsische Struktur der Datenobjekte finden – indem diese in ähnliche Gruppen / Cluster eingeteilt werden Clustering = unsupervised learning, da vorher keine Klassenbezeichnungen der Objekte vorhanden
5
Entscheidungsbäume 5 Erstellen von Entscheidungsbäumen zur Einteilung in Klassen Algorithmus nutzt Reinheitsfunktion (purity function) Verfahren nicht ohne Weiteres mit Clustering kombinierbar
6
2.) Verfahrensweise (I) neues Verfahren der Autoren: basiert auf Entscheidungsbäumen (=supervised learning) Idee: Datenraum in Cluster und leere/karge Regionen einteilen 6
7
2.) Verfahrensweise (II) grundlegende Idee: – jeder Punkt im Datensatz gehört zur Klasse Y – leerer Raum gleichverteilt gefüllt mit Punkten der Klasse N dadurch wird Problem zum Klassifikationsproblem (mit Entscheidungsbaum lösbar) 7
8
2.) Verfahrensweise (III) 8
9
2.) Verfahrensweise (IV) 9 2 Schritte des CL Tree-Verfahrens: 1. Erstellung des Cluster Trees 2. Pruning des Cluster Trees
10
2.) Verfahrensweise (V) 10 Entscheidung über Menge an Punkten N: – falls N < Y setze N = Y – falls N > Y beibehalten Begründung: – bei zu wenigen N-Punkten wird Cut-Bildung erschwert
11
2.) Verfahrensweise (VI) 11 vorausschauendes Informationszuwachs- Kriterium (= purity function): 3 Schritte: 1. Anfangs-Cut finden (mit Informationszuwachs-Kriterium) 2. bessere Cuts in leeren Bereichen finden (anhand relativer Dichte: Anzahl Y / Anzahl N) 3. besten Cut wählen (alle Dimensionen verglichen)
12
2.) Verfahrensweise (zu VI) 12
13
2.) Verfahrensweise (VII) 13 Pruning: – CL Tree teilt Datenraum solange auf bis nur Punkte einer Klasse (Y oder N) im Teilbereich vorhanden oder keine weitere Verbesserung möglich – 2 Möglichkeiten für Anwender: 1. Überfliegen des Baums, sinnvolle Knoten in oberen Bereichen finden und Rest prunen 2. zwei Parameter festlegen: min_y: Anzahl Y-Punkte, die ein Bereich enthalten muss min_rd: gibt an, wann ein N-Bereich einem Y-Bereich hinzugefügt werden soll (anhand relativer Dichte: Y/N)
14
2.) Verfahrensweise (zu VII) 14
15
2.) Verfahrensweise (VIII) 15 Zusammenlegen angrenzender Y-Regionen:
16
3.) Vorteile (I) implizite Clusterfindung durch Einteilung in Datenpunkte (bzw. Cluster) und leeren Raum keine Distanzmaße notwendig findet natürliche Cluster, ohne vorher Annahmen treffen bzw. Parameter wählen zu müssen geeignet, um gesamten Datenraum sowie Subspaces zu durchsuchen liefert Erklärung der Cluster 16
17
3.) Vorteile (II) 17 durch Aufzeigen der leeren / kargen Datenräume können im Marketing neue Kundensegmente angesprochen werden geringe Anfälligkeit gegenüber Ausreißern Cluster können unterschiedliche Anzahl von Dimensionen vorweisen
18
4.) Fazit experimentelle Untersuchungen realer und künstlich erstellter Daten zeigten, dass das Verfahren effektiv auch auf große mehrdimensionale Datensätze anwendbar ist höhere min_y und min_rd wählen, um Cluster- Zentren zu finden und dann reduzieren, um Cluster vollständig einzuschließen 18
19
Quellen Liu, B., Xia, Y., Yu, P. S. (2000). Clustering Through Decision Tree Construction. Proceedings of the ninth international conference on Information and knowledge management, S. 20-29. https://zyxo.wordpress.com/2010/07/21/clustering-with-decision-trees (abgerufen: 09.01.16) https://zyxo.wordpress.com/2010/07/21/clustering-with-decision-trees http://etetoolkit.org/docs/latest/tutorial/tutorial_clustering.html (abgerufen: 09.01.16) http://etetoolkit.org/docs/latest/tutorial/tutorial_clustering.html http://arxiv.org/pdf/cs/0011032.pdf (abgerufen: 10.01.16) http://arxiv.org/pdf/cs/0011032.pdf 19
20
Vielen Dank für Ihre Aufmerksamkeit! 20
Ähnliche Präsentationen
© 2025 SlidePlayer.org Inc.
All rights reserved.