CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz
Gliederung 1.) Einleitung - Clustering - Entscheidungsbäume 2.) Verfahrensweise 3.) Vorteile 4.) Fazit 2
1.) Einleitung 3 Entscheidungs- bäume CL Trees (Clustering Trees) Clustering- Verfahren
Clustering 4 Ziele des Clustering: – intrinsische Struktur der Datenobjekte finden – indem diese in ähnliche Gruppen / Cluster eingeteilt werden Clustering = unsupervised learning, da vorher keine Klassenbezeichnungen der Objekte vorhanden
Entscheidungsbäume 5 Erstellen von Entscheidungsbäumen zur Einteilung in Klassen Algorithmus nutzt Reinheitsfunktion (purity function) Verfahren nicht ohne Weiteres mit Clustering kombinierbar
2.) Verfahrensweise (I) neues Verfahren der Autoren: basiert auf Entscheidungsbäumen (=supervised learning) Idee: Datenraum in Cluster und leere/karge Regionen einteilen 6
2.) Verfahrensweise (II) grundlegende Idee: – jeder Punkt im Datensatz gehört zur Klasse Y – leerer Raum gleichverteilt gefüllt mit Punkten der Klasse N dadurch wird Problem zum Klassifikationsproblem (mit Entscheidungsbaum lösbar) 7
2.) Verfahrensweise (III) 8
2.) Verfahrensweise (IV) 9 2 Schritte des CL Tree-Verfahrens: 1. Erstellung des Cluster Trees 2. Pruning des Cluster Trees
2.) Verfahrensweise (V) 10 Entscheidung über Menge an Punkten N: – falls N < Y setze N = Y – falls N > Y beibehalten Begründung: – bei zu wenigen N-Punkten wird Cut-Bildung erschwert
2.) Verfahrensweise (VI) 11 vorausschauendes Informationszuwachs- Kriterium (= purity function): 3 Schritte: 1. Anfangs-Cut finden (mit Informationszuwachs-Kriterium) 2. bessere Cuts in leeren Bereichen finden (anhand relativer Dichte: Anzahl Y / Anzahl N) 3. besten Cut wählen (alle Dimensionen verglichen)
2.) Verfahrensweise (zu VI) 12
2.) Verfahrensweise (VII) 13 Pruning: – CL Tree teilt Datenraum solange auf bis nur Punkte einer Klasse (Y oder N) im Teilbereich vorhanden oder keine weitere Verbesserung möglich – 2 Möglichkeiten für Anwender: 1. Überfliegen des Baums, sinnvolle Knoten in oberen Bereichen finden und Rest prunen 2. zwei Parameter festlegen: min_y: Anzahl Y-Punkte, die ein Bereich enthalten muss min_rd: gibt an, wann ein N-Bereich einem Y-Bereich hinzugefügt werden soll (anhand relativer Dichte: Y/N)
2.) Verfahrensweise (zu VII) 14
2.) Verfahrensweise (VIII) 15 Zusammenlegen angrenzender Y-Regionen:
3.) Vorteile (I) implizite Clusterfindung durch Einteilung in Datenpunkte (bzw. Cluster) und leeren Raum keine Distanzmaße notwendig findet natürliche Cluster, ohne vorher Annahmen treffen bzw. Parameter wählen zu müssen geeignet, um gesamten Datenraum sowie Subspaces zu durchsuchen liefert Erklärung der Cluster 16
3.) Vorteile (II) 17 durch Aufzeigen der leeren / kargen Datenräume können im Marketing neue Kundensegmente angesprochen werden geringe Anfälligkeit gegenüber Ausreißern Cluster können unterschiedliche Anzahl von Dimensionen vorweisen
4.) Fazit experimentelle Untersuchungen realer und künstlich erstellter Daten zeigten, dass das Verfahren effektiv auch auf große mehrdimensionale Datensätze anwendbar ist höhere min_y und min_rd wählen, um Cluster- Zentren zu finden und dann reduzieren, um Cluster vollständig einzuschließen 18
Quellen Liu, B., Xia, Y., Yu, P. S. (2000). Clustering Through Decision Tree Construction. Proceedings of the ninth international conference on Information and knowledge management, S (abgerufen: ) (abgerufen: ) (abgerufen: ) 19
Vielen Dank für Ihre Aufmerksamkeit! 20