Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.

Ähnliche Präsentationen


Präsentation zum Thema: "CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz."—  Präsentation transkript:

1 CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz

2 Gliederung 1.) Einleitung - Clustering - Entscheidungsbäume 2.) Verfahrensweise 3.) Vorteile 4.) Fazit 2

3 1.) Einleitung 3 Entscheidungs- bäume CL Trees (Clustering Trees) Clustering- Verfahren

4 Clustering 4 Ziele des Clustering: – intrinsische Struktur der Datenobjekte finden – indem diese in ähnliche Gruppen / Cluster eingeteilt werden Clustering = unsupervised learning, da vorher keine Klassenbezeichnungen der Objekte vorhanden

5 Entscheidungsbäume 5 Erstellen von Entscheidungsbäumen zur Einteilung in Klassen Algorithmus nutzt Reinheitsfunktion (purity function) Verfahren nicht ohne Weiteres mit Clustering kombinierbar

6 2.) Verfahrensweise (I) neues Verfahren der Autoren: basiert auf Entscheidungsbäumen (=supervised learning) Idee: Datenraum in Cluster und leere/karge Regionen einteilen 6

7 2.) Verfahrensweise (II) grundlegende Idee: – jeder Punkt im Datensatz gehört zur Klasse Y – leerer Raum gleichverteilt gefüllt mit Punkten der Klasse N  dadurch wird Problem zum Klassifikationsproblem (mit Entscheidungsbaum lösbar) 7

8 2.) Verfahrensweise (III) 8

9 2.) Verfahrensweise (IV) 9 2 Schritte des CL Tree-Verfahrens: 1. Erstellung des Cluster Trees 2. Pruning des Cluster Trees

10 2.) Verfahrensweise (V) 10 Entscheidung über Menge an Punkten N: – falls N < Y setze N = Y – falls N > Y beibehalten Begründung: – bei zu wenigen N-Punkten wird Cut-Bildung erschwert

11 2.) Verfahrensweise (VI) 11 vorausschauendes Informationszuwachs- Kriterium (= purity function): 3 Schritte: 1. Anfangs-Cut finden (mit Informationszuwachs-Kriterium) 2. bessere Cuts in leeren Bereichen finden (anhand relativer Dichte: Anzahl Y / Anzahl N) 3. besten Cut wählen (alle Dimensionen verglichen)

12 2.) Verfahrensweise (zu VI) 12

13 2.) Verfahrensweise (VII) 13 Pruning: – CL Tree teilt Datenraum solange auf bis nur Punkte einer Klasse (Y oder N) im Teilbereich vorhanden oder keine weitere Verbesserung möglich – 2 Möglichkeiten für Anwender: 1. Überfliegen des Baums, sinnvolle Knoten in oberen Bereichen finden und Rest prunen 2. zwei Parameter festlegen:  min_y: Anzahl Y-Punkte, die ein Bereich enthalten muss  min_rd: gibt an, wann ein N-Bereich einem Y-Bereich hinzugefügt werden soll (anhand relativer Dichte: Y/N)

14 2.) Verfahrensweise (zu VII) 14

15 2.) Verfahrensweise (VIII) 15 Zusammenlegen angrenzender Y-Regionen:

16 3.) Vorteile (I) implizite Clusterfindung durch Einteilung in Datenpunkte (bzw. Cluster) und leeren Raum  keine Distanzmaße notwendig findet natürliche Cluster, ohne vorher Annahmen treffen bzw. Parameter wählen zu müssen geeignet, um gesamten Datenraum sowie Subspaces zu durchsuchen liefert Erklärung der Cluster 16

17 3.) Vorteile (II) 17 durch Aufzeigen der leeren / kargen Datenräume können im Marketing neue Kundensegmente angesprochen werden geringe Anfälligkeit gegenüber Ausreißern Cluster können unterschiedliche Anzahl von Dimensionen vorweisen

18 4.) Fazit experimentelle Untersuchungen realer und künstlich erstellter Daten zeigten, dass das Verfahren effektiv auch auf große mehrdimensionale Datensätze anwendbar ist höhere min_y und min_rd wählen, um Cluster- Zentren zu finden und dann reduzieren, um Cluster vollständig einzuschließen 18

19 Quellen Liu, B., Xia, Y., Yu, P. S. (2000). Clustering Through Decision Tree Construction. Proceedings of the ninth international conference on Information and knowledge management, S. 20-29. https://zyxo.wordpress.com/2010/07/21/clustering-with-decision-trees (abgerufen: 09.01.16) https://zyxo.wordpress.com/2010/07/21/clustering-with-decision-trees http://etetoolkit.org/docs/latest/tutorial/tutorial_clustering.html (abgerufen: 09.01.16) http://etetoolkit.org/docs/latest/tutorial/tutorial_clustering.html http://arxiv.org/pdf/cs/0011032.pdf (abgerufen: 10.01.16) http://arxiv.org/pdf/cs/0011032.pdf 19

20 Vielen Dank für Ihre Aufmerksamkeit! 20


Herunterladen ppt "CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz."

Ähnliche Präsentationen


Google-Anzeigen