CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.

Slides:



Advertisements
Ähnliche Präsentationen
Der R-Baum Richard Göbel.
Advertisements

Simulationsansätze in der BWL: Erstellung eines eigenen Projekts
Kohonennetze für Information Retrieval mit User Feedback
PG Intelligence Service
Vorlesung Programmieren II
Der k-d-Baum Richard Göbel.
Wissensanalyse von Aufgaben mit TKS Eine Methode zur Problemlösung
Zerlegung von Graphen.
SST - Sequence Search Tree
Tipps für Reden und Vorträge
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.
Wasserfall-Ansätze zur Bildsegmentierung
Simulated Annealing Marco Block & Miguel Domingo Seminar : Maschinelles Lernen und Markov KettenSommersemester 2002.
Heuristiken und Kontexteinflüsse
Spielbäume Richard Göbel.
Der R-Baum Richard Göbel.
FH-Hof Analyse des R-Baums Richard Göbel. FH-Hof Ansatz Annahme: Die Bearbeitungszeit für eine Anfrage wird dominiert von der Ladezeit der Knoten von.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.
R-tree, R*-tree und R+-tree
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation II Vorlesung In welcher Masche liegt der Punkt p?
Globaler Ansatz Hough-Transformation
PG 478 – Open Graph Drawing Framework Thema: Compounds & Force-Directed Francois Bertault & Mirka Miller – An Algorithm for Drawing Compound Graphs [1999]
Algorithmen zur Unterstützung von Immersive Gaming
SoSe 2005 Spree / Worg 1 Grundbegriffe der Klassifikation Gleiches zu Gleichem.
Minimum Spanning Tree: MST
Classification of Credit Applicants Using Data Mining. Thema.
FH-Hof Analyse des R-Baums - Teil 1 Richard Göbel.
Machine Learning Decision Trees (2).
Datenverteilung in Ad-hoc Netzen 1/24 Adaptive Datenverteilung in mobilen Ad-hoc Netzen unter Verwendung des Area Graph basierten Bewegungsmodells S. Bittner,
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Self Organizing Tree Algorithm
Zur Veranstaltung Business Intelligence
Splay Trees Von Projdakov Benjamin.
GIS - Seminar Wintersemester 2000/2001
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation II Vorlesung 7 SS 2000 Punkt-in-Polygon-Verfahren I (Trapezkarte)
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Einführung in die Informatik für Naturwissenschaftler und Ingenieure
Einführung in die Programmierung Wintersemester 2013/14 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.
Statistische Methoden in der Wirtschafts- und Sozialgeographie
Integration oberflächenbestimmender Objekte ins DGM Seminar GIS IV SS
Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt.
Möglichkeiten der Visualisierung
Sebastian Loose DPF – A Perceptual Distance Function for Image Retrieval Proseminar SS 2005 Distanzen und Ähnlichkeitsmaße im Hochdimensionalem.
IntelliVideo1 / 25 IntelliVideo Der intelligente Videorekorder.
Anfang Präsentation 3. November, 2004 Tarjan’s Schleifenaufbrechalgorithmus In dieser Vorlesung wird ein Verfahren vorgestellt, welches in der Lage ist,
Lernen 1. Vorlesung Ralf Der Universität Leipzig Institut für Informatik
Gliederung der Vorlesung
Induktion von Entscheidungsbäumen Seminar Data Mining am Fachgebiet Datenbanken und Informationssysteme Sommersemester 2007 Betreuer: Hendrik Warneke.
Präsentation zu Ausschreibungs- und Einstellungsformularen
Binärbäume.
Spatial Partition Game Programming Patterns / Optimization Patterns AM3: Softwaretechnologie II (Teil 2): Simulation und 3D Programmierung Dozent: Prof.
Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 1 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Einführung in die Informationsverarbeitung Teil Thaller Stunde V: Wege und warum man sie geht Graphen. Köln 14. Januar 2016.
Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.
I. Ziele der Präsentation II. Was ist Mediation? III. Sedes materiae IV. Mediationszeitpunkt V. Beurteilung Marc SchibliNino Hafner2.
Ob wir sie gut finden oder nicht - Veränderungen gehören zu unserem Leben Nach einer Lebenskrise, einem Schicksalsschlag, durch Zufall, oder weil wir uns.
Sachstandsbericht Themen
Diskrete Mathematik II
Kompetenzniveaus Lernlupe Mathematik
TOP5: Planungs- und Betriebsgrundsätze
 Präsentation transkript:

CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz

Gliederung 1.) Einleitung - Clustering - Entscheidungsbäume 2.) Verfahrensweise 3.) Vorteile 4.) Fazit 2

1.) Einleitung 3 Entscheidungs- bäume CL Trees (Clustering Trees) Clustering- Verfahren

Clustering 4 Ziele des Clustering: – intrinsische Struktur der Datenobjekte finden – indem diese in ähnliche Gruppen / Cluster eingeteilt werden Clustering = unsupervised learning, da vorher keine Klassenbezeichnungen der Objekte vorhanden

Entscheidungsbäume 5 Erstellen von Entscheidungsbäumen zur Einteilung in Klassen Algorithmus nutzt Reinheitsfunktion (purity function) Verfahren nicht ohne Weiteres mit Clustering kombinierbar

2.) Verfahrensweise (I) neues Verfahren der Autoren: basiert auf Entscheidungsbäumen (=supervised learning) Idee: Datenraum in Cluster und leere/karge Regionen einteilen 6

2.) Verfahrensweise (II) grundlegende Idee: – jeder Punkt im Datensatz gehört zur Klasse Y – leerer Raum gleichverteilt gefüllt mit Punkten der Klasse N  dadurch wird Problem zum Klassifikationsproblem (mit Entscheidungsbaum lösbar) 7

2.) Verfahrensweise (III) 8

2.) Verfahrensweise (IV) 9 2 Schritte des CL Tree-Verfahrens: 1. Erstellung des Cluster Trees 2. Pruning des Cluster Trees

2.) Verfahrensweise (V) 10 Entscheidung über Menge an Punkten N: – falls N < Y setze N = Y – falls N > Y beibehalten Begründung: – bei zu wenigen N-Punkten wird Cut-Bildung erschwert

2.) Verfahrensweise (VI) 11 vorausschauendes Informationszuwachs- Kriterium (= purity function): 3 Schritte: 1. Anfangs-Cut finden (mit Informationszuwachs-Kriterium) 2. bessere Cuts in leeren Bereichen finden (anhand relativer Dichte: Anzahl Y / Anzahl N) 3. besten Cut wählen (alle Dimensionen verglichen)

2.) Verfahrensweise (zu VI) 12

2.) Verfahrensweise (VII) 13 Pruning: – CL Tree teilt Datenraum solange auf bis nur Punkte einer Klasse (Y oder N) im Teilbereich vorhanden oder keine weitere Verbesserung möglich – 2 Möglichkeiten für Anwender: 1. Überfliegen des Baums, sinnvolle Knoten in oberen Bereichen finden und Rest prunen 2. zwei Parameter festlegen:  min_y: Anzahl Y-Punkte, die ein Bereich enthalten muss  min_rd: gibt an, wann ein N-Bereich einem Y-Bereich hinzugefügt werden soll (anhand relativer Dichte: Y/N)

2.) Verfahrensweise (zu VII) 14

2.) Verfahrensweise (VIII) 15 Zusammenlegen angrenzender Y-Regionen:

3.) Vorteile (I) implizite Clusterfindung durch Einteilung in Datenpunkte (bzw. Cluster) und leeren Raum  keine Distanzmaße notwendig findet natürliche Cluster, ohne vorher Annahmen treffen bzw. Parameter wählen zu müssen geeignet, um gesamten Datenraum sowie Subspaces zu durchsuchen liefert Erklärung der Cluster 16

3.) Vorteile (II) 17 durch Aufzeigen der leeren / kargen Datenräume können im Marketing neue Kundensegmente angesprochen werden geringe Anfälligkeit gegenüber Ausreißern Cluster können unterschiedliche Anzahl von Dimensionen vorweisen

4.) Fazit experimentelle Untersuchungen realer und künstlich erstellter Daten zeigten, dass das Verfahren effektiv auch auf große mehrdimensionale Datensätze anwendbar ist höhere min_y und min_rd wählen, um Cluster- Zentren zu finden und dann reduzieren, um Cluster vollständig einzuschließen 18

Quellen Liu, B., Xia, Y., Yu, P. S. (2000). Clustering Through Decision Tree Construction. Proceedings of the ninth international conference on Information and knowledge management, S (abgerufen: ) (abgerufen: ) (abgerufen: ) 19

Vielen Dank für Ihre Aufmerksamkeit! 20