CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.

Slides:

Advertisements

Ähnliche Präsentationen

Der R-Baum Richard Göbel.

Advertisements

Simulationsansätze in der BWL: Erstellung eines eigenen Projekts

Kohonennetze für Information Retrieval mit User Feedback

PG Intelligence Service

Vorlesung Programmieren II

Der k-d-Baum Richard Göbel.

Wissensanalyse von Aufgaben mit TKS Eine Methode zur Problemlösung

Zerlegung von Graphen.

SST - Sequence Search Tree

Tipps für Reden und Vorträge

TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking

Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.

Wasserfall-Ansätze zur Bildsegmentierung

Simulated Annealing Marco Block & Miguel Domingo Seminar : Maschinelles Lernen und Markov KettenSommersemester 2002.

Heuristiken und Kontexteinflüsse

Spielbäume Richard Göbel.

Der R-Baum Richard Göbel.

FH-Hof Analyse des R-Baums Richard Göbel. FH-Hof Ansatz Annahme: Die Bearbeitungszeit für eine Anfrage wird dominiert von der Ladezeit der Knoten von.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.

Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.

R-tree, R*-tree und R+-tree

Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation II Vorlesung In welcher Masche liegt der Punkt p?

Globaler Ansatz Hough-Transformation

PG 478 – Open Graph Drawing Framework Thema: Compounds & Force-Directed Francois Bertault & Mirka Miller – An Algorithm for Drawing Compound Graphs [1999]

Algorithmen zur Unterstützung von Immersive Gaming

SoSe 2005 Spree / Worg 1 Grundbegriffe der Klassifikation Gleiches zu Gleichem.

Minimum Spanning Tree: MST

Classification of Credit Applicants Using Data Mining. Thema.

FH-Hof Analyse des R-Baums - Teil 1 Richard Göbel.

Machine Learning Decision Trees (2).

Datenverteilung in Ad-hoc Netzen 1/24 Adaptive Datenverteilung in mobilen Ad-hoc Netzen unter Verwendung des Area Graph basierten Bewegungsmodells S. Bittner,

Christian Schulz, Marc Thielbeer, Sebastian Boldt

Self Organizing Tree Algorithm

Zur Veranstaltung Business Intelligence

Splay Trees Von Projdakov Benjamin.

GIS - Seminar Wintersemester 2000/2001

Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation II Vorlesung 7 SS 2000 Punkt-in-Polygon-Verfahren I (Trapezkarte)

Effiziente Algorithmen

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Hartmut Klauck Universität Frankfurt SS

Einführung in die Informatik für Naturwissenschaftler und Ingenieure

Einführung in die Programmierung Wintersemester 2013/14 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.

Statistische Methoden in der Wirtschafts- und Sozialgeographie

Integration oberflächenbestimmender Objekte ins DGM Seminar GIS IV SS

Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt.

Möglichkeiten der Visualisierung

Sebastian Loose DPF – A Perceptual Distance Function for Image Retrieval Proseminar SS 2005 Distanzen und Ähnlichkeitsmaße im Hochdimensionalem.

IntelliVideo1 / 25 IntelliVideo Der intelligente Videorekorder.

Anfang Präsentation 3. November, 2004 Tarjan’s Schleifenaufbrechalgorithmus In dieser Vorlesung wird ein Verfahren vorgestellt, welches in der Lage ist,

Lernen 1. Vorlesung Ralf Der Universität Leipzig Institut für Informatik

Gliederung der Vorlesung

Induktion von Entscheidungsbäumen Seminar Data Mining am Fachgebiet Datenbanken und Informationssysteme Sommersemester 2007 Betreuer: Hendrik Warneke.

Präsentation zu Ausschreibungs- und Einstellungsformularen

Spatial Partition Game Programming Patterns / Optimization Patterns AM3: Softwaretechnologie II (Teil 2): Simulation und 3D Programmierung Dozent: Prof.

Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.

Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 1 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

Einführung in die Informationsverarbeitung Teil Thaller Stunde V: Wege und warum man sie geht Graphen. Köln 14. Januar 2016.

Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.

I. Ziele der Präsentation II. Was ist Mediation? III. Sedes materiae IV. Mediationszeitpunkt V. Beurteilung Marc SchibliNino Hafner2.

Ob wir sie gut finden oder nicht - Veränderungen gehören zu unserem Leben Nach einer Lebenskrise, einem Schicksalsschlag, durch Zufall, oder weil wir uns.

Sachstandsbericht Themen

Diskrete Mathematik II

Kompetenzniveaus Lernlupe Mathematik

TOP5: Planungs- und Betriebsgrundsätze

Präsentation transkript:

CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz

Gliederung 1.) Einleitung - Clustering - Entscheidungsbäume 2.) Verfahrensweise 3.) Vorteile 4.) Fazit 2

1.) Einleitung 3 Entscheidungs- bäume CL Trees (Clustering Trees) Clustering- Verfahren

Clustering 4 Ziele des Clustering: – intrinsische Struktur der Datenobjekte finden – indem diese in ähnliche Gruppen / Cluster eingeteilt werden Clustering = unsupervised learning, da vorher keine Klassenbezeichnungen der Objekte vorhanden

Entscheidungsbäume 5 Erstellen von Entscheidungsbäumen zur Einteilung in Klassen Algorithmus nutzt Reinheitsfunktion (purity function) Verfahren nicht ohne Weiteres mit Clustering kombinierbar

2.) Verfahrensweise (I) neues Verfahren der Autoren: basiert auf Entscheidungsbäumen (=supervised learning) Idee: Datenraum in Cluster und leere/karge Regionen einteilen 6

2.) Verfahrensweise (II) grundlegende Idee: – jeder Punkt im Datensatz gehört zur Klasse Y – leerer Raum gleichverteilt gefüllt mit Punkten der Klasse N  dadurch wird Problem zum Klassifikationsproblem (mit Entscheidungsbaum lösbar) 7

2.) Verfahrensweise (III) 8

2.) Verfahrensweise (IV) 9 2 Schritte des CL Tree-Verfahrens: 1. Erstellung des Cluster Trees 2. Pruning des Cluster Trees

2.) Verfahrensweise (V) 10 Entscheidung über Menge an Punkten N: – falls N < Y setze N = Y – falls N > Y beibehalten Begründung: – bei zu wenigen N-Punkten wird Cut-Bildung erschwert

2.) Verfahrensweise (VI) 11 vorausschauendes Informationszuwachs- Kriterium (= purity function): 3 Schritte: 1. Anfangs-Cut finden (mit Informationszuwachs-Kriterium) 2. bessere Cuts in leeren Bereichen finden (anhand relativer Dichte: Anzahl Y / Anzahl N) 3. besten Cut wählen (alle Dimensionen verglichen)

2.) Verfahrensweise (zu VI) 12

2.) Verfahrensweise (VII) 13 Pruning: – CL Tree teilt Datenraum solange auf bis nur Punkte einer Klasse (Y oder N) im Teilbereich vorhanden oder keine weitere Verbesserung möglich – 2 Möglichkeiten für Anwender: 1. Überfliegen des Baums, sinnvolle Knoten in oberen Bereichen finden und Rest prunen 2. zwei Parameter festlegen:  min_y: Anzahl Y-Punkte, die ein Bereich enthalten muss  min_rd: gibt an, wann ein N-Bereich einem Y-Bereich hinzugefügt werden soll (anhand relativer Dichte: Y/N)

2.) Verfahrensweise (zu VII) 14

2.) Verfahrensweise (VIII) 15 Zusammenlegen angrenzender Y-Regionen:

3.) Vorteile (I) implizite Clusterfindung durch Einteilung in Datenpunkte (bzw. Cluster) und leeren Raum  keine Distanzmaße notwendig findet natürliche Cluster, ohne vorher Annahmen treffen bzw. Parameter wählen zu müssen geeignet, um gesamten Datenraum sowie Subspaces zu durchsuchen liefert Erklärung der Cluster 16

3.) Vorteile (II) 17 durch Aufzeigen der leeren / kargen Datenräume können im Marketing neue Kundensegmente angesprochen werden geringe Anfälligkeit gegenüber Ausreißern Cluster können unterschiedliche Anzahl von Dimensionen vorweisen

4.) Fazit experimentelle Untersuchungen realer und künstlich erstellter Daten zeigten, dass das Verfahren effektiv auch auf große mehrdimensionale Datensätze anwendbar ist höhere min_y und min_rd wählen, um Cluster- Zentren zu finden und dann reduzieren, um Cluster vollständig einzuschließen 18

Quellen Liu, B., Xia, Y., Yu, P. S. (2000). Clustering Through Decision Tree Construction. Proceedings of the ninth international conference on Information and knowledge management, S (abgerufen: ) (abgerufen: ) (abgerufen: ) 19

Vielen Dank für Ihre Aufmerksamkeit! 20